[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

FWD: Halten Sie die Roboter auf Abstand!



Hallo Liste,

hier ein Artikel, den ich auch im Zusammenhang mit dem neuen 
TKG (Infos: http://www5.inm.de/tkg/)ziemlich lehrreich finde.
Wenn man sich mal anschaut, was heute schon mit DejaNews 
(Author Profile) u.a. Maschinen moeglich ist, sollte man sich
 vielleicht zweimal ueberlegen, was man "veroeffentlicht".

Schoenen Gruss
Edlef

------- Forwarded Message Follows -------
In de.comm.infosystems.www.authoring, thilo _at__ own.deceiver.org (Thilo
Pfennig) wrote:


Halten Sie die Roboter auf Abstand!

von Tonya Engst <tonya _at__ tidbits.com>

[Uebersetzung: Hartmut Greiser]


Suchprogramme und -werkzeuge sind ueberall im Internet zu finden. Alle
Welt nutzt sie, um schnell an Informationen zu kommen, die mit ihrer
Hilfe in sensationeller Ausfuehrlichkeit gefunden werden koennen
(siehe dazu auch Kirk McElhearns Artikel in <TidBITS-333>).


Ich habe z.B. gerade AltaVista nach "Wassermelonen" abgesucht. Eine
oberflaechliche Durchsicht der Ergebnisse hat mir bereits Erkenntnisse
ueber den aktuellen Stand der texanischen Wassermelonenernte gebracht,
ich habe einen Artikel ueber die Zubereitung von Wassermelonen
ueberflogen (dazu gab es Naehrwertangaben) und eine Webseite
angewaehlt, die sich mit Cezannes Gemaelde "Stilleben mit Wassermelone
und Granataepfeln" beschaeftigt.


Index-Roboter -- Suchmaschinen erhalten ihre Informationen meist mit
Hilfe von Robotern. Diese Roboter - auch "Spider" oder "Crawler"
genannt - ziehen durch das Web, um Informationen zu suchen und
aufzuzeichnen. In der Regel beginnen sie mit URLs, die bestimmte
Eigenschaften haben: entweder wurden sie von einem Nutzer angegeben
oder es handelt sich um eine Seite mit vielen Links oder sie beginnen
einfach auf dem Toplevel einer Website. Der Roboter faengt bei der
ersten Seite an und geht systematisch zu allen Seiten, zu denen Links
bestehen. Ein Roboter kann auch alle Seiten auf einem bestimmten
Server untersuchen. Nachdem der Roboter Zugang zu einer Seite gefunden
hat, indiziert er zusammen mit dem Suchprogramm Teile dieser Seite,
wie z.B. den Titel, Textteile, bestimmte Schluesselwoerter oder andere
markierte Elemente.


Ein Thema verdient besondere Aufmerksamkeit: Wie verhindert man, dass
diese Suchprogramme bestimmte Webseiten oder Usenet-Postings
indizieren? Es gibt Vereinbarungen, Roboter von bestimmten
Internetbereichen fernzuhalten, wobei das auf einer voellig
freiwilligen Basis geschieht. Die wichtigsten Suchprogramme scheinen
sich an diese Uebereinkunft zu halten.


He Sie - verschwinden Sie von meiner Seite! -- Mit dem Robots
Exclusion
Protocol koennen Sie Roboter anweisen, Ihre Seite beim Indizieren zu
uebergehen, wenn Sie z.B. das Protokoll eines Vereinstreffens auf dem
Web ablegen und verhindern wollen, dass es in irgendwelchen
Suchmaschinen auftaucht. Sie koennen natuerlich auch ein
Passwortsystem einrichten, das ist in der Regel aber zu aufwendig.
Vielleicht aendern sich aber auch die Inhalte Ihrer Seite so oft, dass
eine Indizierung durch einen Roboter sowieso keinen Sinn macht.


Um diese Roboter von Ihrer Seite fernzuhalten, stellen Sie einen
robots.txt-File auf die lokale Rootebene einer Website. Mit Hilfe
einer speziellen Syntax weist diese Datei den Roboter an, um einen
bestimmten oder um alle Bereiche eines Servers einen Bogen zu machen.
Wenn Sie einen solchen File erstellen wollen, dann empfehle ich Ihnen
die Seite fuer WWW-Roboter, -Schwaermer und -Spider:


<http://info.webcrawler.com/mak/projects/robots/robots.html>


Ein kleines Beispiel: Wenn Sie alle Roboter aus dem Verzeichnis
"watermelon" fernhalten wollen, dann koennte der robots.txt-File so
aussehen:


User-agent: * Disallow: watermelon/


Wenn Ihnen der entsprechende Zugang zu Ihrem Server fehlt, um eine
robots.txt-Datei einzurichten, dann versuchen Sie es mit einem
META-Tag im Kopfteil eines HTML-Dokuments. Mit dem Tag


<META NAME="ROBOTS" CONTENT="NOINDEX">


geben Sie einem Roboter zu verstehen, dass eine bestimmte Seite nicht
indiziert werden soll. Der Tag


<META NAME="ROBOTS" CONTENT="NOFOLLOW">


weist den Roboter an, die Links dieser Seite zu ignorieren. META-Tags
werden von den Robotern zwar nicht so durchgaengig unterstuetzt wie
das Robots Exclusion Protocol, die wichtigsten Web-Indizes halten sich
aber daran. Im Spidering BOF (Birds of a Feather) Report gibt es
weitere Informationen zu diesem Thema:


<http://www.w3.org/pub/WWW/Search/9605-Indexing-Workshop/ReportOutcome
/Spideri ng.txt>


Private Nachrichten -- Sie koennen in die Header Ihrer Usenet-Postings
eine "X-no-archive"-Zeile einbauen, um Suchmaschinen abzuhalten:


X-no-archive: yes


Bei den meisten News-Clients, wie z.B. bei NewsWatcher, lassen sich
diese Zeilen in den Kopfteil der Postings einsetzen. Falls Ihr
individuelles Programm diese Manipulation nicht zulaesst, dann ist
noch nicht alles verloren. Mindestens ein Programm, "Deja News",
ignoriert Ihre Postings, wenn Sie den folgenden Text in die erste
Zeile Ihrer Nachricht setzen:


X-no-archive: yes


Auf persoenlichen Wunsch streicht DejaNews Ihre Nachricht uebrigens
aus dem Archiv. Senden Sie eine entsprechende E-Mail an


<comment _at__ dejanews.com>.


Keine Privatsphaere -- Ein Grund fuer die Verwirrung, die das Thema
"Privatbereich und Indexsysteme im Internet" bereitet, ist die
Unterstellung (die fast alle Suchprogramme teilen), dass jede
gefundene Information oeffentlicher Besitz ist, wenn sie nicht anders
gekennzeichnet wurde.


Alte Internet-Hasen haben damit keine besonderen Probleme, da sie die
meisten Daten ohnehin schon auf irgendeine Weise gefunden haben.
Internet-Neulinge finden diese Praxis dagegen oft recht beklemmend.
Fuer sie mag es aehnlich sein wie fuer den Telefonbenutzer, der
erfaehrt, dass alle seine Telefonate im letzten Jahr von einer
privaten Gesellschaft mitgeschnitten wurden, und dass diese
aufgezeichneten Gespraeche an jeden Interessenten weitergegeben werden
koennen.


Durch die Langzeit-Speicher dieser Suchprogramme wird die Veraestelung
dieser Roboter immer groesser. AltaVista von Digital speichert zur
Zeit nur die letzten Monate von Usenet, die DejaNews-Archive gehen
aber schon bis Anfang 1995 zurueck, und man hat schon mehrfach
angekuendigt, Indizes bis zu den Anfaengen des Usenet 1979 anlegen zu
wollen, wo immer das moeglich ist. Wieviele Usenet-Nutzer werden 1979
wohl etwas vom "X-no-archive"-Tag gewusst haben? Man sollte auch nicht
ausser acht lassen, dass Sie Ihre Daten zwar aus den wichtigsten und
den bekanntesten Indizes heraushalten koennen, dass es da draussen
aber auch Index- und Archivierungssysteme gibt, die sich um keine
Regeln kuemmern.


Wenn Ihnen Ihre private E-Mail und Ihre Usenet-Postings besonders am
Herzen liegen, dann pruefen Sie anonyme Nachsendemoeglichkeiten oder
PGP, das umstrittene und maechtige Verschluesselungsprogramm von Phil
Zimmermann. Diese beiden Themen koennen innerhalb dieses Artikels
nicht behandelt werden:


<http://www.well.com/user/abacard/remail.html>
<http://www.io.com/~combs/htmls/crypto.html>
<http://world.std.com/~franl/pgp/>


Auch wenn Sie der beschriebenen Problematik keine besondere Bedeutung
beimessen, sollten Sie nicht vergessen, dass Ihre Worte im Internet
unsterblich werden koennen - alles, was Sie im Usenet schreiben, wird
irgendwo fuer die Ewigkeit archiviert, alles was Sie im Web
veroeffentlichen, wird irgendwo in einem Index erfasst. Ueberlegen Sie
sorgfaeltig, was Sie sagen und wie Sie es sagen - es kann sein, dass
Sie sich in irgendeiner fernen Zukunft in einer Situation
wiederfinden, in der Sie zu Ihren Aussagen stehen muessen.


Es ist denkbar, dass es irgendwann einmal, wenn das Thema
"Privatsphaere
im Internet" an Bedeutung gewinnt, Produkte fuer den kommerziellen und
privaten Gebrauch geben wird, die mit dem Hinweis "Dieses Programm
respektiert den Privatbereich!" auf Kundenfang gehen.
Newsreader-Programme werden vermutlich schon bald so konfiguriert
sein, dass "X-no-archive"-Header standardmaessig eingefuegt sind, und
bei Programmen zur Webseitenerstellung wird man die META-Tags ueber
die Voreinstellungen einrichten oder robot.txt-Files automatisch
erstellen koennen. All diese Merkmale werden aber die grundsaetzliche
Annahme dieser Index-Werkzeuge nicht aendern koennen - die
Unterstellung, alles sei oeffentlich.

Copyright 1990-1996 Adam & Tonya Engst. Details am Ende dieser
Ausgabe.
Information: <info _at__ tidbits.com> Comments: <editors _at__ tidbits.com>

Copyright 1996 der deutschen Version Walter J. Ferstl, carrier GmbH.
Information: <office _at__ carrier.co.at> Comments: <ferstl _at__ carrier.co.at>
--
<URL:http://www.kiel.netsurf.de/homes/Thilo.Pfennig/thilo.html>
<URL:mailto:Thilo.Pfennig _at__ kiel.netsurf.de>




Listeninformationen unter http://www.inetbib.de.