[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Programm zum Durchsuchen von Websites



Hallo,

kennt jemand ein Programm, das eine Website nach dort verlinkten
Dateien (Bilder, PDF
etc) absuchen kann, so dass man eine Liste der Pfade bekommt?

vielleicht ist Apache Nutch (www.nutch.org) einen Versuch wert. :-) Nutch ist eigentlich eine Suchmaschine, verfügt aber über einen Crawler den man mit Hilfe von Regulären Ausdrücken auf bestimmte Domains einschränken kann. Die geladenen Seiten werden einer Link-Analyse unterzogen und der so genannte Linkgraph in ein Art Datenbank geschrieben.

Am besten mal dieses Tutorial probieren:
http://incubator.apache.org/nutch/tutorial.html

Anschließend die DB ausgeben mit diesem Befehl:
bin/nutch readdb db/ -dumppageurl

Ich hoffe das hilft.

Beste Grüße,
Stefan Groschupf



-----------information technology-------------------
company:     http://www.media-style.com
forum:           http://www.text-mining.org
blog:	             http://www.find23.net


Listeninformationen unter http://www.inetbib.de.