[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: URL's aus WWW - Seiten extrahieren



Hallo,

On Wed, May 16, 2001 at 09:39:51AM +0200, Dietmar Bussmann wrote:
> wir sind auf der Suche nach einer Software, die automatisch URL's und
> Mailadressen aus WWW - Seiten extrahieren kann, um sie dann in ein
> Text - File oder über ODBC in eine Datenbank zu schreiben.

falls es nur darum geht URL's als Links zu extrahieren, dann ist das mit den
Perl-Klassen HTML::Parse und HTML::Element sehr einfach moeglich. Hier ist so
ein quick'n'dirty Beispiel:

---schnipp---
#!/usr/bin/perl
use HTML::Parse;
use HTML::Element;
$filename=$ARGV[0];
$file="";
open(FILE,"$filename");
while (<FILE>){
  $file.=$_;
}
close(FILE)
$parsed_file=HTML::Parse::parse_html($file);
for ( _at__ { $parsed_file->extract_links() }){
  $link=$_->[0];
  print "$link\n";
}      
---schnapp---

Wenn die URL's nicht als Link vorhanden sind, dann muss man mit einem
geeigneten regulaeren Ausdruck das gesamte File beackern und Matches
herausschreiben.

Fertige Programme hierzu kenne ich aber nicht.

Gruss

Oliver

-- 
Oliver Flimm                                E-mail: flimm _at__ ub.uni-koeln.de
Computing Department                        Voice : +492214703330 (Room 303)
Central Library (USB)                       Adress: Universitaetsstr. 33
University of Cologne, Germany                      D-50931 Koeln


Listeninformationen unter http://www.inetbib.de.