Quali sono alcune buone librerie java per cercare e raschiare i dati da una pagina web.


Quali sono alcune buone librerie java open source per cercare e raschiare i dati da una pagina Web e inserirli in un database. Ad esempio, supponiamo di avere una pagina come:

<tr><td><b>Address:</b></td>
<td colspan=3>123 My Street        </td></tr>

"Indirizzo:" è la chiave, ma in realtà sto cercando di ottenere "123 My Street" che ha un sacco di tag html e spazi in mezzo. Idealmente voglio ottenere il valore tra il td che segue la stringa " Indirizzo:". Sembra che JSoup possa fare la ricerca, ma non ho visto un buon esempio su come fare l'offset (I potrebbe averlo perso). Esiste una libreria che gestisce chiave / valore?

Sarei anche interessato a conoscere qualsiasi iniziativa open source (MIT/Apache) per lo scripting dell'interfaccia utente simile al browser di estrazione Kapow.

Grazie.

Author: JStark, 2011-07-29

2 answers

Prova Web-Harvest . È un crawler open source scritto in Java.
Può essere utilizzato come libreria Java, come applicazione a riga di comando o con il suo IDE standalone.

È possibile utilizzare <xpath> elemento per estrarre qualsiasi valore dal documento XHTML.

 2
Author: Paker, 2011-12-16 16:53:32

Questa è una buona lista di parser open source: http://java-source.net/open-source/html-parsers

Ho usato TagSoup con grande successo per analizzare decine di migliaia di pagine web in natura. Per quanto riguarda la relazione "chiave-valore", questo è qualcosa che dovrai affrontare tu stesso.

 1
Author: Ryan Stewart, 2011-07-29 02:28:44