Quali sono alcune buone librerie java per cercare e raschiare i dati da una pagina web.

Question

Quali sono alcune buone librerie java per cercare e raschiare i dati da una pagina web.

Quali sono alcune buone librerie java open source per cercare e raschiare i dati da una pagina Web e inserirli in un database. Ad esempio, supponiamo di avere una pagina come:

<tr><td><b>Address:</b></td>
<td colspan=3>123 My Street        </td></tr>

"Indirizzo:" è la chiave, ma in realtà sto cercando di ottenere "123 My Street" che ha un sacco di tag html e spazi in mezzo. Idealmente voglio ottenere il valore tra il td che segue la stringa " Indirizzo:". Sembra che JSoup possa fare la ricerca, ma non ho visto un buon esempio su come fare l'offset (I potrebbe averlo perso). Esiste una libreria che gestisce chiave / valore?

Sarei anche interessato a conoscere qualsiasi iniziativa open source (MIT/Apache) per lo scripting dell'interfaccia utente simile al browser di estrazione Kapow.

Grazie.

1

Italian java web-scraping web-crawler jsoup webharvest

Author: JStark, 2011-07-29

Source

2 answers

score 2 · Answer 1

Prova Web-Harvest . È un crawler open source scritto in Java.
Può essere utilizzato come libreria Java, come applicazione a riga di comando o con il suo IDE standalone.

È possibile utilizzare <xpath> elemento per estrarre qualsiasi valore dal documento XHTML.

score 1 · Answer 2

Questa è una buona lista di parser open source: http://java-source.net/open-source/html-parsers

Ho usato TagSoup con grande successo per analizzare decine di migliaia di pagine web in natura. Per quanto riguarda la relazione "chiave-valore", questo è qualcosa che dovrai affrontare tu stesso.