Quali sono alcune buone librerie java per cercare e raschiare i dati da una pagina web.
Quali sono alcune buone librerie java open source per cercare e raschiare i dati da una pagina Web e inserirli in un database. Ad esempio, supponiamo di avere una pagina come:
<tr><td><b>Address:</b></td>
<td colspan=3>123 My Street </td></tr>
"Indirizzo:" è la chiave, ma in realtà sto cercando di ottenere "123 My Street" che ha un sacco di tag html e spazi in mezzo. Idealmente voglio ottenere il valore tra il td che segue la stringa " Indirizzo:". Sembra che JSoup possa fare la ricerca, ma non ho visto un buon esempio su come fare l'offset (I potrebbe averlo perso). Esiste una libreria che gestisce chiave / valore?
Sarei anche interessato a conoscere qualsiasi iniziativa open source (MIT/Apache) per lo scripting dell'interfaccia utente simile al browser di estrazione Kapow.
Grazie.
2 answers
Prova Web-Harvest .
È un crawler open source scritto in Java.
Può essere utilizzato come libreria Java, come applicazione a riga di comando o con il suo IDE standalone.
È possibile utilizzare <xpath>
elemento per estrarre qualsiasi valore dal documento XHTML.
Questa è una buona lista di parser open source: http://java-source.net/open-source/html-parsers
Ho usato TagSoup con grande successo per analizzare decine di migliaia di pagine web in natura. Per quanto riguarda la relazione "chiave-valore", questo è qualcosa che dovrai affrontare tu stesso.