Quelles sont les bonnes bibliothèques java pour rechercher et extraire des données d'une page Web.

Question

Quelles sont les bonnes bibliothèques java pour rechercher et extraire des données d'une page Web.

Quelles sont les bonnes bibliothèques java open source pour rechercher et extraire des données d'une page Web et les coller dans une base de données. Par exemple, supposons que j'aie une page telle que:

<tr><td><b>Address:</b></td>
<td colspan=3>123 My Street        </td></tr>

"Address:" est la clé, mais j'essaie en fait d'obtenir "123 My Street" qui a un tas de balises html et d'espaces entre les deux. Idéalement, je veux obtenir la valeur entre le td qui suit la chaîne " Address:". Il semble que JSoup puisse faire la recherche, mais je n'ai pas vu un bon exemple sur la façon de faire le décalage (I peut-être échappé). Est-il une bibliothèque qui gère clé/valeur?

Je serais également intéressé à en apprendre davantage sur toutes les initiatives open source (MIT/Apache) pour les scripts d'interface utilisateur similaires au navigateur d'extraction Kapow.

Merci.

1

French java web-scraping web-crawler jsoup webharvest

Author: JStark, 2011-07-29

Source

2 answers

score 2 · Answer 1

Essayez Web-Harvest. C'est un robot open source écrit en Java.
Il peut être utilisé comme bibliothèque Java, comme application de ligne de commande ou avec sonE autonome.

Vous pouvez utiliser <xpath> élément pour extraire n'importe quelle valeur du document XHTML.

score 1 · Answer 2

Voici une bonne liste d'analyseurs open source: http://java-source.net/open-source/html-parsers

J'ai utilisé TagSoup avec beaucoup de succès pour analyser des dizaines de milliers de pages Web dans la nature. Quant à la relation" clé-valeur", c'est quelque chose que vous devrez gérer vous-même.