Frameworks d'exploration de Texte Open Source Java [fermé]


Je veux savoir quel est le meilleur framework Java open source pour l'exploration de Texte, pour utiliser l'apprentissage automatique botg et les méthodes de dictionnaire.

J'utilise Mallet mais il n'y a pas beaucoup de documentation et je ne sais pas si cela répondra à toutes mes exigences.

Author: Justin, 2010-02-20

7 answers

Je pense honnêtement que les différentes réponses présentées ici sont très bonnes. Cependant, pour répondre à mes besoins, j'ai choisi d'utiliser Apache UIMA avec ClearTK. Il prend en charge plusieurs méthodes ML et je n'ai aucun problème de licence. De plus, je peux faire des wrappers vers d'autres méthodologies ML, et je profite du framework UIMA, qui est très bien organisé et rapide.

Merci à tous pour vos réponses intéressantes.

Meilleures Salutations, ukraine

 6
Author: David Campos, 2010-03-04 15:14:22

Bien qu'il ne s'agisse pas d'un cadre d'exploration de texte spécialisé, Weka a un certain nombre de classificateurs généralement utilisés dans les tâches d'exploration de texte telles que: SVM, kNN, multinomial NaiveBayes, entre autres.

Il a également quelques filtres à wok avec des données textuelles comme le filtre StringToWordVector qui peut effectuer une transformation TF/IDF.

Consultez le site Web Weka wiki pour plus d'informations.

 4
Author: Amro, 2010-02-20 18:49:17

Peut-être jeter un oeil à Java Open Source NLP et Text Mining tools.

 2
Author: Pascal Thivent, 2010-02-20 19:10:51

J'ai utilisé LingPipe -- un , la suite de bibliothèques Java pour l'analyse linguistique du langage humain -- pour l'exploration de texte (et d'autres) des tâches.

C'est un très bien documenté, et le site contient plusieurs tutoriels qui expliquent comment faire une certaine tâche avec LingPipe, commenamed entity recognition . Il y a aussi un newsgroup, dans lequel vous pouvez poster toute question que vous avez sur le logiciel (ou PNL tâches connexes), et avoir une réponse rapide des auteurs du paquet eux-mêmes; et bien sûr, un blog.

Le code source est également très facile à suivre et bien documenté qui, pour moi, est toujours un gros plus.

En ce qui concerne les algorithmes d'Apprentissage automatique, il y en a beaucoup, du Bayes Naïf au Champ Aléatoire Conditionnel. D'autre part, pour les algorithmes de correspondance de dictionnaire, ils ont un ExactDicitonaryChunker , qui est une implémentation du Algorithme Aho-Corasich (un algorithme très, très, rapide pour cette tâche).

En somme, je pense que c'est l'un des meilleurs progiciels PNL pour Java (je n'ai pas utilisé tous les paquets disponibles, donc je ne peux pas dire que c'est le meilleur), et je le recommande vraiment pour la tâche que vous avez sous la main.

 2
Author: João Silva, 2010-02-20 20:32:27

Vous connaissez peut-être déjà GATE: http://gate.ac.uk/

...mais c'est ce que nous avons utilisé (à mon travail de jour) pour beaucoup de problèmes d'exploration de texte différents. C'est assez flexible et ouvert.

 2
Author: PSpeed, 2010-02-20 22:49:06

J'ai construit un identificateur d'entité nommé entropie maximale pour les données CoNLL en utilisant OpenNLP MaxEnt http://sourceforge.net/projects/maxent / pour un cours une fois.

Nécessite beaucoup de prétraitement de données avec des scripts perl personnalisés, toutes les fonctionnalités sont extraites dans de jolis vecteurs numériques soignés.

 1
Author: paul, 2010-02-20 22:54:04

Nous utilisons lucene pour traiter les flux en direct à partir d'Internet. Il a une api java native.

Http://lucene.apache.org/java/docs/

Vous pouvez ensuite utiliser mahout qui est un tas d'algorithmes d'apprentissage machien qui fonctionnent au-dessus de lucene.

Http://lucene.apache.org/mahout/

 0
Author: Steve, 2010-02-20 19:46:22