Qu'est-ce qu'une bonne bibliothèque Java pour le balisage de parties de discours? [fermé]


Je cherche un bon open source POS Tagger en Java. Voici ce que j'ai mis au point jusqu'à présent.

Quelqu'un a des recommandations?

Author: Glenn, 2010-02-19

3 answers

Cherchez-vous à marquer POS dans un domaine spécifique? La plupart des taggeurs à usage général sont formés sur le texte de fil d'actualité. Généralement, ils ne fonctionnent pas bien lorsque vous les utilisez dans des domaines spécifiques (tels que le texte biomédical). Il existe d'autres taggers spécifiquement formés pour de tels domaines tels que dTagger (java) pour le texte biomédical.

Pour le texte de fil d'actualité, Adwait Ratnaparkhi MXPOST est très bon et est celui que je recommanderais.

Autre Java les implémentations incluent:

  1. MontyLingua
  2. Berkeley Parser (Pas vraiment un tagger POS mais tous les analyseurs complets incluront généralement des taggers POS. Google pour Java syntaxic parsers et vous en trouverez beaucoup.)
  3. QTag
  4. LBJ

OpenNLP et Lingpipe affichés par les autres affiches sont également assez décent.

Les informations sur l'état de l'art sur le marquage POS peuvent être trouvé ici. Comme vous pouvez le voirLTAG-Spinal (également mentionné par une autre affiche) se classe mieux à ce jour, mais la variation entre les différents taggers n'est pas beaucoup. Je n'ai pas utilisé LTAG moi-même.

Notez également que les performances de base pour le marquage POS sont d'environ 90%. Baseline signifie - (a) marquer chaque mot par la balise POS la plus fréquente d'un lexique, et (b) marquer chaque mot inconnu comme un nom.

 16
Author: hashable, 2014-01-13 14:27:42

J'ai utilisé OpenNLP, avec de bons résultats. Vous pouvez également consulterMorphAdorner .

 3
Author: Shashikant Kore, 2010-02-19 02:43:52

J'ai utilisé à la fois LingPipe et le tagueur POS de Stanford. Le dernier est un state-of-the-art POS Tagger mais, d'après mon expérience, il est trop lent (bien qu'ils fournissent des modèles moins précis, qui sont raisonnablement rapides). Bien sûr, cela dépend toujours de ce que vous essayez d'atteindre, et il y aura toujours un compromis entre la vitesse et la précision.

J'ai également utilisé une fois un logiciel NER basé sur LBJ et, bien qu'il soit assez précis, le code source était un gâchis complet. Les deux La source de LingPipe et Stanford est très propre et bien documentée.

Vous pouvez également jeter un oeil à LTAG-spinal. Je ne l'ai pas encore utilisé, mais d'après la description de l'algorithme et la précision répertoriée, cela semble certainement mieux que les alternatives que vous avez jusqu'à présent.

J'espère que ça aide.

 3
Author: João Silva, 2010-02-20 20:45:52