Comment Puis-je accéder au Corpus Brun en Java (aka en dehors de NLTK)


J'essaie d'écrire un programme qui utilise des parties du langage naturel en Java. J'ai cherché sur Google et je n'ai pas trouvé tout le corpus Brown (ou un autre corpus de mots marqués). Je continue à trouver des informations NLTK, qui ne m'intéressent pas. Je veux pouvoir charger des données dans un programme Java et résumer les occurrences de mots (et quel % de probabilité ils doivent être quelle partie du discours).

Je ne veux pas utiliser une bibliothèque Java comme le Stanford one, je veux jouer moi-même avec les données du corpus.

Author: Nate Cook3, 2015-06-06

3 answers

Voici un lien vers la page de téléchargement du corpus Brown: http://www.nltk.org/nltk_data/

Tous les fichiers sont des fichiers zip. Le format des données est décrit sur leBrown Corpus Wikipedia . Je ne sais pas quoi dire d'autre. À partir de là, les choses devraient être évidentes.

EDIT: si vous voulez des données source originales, je pense qu'il y a des corpus qui ont leurs données. Cependant, le but est généralement de laisser quelqu'un d'autre faire l'échantillonnage. Aussi, notez ceci de la le Entrée Wikipedia: "Chaque échantillon a commencé à une limite de phrase aléatoire dans l'article ou une autre unité choisie, et a continué jusqu'à la limite de la première phrase après 2 000 mots."Les données pour le corpus Brown sont donc essentiellement randomisées. Même si vous aviez les textes originaux, vous pourriez ne pas être en mesure de deviner où ils ont échantillonné.

 4
Author: markspace, 2015-06-06 17:24:23

Les données sont des données. Les données NLTK ne sont pas dans un format obscur, crypté ou difficile. Il suffit d'écrire du code java pour le lire. Vous pourriez trouver un raccourci dans WEKA, ou vous pourriez ne pas.

 4
Author: bmargulies, 2015-06-06 17:08:40

Si vous ne voulez pas jouer avec l'interface NLTK: Le corpus Brown a été déposé à la Internet Archive (archive.org). Sur https://archive.org/details/BrownCorpus vous trouverez un lien vers une archive zip contenant l'intégralité du corpus. (Aussi un lien torrent, mais il ne semble pas la peine pour 3.2 Mb.)

 2
Author: alexis, 2015-06-13 20:10:09