Reconnaissance vocale Java


Y a-t-il quelqu'un qui a de l'expérience avec une API de reconnaissance vocale open source ou relativement bon marché pour java? Je suis à peu près à la recherche de quelque chose qui transformera les mots parlés en texte.

De la page de reconnaissance vocale java sur sun, il semble que c'est quelque chose qui est plutôt mort. Mes exigences sont quelque chose qui fonctionne au moins sous Linux.

Quelqu'un peut-il recommander quelque chose? Java pur serait un bonus, sinon une solution basée sur Linux pourrait être envisagée. Et depuis c'est un projet à la maison... le moins cher sera le mieux.

  • Modifier

CMU Sphinx Comme l'a souligné Amit CMU Sphinx http://cmusphinx.sourceforge.net/html/cmusphinx.php Mon problème est un taux d'erreur de mot massif. L'entraînement semble être un projet en soi, j'espère rassembler des forces pour l'essayer ce week-end.

IBM ViaVoice
Il y a des annonces de nouvelles qui flottent pour 2004 sur Via la Voix en open source. Il semble que les nouvelles la libération était prématurée et cela ne s'est jamais produit. VIA Voice a été publié pour linux à un moment donné, mais il semble qu'ils se sont arrêtés. Tout ce qui semble être laissé sur le site Web d'IBM est ViaVoice embedded .

IBM Websphere Voix
J'imagine que c'est pourquoi ViaVoice (desktop) semble abandonné. IBM a créé cette solution commerciale qui coûtera allot plus qu'un bras et une jambe. Et le simple fait de l'utiliser prendra ceux qui vous restent, au moins après mon expérience avec websphere et leur IDE.

Nuance
Il semble qu'ils pourraient encore créer des produits pour Linux. Mais je pense qu'ils se sont perdus et ont suivi IBM sur le marché des serveurs. Je ne suis pas sûr de celui-ci, leur site Web n'est pas si convivial pour trouver des informations utiles.

Esprit ouvert / Liberté d'expression
Ces gars continuent de changer le nom de leur projet. Probablement une société avide d'argent continue de les menacer, mais je ne sais pas. Le projet semble un peu mort.

Je pourrais essayer de m'entraîner Sphinx ce week-end pour voir si elle veut être amis. Sinon pire cas, je vais regarder à l'aide de la solution vocale de Microsoft. Cela a bien fonctionné pour moi dans le passé, mais ce n'est pas une excellente solution Linux. Je pourrais probablement l'utiliser via wine, mais ensuite j'aurai deux serveurs séparés... salissant désordonné.

Oh et ce qui semble un bon endroit à visiter pour la voix/discoursSpeechTechMag . Ils ont une "référence Anual" qui a une liste d'entreprises qui se rapportent en quelque sorte à voix/parole.

Author: guyumu, 2009-03-04

5 answers

 9
Author: , 2009-03-04 07:14:40

Sphinx est de loin la meilleure option disponible si vous avez un budget limité. cependant, cela fait également une différence énorme quels modèles vous utilisez, comment vous les accordez et comment vous accordez votre source audio. absolument tout doit correspondre sinon cela ne fonctionnera pas. compte tenu du problème que vous avez décrit id être prêt à parier une somme substantielle que vous avez vous avez vos modèles mélangés et votre micro n'est pas correctement calibré. en outre, si vous avez un accent, cela ne fonctionnera probablement pas - c'est pas un problème avec le décodeur mais avec les modèles acoustiques - si personne avec une voix / accent similaire à la vôtre n'a été inclus dans les données d'entraînement, vous obtiendrez de mauvais résultats.

Cela dit, avez-vous regardé leur page de modèles open source?

Http://www.speech.cs.cmu.edu/sphinx/models/

Selon ce que vous essayez de faire, vous devriez être en mesure d'obtenir environ 90% de précision sur la liberté d'expression avec les modèles WSJ 16kHz et le gigaword LMS NVP. je préviens cependant que ASR est une entreprise massive et n'a pas encore atteint le statut de marchandise.

 3
Author: si28719e, 2009-08-26 14:50:30

Vous pouvez télécharger vPass (mot de passe vocal) à partir de http://www.basic-signalprocessing.com .

Pour (vText) voice to text, je peux envoyer le vText.le fichier jar à votre e-mail. Pls notifier [email protected]

Les composants sont conçus pour les langages Java et.Net. La période de reconnaissance est de 5 secondes. VPass est bien testé vText n'est pas, encore nouveau, c'est pourquoi pas encore emballé.

Cordialement, Andreas

 2
Author: Andreas, 2010-01-10 16:28:39

Je cherche la même chose depuis quelques jours maintenant. Jusqu'à présent, j'ai trouvé Sphinx4 et FreeTTS. Les deux sont des implémentations java et Sphinx semble être mis à jour assez fréquemment contrairement à FreeTTS. Le seul problème que j'ai est que Sphinx a du mal à me comprendre dans un environnement de bureau, et j'ai besoin d'une solution pour un environnement d'entrepôt.

 1
Author: user74339, 2009-03-05 17:01:41

Mon groupe a terminé un mini-programme en Java pour reconnaître les chiffres parlés en utilisant Sphinx.

 0
Author: Kiet Tran, 2012-04-08 03:07:08