aiOla, une startup israélienne, améliore la précision des systèmes de reconnaissance vocale
La reconnaissance vocale est un élément clé des systèmes d'intelligence artificielle multimodaux. Beaucoup d'entreprises se précipitent pour intégrer cette technologie et, malgré les progrès, certains modèles échouent parfois à comprendre l'individu. Qu'est-ce qui pourrait améliorer cette situation ?
Amélioration des systèmes de reconnaissance vocale : aiOla fait un grand pas en avant
aiOla, une startup israélienne innovante, vient d’annoncer un développement majeur. Celui-ci consiste en une approche qui enseigne à certains modèles de comprendre le jargon et le vocabulaire spécifiques à chaque industrie. Cette nouvelle approche améliore la précision et la réactivité des systèmes de reconnaissance vocale, les rendant plus adaptés pour des environnements d’entreprise complexes. Le succès initial de cette méthode a été démontré en adaptant le célèbre modèle Whisper d’OpenAI, ce qui a permis de réduire son taux d’erreur et d’améliorer la précision de la détection.
La startup affirme que cette méthode peut être appliquée à n’importe quel modèle de reconnaissance vocale, y compris les modèles propriétaires de Meta, avec comme but d’améliorer même les meilleurs modèles de transformation de la parole en texte.
Le défi du jargon dans la reconnaissance vocale
Malgré l’efficacité sans précédent des modèles ASR (Automatic Speech Recognition) tels que Whisper, leur performance peut décliner lorsqu’ils sont appliqués à des conditions environnementales complexes. Par exemple, des alertes de sécurité provenant de travailleurs se trouvant dans un environnement bruyant, ou des commandes comportant un jargon spécifique peuvent poser problème aux modèles ASR.
La plupart des organisations qui utilisent ces modèles tentent d’adapter la formation spécifique à l’industrie, mais cette approche peut finir par peser sur les ressources financières et humaines de l’entreprise.
Une solution innovante à la reconnaissance du jargon
Pour résoudre ce problème, aiOla a mis au point une approche en deux étapes appelée « biais contextuel ». Tout d’abord, le modèle AdaKWS de la société identifie le jargon spécifique à partir d’un échantillon vocal donné. Ensuite, ces mots-clés identifiés sont utilisés pour guider le décodeur ASR, l’incitant à les incorporer au texte final transcrit. Cette méthode améliore la capacité générale du modèle à reconnaître la parole, l’adaptant pour détecter correctement le jargon ou les termes en question.
« La combinaison de ces modèles donne des capacités ASR complètes qui peuvent identifier précisément le jargon. Elle nous permet de nous adapter instantanément aux différentes industries en changeant simplement le vocabulaire du jargon sans avoir à reprogrammer tout le système », a expliqué Gil Hetz, vice-président de la recherche chez aiOla.
Un gain de temps pour les entreprises du Fortune 500
Avec son adaptabilité, cette approche peut s’avérer utile dans un large éventail d’industries comportant un jargon technique, allant de l’aviation à la logistique. AiOla a déjà commencé à déployer son modèle adaptatif auprès de grandes entreprises du Fortune 500, augmentant ainsi leur efficacité dans la gestion des processus lourds en jargon.