Google fait le point sur l'état d'avancement de son Universal Speech Model

En novembre, Google a annoncé qu’il se lançait dans une initiative qui aboutira au développement d’un modèle d’apprentissage automatique capable de reconnaître et de traduire 1 000 des langues les plus parlées au monde. Au cours des derniers mois, la société a travaillé vers cet objectif et a publié une entrée de blog par les membres de l’équipe travaillant sur le projet. L’équipe de Google a également publié un article décrivant l’introduction de son Universal Speech Model (USM) sur le arXiv serveur de pré-impression.

Les mises à jour fournies par Google font partie d’un objectif plus global : créer un traducteur de langue utilisant la reconnaissance vocale automatique (ASR) capable de traduire n’importe quelle langue dans le monde à la demande. À cette fin, ils ont choisi de limiter temporairement le nombre de langues qu’ils tentent de prendre en charge (à 100) en raison du faible nombre de personnes qui parlent des langues moins courantes. Ces langues rares manquent d’ensembles de données pour la formation.

Dans le cadre de son annonce, Google a décrit les premières étapes vers son USM, en le décomposant en familles de modèles de parole formés sur des milliards d’heures de parole enregistrée et couvrant plus de 300 langues. Ils notent que leur USM est déjà actuellement utilisé pour les traductions de langues sous-titrées sur YouTube. Ils décrivent également le modèle générique pour chacune des familles.

Google explique que les modèles sont produits à l’aide de “pipelines” de formation qui impliquent trois types d’ensembles de données : audio non apparié, texte non apparié et données ASR appariées. Ils notent également qu’ils utilisent des modèles de conformation pour gérer les paramètres 2B attendus requis pour le projet et qu’ils le feront en trois étapes principales : une pré-formation non supervisée, une pré-formation supervisée à objectifs multiples et une formation ASR supervisée. Le résultat final sera la production de deux types de modèles : ceux qui sont pré-entraînés et les modèles ASR.

Google affirme en outre que, dans son état actuel, son USM a montré des performances comparables ou supérieures au modèle Whisper, un modèle de reconnaissance vocale à usage général créé par la communauté GitHub. En plus d’utiliser l’USM pour YouTube, Google devrait associer son modèle à d’autres applications d’IA, y compris des appareils de réalité augmentée.

Plus d’information:
Yu Zhang et al, Google USM : mise à l’échelle de la reconnaissance vocale automatique au-delà de 100 langues, arXiv (2023). DOI : 10.48550/arxiv.2303.01037

Informations sur la revue :
arXiv

Citation: Google donne un rapport d’avancement sur son modèle universel de parole (2023, 7 mars) récupéré le 7 mars 2023 sur https://techxplore.com/news/2023-03-google-universal-speech.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.

Google fait le point sur l’état d’avancement de son Universal Speech Model

J’aime ça :

testeurjoe

Laisser un commentaireAnnuler la réponse.

Partager :

J’aime ça :

testeurjoe

Vous pourriez aussi aimer

Meilleures offres Apple Watch en janvier 2024 : SE est à un niveau record

LinkedIn apporte ses outils de vérification aux offres d’emploi et ajoute de nouveaux messages d’avertissement pour les escroqueries potentielles

Première baisse de chiffre d’affaires attendue depuis 2019

Laisser un commentaireAnnuler la réponse.