Hola, ¿Qué estás buscando?

Europa Directo – Noticias Europeas e Internacionales

Tecnología

La nueva y sorprendente IA de Facebook es capaz de transcribir de voz a texto sin haber sido entrenada con transcripciones

Cuando se entrena un sistema de inteligencia artificial para transcribir de voz a texto es necesario usar muchos pares de audio y texto. Es decir, le damos a la IA el sonido «esto es un gato» y ese mismo sonido transcrito, de forma que sea capaz de asociar cada palabra a un sonido. Eso es perfecto para lenguajes muy extendidos, como el inglés o el español, pero no para los idiomas más minoritarios. Facebook, sin embargo, asegura haber encontrado una solución: wav2vec-U, con «U» de «Unsupervised».

¿Qué es wav2vez-U? Es una forma de construir un sistema de reconocimiento de voz que no requiere ningún tipo de par transcrito. Simplemente aprende del audio y de texto desemparejado, lo que elimina por completo la necesidad de tener audio transcrito. Para ello, el sistema se vale de una GAN (red generativa antagónica) que, de acuerdo a Facebook, compite de tú a tú con los mejores sistemas supervisados de hace unos años.


Un mundo de posibilidades para transcribir lenguajes minoritarios

Tal y como detallan Alexei Baevski, Wei-Ning Hsu, Alexis Conneu y Michael Auli en el blog de Facebook AI, su método comienza con el aprendizaje de la estructura del habla a partir de audio sin etiquetar. Usando su modelo anterior, wav2vec 2.0, segmentaron la grabación de voz en unidades de voz que se corresponden con sonidos individuales. Por ejemplo, «cat», gato en inglés, tiene tres sonidos: «/K/», «/AE/» y «/T/».

Advertisement. Scroll to continue reading.

Para enseñar al sistema a entender las palabras en un audio, usaron una GAN que, como todas las GAN, consiste en un generador y un discriminador. El generador selecciona cada fragmento de audio, predice el fonema correspondiente al sonido en cada idioma e intenta engañar al discriminador. Este es, en sí mismo, otra red neuronal que ha sido entrenada con las salidas de texto del generador y texto real de diferentes fuentes dividido en fonemas. Esto es importante: texto real de diferentes fuentes, no transcripciones del texto que estamos intentando transcribir.

La labor del discriminador es evaluar si las secuencias de fonemas predichas («/K/», «/AE/» y «/T/» si hablamos de «cat») parecen realistas. Las primeras transcripciones del generador son malísimas, pero con tiempo y el feedback de discriminador, se vuelven más y más precisas. Y es todo un logro, ya que el sistema en sí no sabe que «gato» se transcribe como «gato», sino que entiende que, por los sonidos que componen la palabra, debe escribirse así.

Para poner a prueba el sistema, Facebook usó los tests TIMIT y Librispeech y asegura que «wav2vec-U es tan preciso como el estado del arte de hace solos unos años, sin utilizar ningún dato de entrenamiento etiquetado. Todo sea dicho, estos dos benchmarks miden el rendimiento en habla inglesa, un idioma con mucho corpus de texto hablado y tranascrito. El sistema de Facebook, sin embargo, es más interesante para idiomas minoritarios, como el suajili, el tártaro o el kirguís, cuyo corpus de datos es más reducido.

Es, sin duda, un gran paso adelante en lo que a transcribir voz se refiere. Ahora tocará ver cómo lo implementa Facebook, si es que llega a hacerlo. Por otro lado, la compañía de Zuckerberg ha publicado el código necesario para construir este sistema de reconocimiento de voz. Puede encontrarse en Github y cualquier persona puede acceder a él para trastear y probarlo.

Advertisement. Scroll to continue reading.

Más información | Facebook AI


La noticia

La nueva y sorprendente IA de Facebook es capaz de transcribir de voz a texto sin haber sido entrenada con transcripciones

fue publicada originalmente en

Xataka

por
Jose García

.

Este artículo ha sido publicado originalmente en este sitio

Advertisement
Advertisement

Deportes

Tras la sentencia dictada por la Sección 28 de la Audiencia Provincial de Madrid, hecha pública ayer y que estima parcialmente el recurso de...

Internacional

El Alto Representante de la UE para Política Exterior, Josep Borrell, ha confirmado que enviará una misión técnica a Venezuela para evaluar el estado...

Economía

Este jueves, como ha aseguriado el Gobierno de Sánchez, el IVA de la luz bajará del 21 % al 10 %. Se llevarán a...

Economía

El Gobierno de España anunció la bajada del IVA del 21 al 10%, con una medida de carácter urgente que se aprobará el próximo...

Deportes

La UEFA ha rechazado el proyecto de la ciudad de Múnich de iluminar su estadio con los colores arcoíris de la comunidad LGBT para...

Economía

La Autoridad Independiente de Responsabilidad Fiscal (AIReF) ya ha realizado cálculos sobre cómo impactará la rebaja del IVA de la luz a las arcas...

Cataluña

El vicepresidente de la Generalitat, Jordi Puigneró (Junts), ha considerado que la excarcelación por la vía del indulto de los condenados por el proceso...

Cataluña

Los aficionados tienen una cita para alimentar su pasión el próximo domingo 27 de junio al filo del mediodía. La Federación de Entidades Taurinas...

Madrid

La portavoz de Vox en la Asamblea de Madrid, Rocío Monasterio, ha negado que su formación política conociera los planes de la presidenta de...

Madrid

La magistrada que ha presidido la vista oral del juicio con jurado popular celebrado en la Sección 26 de la Audiencia Provincial de Madrid...

Advertisement