Tecnologia
4 min read1 vistas

IA para todos: Cómo NVIDIA está dando voz a los idiomas olvidados

NVIDIA está derribando las barreras lingüísticas en la IA al lanzar un potente nuevo conjunto de herramientas de código abierto, que incluye el enorme conjunto de datos de voz Granary y dos modelos avanzados, Canary y Parakeet. Esta iniciativa tiene como objetivo capacitar a los desarrolladores para construir IA de voz de alta calidad para 25 idiomas europeos, fomentando una mayor inclusión digital en todo el mundo.

IA para todos: Cómo NVIDIA está dando voz a los idiomas olvidados

Alguna vez ha sentido que su asistente de voz simplemente no lo entiende? Ahora, imagine esa experiencia magnificada en países enteros. Si bien la IA parece estar en todas partes, predominantemente habla un puñado de los 7.000 idiomas del mundo, dejando a una vasta porción de la población global al margen digital. El gigante tecnológico NVIDIA está dando un paso adelante para cambiar eso, particularmente para Europa.

En un movimiento importante hacia la inclusión digital, NVIDIA acaba de presentar un potente conjunto de herramientas de código abierto diseñadas para ayudar a los desarrolladores a crear IA de voz sofisticada para 25 idiomas europeos diferentes. Esto no se trata solo de mejorar el soporte para los idiomas principales; es un salvavidas para aquellos a menudo pasados por alto por las grandes empresas tecnológicas, incluidos el croata, el estonio y el maltés.

El objetivo es capacitar a los desarrolladores de todo el mundo para que construyan el tipo de herramientas activadas por voz que muchos de nosotros ahora damos por sentadas. Piense en chatbots multilingües que entienden sin problemas diferentes dialectos, bots de servicio al cliente eficientes y servicios de traducción en tiempo real que funcionan a la perfección.

El kit de herramientas para un futuro multilingüe

En el corazón de esta iniciativa se encuentra Granary, una colosal biblioteca de código abierto de habla humana. Con alrededor de un millón de horas de audio curado, es un tesoro de datos diseñado para enseñar a la IA los intrincados matices del reconocimiento y la traducción del habla.

Para aprovechar estos datos, NVIDIA también proporciona dos potentes modelos de IA nuevos, cada uno adaptado para tareas específicas:

  • Canary-1b-v2: Un modelo grande y altamente preciso, perfecto para trabajos complejos de transcripción y traducción donde la calidad es primordial.
  • Parakeet-tdt-0.6b-v3: Un modelo ágil y rápido diseñado para aplicaciones en tiempo real, como la traducción en vivo, donde cada milisegundo cuenta.

La innovación detrás de los datos

La verdadera magia no es solo el gran volumen de datos, sino cómo se crearon. Tradicionalmente, la preparación de datos para el entrenamiento de IA es un proceso lento, costoso y laborioso que requiere anotación humana. NVIDIA, en colaboración con investigadores de la Universidad Carnegie Mellon y la Fondazione Bruno Kessler, eludió este cuello de botella.

Utilizando su propio kit de herramientas NeMo, desarrollaron una tubería automatizada que transforma audio sin etiquetar en datos estructurados de alta calidad que la IA puede aprender fácilmente. Este avance hace que el proceso sea más rápido y eficiente. De hecho, el equipo de investigación descubrió que se necesita aproximadamente la mitad de la cantidad de datos de Granary para lograr la misma precisión que otros conjuntos de datos populares.

Por qué esto cambia las reglas del juego

Esta iniciativa es más que un logro técnico; es un avance significativo para la igualdad digital. Un desarrollador en Zagreb o Riga ahora puede acceder a las mismas herramientas de alto calibre que alguien en Silicon Valley para construir una IA de voz que entienda su idioma y cultura locales.

Los nuevos modelos muestran este poder a la perfección. Canary ofrece una calidad de transcripción y traducción que rivaliza con modelos tres veces su tamaño, pero hasta diez veces más rápido. Mientras tanto, Parakeet puede procesar una grabación de una reunión de 24 minutos en una sola pasada, identificando automáticamente el idioma que se habla y proporcionando marcas de tiempo a nivel de palabra.

Al poner estas herramientas directamente en manos de la comunidad global de desarrolladores, NVIDIA no solo está lanzando un producto. Está sembrando las semillas para una nueva ola de innovación, allanando el camino para un futuro en el que la IA realmente hable el idioma de todos.

Para los desarrolladores ansiosos por comenzar, el conjunto de datos Granary y los modelos Canary y Parakeet ya están disponibles en Hugging Face.

Puntos clave

  • Cerrando la brecha: Las nuevas herramientas de NVIDIA admiten 25 idiomas europeos, centrándose en la inclusión de regiones subrepresentadas.
  • Datos masivos de código abierto: El conjunto de datos Granary proporciona un millón de horas de audio para entrenar una IA de voz robusta.
  • Dos modelos potentes: Canary ofrece alta precisión para tareas complejas, mientras que Parakeet proporciona velocidad en tiempo real.
  • Entrenamiento eficiente: Una tubería de datos automatizada hace que el desarrollo de IA sea más rápido y accesible.
  • Empoderando a los desarrolladores: Estas herramientas gratuitas permiten a los desarrolladores de todo el mundo crear soluciones de IA localizadas.
Artículo usado como inspiración