30.08.2016

Tecnología argentina para el reconocimiento de voz

Un equipo de investigadores de múltiples disciplinas desarrolló un sistema con el cual las máquinas pueden hablar y reconocer palabras. Además, crearon una voz artificial con la entonación propia de la Argentina.

  • Tecnología argentina para el reconocimiento de voz
  • Tecnología argentina para el reconocimiento de voz

¿Cómo saber si la voz de una persona es efectivamente la de esa persona? ¿Cómo individualizar a alguien mediante un método preciso, discriminando cuestiones como entonación, articulación, calidad de voz, prosodia, intensidad, dialecto y otras características como las disfluencias y los desórdenes del habla? Con el perfeccionamiento de las nuevas tecnologías, toma relevancia un área de la ciencia dedicada determinar la identidad de una persona a partir de su voz.

En el Laboratorio de Investigaciones Sensoriales del Instituto de Inmunología, Genética y Metabolismo (INIGEM, CONICET-UBA), un grupo de investigadores estudia los fundamentos de la comunicación humana mediante el habla.

En el Laboratorio de Investigaciones Sensoriales (LIS) del Instituto de Inmunología, Genética y Metabolismo (INIGEM, CONICET-UBA), un grupo de investigadores estudia los fundamentos de la comunicación humana mediante el habla. Bajo la dirección de los doctores Jorge Gurlekian, Humberto Torres y Diego Evin, utilizan el conocimiento sobre los modos de comunicación interpersonal para realizar simulaciones en máquinas que hablan y reconocen palabras.

Las transferencias más importantes han sido, entre otras, la creación de voz artificial con la entonación típica de la Argentina, lo que  hace  que se perciba con un alto grado de naturalidad (conocido en inglés como tecnología Text To Speech o TTS). Además, lograron el reconocimiento del habla para detectar palabras y nombres propios específicos cuando son expresados en discursos orales (denominado Key Word Spotting o KWS, por sus siglas en inglés). A su vez, el equipo creó pruebas perceptuales para evaluar la audición y la voz, así como el reconocimiento mediante la voz para verificar la identidad del hablante.  

Una de las prioridades del LIS es la formación de recursos humanos provenientes de diferentes áreas del conocimiento. En los proyectos intervienen ingenieros, bioingenieros, informáticos, lingüistas, médicos neurólogos y otorrinolaringólogos, foniatras y psicólogos.

En ese contexto, la empresa Black Vox surgió del desarrollo de dos tesis de doctorado referidas a la identificación del hablante para uso forense, realizadas en el LIS bajo la dirección de Gurlekian y su equipo.

Estos investigadores recibieron financiamiento por un total de $80.219 a través del Fondo para la Investigación Científica y Tecnológica (FONCyT) por su Proyecto de Investigación y Desarrollo (PID) denominado “Desarrollo de métodos objetivos para el reconocimiento del hablante”. Dicho instrumento de financiamiento pertenece a la Agencia Nacional de Promoción Científica y Tecnológica, dependiente del Ministerio de Ciencia. El organismo adoptante fue la Gendarmería Nacional Argentina, lo que permitió la posibilidad de masificar y otorgar visibilidad a una herramienta más de investigación y lucha contra el crimen en las distintas áreas de seguridad de nuestro país.

Asimismo, distintas empresas dedicadas a brindar servicios de comunicaciones se encuentran ya en la etapa de integrar estos desarrollos en los sistemas que proveen a la comunidad. Por ejemplo, la empresa Mitrol S.A. apoyó el desarrollo del sistema de conversión de texto a habla, mientras que la empresa BDT Solutions está en plena etapa de integración del sistema TTS. Por su parte, la empresa Global News Media Group dedicada a los estudios de marketing y búsquedas inteligentes, utiliza en la actualidad el sistema de localización de palabras KWS en emisiones de radio y televisión.

Más aplicaciones

Aunque es considerada como un dato más dentro de la batería de evidencias –dado que la voz no tiene el mismo peso que una huella digital o que los estudios de ADN–, la identificación de hablantes es en la actualidad una gran ayuda en la labor de fonoaudiólogos y personal especializado en la materia. El reconocimiento de los hablantes cuenta con variadas aplicaciones, como el campo de la seguridad –en bancos– o el desarrollo de dispositivos para personas con discapacidad.

En el ámbito de la educación, pueden transferirse estas innovaciones para evaluar la capacidad de los alumnos en la escuela primaria para escuchar y hablar. Otro proyecto en curso consiste en la traducción de la voz del maestro a texto visible en una pantalla, lo que resultaría beneficioso para aquellos alumnos con disminución auditiva.

Asimismo, en el área de salud la evaluación diagnóstica de alteraciones en la voz contribuye a la detección temprana de tumores laríngeos y alteraciones asociadas a la comunicación verbal de origen neurodegenerativo.

BUSCADOR
Noticias
INFORMACIÓN RELACIONADA
Área
Ministerio
Video
Video de
Documentos
Enlaces