CENIE · 25 Mayo 2022

Cercanas, amenas y sencillas: así es la tecnología de procesado de lenguaje natural. Te contamos cómo funciona.

Por Pixelabs - Vicent Avaria, Ingeniero de Visión Artificial y Lead de desarrollo

Ya desde nuestro nacimiento usamos el lenguaje para comunicarnos, empezamos con los llantos para mostrar nuestros sentimientos y después con nuestras primeras palabras aunque no sepamos qué significan. Este lenguaje nos acompaña durante toda nuestra vida, ya sea para leer una historia de fantasía, para enterarnos de las noticias o para rellenar un documento en el banco.

Sabiendo la importancia del lenguaje, en el año 1969, Henry Kucera y W. Nelson Francis publicaron el primer artículo sobre el análisis del lenguaje a través de una computadora. Los siguientes años se empieza a incorporar la estadística para mejorar el reconocimiento del lenguaje y con ello llegan los primeros algoritmos de aprendizaje automático (machine learning). Además, con el aumento y mejora de los sistemas informáticos, y la enorme cantidad de datos disponibles en internet, se empiezan a desarrollar tecnologías de reconocimiento de voz o Speech to text, (STT a partir de ahora), y las empresas tecnológicas empiezan a incorporar en sus procesos y productos técnicas de reconocimiento de lenguaje natural, conocido como Natural Language Processing, (NLP a partir de ahora) como en Microsoft Word y Google Translate. [1]

A continuación, explicamos cómo funcionan estas dos tecnologías, de forma resumida:

Reconocimiento de voz o Speech to Text (STT)

Fuente de imagen: How to Build Domain Specific Automatic Speech Recognition Models on GPUs

El STT es un conjunto de algoritmos lingüísticos para clasificar las señales auditivas, de una conversación por ejemplo, y transformarlas en texto, pero ¿Cómo?

La conversión de voz a texto funciona a través de un complejo modelo de aprendizaje automático que consta de varios pasos [2]:

Los sonidos que se emiten al hablar producen una serie de vibraciones y la tecnología STT recoge estas vibraciones para convertirlas en un lenguaje digital.
Los sonidos se segmentan en centésimas o milésimas de segundo y luego se combinan con fonemas, un fonema es una unidad de sonido que distingue una palabra de otra en un idioma determinado.
Luego, los fonemas pasan a través de un modelo estadístico que los compara con oraciones, palabras y frases conocidas.
Finalmente se presenta el resultado más aproximado a lo que se ha dicho de viva voz en formato texto.

Reconocimiento de lenguaje natural o Natural Language Processing (NLP)

Fuente de imagen: How to Build Domain Specific Automatic Speech Recognition Models on GPUs

NLP es la habilidad de una computadora para comprender el lenguaje humano como nosotros lo hacemos. ¿Cómo comprende el lenguaje un ordenador? Lo podríamos fasear, de manera muy simplificada, en los siguientes pasos [3]:

Clasificación de palabras individuales y frases.
Extracción de la información gramatical de cada una de ellas.
Detección de las funciones de cada una de las palabras (Sujeto, verbo, adjetivos, etc.)
Interpretación del significado completo o parcial de las oraciones.
Comprensión del contexto de las frases y sus relaciones.

Imagen de dispositivo conectado con reconocimiento de voz.

Las grandes empresas tecnológicas han sabido ver el potencial que ofrece la combinación de estas dos ramas de la inteligencia artificial y han aparecido un sinfín de aplicaciones, para distintos ámbitos que sacan el máximo rendimiento del STT y del NLP. Además, se podría decir que han encontrado un nicho de mercado en lo que llamamos la “age tech”, donde más del 60% de la población de 55 años o más está conectado a internet según este informe de la Fundación Mapfre.

Una de las aplicaciones más extendidas son los asistentes virtuales, que ya forman parte del día a día de mucha personas como pueden ser Siri (creado por Apple), Alexa (producto estrella de Amazon) o Cortana (el asistente de voz de los sistemas operativos de Microsoft. Los asistentes virtuales pueden ayudar a eliminar las barreras tecnológicas a los perfiles senior, ya que éstas permiten interactuar por voz con un dispositivo para realizar tareas cotidianas como por ejemplo pudiera ser, llamar a familiares –sin necesidad de teclear el número de teléfono o buscarlo en agenda– a través de un comando de voz para activar la llamada como por ejemplo: “Alexa, llama al centro médico” o “Siri, llama a María””.

Otra funcionalidad especialmente útil para los perfiles senior es la de guardar recordatorios sobre citas médicas y la toma de medicación en el calendario. Igualmente son de gran ayuda para gente con movilidad reducida o visibilidad reducida, otras funciones como:

Controlar las luces y calefacción de la casa
Realizar la búsquedas por internet sobre temas interesantes
Recordatorios sobre fechas y eventos importantes
Narrar un audiolibro
Mantenerse actualizado de las noticias
Consultar el clima que va a hacer hoy
Controlar la reproducción de música

Promoviendo el uso de tecnologías de una manera más amena, sencilla y funcional las tecnologías STT y NLP están demostrando que son capaces de ayudar a mejora la calidad de vida, generando aplicativos y herramientas accesibles a todos y sobre todo con aplicaciones practicas para el conjunto de la sociedad.

Bibliografía

[1] ¿Qué es Natural Language Processing?.

[2] What is Speech to Text? - Transcription Beginner's Guide - AWS

[3 ]NLP explained - What is Natural Language Processing? - MoreThanDigital

#CENIE

#Investigación