CENIE · 25 Maio 2022

Próxima, amena e simples: assim é a tecnologia de processamento da linguagem natural. Contamos-te como funciona.

Usamos a linguagem para nos comunicarmos desde que nascemos, começando pelo choro para mostrar os nossos sentimentos e mais tarde com as nossas primeiras palavras, mesmo que não saibamos o que elas significam. Esta língua acompanha-nos ao longo das nossas vidas, seja para ler uma história de fantasia, para entender as notícias ou para preencher um documento no banco.

Conhecendo a importância da língua, em 1969, Henry Kucera e W. Nelson Francis publicaram o primeiro artigo sobre análise linguística através de um computador. Nos anos seguintes, as estatísticas começaram a ser incorporadas para melhorar o reconhecimento das línguas e com elas surgiram os primeiros algoritmos de aprendizagem automática (machine learning). Além disso, com o aumento e melhoria dos sistemas informáticos, e a enorme quantidade de dados disponíveis na Internet, as tecnologias Speech to Text (STT) começaram a ser desenvolvidas, e as empresas tecnológicas começaram a incorporar técnicas de reconhecimento da linguagem natural, conhecidas como Natural Language Processing (NLP), nos seus processos e produtos, tais como Microsoft Word e Google Translate. [1]

 Em seguida, explicamos como funcionam estas duas tecnologias, de forma resumida: 

Reconhecimento da fala ou Speech to Text (STT).

Fonte da imagem: How to Build Domain Specific Automatic Speech Recognition Models on GPUs

STT é um conjunto de algoritmos linguísticos para classificar sinais auditivos, de uma conversa, por exemplo, e transformá-los em texto, mas como? 

  1. A conversão da fala em texto funciona através de um modelo complexo de aprendizagem automática que consiste em várias etapas [2]:
  2. Os sons que são emitidos ao falar produzem uma série de vibrações e a tecnologia STT capta essas vibrações para as converter numa linguagem digital.
  3. Os sons são segmentados em centésimos ou milésimos de segundo e depois combinados em fonemas, sendo um fonema uma unidade de som que distingue uma palavra de outra numa determinada língua.
  4. Os fonemas são então passados por um modelo estatístico que os compara com frases, palavras e frases conhecidas.

Finalmente, apresenta-se o resultado o mais próximo possível do que foi dito em formato de texto.

Reconhecimento da linguagem natural ou Natural Language Processing (NLP)

 

Fonte da imagem: How to Build Domain Specific Automatic Speech Recognition Models on GPUs

NLP é a capacidade de um computador compreender a linguagem humana tal como nós a compreendemos. Como é que um computador compreende a linguagem? Poderíamos faseá-lo, de uma forma muito simplificada, nas seguintes etapas [3]:

  • Classificação de palavras e frases individuais.
  • Extração da informação gramatical de cada um deles.
  • Deteção das funções de cada uma das palavras (assunto, verbo, adjetivos, etc.).
  • Interpretação do significado total ou parcial das sentenças.
  • Compreender o contexto das sentenças e das suas relações.

Imagen de um dispositivo ligado com reconhecimento de voz.

Grandes empresas tecnológicas puderam ver o potencial oferecido pela combinação destes dois ramos da inteligência artificial e surgiram inúmeras aplicações, para diferentes campos que aproveitam ao máximo o STT e o NLP. Além disso, poderia dizer-se que encontraram um nicho de mercado no que chamamos "age tech", onde mais de 60% da população com 55 anos ou mais está ligada à Internet, de acordo com este relatório da Fundação Mapfre

Uma das aplicações mais difundidas são os assistentes virtuais, que já fazem parte do quotidiano de muitas pessoas, tais como Siri (criado pela Apple), Alexa (o produto estrela da Amazon) ou Cortana (o assistente de voz dos sistemas operativos da Microsoft). Os assistentes virtuais podem ajudar a remover barreiras tecnológicas para perfis seniores, uma vez que lhes permitem interagir por voz com um dispositivo para realizar tarefas quotidianas como, por exemplo, ligar a familiares - sem necessidade de digitar o número de telefone ou consultá-lo na lista telefónica - através de um comando de voz para ativar a chamada, por exemplo: "Alexa, liga para o centro médico" ou "Siri, liga para Maria".

Outra característica particularmente útil para perfis seniores é a capacidade de guardar lembretes sobre consultas médicas e o consumo de medicamentos no calendário. Outras funções são também muito úteis para as pessoas com mobilidade reduzida ou visibilidade reduzida:

  • Controlo das luzes e aquecimento da casa
  • Pesquisas na Internet sobre temas interessantes
  • Lembretes sobre datas e eventos importantes
  • Narrar um audiolivro
  • Manter-se a par das notícias
  • Saber o tempo de hoje
  • Controlo da reprodução de música

Ao promover a utilização de tecnologias de uma forma mais agradável, simples e funcional, as tecnologias STT e PNL demonstram que são capazes de ajudar a melhorar a qualidade de vida, gerando aplicações e ferramentas acessíveis a todos e sobretudo com aplicações práticas para a sociedade como um todo. 

 Bibliografia

[1] ¿Qué es Natural Language Processing?.

[2] What is Speech to Text? - Transcription Beginner's Guide - AWS

[3 ]NLP explained - What is Natural Language Processing? - MoreThanDigital

Compartir 
No âmbito de: Programa Operativo Cooperación Transfronteriza España-Portugal
Instituições promotoras: Fundación General de la Universidad de Salamanca Fundación del Consejo Superior de Investigaciones Científicas Direção Geral da Saúde - Portugal Universidad del Algarve - Portugal