Usamos a linguagem para nos comunicarmos desde que nascemos, começando pelo choro para mostrar os nossos sentimentos e mais tarde com as nossas primeiras palavras, mesmo que não saibamos o que elas significam. Esta língua acompanha-nos ao longo das nossas vidas, seja para ler uma história de fantasia, para entender as notícias ou para preencher um documento no banco.
Conhecendo a importância da língua, em 1969, Henry Kucera e W. Nelson Francis publicaram o primeiro artigo sobre análise linguística através de um computador. Nos anos seguintes, as estatísticas começaram a ser incorporadas para melhorar o reconhecimento das línguas e com elas surgiram os primeiros algoritmos de aprendizagem automática (machine learning). Além disso, com o aumento e melhoria dos sistemas informáticos, e a enorme quantidade de dados disponíveis na Internet, as tecnologias Speech to Text (STT) começaram a ser desenvolvidas, e as empresas tecnológicas começaram a incorporar técnicas de reconhecimento da linguagem natural, conhecidas como Natural Language Processing (NLP), nos seus processos e produtos, tais como Microsoft Word e Google Translate. [1]
Em seguida, explicamos como funcionam estas duas tecnologias, de forma resumida:
Reconhecimento da fala ou Speech to Text (STT).
Fonte da imagem: How to Build Domain Specific Automatic Speech Recognition Models on GPUs
STT é um conjunto de algoritmos linguísticos para classificar sinais auditivos, de uma conversa, por exemplo, e transformá-los em texto, mas como?
Finalmente, apresenta-se o resultado o mais próximo possível do que foi dito em formato de texto.
Reconhecimento da linguagem natural ou Natural Language Processing (NLP)
Fonte da imagem: How to Build Domain Specific Automatic Speech Recognition Models on GPUs
NLP é a capacidade de um computador compreender a linguagem humana tal como nós a compreendemos. Como é que um computador compreende a linguagem? Poderíamos faseá-lo, de uma forma muito simplificada, nas seguintes etapas [3]:
Imagen de um dispositivo ligado com reconhecimento de voz.
Grandes empresas tecnológicas puderam ver o potencial oferecido pela combinação destes dois ramos da inteligência artificial e surgiram inúmeras aplicações, para diferentes campos que aproveitam ao máximo o STT e o NLP. Além disso, poderia dizer-se que encontraram um nicho de mercado no que chamamos "age tech", onde mais de 60% da população com 55 anos ou mais está ligada à Internet, de acordo com este relatório da Fundação Mapfre.
Uma das aplicações mais difundidas são os assistentes virtuais, que já fazem parte do quotidiano de muitas pessoas, tais como Siri (criado pela Apple), Alexa (o produto estrela da Amazon) ou Cortana (o assistente de voz dos sistemas operativos da Microsoft). Os assistentes virtuais podem ajudar a remover barreiras tecnológicas para perfis seniores, uma vez que lhes permitem interagir por voz com um dispositivo para realizar tarefas quotidianas como, por exemplo, ligar a familiares - sem necessidade de digitar o número de telefone ou consultá-lo na lista telefónica - através de um comando de voz para ativar a chamada, por exemplo: "Alexa, liga para o centro médico" ou "Siri, liga para Maria".
Outra característica particularmente útil para perfis seniores é a capacidade de guardar lembretes sobre consultas médicas e o consumo de medicamentos no calendário. Outras funções são também muito úteis para as pessoas com mobilidade reduzida ou visibilidade reduzida:
Ao promover a utilização de tecnologias de uma forma mais agradável, simples e funcional, as tecnologias STT e PNL demonstram que são capazes de ajudar a melhorar a qualidade de vida, gerando aplicações e ferramentas acessíveis a todos e sobretudo com aplicações práticas para a sociedade como um todo.
Bibliografia
[1] ¿Qué es Natural Language Processing?.
[2] What is Speech to Text? - Transcription Beginner's Guide - AWS
[3 ]NLP explained - What is Natural Language Processing? - MoreThanDigital