IA Generativa – Aplicação na tradução automática de voz

#IA Generativa

Olá, dev!

Este artigo apresenta a descrição a área da Inteligência Artificial generativa (IA generativa), sua utilização no processamento de voz e uma aplicação de tradução automática e instantânea, usando IA generativa.

Sumário

1. Introdução

2. A IA generativa

3. Aplicações de voz com IA generativa

4. Uma aplicação de tradução automática usando IA generativa

5. Considerações finais

6. Referências

1 – Introdução

Este artigo apresenta as bases Inteligência Artificial generativa, juntamente com uma aplicação de tradução automática e instantânea, que utiliza algumas das inovações da área, aplicadas no processamento de voz.

Na minha vida, eu tive experiências marcantes com a produção de voz.

Uma delas foi quando eu apresentei 2 programas em rádios FM da minha cidade. Eu falava de filmes e só tocava músicas de trilhas sonoras de filmes.

Outra foi quando fiz um trabalho de pesquisa para a disciplina de Processamento Digital de Voz, na pós-graduação, que focava na criação de legenda automática de filmes e vídeos a partir da captura dos parâmetros da voz de um único locutor.

Eu sou fascinado pela área de imagens, incluindo Visão Computacional, Processamento de Imagens, Visualização de Dados e Computação Gráfica, mas estas experiências com voz me levaram a gostar também de processamento de voz.

O avanço das ferramentas de Inteligência Artificial nos permite aplicá-las ao processamento de voz. Ferramentas de IA generativa permitem o reconhecimento e a síntese da voz de maneira bem fluida.

2 – A IA generativa

Segundo SPADINI [1], a Inteligência Artificial (IA) é uma área da Ciência da Computação que tem como objetivo a criação de sistemas que realizem tarefas só executadas por seres humanos.

Ela já faz parte do nosso cotidiano em aplicações úteis como recomendação de filmes em sites de streaming e classificação de fotos em redes sociais.

A inteligência Artificial generativa (ou IA generativa) pode gerar informações a partir de grandes bases de dados existentes, usados para treinar (ensinar) as ferramentas de IA a descobrir padrões de construção desses dados.

Assim, elas se tornam capazes de gerar novos dados, semelhantes aos dados usados no treinamento, mas que podem ser únicos e originais.

O funcionamento das IAs generativas se baseia nas redes neurais generativas adversativas (“Generative Adversarial Networks” – GANs), que possuem essa capacidade de aprendizado e geração de novos dados.

O funcionamento das GANs utiliza 2 redes neurais, que funcionam em conjunto, seguindo um ciclo:

· a rede geradora criar novos dados;

· a rede discriminadora avalia estes dados gerados;

· A rede geradora melhora os dados criados com base na nota dada pela outra rede;

· O processo se repete até que a qualidade dos dados gerados seja considerada satisfatória, por algum critério.

Assim, as IAs generativas podem ultrapassar a aprendizagem de máquina convencional, pois elas podem aprender por conta própria.

Normalmente elas não precisam de dados rotulados por seres humanos, que identificam exemplos da ocorrência, ou não, de um determinado comportamento.

Resumindo, COPILOT [2] afirma que a IA generativa é a área que utiliza modelos de aprendizado profundo (“deep learning”), treinados em grandes conjuntos de dados, para criar e gerar novos conteúdos.

A lista abaixo mostra exemplos da aplicação da IA Generativa em algumas áreas:

1. Chatbots – softwares, treinados em diálogos humanos, que podem manter conversar coerentes e relevantes com os usuários;

2. Criação e Edição de Imagens - Modelos como o DALL-E, da OpenAI, podem gerar imagens a partir de descrições textuais, de uma paisagem, por exemplo;

3. Assistência para a programação - O CoPilot, do GitHub, é uma ferramenta que ajuda os desenvolvedores a codificarem com mais eficiência, sugerindo trechos de código, documentação ou resolvendo problemas comuns;

4. Pesquisa Científica - A IA generativa permite gerar hipóteses, analisar dados e criar modelos preditivos, auxiliando os cientistas a explorarem grandes conjuntos de dados e descobrirem padrões ocultos;

5. Visualização Criativa - Profissionais como designers e artistas podem gerar ideias rapidamente, a partir da descrição de um conceito;

6. Automação de Tarefas – a automação de tarefas tediosas e repetitivas, como gerar relatórios, criar resumos de texto ou otimizar algoritmos pode ajudar a ganhar tempo;

7. Reconhecimento e Síntese de Voz – usadas em assistentes digitais ou na criação de áudio (voz ou música);

8. Tradução de Idiomas - tradução de textos de um idioma para outro já são comuns e pode ser associada a aplicações de voz.

É inegável que a IA generativa apresenta muitos benefícios, mas é preciso considerar os riscos e advindos da sua utilização, sendo fundamental garantir que seu uso seja responsável e transparente.

Ainda de acordo com [1], outros exemplos de ferramentas atuais de IA generativa disponíveis são: Midjourney, GPT-3 e GPT-4, Jasper, Bing Chat, Google Bard e o ChatGPT.

Cada uma dessas ferramentas tem funcionalidades específicas, mas podemos classificá-las em geradoras de imagens, de texto e de áudio (incluindo voz e música).

3 – Aplicações de IA generativa com voz

Segundo COPILOT [3], as aplicações para o uso de IA generativa com voz são inúmeras, mesmo no início das pesquisas sobre o assunto, mas podemos destacar algumas principais:

· Reconhecimento de voz: Modelos assim são usados em assistentes digitais, para entender comandos de voz do usuário, como a Siri, Google Assistant e Alexa, ou realizar transcrições automáticas;

· Tradução da fala: Modelos de reconhecimento de voz também são usados para traduzir fala de um idioma para outro;

· Síntese de voz: áudios são criados a partir de textos.

IA generativa para o reconhecimento de voz

Esta aplicação envolve o uso de modelos de aprendizado profundo para converter sinais de áudio da fala em texto. Segundo [3], algumas técnicas usadas são:

1. Modelos de Linguagem Generativos:

· Redes Neurais Recorrentes (RNNs) - modelos treinados para aprender padrões e representações de áudio, podendo mapear sequências de áudio para sequências de palavras;

· Transformers - modelos como o BERT e o GPT também podem ser usados para reconhecimento de voz, capturando contextos mais amplos;

2. Processamento de Sinal de Áudio:

· “Mel-Frequency Cepstral Coefficients” (MFCCs) - coeficientes extraídos do espectro de frequência do áudio e usados como entrada para modelos de IA;

· Redes Neurais Convolucionais (“Convolutional Neural Networks” - CNNs) - podem aprender representações hierárquicas de áudio, identificando padrões;

3. Treinamento Supervisionado - os modelos são treinados em pares de áudio e transcrições de texto. Eles aprendem a associar os padrões sonoros com as palavras correspondentes:

· “Connectionist Temporal Classification” (CTC): técnica usada para treinar modelos de reconhecimento de fala sem a necessidade de alinhamentos precisos entre áudio e texto.

4. Decodificação - após o treinamento, o modelo é usado para decodificar áudio em texto, gerando sequências de palavras com base nas probabilidades aprendidas durante o treinamento.

· “Beam Search”: algoritmo usado para encontrar a sequência de palavras mais provável a partir das probabilidades geradas pelo modelo.

Tradução automática com IA generativa

Segundo MCFARLAND [4], nos últimos dois anos, houve um crescimento significativo na pesquisa e aplicação de IA generativa em diversas áreas, como o Processamento de Linguagem Natural (PLN).

A tradução automática é uma subárea do PLN, tarefa realizada por modelos como o T5 e o BART, quer podem traduzir entre diferentes idiomas com resultados impressionantes.

A tradução automática e instantânea realizada por ferramentas de IA oferece velocidade e produtividade, agilizando processos de internacionalização e comunicação global.

Com a capacidade de processar grandes volumes de dados linguísticos e identificar padrões, a IA é capaz de gerar traduções automáticas mais precisas e próximas da qualidade de um tradutor humano.

Existem várias ferramentas e softwares que utilizam IA generativa para tradução, como o Wordvice AI Tradutor e o Google Tradutor.

Síntese de voz com IA generativa

Segundo LINKEDIN [5], a geração de voz pode ser usada em diversas aplicações. A seguir, são listadas as aplicações mais inovadoras da IA generativa na geração de voz:

Síntese de voz - processo de conversão de texto em voz semelhante à humana, resultando em uma fala que corresponda ao tom, emoção, sotaque e estilo desejados. Exemplos são Polly, da Amazon, e WaveNet, da DeepMind;

Clonagem de voz - criação de uma réplica digital da voz de uma pessoa, podendo imitar seus padrões de fala, entonação e pronúncia. Exemplos são o Resemble AI, que pode clonar qualquer voz e personalizá-la com diferentes emoções, linguagens e efeitos, e Descript;

Aprimoramento da voz - processo de melhoria da qualidade e da clareza dos sinais de voz, reduzindo o ruído, a distorção e a interferência, resultando em volume, altura e clareza melhores. Como exemplos, tem o Noise Suppression, da Dolby e Speech Enhancement, da Microsoft;

Tradução de fala - conversão de fala de um idioma para outro em tempo real, podendo reconhecer, transcrever e traduzir fala, gerando fala no idioma de destino. Exemplos são o Transcribe, do Google, e o Skype Translator;

Reconhecimento de emoções de fala – identificação e análise do estado emocional de um locutor a partir de seus sinais de fala. Ao classificar características acústicas e linguísticas da fala, pode-se inferir o humor, a atitude e a intenção do falante. Exemplos são a empresa Beyond Verbal e a plataforma Affectiva;

Outras ferramentas conhecidas são o Lovo e o Canva, este podendo imitar o tom, as emoções, a entonação e o ritmo de uma voz humana.

De acordo com ARBULU [6], as possibilidades na criação de conteúdo digital permitem narrações, diálogos e até dublagem realizadas por inteligência artificial.

A diferença entre “voz gerada por IA” e por programas normais de transcrição de texto para áudio é a naturalidade do resultado.

Aplicativos de transcrição limitam-se a ler um texto sem muita nuance, pulando pontuações ou errando a pronúncia de palavras acentuadas, por exemplo. Já a geração de voz por IA busca a semelhança com a voz humana, oferecendo resultados mais naturais e reconhecíveis por nossa audição.

Seguem algumas ferramentas gratuitas de IA para a geração de voz:

· WaveNet - é um Modelo Amplo de Linguagem, ou LLM (“Large Language Model”), lançado pela DeepMind, em 2016;

· Speechify - solução famosa, muito adotada por pessoas com deficiência de visão;

· Play.ht – agrega funções de outras soluções (como o WaveNet), criando um compilado, ao invés de usar um modelo próprio.

· Falatron - solução brasileira, fácil de ser usada, bastando acessar o site e digitar numa caixa de texto.

4 – Aplicação usando a IA Generativa para voz

Com base no exposto, parece óbvio juntar estas ferramentas de IA generativa para elaborar um projeto de uma aplicação de tradução simultânea de voz.

O diagrama de blocos deste projeto seria o seguinte:

Neste caso, temos 3 ferramentas de IA Generativa atuando juntas, para:

· Reconhecimento de Voz;

· Tradução;

· Síntese de Voz.

A tarefa de reconhecimento de voz envolve a determinação dos parâmetros da voz do locutor e sua transcrição para texto. Isso já era feito antes da chegada das IAs generativas, mas agora ficou muito mais rápido e preciso com o seu uso.

A tarefa de tradução também ficou mais rápida e precisa com o uso das IAs generativas.

A tarefa de síntese de voz gera um novo áudio a partir de um texto, neste caso, obtido pela tradução, usando parâmetros que caracterizam a voz desejada na saída.

Como os parâmetros da voz do locutor já foram determinados no início do processo de reconhecimento de voz, eles podem ser usados para a síntese, que assim, gerará a mesma voz do locutor.

Caso haja mais de um locutor, a aplicação poderá identificar cada um dos locutores pelos parâmetros de cada uma das vozes e, desta forma, não misturar diferentes sons dos diversos locutores da conversa.

Acredito que esta aplicação poderia ser implementada em um fone de ouvido, usado pelo ouvinte, que já receberia a mensagem do locutor traduzida para seu idioma, automaticamente.

O ouvinte poderia configurar em qual idioma gostaria de ouvir a mensagem traduzida e qual o idioma falado pelo locutor.

Para isso, bastaria associar um app com o fone de ouvido. Foi justamente a ideia que eu tive, inicialmente, ao imaginar este artigo.

Pesquisando na Internet, eu encontrei vários dispositivos que realizam esta tarefa.

Alguns deles são aparelhos, do tamanho de um ipod, que escrevem o texto falado e o texto traduzido, gerando um áudio do texto traduzido como saída.

Já outros são divulgados como “fone de ouvido com tradução simultânea”, sendo que a tradução é feita por um aplicativo de smartphone, fornecido junto com o fone.

Alguns são divulgados como “fone de ouvido PARA tradutor de voz”, que eu não sei se eles oferecem alguma funcionalidade de tradução, ou se são apenas para serem usados nos aparelhos de tradução, indicados acima.

Segue uma amostra dos aparelhos que realizam esta tarefa encontrados na minha busca.

A figura a seguir ilustra fones de ouvido descritos como tradutores, sempre associados a aplicativos para realizar a tradução.

As lojas que oferecem estes aparelhos vão daquelas bem conhecidas, como a Amazon, até outras que eu desconheço completamente. Os preços variam muito também, indo desde 92 reais até R$ 6.788,00 (com preço promocional de R$ 2.539,90), discrepância que me pareceu muito estranha. Mesmo para compras internacionais, que ainda devem ter acrescidos os impostos e taxas de importação, mas não aumentariam muito preços até 300 reais.

5 – Considerações finais

Este artigo trata da utilização de IAs generativas para implementar uma aplicação de tradução simultânea automática.

Ele foi escrito inicialmente para participar da competição de artigos número 17, da DIO, mas eu não consegui concluí-lo a tempo de publicá-lo dentro do prazo estipulado.

Quando eu imaginei o conteúdo do artigo, já tinha visto equipamentos que realizavam a tradução da voz do locutor e geravam outra voz, sintetizada, que era apresentada ao ouvinte.

Mas, com a consulta que realizei para escrevê-lo, descobri que já existem vários equipamentos que implementam esta funcionalidade, incluindo fones de ouvido, que não imaginei que já existissem.

Na verdade, existem fones de ouvido que realizam esta tarefa, só que não é o fone que processa os dados, mas um aplicativo que é instalado no smartphone junto com ele.

A tradução automática já era feita por alguns equipamentos, mas as IAs generativas permitiram que isso fosse realizado com muito mais precisão e velocidade.

Isso se dá pelos avanços recentes na área de PLN (Processamento de Linguagem Natural), base de muitas IAs generativas atuais e aprendizado profundo (“deep learning”).

É claro que ainda estamos no início do desenvolvimento de ferramentas de IA e elas ainda vão ser muito aperfeiçoadas, até um ponto que nem seja preciso usar aplicativos para realizar a tarefa de tradução simultânea automática.

No futuro ei vejo essa tarefa realizada pelos próprios fones de ouvido, de tamanho reduzido como os earbuds atuais, acessando IAs generativas online.

Como este artigo já estava quase todo escrito e eu não costumo deixar artigo pela metade, resolvi publicá-lo assim mesmo, fora da competição.

Afinal, eu já tinha feito toda a pesquisa, aprendido muita coisa interessante e escrito boa parte dele, só faltava compartilhá-lo com vocês.

Agora, não falta mais!!!

6 – Referências

[1] Allan Segovia SPADINI, O que é IA Generativa? A importância e o uso das Inteligências Artificiais como ChatGPT, MidJourney e outras. Disponível em: <https://www.alura.com.br/artigos/inteligencia-artificial-ia-generativa-chatgpt-gpt-midjourney>. Acesso em: 15/05/2024.

[2] Microsoft COPILOT, Consulta sobre “aplicações de IA generativa”. Acesso em: 15/05/2024.

[3] Microsoft COPILOT, Consulta sobre “aplicações de reconhecimento de voz com IA generativa”. Acesso em: 15/05/2024.

[4] Alex MCFARLAND, 9 “Melhores” softwares e ferramentas de tradução de IA (maio de 2024). Disponível em: <https://exame.com/tecnologia/examelab/como-criar-vozes-usando-a-ia-veja-9-ferramentas-gratuitas-para-usar/>. Acesso em 16/05/2024.

[5] LinkedIn, Quais são as aplicações mais inovadoras da IA generativa na geração de áudio e fala? Disponível em: <https://www.linkedin.com/advice/1/what-most-innovative-applications-generative-uiu1c?lang=pt&originalSubdomain=pt#:~:text=A%20s%C3%ADntese%20de%20%C3%A1udio%20%C3%A9,design%20de%20som%20e%20entretenimento>.

Acesso em: 16/05/2024.

[6] Rafael ARBULU, Como criar vozes usando a IA? Veja 8 ferramentas gratuitas para usar. Disponível em: <https://exame.com/tecnologia/examelab/como-criar-vozes-usando-a-ia-veja-9-ferramentas-gratuitas-para-usar/>. Acesso em 16/05/2024.