Article image

LP

Lourenço Portella17/01/2025 01:25
Share

CONTRATOS EM ÁUDIO - Bootcamp CAIXA - IA Generativa com Microsoft Copilot

    Neste artigo, apresento meu projeto final do bootcamp CAIXA - IA Generativa com Microsoft Copilot, no qual desenvolvi uma solução voltada para tornar acessível a leitura de contratos digitalizados em formato PDF. O projeto está disponível no GitHub e pode ser acessado o link abaixo:

    Repositório Github: https://github.com/loportella/contratosParaAudio

    Contexto e Motivação

    Atualmente, existem diversas tecnologias no mercado capazes de realizar a transcrição de texto para áudio, o que pode ser extremamente útil, tanto para pessoas que preferem ouvir a ler quanto para aquelas com dificuldades visuais. Inspirado por essas ferramentas já amplamente utilizadas, criei um algoritmo que converte textos extraídos de arquivos PDF em áudio.

    Com base nas ferramentas apresentadas durante o bootcamp, bem como em outras tecnologias complementares, consegui alcançar um resultado funcional e satisfatório. O programa é acessível para testes por qualquer interessado, desde que as configurações necessárias sejam realizadas corretamente.

    Ferramentas Utilizadas

    A seguir, estão listadas todas as ferramentas empregadas na construção deste projeto:

    • Visual Studio Code: Ambiente de desenvolvimento integrado (IDE).
    • Python 3.12.8 (ou superior): Linguagem de programação utilizada.
    • Microsoft Copilot: Assistente de desenvolvimento baseado em IA.
    • ChatGPT: Para suporte na geração e refinamento de código.
    • Azure Computer Vision: Para extração de texto por meio de OCR.
    • Azure Speech Service: Para conversão de texto em áudio.
    • Azure Blob Storage: Para armazenamento dos arquivos PDF.
    • Chocolatey: Gerenciador de pacotes utilizado para instalar o FFmpeg, necessário para a biblioteca Python pydub.

    Configuração do Ambiente

    É importante destacar que o uso das ferramentas da Azure requer uma conta verificada. Além disso, o projeto foi desenvolvido no sistema operacional Windows, o que pode exigir ajustes caso você utilize outro SO. Recomendo consultar os links abaixo para obter orientações sobre a configuração inicial das variáveis de ambiente e códigos necessários:

    A instalação do Chocolatey também foi essencial, especialmente para garantir o funcionamento correto da biblioteca pydub, usada no projeto. Caso encontre erros relacionados ao FFmpeg, siga as instruções do deste tutorial.

    Processo de Geração do Código

    O desenvolvimento foi realizado de forma iterativa e intuitiva, utilizando a extensão Microsoft Copilot no Visual Studio Code e o ChatGPT para suporte na escrita de prompts e refinamento do código. Prompts variaram de simples e diretos a mais elaborados, dependendo da complexidade da funcionalidade desejada.

    Fluxo do Algoritmo

    O algoritmo funciona seguindo o fluxo descrito abaixo:

    1. Importação dos Arquivos PDF: Uma lista de arquivos PDF é carregada a partir de uma pasta previamente configurada no Azure Blob Storage. Os documentos armazenados referem-se a contratos disponíveis publicamente na internet.
    2. Extração de Texto (OCR): Utilizando o Azure Computer Vision, o texto dos PDFs é extraído página por página. Este método evita problemas de exceder o limite de requisições gratuitas da ferramenta. O texto processado é armazenado em um arquivo TXT temporário.
    3. Conversão de Texto em Áudio: Com o texto extraído, o Azure Speech Service é utilizado para converter o conteúdo em áudio. O texto é separado em trechos de caracteres que é processada individualmente e, ao final, os arquivos de áudio são combinados em um único arquivo final.
    4. Armazenamento e Finalização: Todo o processo ocorre de maneira automática, e o áudio final é salvo na mesma pasta onde o programa foi executado. Arquivos temporários são gerados durante a execução para garantir maior confiabilidade no resultado final.

    O arquivo de áudio criado no final é no formato MP3, pois assim termos um arquivo que não ocupa tanto espaço de armazenamento. Ooutra escolha foi de utilziar o sintetizador básico da Microsoft, existem outras vozes que podem ser escolhidas e posteriormente implementadas no cósigo, tudo ao gosto do programador que altera-lo.

    Aplicações e Usos

    O principal objetivo desta ferramenta é facilitar a leitura de contratos, tornando-a mais acessível para diferentes públicos. As principais aplicações incluem:

    • Apresentação ao Cliente: Empresas podem usar o sistema para explicar cláusulas de contratos de maneira mais dinâmica e inclusiva.
    • Uso Interno: Profissionais com dificuldades visuais podem utilizar a ferramenta para acessar contratos de forma independente.

    Este projeto exemplifica como a combinação de tecnologias acessíveis, como o Microsoft Copilot, ferramentas da Azure e bibliotecas Python, pode simplificar processos e aumentar a inclusão digital. Convido todos os interessados a explorar o código e testar a solução, que está disponível no repositório do GitHub.

    Share
    Comments (1)
    DIO Community
    DIO Community - 17/01/2025 11:29

    Parabéns pelo artigo, Lourenço! A ideia de explorar contratos em áudio utilizando IA generativa com o Microsoft Copilot é extremamente inovadora e mostra como a tecnologia pode transformar processos tradicionais.

    Um dos pontos mais interessantes do tema é a possibilidade de tornar os contratos mais acessíveis e inclusivos, especialmente para pessoas com dificuldades de leitura ou que preferem consumir informações de forma auditiva. Além disso, integrar IA generativa nesse contexto demonstra como é possível otimizar a criação e revisão de documentos, trazendo mais agilidade e eficiência.

    Na sua opinião, quais seriam os maiores desafios para implementar contratos em áudio no mercado atual?