Sumarização de vídeo do YouTube com LLMs
Sumarização
Sumarizar é uma das habilidades mais populares entre os LLMs como o GPT, consiste em um resumo de um conteúdo que pode ser audio ou texto.
Descrição do projeto
O objetivo do projeto é construir uma interface web usando Streamlit capaz de receber a URL de um dado vídeo no YouTube e que após a seleção de um modelo (mT5, Pegasus, BART) seja mostrada um resumo do vídeo.
source: autor, vídeo: What does minimalism really mean?
Etapas
source: autor with WHIMSICAL
- Acessar a transcrição dos vídeos (automáticamente)
- Tratar a o texto obtido e ajustar para um formado que os LLMs entendam
- Mostrar saída considerando qual dos três modelos foi escolhido (mT5, Pegasus ou BART)
Requeriments
O processo foi inteiramente no Google Colabs e em seguida tranferido ao HuggingFace Spaces para deployment. A linguagem utilizada foi Python.
Pacotes
- torch
- Transformers
- Streamlit
- youtube-transcript-api
- sentencepiece
Considerações
Dentre suas limitações estão o idioma, ainda não ajustei para que seja capaz de sumarizar vídeos em PT, muito em função dos modelos escolhido (tentarei o GPT-2 no futuro) e pela carência em transcrições dos vídeos em alguns canais.
O código está disponível no Github e online no Huggingface para quem tiver curiosidade em testar ou aprimorar o código.