1388
Extraindo meus certificados da DIO com Puppeteer: um guia prático
--
Como entusiasta da programação, sempre busquei aprimorar minhas habilidades através de cursos online. A Digital Innovation One (DIO) tem sido uma grande aliada nessa jornada, e graças a ela, conquistei 817 certificados. No entanto, a plataforma da DIO não me permitia visualizar todas as imagens dos meus certificados em uma única página (https://web.dio.me/certificates).
--
Para solucionar esse problema, decidi utilizar a técnica de Web Scraping. O Web Scraping é um processo que permite extrair dados de páginas da web de forma automatizada. Com ele, é possível coletar informações como texto, imagens e links.
--
Dentre as diversas ferramentas disponíveis para realizar Web Scraping, escolhi o Puppeteer. O Puppeteer é uma biblioteca Node.js que oferece um alto nível de controle sobre o navegador Chromium, tornando-o ideal para tarefas complexas de scraping.
---> Minha solução:
Para extrair e salvar todas as imagens dos meus certificados, desenvolvi um script utilizando a biblioteca Puppeteer. Esse script simula as ações de um usuário em um navegador real, navegando até a página de certificados da DIO, identificando cada certificado e salvando suas imagens em um diretório local.
---> Desafios e aprendizados:
Ao longo do desenvolvimento do script, enfrentei alguns desafios, como:
- Identificação precisa dos elementos: A estrutura da página da DIO pode mudar ao longo do tempo, o que exige ajustes nos seletores CSS utilizados para identificar os elementos desejados.
- Gerenciamento de erros: É importante tratar os erros que podem ocorrer durante a execução do script, como falhas de conexão ou elementos não encontrados.
- Performance: Para evitar sobrecarregar o servidor da DIO, é recomendado implementar mecanismos de espera entre as requisições.
Resultados:
Com este script, consegui criar uma coleção completa e organizada de todos os meus certificados da DIO. Além disso, aprendi a utilizar o Puppeteer de forma eficaz, abrindo portas para outros projetos de Web Scraping.
Próximos passos:
Pretendo aprimorar ainda mais o script, adicionando funcionalidades como:
- Autenticação: Implementar um mecanismo de login automático para evitar a necessidade de digitar as credenciais manualmente a cada execução.
- Organização dos arquivos: Criar uma estrutura de pastas mais organizada para armazenar os certificados, facilitando a busca e a visualização.
- Personalização: Permitir que o usuário configure o script para salvar os certificados em diferentes formatos ou localizações.
----Conclusão:
O Web Scraping é uma ferramenta poderosa que pode ser utilizada para automatizar diversas tarefas e extrair dados de diversas fontes. Neste artigo, demonstrei como utilizei o Puppeteer para resolver um problema específico e alcançar um resultado satisfatório.
Compartilhando conhecimento:
Espero que este artigo inspire outros desenvolvedores a explorar o mundo do Web Scraping e a criar suas próprias soluções personalizadas. O código completo do meu script está disponível em
https://gist.github.com/julian-gamboa-ensino/df45556c2493cdd26b530eece7c4a617
Sinta-se à vontade para fazer um fork e adaptá-lo às suas necessidades.
Palavras-chave: Web Scraping, Puppeteer, DIO, certificados, Node.js, programação
Atualização da série de artigos:
https://web.dio.me/articles/881?back=%2Farticles&page=1&order=oldest
https://web.dio.me/articles/817?back=%2Farticles&page=1&order=oldest