A última prova humana
- #Machine Learning
- #Python
- #Inteligência Artificial (IA)
Introdução
Medir é uma tarefa importante para todas as áreas do conhecimento humano, inclusive na Inteligência Artificial. Em especial na IA Generativa, damos a isto o nome de benchmark. Benchmark é como uma prova de damos a modelos generativos como: Chat GPT, Claude, Deep Seek. Atualmente existem várias datasets que usamos para medir as capacidades dessas IAs, para mencionar apenas algumas:
O HumanEval por exemplo, mostra as capacidades dos modelos quando testados em códigos. É possível observar na Figura 1 alguns resultados para datasets famosos.
Figura 1 | Performance do DeepSeek-Coder-V2 (URL DataCampDeepSeek-Coder-V2 Tutorial: Exemplos, instalação, padrões de…)
É possível também observar na Figura 1 que os modelos atuais, conseguem classificações acima de 90% em algumas destas tarefas, isto é um problema. O objetivo deste artigo é explicar qual problema é este e como resolver ele. Através de um novo tipo de benchmark, chamado Human Last Exam (HLE).
O Problema
No artigo, os autores tratam sobre um problema, um problema explícito na Figura 1. A saturação dos testes atuais. Mas o que isso significa? Significa que, se quisermos avançar no campo da inteligência artificial, precisamos de testes mais complexos, criados por especialistas de várias áreas do conhecimento. Assim como é possível observar na Figura 2.
Figura 2 | Áreas do conhecimento nas quais os modelos são testado, usando o HLE (URL https://arxiv.org/pdf/2501.14249)
A Solução
Como mencionado, a solução dos autores é este novo datasets (HLE), ele contém mais de 3000 perguntas, elaboradas por diversos pesquisadores. As questões seguem alguns princípios básicos:
- +3000 questões em áreas como: matemática, física, biologia… AI
- Questões elaboradas por especialistas
- Várias alternativas e respostas curtas
- Cada questão tem uma resposta, verificável e não-ambígua
- As questões não podem ser facilmente respondidas usando a internet
Na Figura 3 podemos observar os resultados obtidos pelos modelos mais capazes, no HLE. Uma precisão inferior a 10%.
Figura 3 .| Resultados das medicações para os modelos mais popular e capazes no dataset HLE (URL https://arxiv.org/pdf/2501.14249)
Conclusão
O HLE inaugurou um novo momento da inteligência artificial, um momento em que vamos medir os modelos em tarefas específicas e acadêmicas. Em problemas cuja resposta sabemos mas que são fruto do conhecimento humano específico. Os autores acreditam que até o final de 2025 teremos resultados satisfatórios e isto significa apenas uma coisa: uma boa acuracidade no HLE significa modelos capazes de solucionar questões em nível acadêmico.
Referências
[1] Evidentlyai. 20 LLM evaluation benchmarks and how they work, 2025. URL https://www.evidentlyai.com/llm-guide/llm-benchmarks#coding-benchmarks
[2] Phan, L., Gatti, A., Han, Z., Li, N., Hu, J., Zhang, H., ... & Schut, L. (2025). Humanity's Last Exam. URL arXiv preprint arXiv:2501.14249.
[3] Datacamp. DeepSeek-Coder-V2 Tutorial: Exemplos, instalação, padrões de referência, 2025. URL https://www.datacamp.com/pt/tutorial/deepseek-coder-v2
[4] Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, H. P. D. O., Kaplan, J., ... & Zaremba, W, 2021. Evaluating large language models trained on code. URL arXiv preprint arXiv:2107.03374.
----------------------------------------------------------------------------------------------
Nota do autor
- Seja paciente sobre possíveis erros gramaticais, a julgar pela recorrência deles você sabe o quanto eu usei o ChatGPT ou qualquer outra ferramenta para escrever o mesmo.
- Este trabalho levou tempo para ser pesquisado e filtrado, escrever é uma tarefa nobre e árdua. Se sentir confortável, deixe seu feedback (construtivo).
- Em caso de dúvidas, deixe nos comentários abaixo (farei o possível para responder a tempo).
Onde me encontrar?
- Github (Repositório para aprender IA)
- Medium (Artigos de Opinião)
- Kaggle (Competições e Artigos Técnicos em Inglês)
- Meu Blog Pessoal (Artigos Técnicos)
- X/Twitter (Você pode enviar mensagem por lá, se quiser)
Outros artigos relacionados
- [Grupo de Estudos] Recomendação de Leitura (01/Fev até 08/Fev) - Inteligência Artificial
- Explicando o Deep Research da Openai
- [Grupo de Estudos] Resumo (26/Jan até 01/Fev) - Inteligência Artificial