image

Acesse bootcamps ilimitados e +650 cursos

50
%OFF
Article image
Carlos Lima
Carlos Lima15/02/2025 18:18
Compartilhe

A última prova humana

  • #Machine Learning
  • #Python
  • #Inteligência Artificial (IA)

Introdução

Medir é uma tarefa importante para todas as áreas do conhecimento humano, inclusive na Inteligência Artificial. Em especial na IA Generativa, damos a isto o nome de benchmark. Benchmark é como uma prova de damos a modelos generativos como: Chat GPT, Claude, Deep Seek. Atualmente existem várias datasets que usamos para medir as capacidades dessas IAs, para mencionar apenas algumas:

O HumanEval por exemplo, mostra as capacidades dos modelos quando testados em códigos. É possível observar na Figura 1 alguns resultados para datasets famosos.


image

Figura 1 | Performance do DeepSeek-Coder-V2 (URL DataCampDeepSeek-Coder-V2 Tutorial: Exemplos, instalação, padrões de…)


É possível também observar na Figura 1 que os modelos atuais, conseguem classificações acima de 90% em algumas destas tarefas, isto é um problema. O objetivo deste artigo é explicar qual problema é este e como resolver ele. Através de um novo tipo de benchmark, chamado Human Last Exam (HLE).

O Problema

No artigo, os autores tratam sobre um problema, um problema explícito na Figura 1. A saturação dos testes atuais. Mas o que isso significa? Significa que, se quisermos avançar no campo da inteligência artificial, precisamos de testes mais complexos, criados por especialistas de várias áreas do conhecimento. Assim como é possível observar na Figura 2.

image

Figura 2 | Áreas do conhecimento nas quais os modelos são testado, usando o HLE (URL https://arxiv.org/pdf/2501.14249) 


A Solução

Como mencionado, a solução dos autores é este novo datasets (HLE), ele contém mais de 3000 perguntas, elaboradas por diversos pesquisadores. As questões seguem alguns princípios básicos:

  • +3000 questões em áreas como: matemática, física, biologia… AI
  • Questões elaboradas por especialistas
  • Várias alternativas e respostas curtas
  • Cada questão tem uma resposta, verificável e não-ambígua
  • As questões não podem ser facilmente respondidas usando a internet

Na Figura 3 podemos observar os resultados obtidos pelos modelos mais capazes, no HLE. Uma precisão inferior a 10%.

image

Figura 3 .| Resultados das medicações para os modelos mais popular e capazes no dataset HLE (URL https://arxiv.org/pdf/2501.14249)

Conclusão

O HLE inaugurou um novo momento da inteligência artificial, um momento em que vamos medir os modelos em tarefas específicas e acadêmicas. Em problemas cuja resposta sabemos mas que são fruto do conhecimento humano específico. Os autores acreditam que até o final de 2025 teremos resultados satisfatórios e isto significa apenas uma coisa: uma boa acuracidade no HLE significa modelos capazes de solucionar questões em nível acadêmico.

Referências

[1] Evidentlyai. 20 LLM evaluation benchmarks and how they work, 2025. URL https://www.evidentlyai.com/llm-guide/llm-benchmarks#coding-benchmarks 

[2] Phan, L., Gatti, A., Han, Z., Li, N., Hu, J., Zhang, H., ... & Schut, L. (2025). Humanity's Last Exam. URL arXiv preprint arXiv:2501.14249.

[3] Datacamp. DeepSeek-Coder-V2 Tutorial: Exemplos, instalação, padrões de referência, 2025. URL https://www.datacamp.com/pt/tutorial/deepseek-coder-v2

[4] Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, H. P. D. O., Kaplan, J., ... & Zaremba, W, 2021. Evaluating large language models trained on code. URL arXiv preprint arXiv:2107.03374.

----------------------------------------------------------------------------------------------


Nota do autor

  • Seja paciente sobre possíveis erros gramaticais, a julgar pela recorrência deles você sabe o quanto eu usei o ChatGPT ou qualquer outra ferramenta para escrever o mesmo.
  • Este trabalho levou tempo para ser pesquisado e filtrado, escrever é uma tarefa nobre e árdua. Se sentir confortável, deixe seu feedback (construtivo).
  • Em caso de dúvidas, deixe nos comentários abaixo (farei o possível para responder a tempo).

Onde me encontrar?

Outros artigos relacionados



Compartilhe
Comentários (1)
DIO Community
DIO Community - 17/02/2025 16:42

Carlos, excelente artigo!

O Human Last Exam (HLE) realmente aponta um novo desafio para o avanço da IA Generativa, levantando a questão fundamental sobre a saturação dos benchmarks tradicionais. Modelos como GPT-4, Claude e DeepSeek já atingem altíssimas taxas de acerto em testes como o HumanEval e MMLU, o que indica que esses benchmarks não representam mais um verdadeiro desafio para os modelos mais avançados.

A introdução do HLE com perguntas mais complexas, elaboradas por especialistas e com respostas verificáveis, parece ser um passo crucial para diferenciar inteligência artificial de inteligência humana especializada. A taxa de acerto inferior a 10% nos melhores modelos atuais mostra que ainda há um longo caminho a percorrer, e isso pode indicar que os modelos ainda não compreendem verdadeiramente o conhecimento, apenas fazem boas predições estatísticas.

Seria interessante saber como o HLE se compara a benchmarks aplicados a tarefas do mundo real, como engenharia de software, pesquisa científica e tomada de decisão estratégica. Você acha que o HLE pode ajudar a IA a ser mais confiável e aplicável a problemas reais, além de melhorar sua capacidade de raciocínio avançado?

Parabéns pelo conteúdo! O futuro da IA está cada vez mais empolgante!