image

Bootcamps ilimitados + curso de inglês para sempre

80
%OFF
Article image
Carlos Lima
Carlos Lima27/01/2025 17:41
Compartilhe

Eu li o paper sobre o DeepSeek-R1 e vou te explicar porque ele é melhor que o CHATGPT

  • #Inteligência Artificial (IA)
Olá pessoal, não iria escrever mais essa semana, mas resolvi compartilhar com vocês para lhes manter informados (aqueles que optaram por seguir na carreira com IA).


Para o caso de você não estar ciente, o DeepSeek-R1 é um novo modelo generativo desenvolvido por uma startup chinesa. Além de representar um novo modelo no mercado, os criadores afirmam que se trata do mais novo rival do ChatGPT. Mas não de qualquer rival.

image

Como costumo comentar, é fundamental entender a matemática envolvida na Inteligência Artificial, porque desta forma é possível entender o que significa pensar. Desde ponto de vista, o modelo 4-omni disponível ao usuário pela Openai, não é capaz de pensar. Chamamos essa habilidade de reasoning, e você teria que desembolsar algumas centenas de dólares (para ter acesso aos modelos com essas habilidades). O DeepSeek-R1, surge como um rival, Open Source, e que possui essa habilidade. Isto coloca foca na corrida em busca do melhor modelo possível (AGI), em especial pela forma como a Startup conseguiu esses resultados, que foram debatidos em um paper referente ao novo modelo, DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.

image

Antes de debatermos o que o paper demonstra e porque isso é importante, você precisa entender algo. Como o ChatGPT foi treinado. Imagine uma criança que recebeu a melhor educação que o mundo pode pagar, ela entrou em contato com artigos, conversa, livros, blogs, depois foi testada nesse conhecimento sistematicamente, depois deste conhecimento prévio ela recebeu instruções específicas de como conversar com humanos (por exemplo). Até que finalmente, os humanos começam a avaliar as respostas delas dando feedback para boas respostas e ajudando quando as respostas não são tão boas. Assim o GPT foi treinado, isto assegura que ele é um generalista (uma vez que ele teve contato com uma infinidade de informações). Ele não pensa de fato, é como mímica, ele viu tantas vezes que sabe a resposta (quase que automaticamente). Mas e o DeepSeek-R1?

image

O R1 é para Reasoning, seria o equivalente às máquinas ao que chamamos de raciocínio. Imagine o DeepSeek como outra criança, mas que ao invés de receber essa educação ‘formal’, aprendeu fazendo! Ele recebeu algumas instruções, mas quando você solicita algo, ele começa a pensar, como alguém tentando montar um quebra cabeça. Então por exemplo, se você perguntar se 0.9 é maior que 0.011 ele começará a fazer cálculos e concluir que sim, 0.9 é maior!

image

Resultado do DeepSeek-R1 em relação a outros LLMs (img source: https://medium.com/@suneelkphd/breaking-down-the-benchmarks-how-does-deepseek-v3-stack-up-3e133e3f6807)

Porque isso importa? Uma vez que no papel eles explicam como isso foi feito, outros pesquisadores podem reproduzir esses textos e produzir modelos ainda mais eficientes, agora uma tecnologia restrita está acessível para os demais praticamente de Machine Learning. Isto é incrível, porque a Startup conseguiu este feito com menos recursos que a grandiosa Openai.

Com os avanços descobertos após a publicação do artigo, descobrimos que o DeepSeek-R1 com menos recursos superou o GPT em algumas tarefas, demonstrando que o método que eles usaram pode ser mais eficiente e mais barato. Além claro, de pressionar a Openai a rever suas políticas em relação aos valores dos seus modelos generativos. Esperamos que no futuro treinar o novo modelo seja uma tarefa trivial, como a programação é para muitos e este trabalho é um pequeno passo nessa direção.


TL;DR (Muito Longo Para Ler)

  • O DeepSeek-R1 apresenta alguns resultados superiores a modelos generativos de empresas com mais recursos (como a Openai)
  • Eles criaram um método novo para treinar o modelo que é superior a abordagem Atual
  • Diferente do GPT que apenas faz mímica com base no que aprendeu o DeepSeek-R1 pensa para responder as tarefas.

Nota do autor

  • Seja paciente sobre possíveis erros gramaticais, a julgar pela recorrência deles você sabe o quanto eu usei o ChatGPT ou qualquer outra ferramenta para escrever o mesmo.
  • Este trabalho levou tempo para ser pesquisado e filtrado, escrever é uma tarefa nobre e árdua. Se sentir confortável, deixe seu feedback (construtivo).
  • Em caso de dúvidas, deixe nos comentários abaixo (farei o possível para responder a tempo).

Se gostou deste tipo de conteúdo você pode me seguir na DIO ou em outras plataformas:

Outros ensaios na DIO


Compartilhe
Recomendados para você
Microsoft 50 Anos - Prompts Inteligentes
Microsoft 50 Anos - GitHub Copilot
Microsoft 50 Anos - Computação em Nuvem com Azure
Comentários (4)
Patrick Penna
Patrick Penna - 28/01/2025 14:24

Chineses são incríveis em tec. Ótimo artigo

DIO Community
DIO Community - 28/01/2025 09:39

Que artigo incrível sobre o DeepSeek-R1, Carlos! A ideia de um modelo que foca em reasoning (raciocínio) ao invés de apenas gerar respostas com base em padrões prévios é um marco na evolução dos modelos de linguagem.

O destaque para o método de treinamento do DeepSeek-R1, que envolve aprendizado ativo ao invés de apenas imitar padrões, é impressionante. Isso aproxima o modelo de um comportamento mais humano, como montar um quebra-cabeça para chegar a respostas lógicas, algo que amplia consideravelmente suas possibilidades de aplicação.

Além disso, o fato de que o DeepSeek-R1 conseguiu superar modelos maiores com menos recursos reflete a eficiência do método proposto. Tornar tecnologias avançadas mais acessíveis e replicáveis é um passo importante para democratizar o acesso à IA e pressionar grandes players como a OpenAI a revisarem suas abordagens e custos.

Você já pensou em como modelos com habilidades de reasoning como o DeepSeek-R1 poderiam impactar o mercado? Alguma aplicação específica que você imagina onde ele poderia brilhar?

Na DIO, acompanhamos de perto esses avanços para garantir que nossos profissionais tenham as melhores ferramentas e insights. Conte conosco para explorar mais sobre esse universo de IA!

William Silva
William Silva - 28/01/2025 07:01

Muito bom o artigo e vamos nessa pessoal! 🙌

RA

Ricardo Azevedo - 27/01/2025 19:32

DeepSeek nasceu do ChatGPT, que nasceu de Turing, que nasceu de Tomas Edson, que nasceu de Tesla, que nasceu do Relâmpago 🌩️, que nasceu da Natureza ,que foi criada por Deus. Dêem glória a Deus, o resto é Clone ou Imitação.