Anthropic lança Claude 3.7 Sonnet, IA que inclui capacidade de raciocínio

Depois do Deepseek esses anúncios das outras IAs me parece tão fracos!

Não me causam o mesmo furor de antes!
Isso é comigo apenas?

2 Likes

Será se não é porque eles estão correndo atrás do tempo perdido. Aí parece tudo do mesmo, não está chegando isso (que passou ser o básico, pois os outros já tem) e o algo a mais e inovador.

2 Likes

Porque você provavelmente não faz o uso dessas ferramentas.

O único diferencial do Deepseek é ser open-source, porque não compete em nada com GPT e Claude com seus modos de buscar e refletir.

3 Likes

O que sei é que o CEO da Anthropic falou sobre as inovações do concorrente Deepseek.

O MLA é uma dessas inovações, pois:

  • Inferência Mais Rápida: Ao diminuir a quantidade de dados que o modelo precisa acessar durante a geração de respostas, ele se torna mais rápido.
  • Menos Custo Computacional: A redução do uso de memória e da necessidade de processamento resulta em um custo computacional menor. Isso permite que modelos poderosos sejam executados com menos recursos, democratizando o acesso à tecnologia de IA.
  • Mantém o Desempenho: Apesar de ser mais eficiente, o MLA mantém o desempenho dos modelos de linguagem, garantindo a qualidade das respostas.

A arquitetura do MLA não é apenas um avanço técnico, é uma mudança de paradigma

As Inovações da DeepSeek no Aprendizado por Reforço

A DeepSeek utiliza o RL de maneiras inovadoras:

  • RL puro sem dados supervisionados: O DeepSeek-R1-Zero demonstra que capacidades de raciocínio podem surgir puramente através de RL, sem a necessidade de ajuste fino supervisionado (SFT) como etapa preliminar. Este modelo aprendeu a desenvolver habilidades como autoverificação e reflexão através do RL.
  • Recompensas baseadas em regras: Para o treinamento do DeepSeek-R1-Zero, a DeepSeek empregou um sistema de recompensa baseado em regras que inclui recompensas de precisão e recompensas de formato. As recompensas de precisão avaliam a correção da resposta, enquanto as recompensas de formato forçam o modelo a explicitar o seu processo de pensamento entre tags específicas.
  • Início a frio com dados de alta qualidade: O DeepSeek-R1, para evitar instabilidade no início do treino RL, incorpora uma quantidade de dados CoT de alta qualidade para ajustar o modelo como ator RL inicial. Esses dados são projetados para serem legíveis e fornecer um resumo no final de cada resposta, com o intuito de tornar os processos de raciocínio mais claros.
  • Treinamento iterativo: O processo de treinamento do DeepSeek-R1 envolve várias etapas de RL e SFT. Em primeiro lugar, o modelo é ajustado com dados de inicialização a frio e então passa por RL para melhorar as suas capacidades de raciocínio. Posteriormente, são coletados novos dados SFT, combinando dados supervisionados e gerados através da amostragem de rejeição, antes de uma nova etapa de RL. Esse ciclo iterativo visa melhorar as habilidades de raciocínio do modelo e o alinhamento com as preferências humanas.
  • Destilação: As capacidades de raciocínio aprendidas pelo DeepSeek-R1 são destiladas para modelos menores, resultando em melhor desempenho. Isso demonstra que os padrões de raciocínio descobertos por modelos maiores são cruciais para melhorar as capacidades de raciocínio de modelos menores.

DeepSeek-R1, através de técnicas de RL, demonstra comportamentos sofisticados como reflexão, onde o modelo revisita e reavalia os passos anteriores, além da capacidade de explorar abordagens alternativas para resolver problemas. O DeepSeek-R1-Zero até exibe um “momento aha”, aprendendo a alocar mais tempo de pensamento para um problema, reavaliando sua abordagem inicial. Essas inovações mostram o potencial do RL para criar sistemas de IA mais autônomos e adaptativos.

Não entendo muito, mas pesquiso bastante!

1 Like

Comigo foi desde o anúncio do GPT 4 em 2023

No geral, eu tô igual a você, porém meu gatilho, foi desde o GPT 4o, após, nada me impressionou em UX (msm que no back-end, o modelo da Deepseek seja revolucionário com o “muito que fez com pouco”); mas te falar, nesse caso em especial, me animei com a novidade, apenas pq tudo indica que a Alexa “Inteligente”, deve usar justamente a LLM da Anthropic, então avanços no Claude AI em especial, me animam nesse momento!

1 Like

Ele simplesmente não é bom. Não ainda. Vive travando, vários erros, base de dados de 2023, nem sempre faz upload de arquivos. Dependendo do uso, o gpt e Gemini ainda são os melhores. Realmente é pensamento de quem não usa no dia-a-dia. Só lê sobre, mas não usa.

Você ta falando do site?
Não, site não uso não