O modelo de IA surpreendentemente barato de Deepseek, Deepseek V3, abalou o mercado de IA, causando quedas significativas no preço das ações da NVIDIA. Enquanto Deepseek reivindica um custo de treinamento de meros US $ 6 milhões, uma aparência mais atenta revela um investimento muito mais substancial.
imagem: ensigame.com
A arquitetura inovadora da DeepSeek V3 é a chave para seu desempenho. Utiliza:
- Previsão com vários toques (MTP): Prevendo várias palavras simultaneamente, aumentando a precisão e a eficiência.
- Mistura de especialistas (MOE): Emprega 256 redes neurais, ativando oito para cada tarefa de processamento, acelerando o treinamento e melhorando o desempenho.
- Atenção latente de várias cabeças (MLA): Extrai repetidamente os principais detalhes, minimizando a perda de informações e aprimorando a compreensão das nuances.
imagem: ensigame.com
No entanto, a semiânica descobriu o uso da Deepseek de aproximadamente 50.000 GPUs da NVIDIA Hopper - um investimento significativo totalizando aproximadamente US $ 1,6 bilhão em servidores e US $ 944 milhões em custos operacionais. Isso contrasta acentuadamente com o custo pré-treinamento de US $ 6 milhões divulgado, que omite pesquisas, refinamento, processamento de dados e infraestrutura.
A Deepseek, uma subsidiária da High-Flyer, um fundo de hedge chinês, possui seus data centers, fornecendo controle e inovação mais rápida. Seu status autofinanciado aumenta a agilidade. A empresa atrai os melhores talentos, com alguns pesquisadores ganhando mais de US $ 1,3 milhão anualmente, principalmente das universidades chinesas.
imagem: ensigame.com
Embora o investimento de US $ 500 milhões de US $ 500 milhões em desenvolvimento seja substancial, sua estrutura enxuta permite inovação eficiente. O valor de US $ 6 milhões é enganoso, representando apenas uma fração do custo total. Apesar disso, os custos de treinamento de modelos da Deepseek são significativamente menores que os concorrentes, como os US $ 100 milhões estimados para o ChatGPT4O, destacando sua relação custo-benefício em relação aos gigantes da indústria.
imagem: ensigame.com
O sucesso da Deepseek mostra o potencial de empresas independentes de IA bem financiadas para competir de maneira eficaz. No entanto, suas realizações estão enraizadas em investimentos substanciais, avanços tecnológicos e uma equipe forte, não um orçamento revolucionário.