Deepseekの驚くほど安価なAIモデルであるDeepseek V3は、AI市場を揺さぶり、Nvidiaの株価の大幅な低下を引き起こしました。 Deepseekはわずか600万ドルのトレーニングコストを主張していますが、よく見ると、はるかに大きな投資が明らかになります。
画像:Ensigame.com
Deepseek V3の革新的なアーキテクチャは、そのパフォーマンスの鍵です。それは利用します:
- マルチトークン予測(MTP):複数の単語を同時に予測し、精度と効率を高めます。
- 専門家(MOE)の混合物: 256のニューラルネットワークを採用し、各処理タスクに対して8つをアクティブにし、トレーニングを加速し、パフォーマンスを向上させます。
- マルチヘッドの潜在的注意(MLA):重要な詳細を繰り返し抽出し、情報の損失を最小限に抑え、ニュアンスの理解を高めます。
画像:Ensigame.com
しかし、Semianalysisは、Deepseekが約50,000のNvidia Hopper GPUを使用していることを明らかにしました。これは、合計で約16億ドルのサーバーと9億4400万ドルの運用コストである大幅な投資です。これは、研究、改良、データ処理、インフラストラクチャを省略する、600万ドルの公表された600万ドルのトレーニングコストとは対照的です。
中国のヘッジファンドであるHigh-Flyerの子会社であるDeepseekは、データセンターを所有しており、制御と迅速なイノベーションを提供しています。その自己資金のステータスは敏ility性を高めます。同社はトップの才能を引き付け、一部の研究者は主に中国の大学で年間130万ドル以上を稼いでいます。
画像:Ensigame.com
DeepseekのAI開発への5億ドル以上の投資はかなりのものですが、その無駄のない構造により、効率的なイノベーションが可能になります。 600万ドルの数字は誤解を招き、総コストのほんの一部を表しています。それにもかかわらず、DeepSeekのモデルトレーニングコストは、CHATGPT4Oの推定1億ドルなど、競合他社よりも大幅に低く、業界の巨人と比較して費用対効果を強調しています。
画像:Ensigame.com
Deepseekの成功は、十分に資金提供された独立したAI企業が効果的に競争する可能性を示しています。しかし、その成果は、革新的な予算ではなく、実質的な投資、技術の進歩、および強力なチームに根ざしています。