中国AIスタートアップ「ディープシーク」の初期画面 [ディープシーク キャプチャー]
ディープシークは20日(現地時間)、推論能力を持つLLM(大規模言語モデル)R1を発表した。昨年12月に公開したモデルV3をファインチューニング(微調整)して開発し、オープンソースとして公開された。ディープシークが公開した技術分析報告書によると、言語能力を評価するベンチマーク(MMLU)、数学能力を評価するベンチマーク(MATH)でOpenAIの推論モデルo1と似た性能を示し、一部の指標では上回っていることが明らかになった。コストも安い。同じ報告書でディープシークはR1が入力トークン100万個あたり0.55ドル、出力トークン100万個あたり2.199ドルを使うと公開した。o1の場合、入力トークン100万個あたり15ドル、出力トークン100万個あたり60ドル。ディープシークのR1は入力された内容を解釈したり推論したりする際、o1と比べてグラフィック処理装置(GPU)などコンピューティング資源をほとんど使わないということだ。
もちろんディープシーク独自の結果報告書であるだけに検証が必要という見方もある。しかし米国の対中AI半導体輸出規制にもかかわらず、中国企業が「コスパ」のよいAIに集中して成果を出しているという点で危機感を感じる人も多い。OpenAIの共同創業者アンドレイ・カーパシー氏は先月26日、X(旧ツイッター)にティープシークのV3技術報告書を共有し、「我々は持つものを浪費してはならず、これ(ディープシーク)はデータとアルゴリズムの双方で(我々が)まだやるべきことが多いということを見せている」と評価した。
現地では中国に対する規制が「コスパ」のよいAIチップ開発を加速化させたという評価も出てくる。フィナンシャルタイムズ(FT)は「海外から入る高性能チップに対する依存度を減らすために中国のAI企業はアルゴリズム、アーキテクチャー、訓練戦略で新しい接近方式を実験してきた」とし「多くの企業が『混合専門家モデル(Mixture-of-Experts)』接近方式を採択した」と説明した。混合専門家モデルとはクエリ(命令語)に基づき問題の解決に必要な部分だけを活性化する方式で、ディープシークもこの方法を借用した。ウォールストリートジャーナルも元OpenAI GTM(グローバル発売戦略)担当者の発言を引用し「資源制約はよく創意性を促進するという大きな教訓を見せている」と伝えた。
米国はトランプ米大統領の就任後、OpenAI、オラクル、ソフトバンクなどが参加するスターゲートを通して5000億ドル(約78兆円)の投資を発表した。メタも24日、最大650億ドルを投資する計画を公開するなど、米国ではAIに莫大な投資が予告されている。業界では米国と中国のAIチップ戦争が続く中、中国がどれほど早く効率的なAIを開発するかに注目している。
この記事を読んで…