SHOUJIKE

中国のAIモデルがシリコンバレーに衝撃を与えた。DeepSeekが一夜にして話題になったのはなぜだろうか?

1月28日、中国のAI企業DeepSeekが発表したDeepSeek-R1モデルが業界に衝撃を与えたと報じられました。このモデルは、低コストで少ない計算能力で、米国のトップAIモデルに匹敵する性能を実現しています。

現地時間1月27日、Apple App Storeの米国無料アプリダウンロードチャートで、DeepSeekがChatGPTを抜いてトップに躍り出た。この現象を受け、欧米メディアは「中国のAIモデルがシリコンバレーに衝撃を与えている」と称賛する記事を掲載した。

報道によると、ゴールドマン・サックスは、中国のAIビッグデータモデル「DeepSeek」の急速な台頭を受け、ヘッジファンドは米国で育まれたAIモデルブームが持続可能かどうかを見極め始めているという報告書を発表した。また、報告書は、ヘッジファンドが先週、テクノロジー株への投資撤退を開​​始したと指摘している。

月曜日の米国株式市場はハイテク株の売りに見舞われ、ナスダックは3.5%以上下落して寄り付き、半導体関連銘柄も軒並み下落した。月曜日の取引終了時点で、NVIDIAの株価は16.97%急落し、時価総額は約5,900億ドル減少した。これはAMDの時価総額の3倍に相当する。Broadcomは17.4%、AMDは6.37%、ASMLは5.75%、TSMCは13.33%下落した。

DeepSeekとは何ですか?

2023年7月17日に設立されたDeepSeekは、著名な定量資産運用大手のMagic Square Quantによって設立された革新的なテクノロジー企業であり、高度な大規模言語モデル(LLM)と関連テクノロジーの開発に重点を置いています。

Magic Square Quantの代表である梁文鋒氏は、DeepSeekの創設者です。広東省湛江市生まれ。浙江大学で情報電子工学の学士号と修士号を取得。2008年からチームを率い、機械学習などの技術を用いた完全自動化クオンツ取引の研究に携わりました。Magic Square Quantは2015年に正式に設立されました。

2021年、環方クオンツの運用資産は1,000億人民元を超え、国内クオンツ・プライベートエクイティ分野の「四天王」に名を連ねました。2023年には、梁文鋒が汎用人工知能分野への本格参入を発表し、真に人間レベルの人工知能の創造に注力するDeepSeekを設立しました。

2024年5月、DeepSeekはハイブリッドエキスパート言語モデルDeepSeek-V2をリリースしました。同年12月にはDeepSeek-V3がリリースされました。この高性能かつコスト効率の高い大規模言語モデルは、シリコンバレーの同業者から「東からの謎の勢力」と称賛されました。

かつて、雷軍が年俸数千万で引き抜いた95年以降のAI「天才少女」、羅富里は、DeepSeek-V2の主要開発者の一人だった。

Elephant Newsによると、DeepSeekチームのメンバーは140人未満で、そのほとんどが清華大学、北京大学、北京航空航天大学といった一流大学の博士課程修了者、在学生、修士課程の学生で構成されています。さらに、チームには海外からの帰国者はおらず、完全に地元の優秀な人材で構成されています。

DeepSeek がなぜこれほど人気になったのでしょうか?

DeepSeekはここ2日間、テクノロジー界で注目を集めているが、主な理由は同社がOpenAIのChatGPTに匹敵する大規模なAIモデルを非常に低コストでトレーニングしたことだ。

今年1月20日、DeepSeekは大規模モデル「DeepSeek-R1」を正式にリリースし、同時にモデルの重みをオープンソース化しました。DeepSeek-R1は、数学、コーディング、自然言語推論などのタスクにおいて、OpenAIのO1モデルの公式バージョンと同等の性能を発揮し、MITライセンスに基づいてライセンスされているため、商用利用、改変、派生開発の自由度が確保されています。

Daily Economic Newsによると、DeepSeek-R1の事前学習コストはわずか557万6000ドルで、OpenAI GPT-4oモデルの学習コストの10分の1以下でした。一方、DeepSeekはAPI価格を発表しました。入力トークン100万個あたり1元(キャッシュヒット)/ 4元(キャッシュミス)、出力トークン100万個あたり16元です。これはOpenAI O1の運用コストの約30分の1に相当します。

業界関係者は、DeepSeekが「コンピューティング能力こそが全て」という業界のルールを打ち破っていると考えています。これまで、OpenAIのスケーリング則は、世界中のAIモデルベンダーからゴールドスタンダードと考えられていました。これは、コンピューティング規模が大きく、トレーニングデータが多いほど、モデルの知能が高くなるというものです。このことが、NVIDIAなどの企業が、より強力なコンピューティング能力を備えた製品を継続的に開発するきっかけとなっています。DeepSeekは、ソフトウェアアーキテクチャとアルゴリズムのイノベーションが、より高性能なAIモデルへの道筋となる可能性を業界に示しています。

このニュースを受けて、ナスダック総合指数は月曜日の寄り付き時に3.5%以上急落し、半導体関連銘柄は軒並み下落しました。月曜日の取引終了までに、NVIDIA、TSMC、Broadcom、AMD、ASMLなどの銘柄は、それぞれ程度の差はあれ、いずれも下落しました。中でもNVIDIAの16.97%の急落は最も顕著で、時価総額は5,900億ドル近く減少しました。これはAMDの時価総額の3倍に相当します。

その後、NVIDIAは「DeepSeekの研究は、テスト時のコンピューティングスケーリング技術を用いて、広く利用可能なモデルと輸出管理規制に完全に準拠したコンピューティング能力を最大限に活用し、新しいモデルを作成する方法を実証しています」という声明を発表しました。これは、DeepSeekがNVIDIAチップに関する米国の輸出管理規制に違反していないことを示唆しています。

Nvidiaは声明の中で、DeepSeekのようなAI企業は推論のために大量のNvidia GPU(グラフィックス・プロセッシング・ユニット)と高性能ネットワークを必要としており、DeepSeekの爆発的な人気は同社のチップに対する需要が依然としてあることを示しているとも述べた。

海外メディアの報道によると、Metaは国内開発の大規模モデルDeepSeekの動作原理を研究し、その研究に基づいて自社の大規模モデルLlamaを改良するため、4つの専門研究グループを設立した。そのうち2つのグループは、魔方陣量子化がDeepSeekのトレーニングと実行コストをどのように削減できるかを解明しようとしている。

需要が急増し、DeepSeek が過負荷でクラッシュ、創設者が対応。

DeepSeek の人気が高まるにつれ、1 月 26 日にアプリが短時間クラッシュする問題が発生しました。

DeepSeekは、確かにその日の午後に局所的なサービス変動があったものの、数分以内に問題は解決したと回答しました。このインシデントは、新モデルのリリース後にユーザートラフィックが急増し、大量の同時接続ユーザーを処理できなくなったサーバーが過負荷状態になったことが原因である可能性が高いとのことです。

1月27日の夕方、DeepSeekのサービスステータスページには、DeepSeekのウェブサイトが利用できず、同社が問題を調査中であることが表示されました。多くのユーザーから、DeepSeekがチャットでの質問に回答できないという報告がありました。

1月28日午前、DeepSeekはサービス状況ページにて、オンラインサービスが最近大規模な悪意のある攻撃を受けたため、登録が混雑している可能性があることをお知らせしました。しばらくお待ちいただき、もう一度お試しください。登録済みのユーザーは通常通りログインできます。ご理解とご協力をよろしくお願いいたします。

梁文鋒氏は最近のメディアインタビューで、中国のAIは永遠に追随者でいることはできないと述べた。「中国のAIは米国より1、2年遅れているとよく言われますが、本当の差は独創性と模倣性の違いにあります。この差が変わらなければ、中国は永遠に追随者であり続けるでしょう。ですから、ある程度の探求は避けられません。」

彼は、NVIDIAのリーダーシップは一企業の努力だけでなく、欧米のテクノロジーコミュニティと業界全体の共同努力の成果だと考えています。NVIDIAは次世代の技術トレンドに対するビジョンとロードマップを既に持っています。中国におけるAIの発展にも、このようなエコシステムが必要です。

最新ニュースによると、DeepSeekは本日早朝、画像生成機能を備えたマルチモーダルAIモデル「Janus-Pro-7B」をオープンソースとして公開しました。Liang Wenfeng氏によると、Janus-Pro-7BはGenEvalおよびDPG-Benchベンチマークテストにおいて、OpenAIのDALL-E3およびStable Diffusionを上回ったとのことです。