SHOUJIKE

Alibaba Cloud のオープンソース推論モデル QwQ-32B は、本格的な DeepSeek-R1 に匹敵するパフォーマンスを誇り、Tongyi アプリで利用できます。

3月6日、Alibaba Cloudはオープンソース推論モデル「QwQ-32B」をリリースしました。6,710億個のパラメータを持つこのモデルは、DeepSeek-R1に匹敵する性能を誇ります。QwQ-32BはQw2.5-32B+強化学習に基づいており、開発者や企業はコンシューマーグレードのハードウェアにローカルで容易に導入できます。

ユーザーはQwen Chat (https://chat.qwen.ai) を通じてオンラインでアクセスできます。

ユーザーはTongyiアプリを通じて最新のQianwen QwQ-32Bモデルを無料で体験することもできます。

現在、QwQ-32B は、Apache 2.0 オープンソース ライセンスに基づき、Hugging Face および ModelScope コミュニティでオープンソース化されています。

誰でも無料でモデルをダウンロードしてローカルに展開したり、Alibaba Cloud Bailian プラットフォームを通じてモデル API サービスを直接呼び出すことができます。

クラウド展開のニーズに対して、ユーザーは Alibaba Cloud PAI プラットフォームを通じてモデルを迅速に展開し、モデルの微調整、評価、アプリケーション構築を実行できます。また、Alibaba Cloud GPU コンピューティング パワー (GPU クラウド サーバー、Container Computing Service (ACS) など) と組み合わせて Container Service for Alibaba Cloud (ACK) を選択し、モデルのコンテナ化された展開と効率的な推論を実現できます。

QwQ-32Bチームは、大規模な強化学習(RL)が、モデル性能の向上において従来の事前学習および事後学習手法を上回る可能性を秘めていると指摘しています。最近の研究では、強化学習によってモデルの推論能力が大幅に向上することが示されています。例えば、DeepSeek R1は、コールドスタートデータと多段階学習を統合することで最先端の性能を実現し、深い思考と複雑な推論を実行できます。

最新の推論モデルである QwQ-32B は 320 億のパラメータを持ち、そのパフォーマンスは 6,710 億のパラメータ (そのうち 370 億がアクティブ) を持つ DeepSeek-R1 に匹敵します。

QwQ-32Bは、一連のベンチマークテストで評価され、数学的推論能力、プログラミング能力、汎用性を評価しました。以下の結果は、QwQ-32Bと、DeepSeek-R1-Distilled-QwQ-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini、そしてオリジナルのDeepSeek-R1を含む他の主要モデルとのパフォーマンス比較を示しています。

QwQ-32Bモデルは非常に優れたパフォーマンスを発揮し、OpenAI-o1-miniをほぼ完全に上回り、最強のオープンソース推論モデルであるDeepSeek-R1に匹敵しました。数学的能力をテストするAIME24ベンチマークと、コーディング能力を評価するLiveCodeBenchにおいて、QwQ-32BはDeepSeek-R1とほぼ同等の性能を示し、o1-miniや同規模の他のR1蒸留モデルをはるかに上回りました。Metaのチーフサイエンティストであるヤン・リクン氏が主導する「最も難しいLLMベンチマーク」であるLiveBench、Googleなどが提案した命令コンプライアンスを評価するIFEvalベンチマーク、そしてカリフォルニア大学バークレー校などが提案した関数やツールの正確な呼び出しを評価するBFCLテストにおいて、QwQ-32BのスコアはすべてDeepSeek-R1を上回りました。

QwQ-32Bチームは、この成果は大規模な事前学習を経た堅牢な基礎モデルに強化学習を適用することの有効性を浮き彫りにするものだと述べています。さらに、研究チームはエージェント関連の機能をQwQ-32B推論モデルに統合し、ツールを使用しながら批判的に思考し、環境からのフィードバックに基づいて推論プロセスを調整できるようにしました。

報道によると、初期段階では、QwQ-32Bモデルは数学およびプログラミングタスクに特化した強化学習(RL)を用いて訓練されました。従来の報酬モデルとは異なり、このモデルは生成された解答の正しさを検証することで数学の問題に関するフィードバックを提供し、コード実行サーバーが生成されたコードがテストケースに合格したかどうかを評価することでコード自体に関するフィードバックを提供します。訓練エポックが進むにつれて、両方の領域でパフォーマンスが継続的に向上しました。最初のRLフェーズの後、汎用的な能力をターゲットとした別のRLが追加されました。このフェーズでは、汎用的な報酬モデルといくつかのルールベースのバリデータを用いて訓練を行いました。最終的に、汎用的なRLを数ステップ行うことで、数学およびプログラミングタスクにおけるパフォーマンスの大幅な低下なしに、他の汎用的な能力を向上させることができることがわかりました。(Guo Qing)