SHOUJIKE

アリババが全く新しい推論モデルを発表:パラメータはわずか21分の1で、DeepSeek R1に匹敵

3月6日、アリババのQwenチームは最新の研究成果であるQwQ-32B大規模言語モデルを正式に発表した。

これは 320 億のパラメータを持つモデルであり、そのパフォーマンスは 6710 億のパラメータ (そのうち 370 億がアクティブ) を持つ DeepSeek-R1 に匹敵します。

QwQ-32B は、DeepSeek-R1 の約 21 分の 1 のパラメータ数で強化学習を使用し、パフォーマンスの飛躍的な向上を実現します。

さらに、Alibaba はエージェント関連の機能を推論モデルに統合し、ツールを使用しながら批判的に考え、環境からのフィードバックに基づいて推論プロセスを調整できるようにしました。

QwQ-32B は、数学的推論、プログラミング スキル、および一般的な能力を評価する一連のベンチマーク テストで評価されました。

数学的能力をテストするための AIME24 ベンチマーク セットとコーディング能力を評価するための LiveCodeBench において、QwQ-32B は DeepSeek-R1 に匹敵するパフォーマンスを発揮し、同じサイズの o1-mini および R1 蒸留モデルをはるかに上回るパフォーマンスを発揮しました。

一方、Metaのチーフサイエンティストであるヤン・リークン氏が主導する「最も難しいLLMベンチマーク」であるLiveBench、Googleなどが提案するIFEvalベンチマークセット、カリフォルニア大学バークレー校などが提案する関数やツールの呼び出し精度を評価するBFCLテストでは、いずれもQianwen QwQ-32BのスコアがDeepSeek-R1を上回った。

現在、QwQ-32BはHugging FaceとModelScopeでオープンソース化されており、Qwen Chatを通じて直接体験することもできます!(Suixin)