|
3月6日、アリババのQwenチームは最新の研究成果であるQwQ-32B大規模言語モデルを正式に発表した。 これは 320 億のパラメータを持つモデルであり、そのパフォーマンスは 6710 億のパラメータ (そのうち 370 億がアクティブ) を持つ DeepSeek-R1 に匹敵します。 QwQ-32B は、DeepSeek-R1 の約 21 分の 1 のパラメータ数で強化学習を使用し、パフォーマンスの飛躍的な向上を実現します。 さらに、Alibaba はエージェント関連の機能を推論モデルに統合し、ツールを使用しながら批判的に考え、環境からのフィードバックに基づいて推論プロセスを調整できるようにしました。 QwQ-32B は、数学的推論、プログラミング スキル、および一般的な能力を評価する一連のベンチマーク テストで評価されました。 数学的能力をテストするための AIME24 ベンチマーク セットとコーディング能力を評価するための LiveCodeBench において、QwQ-32B は DeepSeek-R1 に匹敵するパフォーマンスを発揮し、同じサイズの o1-mini および R1 蒸留モデルをはるかに上回るパフォーマンスを発揮しました。 一方、Metaのチーフサイエンティストであるヤン・リークン氏が主導する「最も難しいLLMベンチマーク」であるLiveBench、Googleなどが提案するIFEvalベンチマークセット、カリフォルニア大学バークレー校などが提案する関数やツールの呼び出し精度を評価するBFCLテストでは、いずれもQianwen QwQ-32BのスコアがDeepSeek-R1を上回った。 現在、QwQ-32BはHugging FaceとModelScopeでオープンソース化されており、Qwen Chatを通じて直接体験することもできます!(Suixin) |
アリババが全く新しい推論モデルを発表:パラメータはわずか21分の1で、DeepSeek R1に匹敵
関連するおすすめ記事
-
報道によると、Google Cloud Chinaのトップ幹部である李孔元氏が同社を去り、元マイクロソフト幹部の沈斌氏が後任となる見込みだという。
-
工業情報化部:2025年までに450万以上の5G基地局の建設を目指す。
-
スタンフォード大学の研究者たちは、裁判文書にChatGPTの使用による誤りがあったことを認めたが、それが文書の実質的な内容に影響を与えなかったと主張した。
-
Zuoyebang学習機T30が発売、学習と練習の2in1モードを追加
-
1億8500万人民元の収益と約3000億人民元の時価総額を支え、中国版Nvidiaとも言えるCambriconが誕生した。
-
ウォーレン・バフェット氏は自身の資産の0.5%を子供たちに残す計画。ネットユーザーらは概算で約100億人民元になると見積もっている。