|
2024年12月19日、人工知能研究院は国内外のオープンソースおよび商用のクローズドソース言語、視覚言語、テキスト画像化、テキスト動画化、音声言語の大規模モデル100件以上を対象に、総合的かつ専門的な評価結果を発表し、解釈しました。 今年5月に実施された総合的なモデル能力評価と比較して、今回の知源評価では、タスク解決能力の含意が拡大、充実、洗練され、データ処理、高度なプログラミング、ツール呼び出し能力とタスクが追加されました。また、初めて実際の金融定量取引シナリオへの応用能力の評価が追加され、大規模モデルの収益最適化とパフォーマンス最適化能力が測定されました。さらに、初めてモデル討論に基づく比較評価手法が模索され、論理的推論、視点理解、言語表現などのモデルのコア能力が詳細に分析されました。 AIDAの評価によると、2024年後半の大規模モデルの開発は、総合的な能力と実用性の向上に重点が置かれました。マルチモーダルモデルは急速に発展し、多くの新しいベンダーとモデルが登場しましたが、言語モデルの開発は相対的に減速しました。オープンソースモデルのエコシステムでは、オープンソースへの継続的なコミットメントを表明してきた国内外の組織に加えて、新たなオープンソース貢献者も登場しています。 マルチモーダル評価の包括的なランキング リストには、テキスト、音声、画像、ビデオの理解と生成が含まれます。 言語モデルに関しては、一般的な中国語シナリオにおける自由回答形式の質問応答や生成タスクの能力は飽和状態に達し、安定しています。しかし、複雑なシナリオタスクにおいては、主要な中国言語モデルの性能は依然として国際的なトップレベルに大きく遅れをとっています。 言語モデルの主観的評価は、中国語の言語能力に焦点を当てています。結果によると、ByteDanceのDoubao-pro-32k-previewとBaiduのERNIE 4.0 Turboがそれぞれ1位と2位、OpenAIのo1-preview-2024-09-12とAnthropic Claude-3-5-sonnet-20241022が3位と4位、AlibabaのQwen-Max-0919が5位となりました。客観的評価では、OpenAIのo1-mini-2024-09-12とGoogleのGemini-1.5-pro-latestがそれぞれ1位と2位、AlibabaのQwen-max-0919とByteDanceのDoubao-pro-32k-previewが3位と4位、Meta Llama-3.3-70B-Instructが上位5位にランクインしました。 オープンソースの視覚言語マルチモーダルモデルは、類似したアーキテクチャ(言語タワー+視覚タワー)を示しているものの、その性能は様々です。より高性能なオープンソースモデルは、画像およびテキスト理解タスクにおいて、主要なクローズドソースモデルとの差を縮めつつありますが、ロングテールの視覚知識、テキスト認識、複雑な画像およびテキストデータ分析機能には、依然として改善の余地があります。評価結果では、OpenAI GPT-4o-2024-11-20とByteDance Doubao-Pro-Vision-32k-241028がAnthropic Claude-3-5-sonnet-20241022を上回り、Alibaba Qwen2-VL-72B-InstructとGoogle Gemini-1.5-Proが僅差で追随しました。 マルチモーダルテキスト画像変換(MTA)モデルは、今年上半期には正しい漢字を生成できなかったが、今回の評価では主要モデルが漢字生成能力を獲得した。しかし、複雑なシーンでは依然として文字の歪みが顕著である。常識や知識に基づく推論タスクでは、3未満の量的関係では性能が向上したが、3を超える関係には依然として対応できない。中国文化や古典詩の読解を伴うシナリオは、モデルにとって大きな課題となっている。評価結果では、テンセントの渾源画像が1位、バイトダンスの豆宝画像v2.1と表意文字2.0がそれぞれ2位と3位、OpenAI DALL·E 3と快手克図が2位と3位となった。 Wenshengビデオマルチモーダルモデルは、画質のさらなる向上、ダイナミズムの強化、カメラ言語のリッチ化、そしてよりスムーズなトランジションを実現しています。しかしながら、一般的に、顕著なモーション歪み、物理法則の理解不足、オブジェクトの消失、点滅、クリッピングといった問題が見られます。評価結果では、Kuaishou Keling 1.5(高品質)、ByteDance JiMeng P2.0 pro、AiShi Technology PixVerse V3、MiniMax Hailuo AI、Pika 1.5が上位5位にランクインしました。 音声・言語モデルは、大規模テキストモデルの進歩により、機能が大幅に向上し、カバレッジも拡大しました。しかし、特定のタスクにおいては、依然として専門モデルに遅れをとっています。全体として、高性能で強力な汎用機能を備えたオープンソースの音声・言語モデルは比較的少ないのが現状です。具体的な評価結果では、AlibabaのQwen2-Audioが1位、香港中文大学とMicrosoft WavLLM、清華大学とByteDance Salmonがそれぞれ2位と3位にランクインしました。Nvidia Audio-FlamingoとMITとIBM LTUもトップ5にランクインしました。 4 つの主要な評価ランキング リストでは、モデルの機能の限界とアプリケーションの可能性を複数の側面から検討します。 この評価では、北京人工知能研究院(BAAI)が再び海淀区教員養成学校と協力し、K-12の複数科目の新しいテスト問題を作成し、大規模モデルと人間の学生の能力の違いをさらに調べました。複数の回答が可能な主観的な質問は、引き続き海淀区の教師自身によって採点されました。マルチモーダル能力によって推進された開発のおかげで、このK-12科目テストにおけるモデルの総合スコアは6か月前と比較して12.86%向上しましたが、それでも海淀区の学生の平均レベルには遅れをとっています。英語と歴史(人文科学)の問題では、一部のモデルがすでに人間の受験者の平均スコアを上回っています。ただし、モデルは一般的に人文科学科目に偏りがあり、理科科目に弱点を示しています。 北京人工知能研究院(BAAI)が今年9月に立ち上げた大規模モデルアリーナ「FlagEval」は、ユーザーがモデルへの好みを反映できるオープンなモデル評価サービスです。現在、FlagEvalは国内外の約50の大規模モデルをカバーしており、言語質問応答、マルチモーダルテキスト画像理解、テキスト画像処理、テキスト動画処理の4つの主要タスクについて、オンラインまたはオフラインのカスタムブラインドテストをサポートしています。今回の評価には、29の言語モデル、16のマルチモーダルテキスト画像応答モデル、7つのテキスト画像処理モデル、14のテキスト動画処理モデルが含まれていました。評価の結果、ユーザーはモデルの応答時間に対する要求が高く、より構造化され標準化された出力形式を好むことがわかりました。 北京人工知能研究院(BAAI)は、モデル競争を評価するための大規模モデルアリーナサービスであるFlagEvalの拡張として、今年10月にモデル討論プラットフォーム「FlagEval Debate」を立ち上げました。このプラットフォームは、論理的推論、視点理解、言語表現といったモデルのコア能力を詳細に評価し、言語モデルの能力を差別化します。評価の結果、大規模モデルは一般的に討論の枠組みへの認識が不足しており、トピックを論理的に包括的に表現することができないことが明らかになりました。大規模モデルは依然として討論における「錯覚問題」に悩まされており、その議論は精査に耐えられません。大規模モデルは反論能力に優れており、討論における様々なモデルの強みは収束しつつあり、トピックによってパフォーマンスに大きな差が生じています。 FlagEval Debateの評価結果では、Anthropic Claude-3-5-sonnet-20241022、零一万物Yi-Lighting、OpenAI o1-preview-2024-09-12がトップ3となっています。 今回の評価では、北京人工知能研究院(BAAI)が実際の応用シナリオに基づいた斬新なアプローチを模索しました。モデルの定量的コード実装能力を評価することで、金融定量取引分野におけるモデルの潜在的な応用と商業的価値を探りました。評価の結果、大規模モデルはすでにドローダウンリターンを持つ戦略コードを生成する能力を備えており、典型的な定量取引シナリオ向けのコードを開発できることがわかりました。知識ベースの質問応答では、モデル間の全体的な差は小さく、総合スコアは高かった。しかし、実際のコード生成タスクでは、モデル間に大きな差が見られ、全体的な能力は弱かった。トップクラスのモデルは、ジュニア定量取引業者に迫るレベルに達している。金融定量取引の評価結果では、Deepseek-chat、OpenAI GPT-4o-2024-08-06、Google Gemini-1.5-pro-latestが上位3位にランクインしました。 Zhiyuan の FlagEval 評価システムは、世界中の 800 を超えるオープンソースおよびクローズド ソース モデルをカバーするように反復されています。 この評価は、北京人工知能研究院が2023年6月に立ち上げた大規模モデル評価プラットフォームであるFlagEvalを利用しています。数回の反復を経て、現在では20以上のタスク、90以上の評価データセット、200万以上の評価質問を含む、世界中の800以上のオープンソースおよびクローズドソースモデルをカバーしています。 評価方法とツールの面では、人工知能研究院(AAI)は全国10以上の大学や機関と連携し、AI支援評価モデルFlagJudgeと、柔軟で包括的なマルチモーダル評価フレームワークFlagEvalMMを研究しました。また、北京大学と共同構築したHalluDial錯覚評価セット、北京師範大学と共同構築したCMMUマルチモーダル評価セット、MG18多言語クロスモーダル評価セット、TACO複雑コード評価セット、MLVU長編ビデオ理解評価セットなど、大規模モデルの新機能に挑戦する評価セットも構築しました。中でも、北京大学と共同構築したHalluDialは、1万8000回以上の対話と14万件以上の応答を誇り、現在、対話シナリオにおける世界最大の錯覚評価セットとなっています。 データセットの漏洩や飽和のリスクを軽減するために、この評価では最近リリースされたデータセットを組み込み、評価データを継続的に動的に更新して、質問の 98% を置き換え、質問の難易度を上げています。 北京人工知能研究院(BAAI)副院長兼チーフエンジニアの林永華氏は、評価開始会議において、FlagEval評価システムは科学性、権威性、公平性、そしてオープン性の原則を常に堅持してきたと述べた。技術手法とプラットフォームの継続的な革新を通じて、モデル能力を測定するためのベンチマークを構築し、大規模モデル技術エコシステムの発展に関する洞察を提供することを目指している。2025年には、FlagEval評価システムは動的評価とマルチタスク能力評価システムをさらに探求し、評価をベンチマークとして大規模モデルの発展動向を把握する予定である。(Suky) |
Zhiyuan は、モデル エコシステムの変化する状況を測定して、FlagEval「100 モデル」の評価結果をリリースしました。
関連するおすすめ記事
-
雷軍:Xiaomiは世界最大のスマートエコシステムになるだろう
-
テンセントは、Carbon Search Initiativeの第2フェーズを開始し、最先端の低炭素技術を世界中で募集するために数億人民元を投資します。
-
元ファーウェイの天才が創設したスタートアッププロジェクト「Zhiyuan Robotics」が、初の大型汎用具現化ベースモデルをリリースした。
-
イーロン・マスクの200万ドルの空飛ぶ車がテスト飛行を実施:垂直離着陸。
-
マスク氏:今年は数千台のヒューマノイドロボットを生産する予定で、その後も毎年その数は10倍に増える可能性がある。
-
SpaceX スターシップの 7 回目のテスト飛行が間近に迫っています。推進システムの改良と、ラプター エンジンの初めての再利用が行われます。