SHOUJIKE

AIが人間のようにコンピューターを操作できるようにします!AnthropicがClaude 3.5 Sonnetモデルの新機能をリリースしました。

10月23日、OpenAIの競合企業Anthropicは、アップグレードされたClaude 3.5 Sonnetと新しいClaude 3.5 Haikuを発表しました。

Anthropicによると、アップグレードされたClaude 3.5 Sonnetは、革新的な新機能、つまり人間のようにコンピューターを操作する能力を獲得しました。さらに、アップグレードされたClaude 3.5 Sonnetモデルは、あらゆる面で前モデルを凌駕しており、特にコードが大幅に改善されたことで、業界をリードする地位をさらに確固たるものにしています。

新しい Claude 3.5 Haiku は、多くの評価において、Anthropic の以前の最大モデルである Claude 3 Opus のパフォーマンスに匹敵し、前世代の Haiku と同じコストと速度を備えています。

アップグレードされたClaude 3.5 Sonnetがすべてのユーザーにご利用いただけるようになりました。開発者は本日より、Anthropic API、Amazon Bedrock、Google Cloud上のVertex AIを使用してベータ版をベースに開発を行うことができます。新しいClaude 3.5 Haikuは今月下旬にリリースされる予定です。

アップグレードされた Claude 3.5 Sonnet: 優れたコーディング機能、「コンピュータの使用」機能のパブリック ベータ。

報道によると、アップグレードされたClaude 3.5 Sonnetは、業界ベンチマークにおいて卓越したパフォーマンスを発揮しています。SWE-bench Verifiedコーディングテストのスコアは33%から49%に飛躍的に向上し、現在公開されているすべてのモデルを上回りました。TAU-bench(ツールとAPIを活用するモデルの能力を評価するベンチマーク)では、小売スコアが62.6%から69.2%に、航空スコアが36.0%から46.0%に向上しました。これらの包括的なパフォーマンス向上にもかかわらず、Claude 3.5 Sonnetの価格は以前のバージョンと変わりません。

さらに、Anthropicからの初期の顧客フィードバックによると、アップグレードされたClaude 3.5 SonnetはAIを活用したコーディングにおいて大きな飛躍を示すことが示されています。GitLabはDevSecOpsタスクでこのモデルをテストし、レイテンシを増加させることなく推論能力が大幅に向上(ユースケース全体で最大10%向上)することを確認しました。これは、複数段階のソフトウェア開発プロセスのサポートに最適です。

一方、AnthropicはClaude 3.5 Sonnetパブリックベータ版で画期的な新機能「コンピュータ操作」を発表しました。開発者はAPIアクセスを通じて、人間が画面を見たり、カーソルを動かしたり、ボタンをクリックしたり、テキストを入力したりするのと同じように、Claudeにコンピュータの使い方を指示することができます。

Anthropic社は、Claude 3.5 Sonnetがパブリックベータ版で「コンピュータ使用」機能を提供する最初のAIモデルであると述べました。この機能は現在実験段階ですが、今後急速に機能が向上することが期待されています。

アントロピック社は、「コンピュータ使用」能力に関して、クロードが個々のタスクを完了するのを支援するための特定のツールを作成するのではなく、一般的なコンピュータスキルを学習させることで、人間向けに設計された様々な標準ツールやソフトウェアプログラムを使用できるようになったと説明しています。開発者は、この新たな能力を活用して、反復的なプロセスの自動化、ソフトウェアの構築とテスト、そして研究などのオープンエンドタスクの実行が可能になります。

Anthropicは、Claudeがコンピュータインターフェースを認識し、操作できるようにするAPIを構築しました。開発者はこのAPIを統合することで、Claudeが指示(「自分のコンピュータとオンラインデータを使ってこのフォームに入力してください」など)をコンピュータコマンド(スプレッドシートの確認、カーソルを移動してウェブブラウザを開く、関連するウェブページへ移動する、そのウェブページのデータを使ってフォームに入力するなど)に変換できるようにすることができます。

パフォーマンス面では、AIモデルが人間のようにコンピューターを操作する能力を評価するOSWorldにおいて、Claude 3.5 Sonnetはスクリーンショットのみのカテゴリで14.9%のスコアを獲得し、2位のAIシステムの7.8%を大きく上回りました。タスク完了に複数のステップが与えられた場合、Claudeは22.0%のスコアを獲得しました。

しかし、Anthropicは、Claude 3.5 Sonnetの現在のコンピュータとの連携機能は完璧ではないことも強調しました。スクロール、ドラッグ、ズームなど、人間が容易に実行できる操作の一部は、Claudeにとって現状では課題となっており、開発者にはリスクの低いタスクから検討を始めることを推奨しています。

Asana、Canva、Cognition、DoorDash、Replit、そしてブラウザ関連企業は、数十、あるいは数百もの手順が必要となるタスクを実行するために、これらの機能の検討を開始していると認識されています。例えば、ReplitはClaude 3.5 Sonnetの「コンピュータ使用状況」とUIナビゲーション機能を活用し、Replit Agent製品向けアプリケーションの構築時に評価された主要機能を開発しています。

以下は、クロードによる AI によるコンピューター操作の最新デモンストレーションのスクリーンショットです。

このデモンストレーションでは、クロードはさまざまなタブを閲覧し、必要な情報を収集し、フォームに入力しました。すべてのコンピューター操作はクロードによって生成されました。

クロード3.5俳句:最速モデル

新たに発売されたClaude 3.5 Haikuは、Anthropicの次世代最速モデルです。Claude 3 Haikuと同等の価格と同等の速度で、Claude 3.5 Haikuはあらゆるスキルセットにおいて性能向上を実現し、多くのインテリジェンスベンチマークにおいて、Anthropicの前世代最大モデルであるClaude 3 Opusを凌駕しています。

Claude 3.5 Haikuはコーディングタスクにおいて特に優れたパフォーマンスを発揮します。例えば、SWEベンチVerifiedでは40.6%のスコアを記録し、オリジナルのClaude 3.5 SonnetやGPT-4oを上回りました。

Claude 3.5 Haiku は、低レイテンシ、改善されたコマンドコンプライアンス、より正確なツール使用により、ユーザー向け製品、特殊なサブエージェントタスク、購入履歴、価格、在庫記録などの大量のデータからパーソナライズされたエクスペリエンスを生成するのに最適です。

Anthropic は、Claude 3.5 Haiku が今月後半にリリースされ、その後に画像入力機能がリリースされる予定であると述べました。

AnthropicはOpenAIの元従業員によって設立された企業であり、Amazonが主要投資家です。Amazonは今年3月、生成AI技術の開発をさらに推進するため、Anthropicに40億ドルの投資を完了したことを発表しました。

アンスロピックは2023年3月、Claude 3シリーズ(Claude 3 Haiku、Claude 3 Sonnet、Claude 3 Opus)をリリースし、その後も各モデルの機能をアップグレード・改良してきました。今年6月には、アンスロピック史上最強のモデルであるClaude 3.5 Sonnetをリリースしました。このモデルは、前モデルと比較して推論速度が2倍、呼び出しコストが5分の1に向上しています。(郭青)