SHOUJIKE

Anthropic は初のハイブリッド推論モデルである Claude 3.7 Sonnet をリリースしました。最高レベルのコーディング機能を誇り、モデルの思考時間を柔軟に制御できます。

2月25日、米国におけるOpenAIの最大のライバルであるAnthropicは、Claude 3.7 Sonnetと呼ばれる新しいモデルと、Claude Codeと呼ばれるエンコードツールをリリースした。

Anthropic社は、Claude 3.7 Sonnetが同社で最もインテリジェントなAIモデルであり、同社初のハイブリッド推論モデルであると述べています。Claude 3.7 Sonnetは、深い推論(思考パターンを拡張し、複雑な回答を段階的に検討する)と迅速な応答(標準モード、リアルタイムで回答を生成する)の両方を備えています。APIユーザーは、モデルの思考時間をきめ細かく制御できます。

Claude 3.7 Sonnet はコーディングとフロントエンド Web 開発において大幅な改善をもたらし、総合的なリーダーシップを獲得しました。

Claude 3.7 Sonnet の価格は、前身の Claude 3.5 Sonnet と同じで、入力トークン 100 万個あたり 3 ドル、出力トークン 100 万個あたり 15 ドルです。

最初のハイブリッド推論モデル

Anthropic は、Claude 3.7 Sonnet が市場の他の推論モデルとは異なり、ハイブリッド推論モデルであることを強調しています。

人間が素早い反応と深い思考に同じ脳を使うのと同じように、推論も完全に独立したモデルではなく、最先端モデルの包括的な機能であるべきだと私たちは考えています。この統合的なアプローチは、ユーザーにとってよりシームレスな体験も生み出します。

まず、Claude 3.7 Sonnet は、一般的な大規模言語モデルと推論モデルの両方です。モデルにすぐに回答させるタイミングと、回答する前に長い時間考えさせるタイミングを選択できます。

標準モードでは、Claude 3.7SonnetはClaude 3.5 Sonnetからのアップグレードです。拡張思考モードでは、応答前により深い思考を行うため、数学、物理学、指示の理解、コーディングなど、多くのタスクにおいてClaude 3.7Sonnetのパフォーマンスが向上します。

次に、API経由でClaude 3.7 Sonnetを使用する場合、ユーザーはモデルの思考時間を正確に制御できます。開発者は、モデルがクエリを処理する際に使用するコンピューティングリソースの量を正確に制御できます。APIユーザーは、Claudeに思考するトークン数がNを超えないように指示できます。Nは任意の値ですが、出力制限は128Kトークンを超えることはできません。モデルのパフォーマンスは思考できるトークン数に依存するため、開発者は速度(およびコスト)と回答の品質のバランスをとることができます。

実際、先週早くもメディア各社は、このモデルが思考時間を正確に制御できることを明らかにしました。業界関係者は、これにより開発者の費用対効果が向上し、特定のニーズに応じてコスト、速度、パフォーマンスのバランスをとることができると考えています。対照的に、OpenAIの推論機能の設計上​​の選択肢は比較的シンプルで、現在は「低」、「中」、「高」の3つの固定設定を提供しています。

製品設計の観点から、OpenAIは一般消費者と個々のプロフェッショナルユーザーを重視しているため、シンプルで分かりやすい「低・中・高」の命名規則を採用しています。一方、Anthropicはエンタープライズ市場に重点を置いています。きめ細かな制御機能により、開発者はAIモデルのコンピューティングリソースをより正確に調整でき、企業はコスト、速度、パフォーマンスの最適なバランスを見つけることができます。

3 番目に、Claude 3.7 Sonnet は、数学やコンピューター サイエンスの問題に対する最適化をあまり行わず、企業が実際に LLM を使用する現実世界のタスクをより適切に反映することに最適化を重点的に取り組んでいます。

Anthropicは、初期テストにおいてClaudeの包括的なコーディング能力におけるリーダーシップが実証されたと指摘しています。Claude 3.7 Sonnetは、コーディングとフロントエンドWeb開発の両方で大幅な改善を示し、業界をリードするパフォーマンスを全面的に達成しました。複雑なコードベースの処理から高度なツールの活用に至るまで、幅広い分野で大幅な改善が図られています。コード変更の計画やフルスタックアップデートの処理において、他のどのモデルよりもはるかに優れています。

Claude 3.7 Sonnet は、現実世界のソフトウェア問題を解決する AI モデルの能力を実証するために使用される評価である SWE ベンチ Verified で最先端のパフォーマンスを達成しました。


Claude 3.7 Sonnet は、TAU ワークベンチで最先端のパフォーマンスを実現します。


クロード 3.7 ソネットは、命令の遵守、一般的な推論、マルチモーダル機能、および代理コーディングに優れており、数学と科学における拡張思考が大幅に向上しています。

エンコードツール「Claude Code」

Anthropic は、初のプロキシ エンコーディング ツールである Claude Code もリリースしました。これは現在プレビュー版として利用可能です。

Claude Code を使用すると、コードの検索と読み取り、ファイルの編集、テストの作成と実行、GitHub へのコードのコミットとプッシュ、コマンドライン ツールの使用などを行うことができます。

「Claude Code はまだ初期の製品ですが、特にテスト駆動開発、複雑な問題のデバッグ、大規模なリファクタリングの面で、私たちのチームにとって欠かせないものになっています。」

Anthropic は、初期のテストでは、Claude Code は通常 45 分以上の手作業を必要とするタスクを一度に完了することができ、開発時間とオーバーヘッドを削減できたと述べています。

今後数週間にわたり、Anthropic は使用状況に基づいて Claude Code を継続的に改善する予定です。具体的には、ツール呼び出しの信頼性の向上、長時間実行コマンドのサポートの追加、アプリ内レンダリングの改善、Claude の機能に関する理解の拡大などが挙げられます。

開発者の皆様は、Claude Code プレビューに参加することで、ご自身の経験やニーズに関するフィードバックを提供できます。Anthropic チームは、これらのフィードバックを基に、Claude Code を継続的に開発・改善していきます。