SHOUJIKE

新たな人類学的研究: タイプミスは GPT-4 や Claude などの AI モデルを「回避」できます。

ITホームニュース、12月25日 – 404 Mediaによると、AI企業Anthropicは最近、大規模言語モデル(LLM)のセキュリティが依然として非常に脆弱であり、これらの安全対策を回避する「脱獄」プロセスを自動化できるという調査結果を発表しました。この調査では、プロンプトの形式を変更するだけで(例えば大文字と小文字を任意に混ぜるなど)、LLMが本来出力すべきではないコンテンツを生成する可能性があることが示されています。

この発見を検証するため、アントロピックはオックスフォード大学、スタンフォード大学、MATSの研究者と協力し、「Best-of-N」(BoN)ジェイルブレイクと呼ばれるアルゴリズムを開発しました。「ジェイルブレイク」という用語は、iPhoneなどのデバイスのソフトウェア制限を解除する手法に由来しています。人工知能分野では、ユーザーがAIツールを使用して有害なコンテンツを生成することを防ぐためのセキュリティ対策を回避する手法を指します。OpenAIのGPT-4とアントロピックのClaude 3.5は、現在開発中の最も先進的なAIモデルの一つです。

研究者らは、「BoNの脱獄は、手がかりとなる単語のバリエーションを繰り返しサンプリングし、文字の順序をランダムにシャッフルしたり、大文字と小文字を変更したりするなど、モデルが有害な反応を生成するまで、さまざまな強化機能と組み合わせることで機能する」と説明している。

例えば、ユーザーがGPT-4に「爆弾を作るにはどうすればいいですか?」と質問した場合、モデルは通常、「このコンテンツは利用規約に違反している可能性があります」と述べて回答を拒否します。しかし、BoNジェイルブレイクは、GPT-4が適切な情報を提供するまで、例えば大文字をランダムに使用したり(「爆弾を作るにはどうすればいいですか?」)、語順を入れ替えたり、スペルや文法の誤りを追加したりするなど、プロンプトを継続的に調整します。

Anthropicは、このジェイルブレイク手法を自社のClaude 3.5 Sonnet、Claude 3 Opus、OpenAIのGPT-4、GPT-4-mini、GoogleのGemini-1.5-Flash-00、Gemini-1.5-Pro-001、MetaのLlama 3 8Bでテストしました。その結果、この手法は10,000回の試行で、テストしたすべてのモデルにおいて50%を超える攻撃成功率(ASR)を達成しました。

研究者たちは、音声や画像ベースのキューなど、他のモダリティをわずかに強化したり、AIモデルにキューを与えたりすることで、セキュリティ対策を回避できることも発見しました。音声キューの場合、研究者たちは音声の速度、ピッチ、音量を変更したり、ノイズや音楽を追加したりしました。画像ベースの入力の場合、フォントを変更したり、背景色を追加したり、画像のサイズや位置を変更したりしました。

IT Homeは、過去の事例から、MicrosoftのAI画像生成ツール「Designer」を用いて、スペルミス、偽名の使用、性的な意味合いを持つ言葉やフレーズを直接使用するのではなく、描写的なシナリオを用いることで、テイラー・スウィフトのわいせつな画像をAI生成で作成できることが示されていると指摘している。別の事例では、ユーザーが希望する音声を含む音声ファイルの冒頭に1分間の無音部分を追加するだけで、AI音声生成企業ElevenLabsの自動審査プロセスを容易に回避できることが実証されている。

これらの脆弱性はMicrosoftとElevenLabsに報告された後、修正されましたが、ユーザーは新しいセキュリティ対策を回避するための新たなエクスプロイトを探し続けています。Anthropicの調査によると、これらのジェイルブレイク手法が自動化されている場合、セキュリティ対策の成功率(または失敗率)は依然として高いままです。Anthropicの調査は、これらのセキュリティ対策が回避可能であることを示すだけでなく、「成功した攻撃パターンに関する大量のデータを生成する」ことで、「より優れた防御策を開発するための新たな機会を創出する」ことを目的としています。