OpenAI の音声テキスト変換ツール Whisper に重大な欠陥があることが判明しました。大量の偽コンテンツを無から生成できるのです。

10月28日、現地時間27日のAP通信の報道によると、10人以上のソフトウェアエンジニア、開発者、学術研究者が、OpenAIの音声文字変換ツールWhisperには大きな欠陥があり、時には偽のコンテンツの大きな塊、あるいは文章全体を突然生成してしまうことがあると述べた。

これらの専門家は、生成されたテキスト（業界では「AIイリュージョン」と呼ばれることが多い）には、人種差別的な発言や暴力的な言葉、さらには捏造された医学的アドバイスが含まれている可能性があると指摘している。

専門家は、Whisper がインタビュー内容の翻訳や文字起こし、一般的な消費者向けテクノロジーテキストの生成、ビデオキャプションの作成など、世界中のさまざまな業界で広く使用されているため、この問題が特に懸念されると考えています。

さらに危険なのは、OpenAIが「高リスク地域」でのツールの使用に対して警告しているにもかかわらず、一部の医療機関が依然として医師と患者の診察を記録するためにWhisperベースのツールの導入を急いでいることだ。

報告書によると、研究者やエンジニアは業務の中でWhisperの「幻覚」に頻繁に遭遇しており、問題の全体的な規模は依然として不明である。例えば、ミシガン大学の研究者は、公開会議を研究していた際、モデルの改良を試みる前の段階で、調査した音声記録10件のうち8件に虚偽の内容が含まれていることを発見した。

機械学習エンジニアは、100時間以上に及ぶWhisperのトランスクリプトの初期分析で、コンテンツの約半分に「幻覚」が含まれていることを明らかにしました。さらに、開発者はWhisperを使って生成した2万6000件のトランスクリプトのほぼすべてに虚偽の内容が含まれていたと指摘しました。

音質の良い短い音声サンプルであっても、これらの問題から逃れることはできません。コンピュータ科学者による最近の研究では、13,000以上のクリアな音声クリップのうち187個に「幻覚」現象が見られました。

研究者たちは、この傾向は数百万件の録音の中に数万件の誤った転写が発生する可能性があることを意味していると考えています。

OpenAIの広報担当者は、同社は幻覚を軽減するための研究を継続しており、研究者の発見に感謝しており、フィードバックはモデルのアップデートに反映されると述べた。（清遠）

SHOUJIKE