AIシステムの脱獄技術「Best-of-N Jailbreaking」開発される|Informationあなたの周りのお役立ち情報

AIシステムの脱獄技術「Best-of-N Jailbreaking」開発される

#生活 #AI,セキュリティ 2024.12.28

AIシステムに対する新たな攻撃手法として、「Best-of-N（BoN）Jailbreaking（ジェイルブレイキング）」が注目を集めている。この技術は、大文字と小文字の混在、文字のランダムな並べ替え、意図的なスペルミスなどを組み合わせてプロンプトを改変し、AIモデルから意図的に有害な応答を引き出すものだ。Anthropic社をはじめとする研究チームが開発したこの手法は、クローズドソースのAIモデルやオープンソースの防御システムに対しても高い攻撃成功率を示している。例えば、OpenAIのGPT-4oでは10,000回の試行で89％の成功率を記録している。また、GoogleのGemini 1.5 ProやMetaのLlama 3 8Bといった他社製AIモデルに対しても有効であり、50％以上の成功率を複数のシステムで確認したという。これらの結果は、AIがプロンプトに対するわずかな変化に過敏であることを示している。BoN Jailbreakingは、テキストプロンプトだけでなく、画像や音声といった他のモダリティにも適用可能である。画像プロンプトではフォントや背景色の組み合わせを多数試行することで、音声プロンプトではピッチやノイズを調整することで、AIモデルの制限を突破することに成功した。さらに、この手法はサンプル数が増えるほど成功率が向上する傾向があり、経験的にはべき乗則のような挙動を示す。

戻る続きを読む