スラッシュドット読者のブライアンファジョーリ氏はこう書いている。 フロリダ国際大学の研究者は、微妙な画像の変化を使用して AI ガードレールを回避する、JaiLIP (損失誘導画像摂動による脱獄) と呼ばれる技術を開発しました。慎重に作成された指示に依存する従来の脱獄とは異なり、この攻撃は人間の観察者には正常に見える画像を使用して機能します。
研究者らは、この技術をマルチモーダル AI モデルである BLIP-2 に対してテストしたところ、画像が操作されると有害な反応が発生する可能性が大幅に高まることがわかりました。研究によると、このアプローチは以前の画像ベースの脱獄方法よりも優れたパフォーマンスを示し、テスト中に生成される安全でない出力の数がほぼ 2 倍になりました。
この調査結果は、画像とテキストの両方を処理する人工知能システムを導入している企業にとって潜在的なセキュリティ リスクを浮き彫りにしています。 AI の安全性に関する議論のほとんどはガイドラインに焦点を当てていますが、調査では、一見無害に見える画像も攻撃ベクトルとして機能する可能性があることが示唆されています。