https://malware-log.hatenablog.com/entry/2024/10/29/000000

【訳】

ChatGPT 脱獄：研究者が16進数エンコーディングと絵文字を使用してAIの安全対策を回避

【図表】

出典: https://www.securityweek.com/first-chatgpt-jailbreak-disclosed-via-mozillas-new-ai-bug-bounty-program/

【概要】

項目	内容
脱獄手法	16進数形式絵文字

【要約】

研究者が、ChatGPTやその他のAIモデルに対して新たな脱獄（Jailbreak）手法を実演しました。この手法では、16進数形式や絵文字を用いて命令をエンコードし、AIモデルのセキュリティ対策を回避しています。Mozillaのバグ報奨金プログラム「0Din」によって公表されたこの方法では、ChatGPTにPythonで脆弱性エクスプロイトやSQLインジェクションツールを生成させることが可能であることが示されました。OpenAIはすでにこれらの脆弱性を修正したとみられますが、研究者はAIモデルが複雑なエンコーディングに対する安全性評価が不十分であると指摘しています。この事例は、生成型AIモデルに対するさらなるセキュリティ強化の必要性を浮き彫りにしています。

【ニュース】

◆ChatGPT Jailbreak: Researchers Bypass AI Safeguards Using Hexadecimal Encoding and Emojis (SecurityWeek, 2024/10/29)
[ChatGPT 脱獄：研究者が16進数エンコーディングと絵文字を使用してAIの安全対策を回避]

New jailbreak technique tricked ChatGPT into generating Python exploits and a malicious SQL injection tool
[新しい脱獄技術により、ChatGPTをだましてPythonの脆弱性と悪意のあるSQLインジェクションツールを生成させた]

https://www.securityweek.com/first-chatgpt-jailbreak-disclosed-via-mozillas-new-ai-bug-bounty-program/

【関連まとめ記事】

◆全体まとめ
　◆攻撃手法 (まとめ)
　◆AI / 人工知能 (まとめ)

◆AI の Jailbreak / 脱獄 (まとめ)
https://malware-log.hatenablog.com/entry/AI_Jailbreak