yeah im guessing they had the conversation like normal, then at that point loaded the gem file with the malicious prompt, then tried a few times with some tweaks to the prompt until the model repeated or followed the instructions from the malicious prompt. ????️????— Sir Mr Meow Meow (@SirMrMeowmeow) November 13, 2024
The Registerは「今回の件は、AIの不安定性や予測不可能性を示す事例として注目を集めています。ChatGPTなど他のAIモデルでも同様の予期せぬ応答が報告されており、AIモデルの安全性や信頼性に関する議論を呼び起こすでしょう」とコメントしました。