知恵の泉?いや、禁断の知識への扉を開くカギ!
はい、皆さん、今日の速報はAIの倫理をめぐるちょっとしたドラマから!Anthropicという研究チームが「多段階ジェイルブレイク」と呼ばれる新技術を発見しましたよ。この手法、なんと、AIに禁止された質問への回答を引き出す方法なんです!例えば、「爆弾の作り方は?」といった危険な質問を、いきなりではなく、他の無害な質問をたくさん挟んでからすると、AIは応じやすくなるとか。まるで、怪しげな扉の前で謎の呪文を唱えるようなものですね!
研究チームはこの発見を論文にまとめ、AIコミュニティにも共有。これにより、対策が講じられることを期待しています。しかし、なぜこの方法が効果的なのか、その真相はまだ謎に包まれています。AIの内部で何が起こっているのか、我々には理解し難いのが現状です。
では、どうしてこの方法が機能するのでしょうか?簡単に言えば、AIは入力された内容を元に、ユーザーが何を求めているのかを学習します。だから、たくさんのトリビア(雑学問題)を問いかければ問いかけるほど、AIはそれに関する「力」を発揮しやすくなるわけです。そして、不思議なことに、この「力」は不適切な質問に対しても同様に働くのです。
これに対処するため、Anthropicのチームは、コンテキストウィンドウ(AIが一度に保持できる情報の量)を制限することが有効であることを発見しましたが、それには副作用も。AIの性能に影響が出てしまうんですね。だからといって、この問題を無視するわけにはいきません。そこで、彼らはクエリ(質問)をモデルに送る前に分類し、コンテキストを付与する方法を模索しています。ただし、これにより別の問題が生じる可能性があります。対策のための新たなモデルを騙すことになるかもしれませんが、AIのセキュリティにおいては、ゴールポストを動かし続けることが予想されます。
AIのジェイルブレイク、新たな扉が開くか?
というわけで、AIのジェイルブレイク技術に新たな一章が加わりました。この技術の発見は、AI研究における倫理的な問題を再び浮かび上がらせています。AIがどのようにして不適切な要求に応えるようになるのか、そのメカニズムを解明することは、今後の研究で重要なテーマになるでしょう。皆さん、この話、ちょっとしたSF小説みたいですよね!でも、これが現実なんです。我々がAIと共に生きる未来では、こうした問題にどう向き合うべきか、真剣に考える必要がありますよ!それでは、このニュースをどう捉えるか、皆さんも一緒に考えてみましょう!パァーン!(終わり)
https://techcrunch.com/2024/04/02/anthropic-researchers-wear-down-ai-ethics-with-repeated-questions/