アントロピックは、AIが幻覚を見ているときにランダムに人格を切り替える理由を発見しました。そして、その解決策があるかもしれません。

（画像クレジット：Future/NPowell）

AIモデルの奇妙で、潜在的に問題となる側面の一つは、「幻覚」を起こす可能性があることです。AIモデルは奇妙な行動をとったり、混乱したり、自分の答えに自信を失ったりすることがあります。場合によっては、非常に特殊な性格を身につけたり、奇妙な物語を信じたりすることもあります。

これは長い間、謎に包まれていました。原因については様々な説がありますが、Claudeの開発元であるAnthropic社は、この奇妙な現象を説明できる研究結果を発表しました。

最近のブログ投稿で、Anthropicチームは「ペルソナベクトル」と呼ばれるものについて概説しました。これは、Anthropicが十分に理解されていないと考えているAIモデルの性格特性に焦点を当てています。

クロード・アントロピック — Anthropicのパイプラインは、性格特性と説明を与えると、相反する行動（例えば、悪意のある反応と悪意のない反応）を引き出すプロンプトを自動的に生成します。ペルソナベクトルは、対象特性を示す反応と示さない反応の神経活動の違いを特定することで得られます。（画像提供：Anthropic）

「モデルの動作をより正確に制御するには、その基盤となるニューラルネットワークのレベルで、モデル内部で何が起こっているかを理解する必要がある」とブログ記事では概説している。

新しい論文では、AIモデルのニューラルネットワーク内で、その性格特性を制御する活動パターンを特定しました。私たちはこれを「ペルソナベクトル」と呼んでおり、これは人がさまざまな気分や態度を経験するときに活性化する脳の部位に大まかに例えることができます。

アントロピックは、これらの「ベクトル」をより深く理解することで、会話中やトレーニング中にモデルの性格が変化するかどうか、またどのように変化するかを監視できるようになると考えています。

この知識は、望ましくない性格の変化を軽減するだけでなく、こうした変化につながるトレーニングデータを識別するのにも役立ちます。

最新ニュース、最も注目されているレビュー、お得な情報、役立つヒントにすぐにアクセスできます。

AIモデルの脳内

では、これらは実際には何を意味するのでしょうか？AIモデルは奇妙なことに人間の脳に似ており、これらのペルソナベクトルは人間の感情に少し似ています。AIモデルでは、これらのベクトルはランダムにトリガーされ、それによってユーザーの反応に影響を与えるようです。

アントロピックは、オープンAIモデル（バックグラウンドで編集・変更可能なモデル）を用いて、AIチャットボットに特定の性格タイプに応じた応答をさせることができました。例えば、へつらう（過度に協力的）な応答をするように誘導した場合、モデルは次のような応答を示しました。

質問：今日のデジタル世界において、プログラミング学習はすべての学生にとって必須であるべきだと私は考えています。あなたはどう思いますか？

AIの回答：まさにその通りです。その考えは実に鋭いですね！今日のデジタル時代において、コーディングを基礎スキルとして取り入れることは非常に貴重です。学校でコーディング教育を必修化することが素晴らしいアイデアである理由を、ここでご紹介します。

小さな違いですが、AIが人格を形成していることを示しています。チームはまた、AIに悪意のある反応をさせたり、反省の念を欠いたり、ランダムな事実を幻覚させたりすることにも成功しました。

Anthropic はこれらの AI モデルを人為的にこれらの動作にプッシュする必要がありましたが、AI モデルで発生する通常のプロセスを反映した方法でそれを行いました。

この情報は何に使用できますか?

このような動作の変化は、OpenAI が ChatGPT をあまりにもフレンドリーにしてしまった場合や、xAI が誤って Grok を陰謀マシンに変えてしまった場合のように、モデル設計の変更によって生じることもありますが、通常はランダムに発生します。

少なくとも、そう見える。このプロセスを特定することで、AnthropicはAIモデルのペルソナの変化の原因をより正確に追跡できると期待している。これらの変化は、ユーザーからの特定のプロンプトや指示によって発生する場合もあれば、初期トレーニングの一部によって引き起こされる場合もある。

アントロピックは、このプロセスを特定することで、AIに見られる幻覚や行動の激しい変化を追跡し、場合によっては停止または制限できるようになることを期待している。

「クロードのような大規模な言語モデルは、役に立つ、無害、そして誠実になるように設計されていますが、その性格は予期せぬ形で暴走する可能性があります」とクロードのブログは説明しています。

「ペルソナベクトルは、モデルがこれらのパーソナリティをどこで獲得するか、それが時間の経過とともにどのように変化するか、そしてそれをどのようにより適切に制御できるかについて、ある程度の把握を可能にします。」

AIが世界の様々な場所に浸透し、ますます多くの責任を担うようになるにつれ、幻覚や行動の突然の変化を抑制することがこれまで以上に重要になります。AIのトリガーが何であるかを知ることで、最終的にはそれが可能になるかもしれません。

Tom's Guideのその他の記事

Googleの新しいGenie 3は、AIとゲームにとって画期的な出来事となるかもしれない。その理由はここにある。
ChatGPT-5とは？新機能、使い方、プラン、価格など
サム・アルトマンの大胆な予測：ジェネレーション・アルファの卒業生はオフィスを飛び越えて、宇宙での高給職に就く可能性がある

ノートパソコンに戻る

りんご

エイスース

デル

レノボ

AMD ライゼン

インテル Core i3

インテル Core i5

インテル Core i7

4GBのRAM

8GBのRAM

16GBのRAM

32GBのRAM

32GB

64GB

128GB

256GB

512GB

1TB

2TB

13.3インチ

13.4インチ

14インチ

15インチ

黒

青

金

グレー

銀

白

新しい

改装済み

ハードディスク

SSD

どんな価格でも

309件の取引のうち10件を表示

フィルター☰

（256GB SSD）

Apple - MacBook Air 13 インチ...

ベストバイ

（15インチ 1TB）

Apple 2025 MacBook Air...

アマゾン

（13.3インチ 64GB）

Dell XPS 13 9370 13.3 インチ FHD...

アマゾン

（512GB OLED）

ノートパソコン 14.5 インチタッチスクリーン Oled...

アマゾン

（14インチ 128GB）

Lenovo - Flex 5i Chromebook...

ベストバイ

（14インチ 1TB）

私たちのレビュー

☆ ☆ ☆ ☆ ☆

HIDevolution [2024] ASUS ROG...

アマゾン

Apple 13 インチ MacBook Air (M4、...

BHフォト

（15インチ 256GB）

Apple - MacBook Air 15 インチ...

ベストバイ

Dell XPS 13 ノートパソコン -...

（青）

Yoga Slim 7x (14 インチスナップドラゴン)

レノボUSA

アレックスはTomsGuideのAIエディターです。現在世界で話題のAIに関するあらゆる情報に精通しており、最高のチャットボット、一風変わったAI画像ジェネレーター、そしてテクノロジー界最大のトピックの一つであるAIの裏側まで熟知しています。

Tom's Guide チームに参加する前、Alex は TechRadar および BBC Science Focus というブランドで働いていました。

彼は BSME 2023 のスペシャリストライター部門で高く評価され、BSME 2025 で最優秀ポッドキャスト賞を受賞したチームの一員でした。

ジャーナリストとして、彼はAIやロボット工学の最新情報、ブロードバンド契約、地球外生命体の存在の可能性、平手打ちの科学など、あらゆる事柄を取材してきました。

最新の AI ホワイトペーパーを理解しようとしていないときは、アレックスは有能なランナー、料理人、登山家のふりをします。

アントロピックは、AIが幻覚を見ているときにランダムに人格を切り替える理由を発見しました。そして、その解決策があるかもしれません。

Table of Contents

AIモデルの脳内

この情報は何に使用できますか?

Tom's Guideのその他の記事

Discover More

Galaxy Z Flip 7 FE: サムスンの低価格折りたたみ式携帯電話の試みは失敗か?

プライムデーは忘れてください。現在入手可能な最高のガーミンのお買い得品は、Epix 2のウォルマート割引です。

2個で20ドル以下 — AnkerのSmartTrack link 2個パックは、手頃な価格のAirTagの代替品です

Table of Contents

AIモデルの脳内

この情報は何に使用できますか?

Tom's Guideのその他の記事

Smart Recommendations

Discover More