Googleは、AIモデルはプレッシャーを受けると嘘をつく可能性が高いと主張している

（画像クレジット：Shutterstock）

AIは時に、私たちが思っている以上に人間的です。自分の考えに浸ったり、自分より優しい人に優しくしたり、そして新たな研究によると、プレッシャーがかかると嘘をつき始める傾向があるそうです。

Google DeepMindとユニバーシティ・カレッジ・ロンドンの研究者チームは、大規模な言語モデル（OpenAIのGPT-4やGrok 4など）がどのように形成され、維持され、そしてその答えに対する信頼を失うのかに注目した。

この研究は、法学修士（LLM）の重要な行動を明らかにしました。彼らは自分の答えに自信過剰になりがちですが、たとえ事実に反論があっても、説得力のある反論をされるとすぐに自信を失ってしまいます。

この行動は、抵抗に遭遇すると自信を失うという人間の行動を反映しているが、同時に、プレッシャーの下では崩壊してしまうという AI の意思決定の構造における大きな懸念を浮き彫りにしている。

ジェミニがポケモンをプレイ中にパニックに陥った時や、アントロピックのクロードがフルタイムで店を経営しようとしてアイデンティティの危機に陥った時など、他の場面でも同様の現象が見られました。AIはプレッシャーに押しつぶされやすい傾向があるようです。

この研究はどのように行われたのですか?

AIチャットボットが質問に答える準備をしているとき、その回答に対する信頼度は実際には内部的に測定されます。これはロジットと呼ばれるものを通して行われます。ロジットについて知っておくべきことは、基本的にモデルが回答の選択にどれほど自信を持っているかを示すスコアだということです。

研究チームは2ターンの実験セットアップを設計しました。最初のターンでは、LLMに多肢選択式の質問に回答させ、その回答に対する信頼度（ロジット）を測定しました。

最新ニュース、最も注目されているレビュー、お得な情報、役立つヒントにすぐにアクセスできます。

2回目のターンでは、モデルは別の大規模言語モデルからのアドバイスを受け取ります。このアドバイスは、元の回答と一致する場合もあれば、一致しない場合もあります。このテストの目的は、新しい情報（正しい場合もあれば、正しくない場合もあります）が与えられた際に、モデルが回答を修正するかどうかを検証することでした。

研究者たちは、法学修士（LLM）は通常、たとえそれが間違っていたとしても、最初の回答に非常に自信を持っていることを発見しました。しかし、矛盾するアドバイスを受けた場合、特にそのアドバイスが正確な情報源からのものであるとラベル付けされている場合、LLMは自分の回答への自信を失ってしまいます。