研究により、ChatGPT-5 が約 4 回に 1 回間違っていることが判明しました。その理由は次のとおりです。

（画像クレジット：Shutterstock）

先日、ChatGPTでブレインストーミングをしていたのですが、突然、クエリとは全く関係のない長々とした空想物語になってしまいました。あまりにも馬鹿げていて、思わず笑ってしまいました。最近はテキストプロンプトではこのようなミスをあまり見かけなくなりましたが、画像生成では今でもかなり頻繁に見かけます。

チャットボットがタスクから逸脱するこれらのランダムな瞬間は、幻覚として知られています。奇妙なのは、チャットボットが自分が間違った答えを出していることに非常に自信を持っていることです。これは、今日のAIアシスタントの最大の弱点の一つです。しかし、OpenAIの新たな研究では、これらの失敗はランダムではなく、モデルのトレーニングと評価方法に直接起因すると主張しています。

チャットボットが推測し続ける理由

ロボットが考えている前に携帯電話に表示されているChatGPTのロゴ — （画像クレジット：Shutterstock）

研究では、幻覚を引き起こす構造的な問題が指摘されています。本質的には、この問題は、AI モデルをランク付けし、自信のある回答に報酬を与えるベンチマークとリーダーボードに起因しています。

つまり、チャットボットが「わかりません」と答えると、テストでペナルティが課せられるということです。つまり、モデルは、たとえ正しいかどうか確信が持てなくても、常に答えを出すように促されるということです。

実際には、AIアシスタントは不確実性を認めるよりも推測する傾向が強くなります。日常的な質問であれば、これは無害かもしれません。しかし、医療に関する質問から金融アドバイスまで、より重要なケースでは、こうした自信過剰による誤りはすぐに危険なものになりかねません。

パワーユーザーとして、私は常にファクトチェックを行い、チャットボットに出典を明記するように求めています。情報があまりにも突飛すぎると感じて出典を尋ねると、チャットボットは「よくぞ指摘しました！」などと返答しますが、それでも間違いを認めようとしません。

新しいモデルも例外ではない

ChatGPT-5 キーボード上の画像 — （画像クレジット：ChatGPT AI生成画像）

興味深いことに、OpenAIの論文では、o3やo4-miniのような推論重視のモデルは、実際には一部の古いモデルよりも幻覚を起こす頻度が高いことが分かりました。なぜでしょうか？全体的に多くの主張を生み出すため、誤りを犯す可能性が高くなるからです。

したがって、モデルが推論において「賢くなった」としても、実際には、モデルが知らないことについてより正直になるわけではありません。

この問題を解決するにはどうすればよいですか?

コンピューターでコーディングしている人 — （画像クレジット：Shutterstock）

研究者たちは、解決策はAIのスコアリングとベンチマークの方法を変えることだと主張しています。「わからない」と答えたモデルを罰するのではなく、最も価値のあるテストは、調整された回答、不確実性のフラグ、あるいは他の情報源に委ねる能力を評価するべきです。

つまり、将来のチャットボットはより頻繁に「答えはこうです」という表現を減らし、「私の考えはこうですが、確信はありません」という表現を増やすようになるかもしれません。遅く感じるかもしれませんが、有害なエラーを大幅に削減できる可能性があります。私たち自身の批判的思考が依然として重要であることを証明することが重要です。

最新ニュース、最も注目されているレビュー、お得な情報、役立つヒントにすぐにアクセスできます。

なぜそれがあなたにとって重要なのか

ノートパソコンのキーボードで入力している人 — （画像クレジット：Unsplash）

ChatGPT、Gemini、Claude、Grokといった人気のチャットボットを使っているなら、ほぼ確実に幻覚を見たことがあるでしょう。この研究は、モデル自体の問題ではなく、テスト方法に問題があることを示唆しています。まるでゲームテストのように、ほとんどの場合正しい結果が出るのです。

ユーザーにとって、これはAIの回答を最終的な判断ではなく、最初の提案として注意深く検討する必要があることを意味します。開発者にとって、これは成功の測定方法を再考すべき時期が来ていることを示しています。将来のAIアシスタントは、完全に間違えるのではなく、知らないことを認めることができるようになるでしょう。

GoogleニュースでTom's Guideをフォローし、お気に入りの情報源として追加して、最新のニュース、分析、レビューをフィードで受信しましょう。「フォロー」ボタンを忘れずにクリックしてください！

Tom's Guideのその他の記事

GoogleのMixboardはPinterest風のAIツールのようなものだ。その仕組みと使い方を紹介する。
NotebookLM の 5 つの完全無料かつ目立たない使い方 — もっと早く試しておけばよかったと思うはずです
ナノバナナのトレンドはもう全部試したと思っていたら、この5つの新しいトレンドを発見しました。もう夢中になってしまいました。

ノートパソコンに戻る

りんご

エイスース

デル

レノボ

AMD ライゼン

インテル Core i3

インテル Core i5

インテル Core i7

4GBのRAM

8GBのRAM

16GBのRAM

32GBのRAM

32GB

64GB

128GB

256GB

512GB

1TB

2TB

13.3インチ

13.4インチ

14インチ

15インチ

黒

青

金

銀

白

新しい

改装済み

ハードディスク

SSD

どんな価格でも

315件の取引のうち10件を表示

フィルター☰

（256GB SSD）

Apple - MacBook Air 13 インチ...

ベストバイ

（15インチ 1TB）

Apple 2025 MacBook Air...

アマゾン

（13.3インチ 64GB）

Dell XPS 13 9370 13.3 インチ FHD...

アマゾン

（512GB OLED）

ノートパソコン 14.5 インチタッチスクリーン Oled...

アマゾン

（14インチ 256GB）

私たちのレビュー

☆ ☆ ☆ ☆ ☆

Lenovo Chromebook プラス...

アントオンライン

（14インチ 1TB）

私たちのレビュー

☆ ☆ ☆ ☆ ☆

HIDevolution [2025] ASUS ROG...

アマゾン

Apple 13 インチ MacBook Air (M4、...

BHフォト

（15インチ 256GB）

Apple - MacBook Air 15 インチ...

ベストバイ

Dell XPS 13 ノートパソコン -...

（青）

Yoga Slim 7x (14 インチスナップドラゴン)

レノボUSA

アマンダ・キャスウェルは、受賞歴のあるジャーナリストであり、ベストセラーのヤングアダルト小説作家であり、AIとテクノロジー分野における今日の第一人者の一人です。様々なニュースメディアに寄稿する著名なジャーナリストであり、鋭い洞察力と共感できるストーリーテリングで多くの読者を獲得しています。アマンダの作品は、メディアへの卓越した貢献を含む、数々の名誉ある賞を受賞しています。

最も複雑なテーマにも明快な解釈を与える能力で知られるアマンダは、革新性と創造性をシームレスに融合させ、読者にAIと新興技術の力を受け入れるよう促しています。認定プロンプトエンジニアとして、彼女は人間とAIの協働の限界を押し広げ続けています。

アマンダはジャーナリストとしてのキャリアに加え、長距離ランナーであり、3人の子供の母親でもあります。ニュージャージー州在住。

研究により、ChatGPT-5 が約 4 回に 1 回間違っていることが判明しました。その理由は次のとおりです。

Table of Contents

チャットボットが推測し続ける理由

新しいモデルも例外ではない

この問題を解決するにはどうすればよいですか?

なぜそれがあなたにとって重要なのか

Tom's Guideのその他の記事

Discover More

サムスンギャラクシーS26のリークで大きな変化が予告されたが、このモデルはもう終わりのようだ

最高のドルビーアトモスサウンドバー：認定オーディオ専門家が推奨する3Dサウンドを備えた最高のテレビスピーカー

2025年、1,000ドル以下の最高のマットレス：高額な費用をかけずに最高の睡眠を

Table of Contents

チャットボットが推測し続ける理由

新しいモデルも例外ではない

この問題を解決するにはどうすればよいですか?

なぜそれがあなたにとって重要なのか

Tom's Guideのその他の記事

Smart Recommendations

Discover More