OpenAIの主要モデルが捏造を続ける理由

Table of Contents

OpenAIの主要モデルが捏造を続ける理由
携帯電話のChatGPTロゴ
(画像クレジット:Shutterstock)

OpenAI が新たにリリースした o3 と o4-mini は、これまでにリリースされた AI モデルの中でも最も賢いモデルのひとつですが、1 つの大きな問題を抱えているようです。

どちらのモデルも幻覚を起こしています。それ自体は異常なことではありません。ほとんどのAIモデルは依然としてこのような傾向にあります。しかし、この2つの新しいバージョンは、OpenAIの以前のモデルのいくつかよりも幻覚を起こしているようです。

歴史的に見て、ほとんどの新しいモデルは幻覚を起こし続けていますが、そのリスクは新しいモデルがリリースされるたびに減少しています。ここで潜在的により大きな問題は、OpenAIがなぜこのようなことが起こったのかを把握していないことです。

幻覚とは何ですか?

AIモデルを使ったことがあるなら、幻覚を見るのを目にしたことがあるでしょう。これは、モデルが誤った結果、あるいは誤解を招くような結果を出すことです。つまり、統計データが不正確だったり、画像のプロンプトを間違えたり、あるいは単にプロンプ​​トを間違えたりしてしまう可能性があります。

AIモデルを使ったことがある人なら、おそらく幻覚現象を見たことがあるでしょう。これは、モデルが誤った結果や誤解を招く結果を生成することです。

これは些細で、重要ではない問題です。例えば、チャットボットに「b」で始まる単語のみを使って「tree」という単語を含む詩を作るように指示した場合、それは幻覚と言えるでしょう。ただし、その危険性は比較的低いでしょう。

しかし、チャットボットにグルテン不耐症の人にとって安全な食品のリストを尋ね、ロールパンを提案した場合、それはある程度のリスクを伴う幻覚となります。

これは o3 および o4-mini モデルにとって何を意味しますか?

人物が前にいるOpenAIのロゴ

(画像クレジット:Shutterstock)

OpenAI のこれら 2 つのモデルに関する技術レポートでは、AI モデルの幻覚率を評価する PersonQA において、両モデルともパフォーマンスが期待どおりではなかったと説明されています。

最新ニュース、最も注目されているレビュー、お得な情報、役立つヒントにすぐにアクセスできます。

「これは予想通りです。なぜなら、小さなモデルは世界に関する知識が少なく、幻覚を起こす傾向が強いからです。しかし、o1とo3を比較すると、パフォーマンスに若干の違いがあることも確認されました」と報告書は述べています。

「具体的には、o3は全体的に多くの主張をする傾向があり、より正確な主張だけでなく、不正確/幻覚的な主張も増えています。この結果の原因を理解するには、さらなる研究が必要です。」

OpenAIの報告によると、o3は質問の33%に対して幻覚反応を示した。これは、OpenAIの従来の推論モデルの幻覚反応率の約2倍に相当します。

どちらのモデルもまだ比較的新しいもので、既に公開されているため、テストが進むにつれて幻覚発生率が大幅に改善される可能性があります。しかし、どちらのモデルもより複雑なタスク向けに設計されているため、今後は問題が生じる可能性があります。

前述のように、幻覚は重要でないプロンプトでは奇妙な現象となることがあります。しかし、推論モデル(より複雑なタスクを実行するように設計されたAI)は通常、より重要な情報を処理します。

これが OpenAI の将来の推論モデルでも継続するパターンである場合、特に o3 と o4-mini の使用に多額の費用をかけたいと考えている大企業にとっては、売り込みが難しくなる可能性があります。

Tom's Guideのその他の記事

  • 私は毎日Geminiを使っています。これが私にとって欠かせない7つのプロンプトです。
  • おそらく知らないChatGPTの生産性向上ハック7選
  • ジェミニのテストで生計を立てている私 — もっと早く知っておきたかった5つのヒント

矢印

ノートパソコンに戻る

どんな価格でも

311件中10件を表示

フィルター

矢印

(256GB SSD)

1

Apple - MacBook Air 13 インチ...

ベストバイ

(15インチ 1TB)

2

Apple 2025 MacBook Air...

アマゾン

(13.3インチ 64GB)

3

Dell XPS 13 9370 13.3 インチ FHD...

アマゾン

(512GB OLED)

4

ノートパソコン 14.5 インチ タッチスクリーン Oled...

アマゾン

(14インチ 128GB)

5

Lenovo - Flex 5i Chromebook...

ベストバイ

(14インチ 1TB)

私たちのレビュー

6

HIDevolution [2024] ASUS ROG...

アマゾン

7

Apple 13 インチ MacBook Air (M4、...

BHフォト

(15インチ 256GB)

8

Apple - MacBook Air 15 インチ...

ベストバイ

9

Dell XPS 13 ノートパソコン -...

デル

(青)

10

Yoga Slim 7x (14 インチ Snapdragon)

レノボUSA

もっと見る

アレックスはTomsGuideのAIエディターです。現在世界で話題のAIに関するあらゆる情報に精通しており、最高のチャットボット、一風変わったAI画像ジェネレーター、そしてテクノロジー界最大のトピックの一つであるAIの裏側まで熟知しています。

Tom's Guide チームに参加する前、Alex は TechRadar および BBC Science Focus というブランドで働いていました。

彼は BSME 2023 のスペシャリストライター部門で高く評価され、BSME 2025 で最優秀ポッドキャスト賞を受賞したチームの一員でした。

ジャーナリストとして、彼はAIやロボット工学の最新情報、ブロードバンド契約、地球外生命体の存在の可能性、平手打ちの科学など、あらゆる事柄を取材してきました。

最新の AI ホワイトペーパーを理解しようとしていないときは、アレックスは有能なランナー、料理人、登山家のふりをします。

Discover More