
AIの世界は競争が激しいです。理論的には、これまで耳にしたことがある主要なAIモデルのほとんどは似たようなレベルにあります。どれも似たようなパッケージと機能を提供しており、表面上は目立った違いはほとんどありません。
しかし、もう少し深く掘り下げてみると、それらはすべて一定のスケールで存在していることがわかります。AIモデルは常にテストとベンチマークが行われています。これらのテストは、感情知能、コーディング能力、ライティングスキル、あるいは論理的なテストを処理する能力などを測るものかもしれません。
わずかな差で優位に立つチャンスが、まさにここにあります。ここ数ヶ月、GoogleのGeminiがこれらのテストのほとんどを席巻していましたが、その後、xAIのGrokがGeminiに匹敵するアップデートで優位に立ちました。
GPT-5がついに登場しました。アルトマン氏と彼のチームは、数ヶ月にわたってこれを業界を決定づけるアップデートとして大々的に宣伝してきました。さて、ついに登場した今、その噂は本当に本当なのでしょうか?
OpenAIは当初、独自のベンチマーク結果を披露しました。誰もが予想していた通り、あらゆる分野で大幅な性能向上が見られました。しかし、The Vergeが報じたように、グラフは必ずしも正確ではありませんでした。
確かに数字は正しかったのですが、棒グラフを見るとOpenAIがはるかにリードしているように見えました。数字をよく見ると、わずかにリードしている程度でした。
現在、一般公開されているGPT-5は、OpenAIとは別の外部ベンチマークテストにかけられています。実際のスコアは以下のとおりです。
最新ニュース、最も注目されているレビュー、お得な情報、役立つヒントにすぐにアクセスできます。
GPT-5のベンチマークテストのスコア
羊皮紙
これらのテストの評価は多岐にわたります。AIモデルに多肢選択式の質問をしたり、パズルを解かせたり、あるいは単に舞台裏の設定を分析するだけなど、多岐にわたります。
AIベンチマーク企業であるVellumは、幅広い分野でモデルをテストしています。同社のLLMリーダーボードでは、GPT-5が推論(生物学、物理学、化学の理解)の両方でトップの座を獲得し、Grok 4はわずか2%下、Geminiは3%下となっています。
GPT-5は高校数学の能力でもトップに立ち、OpenAIの他の2つのモデルがそれに続いています。コーディング能力ではGrok 4に次いで2位でしたが、わずか0.1%の差でした。
しかし、ジェミニとアントロピックのクロード氏が主導した適応型推論(モデルが事前に学習したパターンに頼るのではなく、新しい概念にどれだけうまく適応するか)のテストでは、この結果はどこにも見られなかった。
人工分析
もう一つの人気のAIベンチマークリーダーボードは、Artificial Analysisによるものです。このランキングボードでは、知能、価格、パフォーマンス、速度といった主要な指標に基づいてモデルをテストします。
このテスト方法では、GPT-5が高労力モデルと中労力モデルで上位2位を獲得しました。GPT-5はモデルインテリジェンスのベンチマークでGrok 4をわずかに上回り、69点を獲得しました(Grok 4は68点)。
LMArena
LMArenaは幅広いカテゴリーのモデルをテストします。これらのテストでは、テキスト、コード、画像、動画などを用いたモデルの生成能力に重点を置いています。
このランキングは、一般投票と社内テストの組み合わせによって決定されました。GPT-5は、テキスト、コーディング、そして視覚入力の理解と処理能力において1位を獲得しました。
GPT-5は、同社の競技会でもナンバーワンのAIモデルでした。この競技会では、コーディング、数学、クリエイティブライティング、指示に従う能力など、数百ものAIモデルが競い合っています。
GPT-5 は同社のテストでこれらすべてのカテゴリーでトップとなり、以下の順位で Anthropic Claude と Gemini を上回りました。
ライブベンチ
これはAIテストの中でもよく知られているテストの一つです。LiveBenchには、7つのカテゴリーにわたる21の多様なタスクが含まれています。それぞれの質問には検証可能な客観的な回答が用意されています。これにより、明確な回答が求められるため、ばらつきのリスクが排除されます。
GPT-5は現在、高、中、低の各バージョンでリーダーボードのトップ3を占めています。GPT-5高は、推論、コーディング、エージェントコーディングで最高スコアを獲得しました。また、数学と言語でも大きなリードを獲得しました。
シンプルベンチ
GPT-5 の発売に先立ち、このアップデートが SimpleBench で人間の基準を上回る最初の AI モデルになるだろうという噂がありました。
これはAIの多肢選択式テキストベンチマークです。高校レベルの知識を持つ被験者が、時空間推論、社会知能、ひっかけ問題などを含む200問以上の問題に取り組みました。
このテストで人間の平均スコアを上回ったAIモデルはまだありません。では、GPT-5はどうでしょうか?人間の平均スコア83.7%を上回れなかっただけでなく、Gemini 2.5 Pro、Grok 4、そして2つのClaude 4モデルに遅れをとり、5位に終わりました。
GPT-5 は期待どおりでしょうか?
GPT-5はまだ開発初期段階です。これらの初期テストによると、OpenAIの最新アップデートはほとんどの分野でリードしています。ただし、リーダーボードのトップに位置しているとはいえ、その差はわずかであることは注目に値します。
ほとんどの分野でGPT-5はわずかな差でリードしており、場合によっては全ての要素を考慮した上で勝っていることもあります。これは必ずしもあらゆる状況で最良の選択肢であるという意味ではありませんが、総合的に見て最良の選択肢であることを意味します。
モデルをテストするためのベンチマークテストは他にも数多くあります。今後数か月かけて、GPT-5が様々なスキルやテストにおいて競合製品とどのように比較されるかを見ていきます。
しかし、現時点ではGPT-5がリードしているように見えます。特にGPT-5が大きなアップデートを受けた分野では、その傾向が顕著です。クリエイティブライティング、コーディング、健康に関する質問などがこれにあたります。
Tom's Guideのその他の記事
- GPT-5が登場: 最大限に活用するために私が使っている7つのプロンプト
- ChatGPT-5とClaudeを7つの難しいプロンプトでテストしました。勝者はこれです。
- OpenAIのサム・アルトマンがGPT-4oを復活させ、GPT-5の限界を引き上げているが、落とし穴がある
ノートパソコンに戻る
どんな価格でも
311件中10件を表示
フィルター☰
(256GB SSD)
1
(15インチ 1TB)
2
(13.3インチ 64GB)
3
(512GB OLED)
4
(14インチ 128GB)
5
(14インチ 1TB)
私たちのレビュー
☆ ☆ ☆ ☆ ☆
6
7
(15インチ 256GB)
8
9
(青)
10
もっと見る
アレックスはTomsGuideのAIエディターです。現在世界で話題のAIに関するあらゆる情報に精通しており、最高のチャットボット、一風変わったAI画像ジェネレーター、そしてテクノロジー界最大のトピックの一つであるAIの裏側まで熟知しています。
Tom's Guide チームに参加する前、Alex は TechRadar および BBC Science Focus というブランドで働いていました。
彼は BSME 2023 のスペシャリストライター部門で高く評価され、BSME 2025 で最優秀ポッドキャスト賞を受賞したチームの一員でした。
ジャーナリストとして、彼はAIやロボット工学の最新情報、ブロードバンド契約、地球外生命体の存在の可能性、平手打ちの科学など、あらゆる事柄を取材してきました。
最新の AI ホワイトペーパーを理解しようとしていないときは、アレックスは有能なランナー、料理人、登山家のふりをします。