27のAIモデルが一般公開され、ChatGPTは8位となった。これを上回ったモデルは以下のとおり。

Table of Contents

27のAIモデルが一般公開され、ChatGPTは8位となった。これを上回ったモデルは以下のとおり。
Artificial intelligence "AI" and brain glowing next to a smartphone screen
(画像クレジット:Tom's Guide/Shutterstock)

AIの世界はまるで無法地帯のように感じられることもありますが、実際には舞台裏で驚くほど多くの分析、ベンチマーク、テストが行​​われています。企業だけでなく、独自のランキングを作成するために設立されたグループによっても行われています。

これらのグループは、チャットボットが数学のテストを完了する能力、画像を作成する能力、推論を示す能力、医療アドバイスを提供する能力、あるいは単に感情的知能がどの程度あるかなど、あらゆることをテストします。

これらの様々なテストを通して、モデルの成績は上がったり下がったりしており、様々な分野における強みと弱みが明らかになっています。例えば、GPT-5は科学的推論には優れていますが、新しい概念への適応能力ではGeminiやClaudeといったモデルに劣っています。

これらのテストはどれもAIモデルに関する新たな知見を提供し、様々なシナリオにおいてどのツールが最適かを判断する上で重要です。しかし、しばしば一つの指標が欠けています。それは、どのAIモデルが最高のユーザーエクスペリエンスを提供するのか、ということです。

ヒューメインランキングシステム

A ranking of the top five AI chatbots

(画像提供:Humaine)

英国に拠点を置くテクノロジー企業Prolificは、独自のAIリーダーボード「Humaine」を立ち上げました。AIのタスク遂行能力をテストするのではなく、Prolificは様々なユーザーによるAIモデルの使用体験をテストしました。

21,352人のツール使用体験を評価することで、総合的な勝者を見つけるだけでなく、年齢、場所(英国と米国の両方でテスト)、政治的信条ごとに結果を分類することができました。

これには次の個別のリストが含まれます。

最新ニュース、最も注目されているレビュー、お得な情報、役立つヒントにすぐにアクセスできます。

  • 英国:年齢層
  • 英国:民族
  • 英国:政治的見解
  • 米国:年齢層
  • 米国:民族
  • 米国の政治的見解

チームは、各参加者に 2 つの異なる AI モデルを比較して操作させ、それぞれの操作でどちらのモデルが優れていたかについてのフィードバックを求めました。

これにより、パフォーマンスに関する総合優勝者とスコアボードが作成されましたが、コアタスクのパフォーマンスと推論に関する個別のランキング、およびコミュニケーション、流動性、信頼と倫理に関する優勝者も作成されました。

結果は何を示していますか?

logos of ChatGPT and Gemini

(画像提供:Future)

投票の結果、総合的なパフォーマンスカテゴリーだけでなく、ほとんどのサブカテゴリーでも明確な勝者が出ました。Gemini 2.5-Proは、テストで提示されたほぼすべてのフィルターでトップに輝きました。

英国の18~34歳、民主党支持者、そして米国の55歳以上の回答者は、いずれもGemini 2.5 Proが総合的に最も優れたモデルであると回答しました。すべての年齢層がGeminiよりも高い評価を得たのは、信頼性、倫理性、そして安全性の点でGrok-3のみでした。これは、このAIモデルが最近抱えている安全性と倫理性に関する問題を考えると、やや皮肉な結果です。

興味深いことに、Geminiに続く3つのモデルは、Deepseek、Magistral Le Chat、そしてGrokです。Deepseekは今年初めに非常に人気を集めましたが、最近は人気が下がっています。一方、Le Chatはそれほど人気はありませんが、熱心なファンベースを持つチャットボットです。

では、世界的に有名なChatGPTは、この中でどこに位置しているのでしょうか? かなり下の方ですが、GPT-4.1モデルが最高位で8位につけています。さらにひどいのはClaudeで、バージョン4の2つのモデルが総合ランキングで11位と12位にとどまっています。

それで、これは一体何を意味するのでしょうか?

これは、Geminiが世界最高のAIチャットボットだという意味でしょうか?それとも、ChatGPTはもうやめるべきなのでしょうか?まあ、必ずしもそうではありません。

これらの結果は必ずしもこれらのモデルのパフォーマンスを反映するものではありません。他のほとんどの指標でテストした場合、通常上位に表示されるのはChatGPT、Gemini、Claude、Grokです。

しかし、これはこれらのテストに重要な追加要素となります。より人間的な体験の観点からAIをより深く理解するのに役立ちます。例えば、Le Chatはベンチマークスコアではそれほど高くありませんが、体験と信頼性の点では上位にランクされています。

AnthropicとOpenAIは今回のテストではそれほど良い結果を残せませんでしたが、GeminiとGrokは今回も好調な結果を残しました。両社ともベンチマークで高いスコアを頻繁に獲得しており、今回のテストでもその傾向が続いています。

Tom's Guideのその他の記事

  • 元テスラとグーグルのエンジニアが開発したAI検出の「ブラックライト」、パングラムをテストしてみた。その性能はいかに?
  • GoogleのNano Bananaを使って色々なヘアスタイルを試してみたが、その結果には本当に驚いた。
  • この新しいAIツールは1,000以上の病気のリスクを予測できます — Delphi-2Mのご紹介

Arrow

ノートパソコンに戻る

どんな価格でも

309件の取引のうち10件を表示

フィルター

Arrow

(256GB SSD)

1

Apple - MacBook Air 13-inch...

Best Buy

(15インチ 1TB)

2

Apple 2025 MacBook Air...

Amazon

(13.3インチ 256GB)

私たちのレビュー

3

DELL XPS XPS9350-4007SLV...

Amazon

(512GB OLED)

4

Laptop 14.5" Touchscreen Oled...

Amazon

(14インチ 256GB)

私たちのレビュー

5

Lenovo Chromebook Plus...

antonline

(14インチ 1TB)

私たちのレビュー

6

HIDevolution [2025] ASUS ROG...

Amazon

7

Apple 13" MacBook Air (M4,...

BHPhoto

(15インチ 256GB)

8

Apple - MacBook Air 15-inch...

Best Buy

9

Dell XPS 13 Laptop - w/...

Dell

(青)

10

Yoga Slim 7x (14″ Snapdragon)

Lenovo USA

もっと見る

アレックスはTomsGuideのAIエディターです。現在世界で話題のAIに関するあらゆる情報に精通しており、最高のチャットボット、一風変わったAI画像ジェネレーター、そしてテクノロジー界最大のトピックの一つであるAIの裏側まで熟知しています。

Tom's Guide チームに参加する前、Alex は TechRadar および BBC Science Focus というブランドで働いていました。

彼は BSME 2023 のスペシャリストライター部門で高く評価され、BSME 2025 で最優秀ポッドキャスト賞を受賞したチームの一員でした。

ジャーナリストとして、彼はAIやロボット工学の最新情報、ブロードバンド契約、地球外生命体の存在の可能性、平手打ちの科学など、あらゆる事柄を取材してきました。

最新の AI ホワイトペーパーを理解しようとしていないときは、アレックスは有能なランナー、料理人、登山家のふりをします。

Discover More