
AIの世界はまるで無法地帯のように感じられることもありますが、実際には舞台裏で驚くほど多くの分析、ベンチマーク、テストが行われています。企業だけでなく、独自のランキングを作成するために設立されたグループによっても行われています。
これらのグループは、チャットボットが数学のテストを完了する能力、画像を作成する能力、推論を示す能力、医療アドバイスを提供する能力、あるいは単に感情的知能がどの程度あるかなど、あらゆることをテストします。
これらの様々なテストを通して、モデルの成績は上がったり下がったりしており、様々な分野における強みと弱みが明らかになっています。例えば、GPT-5は科学的推論には優れていますが、新しい概念への適応能力ではGeminiやClaudeといったモデルに劣っています。
これらのテストはどれもAIモデルに関する新たな知見を提供し、様々なシナリオにおいてどのツールが最適かを判断する上で重要です。しかし、しばしば一つの指標が欠けています。それは、どのAIモデルが最高のユーザーエクスペリエンスを提供するのか、ということです。
ヒューメインランキングシステム
英国に拠点を置くテクノロジー企業Prolificは、独自のAIリーダーボード「Humaine」を立ち上げました。AIのタスク遂行能力をテストするのではなく、Prolificは様々なユーザーによるAIモデルの使用体験をテストしました。
21,352人のツール使用体験を評価することで、総合的な勝者を見つけるだけでなく、年齢、場所(英国と米国の両方でテスト)、政治的信条ごとに結果を分類することができました。
これには次の個別のリストが含まれます。
最新ニュース、最も注目されているレビュー、お得な情報、役立つヒントにすぐにアクセスできます。
- 英国:年齢層
- 英国:民族
- 英国:政治的見解
- 米国:年齢層
- 米国:民族
- 米国の政治的見解
チームは、各参加者に 2 つの異なる AI モデルを比較して操作させ、それぞれの操作でどちらのモデルが優れていたかについてのフィードバックを求めました。
これにより、パフォーマンスに関する総合優勝者とスコアボードが作成されましたが、コアタスクのパフォーマンスと推論に関する個別のランキング、およびコミュニケーション、流動性、信頼と倫理に関する優勝者も作成されました。
結果は何を示していますか?
投票の結果、総合的なパフォーマンスカテゴリーだけでなく、ほとんどのサブカテゴリーでも明確な勝者が出ました。Gemini 2.5-Proは、テストで提示されたほぼすべてのフィルターでトップに輝きました。
英国の18~34歳、民主党支持者、そして米国の55歳以上の回答者は、いずれもGemini 2.5 Proが総合的に最も優れたモデルであると回答しました。すべての年齢層がGeminiよりも高い評価を得たのは、信頼性、倫理性、そして安全性の点でGrok-3のみでした。これは、このAIモデルが最近抱えている安全性と倫理性に関する問題を考えると、やや皮肉な結果です。
興味深いことに、Geminiに続く3つのモデルは、Deepseek、Magistral Le Chat、そしてGrokです。Deepseekは今年初めに非常に人気を集めましたが、最近は人気が下がっています。一方、Le Chatはそれほど人気はありませんが、熱心なファンベースを持つチャットボットです。
では、世界的に有名なChatGPTは、この中でどこに位置しているのでしょうか? かなり下の方ですが、GPT-4.1モデルが最高位で8位につけています。さらにひどいのはClaudeで、バージョン4の2つのモデルが総合ランキングで11位と12位にとどまっています。
それで、これは一体何を意味するのでしょうか?
これは、Geminiが世界最高のAIチャットボットだという意味でしょうか?それとも、ChatGPTはもうやめるべきなのでしょうか?まあ、必ずしもそうではありません。
これらの結果は必ずしもこれらのモデルのパフォーマンスを反映するものではありません。他のほとんどの指標でテストした場合、通常上位に表示されるのはChatGPT、Gemini、Claude、Grokです。
しかし、これはこれらのテストに重要な追加要素となります。より人間的な体験の観点からAIをより深く理解するのに役立ちます。例えば、Le Chatはベンチマークスコアではそれほど高くありませんが、体験と信頼性の点では上位にランクされています。
AnthropicとOpenAIは今回のテストではそれほど良い結果を残せませんでしたが、GeminiとGrokは今回も好調な結果を残しました。両社ともベンチマークで高いスコアを頻繁に獲得しており、今回のテストでもその傾向が続いています。
Tom's Guideのその他の記事
- 元テスラとグーグルのエンジニアが開発したAI検出の「ブラックライト」、パングラムをテストしてみた。その性能はいかに?
- GoogleのNano Bananaを使って色々なヘアスタイルを試してみたが、その結果には本当に驚いた。
- この新しいAIツールは1,000以上の病気のリスクを予測できます — Delphi-2Mのご紹介
ノートパソコンに戻る
どんな価格でも
309件の取引のうち10件を表示
フィルター☰
(256GB SSD)
1
(15インチ 1TB)
2
(13.3インチ 256GB)
私たちのレビュー
☆ ☆ ☆ ☆ ☆
3
(512GB OLED)
4
(14インチ 256GB)
私たちのレビュー
☆ ☆ ☆ ☆ ☆
5
(14インチ 1TB)
私たちのレビュー
☆ ☆ ☆ ☆ ☆
6
7
(15インチ 256GB)
8
9
(青)
10
もっと見る
アレックスはTomsGuideのAIエディターです。現在世界で話題のAIに関するあらゆる情報に精通しており、最高のチャットボット、一風変わったAI画像ジェネレーター、そしてテクノロジー界最大のトピックの一つであるAIの裏側まで熟知しています。
Tom's Guide チームに参加する前、Alex は TechRadar および BBC Science Focus というブランドで働いていました。
彼は BSME 2023 のスペシャリストライター部門で高く評価され、BSME 2025 で最優秀ポッドキャスト賞を受賞したチームの一員でした。
ジャーナリストとして、彼はAIやロボット工学の最新情報、ブロードバンド契約、地球外生命体の存在の可能性、平手打ちの科学など、あらゆる事柄を取材してきました。
最新の AI ホワイトペーパーを理解しようとしていないときは、アレックスは有能なランナー、料理人、登山家のふりをします。