27のAIモデルが一般公開され、ChatGPTは8位となった。これを上回ったモデルは以下のとおり。

Artificial intelligence "AI" and brain glowing next to a smartphone screen

（画像クレジット：Tom's Guide/Shutterstock）

AIの世界はまるで無法地帯のように感じられることもありますが、実際には舞台裏で驚くほど多くの分析、ベンチマーク、テストが行われています。企業だけでなく、独自のランキングを作成するために設立されたグループによっても行われています。

これらのグループは、チャットボットが数学のテストを完了する能力、画像を作成する能力、推論を示す能力、医療アドバイスを提供する能力、あるいは単に感情的知能がどの程度あるかなど、あらゆることをテストします。

これらの様々なテストを通して、モデルの成績は上がったり下がったりしており、様々な分野における強みと弱みが明らかになっています。例えば、GPT-5は科学的推論には優れていますが、新しい概念への適応能力ではGeminiやClaudeといったモデルに劣っています。

これらのテストはどれもAIモデルに関する新たな知見を提供し、様々なシナリオにおいてどのツールが最適かを判断する上で重要です。しかし、しばしば一つの指標が欠けています。それは、どのAIモデルが最高のユーザーエクスペリエンスを提供するのか、ということです。

ヒューメインランキングシステム

A ranking of the top five AI chatbots — （画像提供：Humaine）

英国に拠点を置くテクノロジー企業Prolificは、独自のAIリーダーボード「Humaine」を立ち上げました。AIのタスク遂行能力をテストするのではなく、Prolificは様々なユーザーによるAIモデルの使用体験をテストしました。

21,352人のツール使用体験を評価することで、総合的な勝者を見つけるだけでなく、年齢、場所（英国と米国の両方でテスト）、政治的信条ごとに結果を分類することができました。

これには次の個別のリストが含まれます。

最新ニュース、最も注目されているレビュー、お得な情報、役立つヒントにすぐにアクセスできます。

英国：年齢層
英国：民族
英国：政治的見解
米国：年齢層
米国：民族
米国の政治的見解

チームは、各参加者に 2 つの異なる AI モデルを比較して操作させ、それぞれの操作でどちらのモデルが優れていたかについてのフィードバックを求めました。

これにより、パフォーマンスに関する総合優勝者とスコアボードが作成されましたが、コアタスクのパフォーマンスと推論に関する個別のランキング、およびコミュニケーション、流動性、信頼と倫理に関する優勝者も作成されました。

結果は何を示していますか?

logos of ChatGPT and Gemini — （画像提供：Future）

投票の結果、総合的なパフォーマンスカテゴリーだけでなく、ほとんどのサブカテゴリーでも明確な勝者が出ました。Gemini 2.5-Proは、テストで提示されたほぼすべてのフィルターでトップに輝きました。

英国の18～34歳、民主党支持者、そして米国の55歳以上の回答者は、いずれもGemini 2.5 Proが総合的に最も優れたモデルであると回答しました。すべての年齢層がGeminiよりも高い評価を得たのは、信頼性、倫理性、そして安全性の点でGrok-3のみでした。これは、このAIモデルが最近抱えている安全性と倫理性に関する問題を考えると、やや皮肉な結果です。

興味深いことに、Geminiに続く3つのモデルは、Deepseek、Magistral Le Chat、そしてGrokです。Deepseekは今年初めに非常に人気を集めましたが、最近は人気が下がっています。一方、Le Chatはそれほど人気はありませんが、熱心なファンベースを持つチャットボットです。

では、世界的に有名なChatGPTは、この中でどこに位置しているのでしょうか？かなり下の方ですが、GPT-4.1モデルが最高位で8位につけています。さらにひどいのはClaudeで、バージョン4の2つのモデルが総合ランキングで11位と12位にとどまっています。