AIはあなたの仕事をこなせるか？OpenAIの新しいテストで、44の職業におけるAIのパフォーマンスが明らかに

（画像クレジット：fizkes/Shutterstock）

OpenAIは、ChatGPTのGPT-5モデルの新しいテストベンチマークを発表した。このベンチマークでは、さまざまな現実世界のタスクを通じて、人間の職業と直接対戦することになる。

GDPval のフルセットには 1,320 の専門的なタスクが含まれており、各タスクはこれらの分野で平均 14 年以上の経験を持つ経験豊富な専門家によって細心の注意を払って作成され、検証されています。
オープンAI

この新しいベンチマークはGDPvalと呼ばれ、ChatGPTが「経済的に価値のある現実世界のタスク」において人間にどれだけ近いかを評価することを目的としています。これは、学業テストやコーディングコンテストといった分野を超えて、看護、財務管理、エンジニアリング、ジャーナリズムなど、現実世界で行われる仕事にまで対象を広げることを意味します。

これはすべて、OpenAI による汎用人工知能 (AGI) の確立に向けた取り組みの一環であり、同社は、GPT-5 モデル (および Anthropic の Claude Opus 4.1) が「すでに業界の専門家が作成した作品の品質に近づいている」と指摘しています。

さまざまな AI モデルと、特定の業界の人間の専門家と比較したテスト結果を示すグラフ。 — さまざまなAIモデルと、特定の業界における人間の専門家と比較した際の比較を示すグラフ。(画像クレジット: OpenAI)

OpenAIは、新しいテストを説明するブログ投稿で次のように説明した。「従来のベンチマークとは異なり、GDPvalタスクは単純なテキストプロンプトではありません。

参照ファイルとコンテキストが付属しており、期待される成果物はドキュメント、スライド、図、スプレッドシート、マルチメディアなど多岐にわたります。このリアリティにより、GDPvalはモデルが専門家をどのようにサポートできるかをより現実的に検証できるものとなっています。

GDPvalのフルセットには、1,320の専門タスク（ゴールドオープンソースセットでは220）が含まれており、それぞれが平均14年以上の当該分野での経験を持つ経験豊富な専門家によって、綿密に作成・精査されています。すべてのタスクは、法的要約、エンジニアリング設計図、カスタマーサポートの会話、介護計画など、実際の作業成果物に基づいています。

OpenAI はどのようなジョブを対象に ChatGPT をテストしていますか?

課題は9つの異なる業界にわたる44の職種を網羅しました。全リストは以下のとおりです。

最新ニュース、最も注目されているレビュー、お得な情報、役立つヒントにすぐにアクセスできます。

不動産、賃貸、リース

コンシェルジュ
不動産、不動産管理、コミュニティ協会の管理者
不動産販売代理店
不動産ブローカー
カウンターとレンタル係

政府

レクリエーション従事者
コンプライアンス担当者
警察と刑事の第一線の監督者
管理サービスマネージャー
児童・家族・学校ソーシャルワーカー

製造業

機械エンジニア
産業エンジニア
バイヤーと購買代理店
出荷、受領、在庫管理担当者
生産・運営労働者の第一線監督者

専門的、科学的、技術的なサービス

ソフトウェア開発者
弁護士
会計士と監査人
コンピューターおよび情報システム管理者
プロジェクト管理スペシャリスト

医療と社会福祉

登録看護師
看護師
医療および健康サービス管理者
オフィスおよび管理サポートスタッフの第一線監督者
医療秘書および事務アシスタント

金融と保険

カスタマーサービス担当者
金融・投資アナリスト
財務マネージャー
個人金融アドバイザー
証券、商品、金融サービスの販売代理店

小売り

薬剤師
小売販売員の第一線監督者
ゼネラルマネージャーおよびオペレーションマネージャー
私立探偵と調査員

卸売業

営業マネージャー
注文係
非小売販売員の第一線監督者
技術・科学製品を除く卸売・製造業の営業担当者
営業担当者、卸売および製造、技術および科学製品

メディア

オーディオおよびビデオ技術者
プロデューサーとディレクター
ニュースアナリスト、記者、ジャーナリスト
映画・ビデオ編集者
編集者

それで、AIは私の仕事を奪ってしまうのでしょうか?

これは6万4000ドルの価値がある質問ですが、答えはおそらくイエスです。少なくともAIがあなたの仕事の何らかの部分を測るようになるかもしれません。OpenAI自身も、GDPvalは「多くの経済活動のニュアンスを完全に反映していない初期段階」だと指摘しています。

さらに、このテストは「44の職業と数百の知識労働タスクを網羅していますが、1回限りの評価に限定されているため、モデルがコンテキストを構築したり、複数の草稿を通じて改善したりする必要があるケースを捉えることができません。」

道のりはまだ長く、最近の研究ではChatGPTは依然として頻繁に間違いを犯すと指摘されています。しかし、OpenAIはAGIの実現に尽力しており、将来のバージョンではよりインタラクティブなワークフローとコンテキストリッチなタスクに対応し、「現実世界の知識労働の複雑さをより適切に反映」すると述べています。

AIが私たちの労働環境を一変させるという事実は、もはやもはや明白です。しかし、AIがほとんどの社会にどのように統合されるかは、依然として人間、ビジネスリーダー、そして顧客の手に委ねられています。人間が行うべき仕事は常に存在し続けるでしょう。これもまた明白な事実ですが、今後数十年で仕事の種類は大きく変化するでしょう。

GoogleニュースでTom's Guideをフォローし、お気に入りの情報源として追加して、最新のニュース、分析、レビューをフィードで受信しましょう。「フォロー」ボタンを忘れずにクリックしてください！