
「マルチモダリティ」とは何ですか?
AIの場合、マルチモーダル性とは、テキストだけでなく、音声、画像、動画などの入力も理解し、対話する能力を指します。マルチモーダルチャットボットは、複数の種類の入出力に対応できます。
今週のChatGPTのGPT-5アップグレードにより、コーディング、計算、応答精度において、チャットボットの速度とパフォーマンスが劇的に向上しました。しかし、AI開発の全体像において最も有用な改善点は、おそらくマルチモーダル機能でしょう。
ChatGPT-5は、強化された音声モードと、より優れた視覚情報処理能力を備えています。サム・アルトマン氏は今週のGPT-5発表ライブストリームでマルチモーダル性について具体的には触れませんでしたが、以前ビル・ゲイツ氏のポッドキャストで、ChatGPTが「音声入力、音声出力、画像、そして最終的には動画」へと進化していることをゲイツ氏に認めていました。
GPT-5のおかげで改良された音声モードは、カスタムGPTにも対応し、ユーザーの指示に基づいてトーンと話し方を調整します。例えば、話し方が速すぎる場合はゆっくり話すように指示したり、トーンがきつすぎる場合は少し温かみのある話し方にするように指示したりできます。OpenAIはまた、すべてのモデルで従来の標準音声モードが今後30日間で段階的に廃止されることを発表しました。
もちろん、ChatGPTやその優れた代替手段とのやり取りの大部分はテキストで行われます。しかし、AIが人間のデジタルライフにますます浸透していくにつれて、AIはマルチモーダル入力を主体としたシステムへと完全に移行していく必要があります。
これまでにもこのようなことはありました。ソーシャル メディアが本格的に普及し始めたのは、ノートパソコンやデスクトップからスマートフォンに移行してからです。
突然、ユーザーは同じデバイスで写真を撮ってアップロードできるようになりました。それがスマートフォンであろうと、あるいは(ザッカーバーグが信じ込ませようとしているように)最高のスマートグラスであろうと、それは問題ではありません。最も成功するAIは、周囲の世界を理解できるAIになるでしょう。
なぜこれが重要なのでしょうか?
GPT-5は、単一のモデル内で複数の異なるタイプのデータをネイティブに処理(および生成)するように設計されています。以前のバージョンではプラグイン形式のアプローチが採用されていましたが、これを廃止することで、どのタイプの入力を選択しても、よりシームレスなインタラクションが実現します。
最新ニュース、最も注目されているレビュー、お得な情報、役立つヒントにすぐにアクセスできます。
より堅牢なマルチモーダルAIには、聴覚や視覚に障害のあるユーザーを含め、多くのメリットがあります。チャットボットからの応答を障害に合わせて調整する機能は、テクノロジーのアクセシビリティに大きく貢献するでしょう。
より堅牢なマルチモーダル AI には、聴覚や視覚に障害のあるユーザーにとっても、非常に多くのメリットがあります。
音声モードの使用が増えていることが ChatGPT Plus の採用を促進する要因となっている可能性があります。プレミアム層では応答回数が無制限であるのに対し、無料ユーザーは依然として限られた時間数に制限されているからです。
一方、画像理解能力の向上により、例えばAIはユーザーが提示したグラフや画像を分析する際に幻覚に陥りにくくなります。これは、グラフや図表と対話できるツールの「ビジュアルワークスペース」機能と連携して機能します。これにより、ChatGPTは指示に応じてより正確で優れた画像を生成するように学習します。
これを教育の文脈で考えると、大きな助けになるでしょう。特にGPT-5は、より長い会話を通して情報を理解できるようになったため、ユーザーは会話の冒頭で画像を参照することができ、GPT-5はそれを記憶しています。
AI 画像生成には暗い側面があることは誰もが知っているが、効果的なマルチモーダル性が AI モデルの未来であることは間違いなく、Google Gemini がこれらの GPT-5 のアップグレードに対してどのような反応を示すのかを見るのは興味深いだろう。
Google ニュースで Tom's Guideをフォローすると、最新のニュース、ハウツー、レビューをフィードで受け取ることができます。「フォロー」ボタンを忘れずにクリックしてください。
Tom's Guideのその他の記事
- ChatGPT-5が登場 ― 知っておくべき7つの最大のアップグレード
- 私はChatGPTのパワーユーザーです。これらは私が最も使用したいChatGPT-5のアップグレードです。
- ChatGPT-5の機能 - 最初に試すべき5つのアップグレード
ジェフはトムズ ガイドの英国編集長で、サイトの英国チームの日々の編集を担当しています。
10年以上テクノロジージャーナリストとして活躍し、世界中を旅しては、手に入るあらゆるガジェットをテストしてきました。ジェフは、最新のタブレットやノートパソコンに加え、フィットネスやウェアラブル機器にも強い関心を持っています。
ゲーマーを辞めた彼は、カートリッジを取り出して埃を吹き飛ばすことで技術的な問題を解決していた時代を懐かしく思い出します。