
水曜日の午後、私はビデオ通話でリッキー・ジャーヴェイスが音声クローンに関するジョークを言うのを聞いていました。その後、オードリー・ヘバーンが人工知能についての意見を述べてくれました。
当然のことながら、この2人は実際には電話会議に参加していませんでした。電話の向こう側にいたのは、ヒューム社のCEO兼主任科学者であるアラン・コーエン博士です。彼は、同社のAI音声生成サービスEVI 3の最新アップデートを披露していました。
わずか30秒の音声があれば、このツールは人物の声をほぼ完璧に再現できます。トーンやアクセントだけでなく、癖や性格も捉えて再現します。
リッキー・ジャーヴェイスが声のクローン機能についてジョークを飛ばす時も、いつもの辛辣なユーモアと皮肉たっぷりの口調が印象的だった。オードリー・ヘバーンは、当時のイギリス訛りの柔らかなアクセントで、物思いにふけりながらも好奇心を掻き立てられるような口調で話していた。
しかし、これは有名人だけではありません。このツールは、たった一つの小さな音声クリップから、世界中のあらゆる声を抽出し、再現することができます。このようなツールは、世界を良くも悪くも変える可能性を秘めていることは明らかです。
コーエン氏はトムズ ガイドのインタビューに応じ、この新しいツール、自身の経歴、そして彼のチームが AI 音声クローンの世界に革命を起こそうとしている理由について説明しました。
ヒュームとAI音声生成の世界
Humeは、不思議なことにあまり話題にならないAI分野で事業を展開しています。彼らは音声生成ソフトウェアを開発しており、「世界で最もリアルな音声AI」を自称しています。
最新ニュース、最も注目されているレビュー、お得な情報、役立つヒントにすぐにアクセスできます。
これはAI分野の中で最も急速に進化している分野だと思います。OpenAIやGoogleといった競合もいますが、Evi 3で私たちが成し遂げたことは、この技術を次の段階へと進めることです。
ヒュームCEO、アラン・コーウェン博士
長年にわたり大きな進歩を遂げ、現在では様々なプリセット音声による音声合成機能に加え、説明文から音声をデザインする機能も提供しています。そして今回の最新アップデートでは、あらゆる音声を複製することも可能になりました。
「これはAI分野の中で最も急速に進化している分野だと思います。OpenAIやGoogleといった競合もいますが、Evi 3で私たちが成し遂げたことは、この技術を次の段階へと進めることです」とコーエン氏は電話会議で説明した。
「従来のモデルは特定の人物を模倣することに頼っていました。そのため、各人物に合わせて微調整するには大量のデータが必要でした。このモデルは、感情や性格を含め、人物の音声を正確に再現します。」
これは、Humeの膨大な音声データと強化学習を活用することで実現されており、特定の人物を模倣する必要がありません。モデルに30秒のクリップを与えると、モデルはそれをゼロから再現できます。これにより、モデルはユーザー特有のイントネーション、アクセント、性格を学習し、同時に膨大な音声データを用いて学習することで、不足部分を補うことができます。
もちろん、このようなモデルは、適切な表現が与えられれば最も効果的に機能します。単調な声で話している、くぐもった音声クリップでは、あなたの性格とはあまり一致しません。ただし、現在は英語とスペイン語のみで動作しますが、将来的には他の言語にも対応する予定です。
真の声を生み出す倫理
もしも私のように、このすべてを聞いて最初に不安を感じたのなら、驚くべきことに、あなたはコーウェン氏と共通点を持っていることになります。
「これは非常に悪用される可能性があると思います。ヒューム社では当初、こうしたリスクを非常に懸念していたため、音声クローンの開発を断念しました。しかし、音声クローンの正当な利用目的を持つ多くの人々から相談を受けたため、考えを改めました」とコーエン氏は説明した。
「正当な使用例としては、ライブ翻訳、吹き替え、コンテンツのアクセシビリティ向上、脚本用に自分の声を再現すること、さらにはファンにリーチしたい有名人などが挙げられます。」
こうしたユースケースは確かに存在しますが、ネガティブなユースケースも同様に多く存在します。OpenAIのCEO、サム・アルトマン氏は最近、AI音声クローンの危険性と、それが詐欺や銀行の音声アクティベーションに悪用される可能性について警告しました。
この技術は、動画や画像の生成と組み合わせることで、ディープフェイクが真に問題視されるようになるまでの、これまで長らく必要とされてきた推進力となる可能性がある。コーエン氏は、こうした懸念を認識しており、ヒューム氏は最善を尽くして取り組んでいると述べた。
「この技術によって、多くの安全策を講じています。あらゆる会話を分析しており、この点ではまだ改善を続けています。しかし、様々な側面から、何かが悪用される可能性をスコア化することは可能です。誰かが詐欺に遭っているのか、許可なくなりすまされているのかといったことまで、です」とコーエン氏は述べた。
「もちろん、正しく使用されていない場合はアクセスを遮断できます。私たちの規定では、ヒューム・イニシアチブと並行して導入した一連の倫理ガイドラインを遵守する必要があります。こうした懸念は当初から念頭に置いており、これらの技術を展開していく中で、安全対策も強化しています。」
AIの世界におけるガイドラインの作成
ヒューム・イニシアティブは、ヒューム社が設立したプロジェクトです。その理念は、現代のテクノロジーは何よりも私たちの感情的な幸福に役立つべきであるということです。やや漠然としていますが、このイニシアティブは共感的テクノロジーのための6つの原則を挙げています。
- 技術は、個人と社会全体にとってそのメリットがコストを大幅に上回る場合にのみ導入されるべきである。
- テクノロジーは、私たちの感情的な幸福に役立つように構築されるべきであり、人間の感情を目的達成のための手段として扱うべきではない。
- 共感技術の能力、コスト、利点に関する主張は、厳密で包括的、学際的かつ協調的な科学によって裏付けられる必要があります。
- 多様な人口統計的・文化的グループのメンバーは、差別的なコストを負担することなく、共感的技術の恩恵を受ける権利がある。
- 共感的技術の影響を受ける人々は、その使用について十分な情報に基づいた決定を下すために必要な情報にアクセスできる必要がある。
- 共感的テクノロジーは、それが影響を与える人々の十分な情報に基づく同意を得た場合にのみ導入されるべきです。
もちろん、これらは従うべき良いガイドラインではありますが、主観的なものであり、従って初めて有益となるものです。コーエン氏は、これらはヒューム氏が支持する信念であり、音声クローンに関してはリスクを十分に認識していると私に保証しました。
ヒューム社では当初、こうしたリスクを非常に懸念していたため、音声クローンの開発を断念していました。しかし、音声クローンの正当な利用目的を持つ多くの方々からご相談をいただいたため、考えを改めました。
ヒュームCEO、アラン・コーウェン博士
「私たちはこの技術の最前線に立っており、常に先を行くよう努めています。しかし、この種のツールのガイドラインを尊重しない人もいるでしょう。危険はないと思って立ち去ってほしくありません。危険は確かに存在します」とコーエン氏は説明した。
「人々は携帯電話上のディープフェイクについて懸念するべきであり、こうしたタイプの詐欺には警戒すべきであり、これは業界横断的な取り組みが必要だと私は思います。」
リスクを認識していたにもかかわらず、コーエン氏は、これは自分たちが構築しなければならない技術だと考えていると説明した。
「AI分野は非常に急速に進化しており、6ヶ月以内に悪意のある人物がこのような技術にアクセスできるようになることは間違いありません。私たちはその点に注意する必要があります」とコーエン氏は述べた。
全体的な感想
コーエン氏は、私たちの会話の大部分を、この種のテクノロジーに関するガイドラインと正当な懸念事項について費やしました。心理学を専門とする彼は、この種のテクノロジーは人々の健康にマイナスの影響よりもプラスの影響を与えると強く信じています。
「デモで自分の声を複製するのを皆さん本当に楽しんでいただいています。すでに何千回もの会話が交わされており、これは素晴らしいことです。本当に楽しい方法で使っていただいています」とコーエン氏は、この種の技術について人々が誤解している点について語った後、こう述べた。
彼は、それが楽しみのために使用でき、人々の自信を高めるのに役立ち、さらにはトレーニング目的や映画や吹き替えでの声優のニーズにも使用できると強く信じています。
もちろん、AIの他の多くの分野と同様に、プラス面とマイナス面が拮抗しています。汎用的な音声で台本を読み上げられるのは便利ですが、リスクはそれほど大きくありません。
世界中のあらゆる声を正確に再現できるようになるには、多くの懸念事項が伴います。今のところ、コーエン氏と彼のチームはこの取り組みで大きく前進しており、倫理的な側面にも力を入れているようですが、この種の技術はまだ初期段階です。
Tom's Guideのその他の記事
- GPT-5の最も有用なアップグレードは速度ではなく、マルチモーダルの改善です。
- ChatGPT-5ユーザーは感心していない ― これが「ダウングレードのように感じる」理由
- PerplexityがAIビデオ生成を静かに展開 ― 知っておくべきことすべて
ノートパソコンに戻る
どんな価格でも
310件の取引のうち10件を表示
フィルター☰
(256GB SSD)
1
(15インチ 1TB)
2
(13.3インチ 64GB)
3
(512GB OLED)
4
(14インチ 128GB)
5
(14インチ 1TB)
私たちのレビュー
☆ ☆ ☆ ☆ ☆
6
7
(15インチ 256GB)
8
9
(青)
10
もっと見る
アレックスはTomsGuideのAIエディターです。現在世界で話題のAIに関するあらゆる情報に精通しており、最高のチャットボット、一風変わったAI画像ジェネレーター、そしてテクノロジー界最大のトピックの一つであるAIの裏側まで熟知しています。
Tom's Guide チームに参加する前、Alex は TechRadar および BBC Science Focus というブランドで働いていました。
彼は BSME 2023 のスペシャリストライター部門で高く評価され、BSME 2025 で最優秀ポッドキャスト賞を受賞したチームの一員でした。
ジャーナリストとして、彼はAIやロボット工学の最新情報、ブロードバンド契約、地球外生命体の存在の可能性、平手打ちの科学など、あらゆる事柄を取材してきました。
最新の AI ホワイトペーパーを理解しようとしていないときは、アレックスは有能なランナー、料理人、登山家のふりをします。