検索パネルを開く 検索パネルを閉じる メニューを開く メニューを閉じる

2024年1月17日

日本電信電話株式会社

大規模言語モデルに個人の発話を効率よく再現させる個人性再現対話技術を開発
~NTT版LLM"tsuzumi"への適用により、本人のデジタル分身を低コストに生成可能~

NTT(本社:東京都千代田区、代表取締役社長:島田 明)は、IOWN構想(※1)の柱の1つであるデジタルツインコンピューティング(以下、DTC)(※2)において、物理世界の制約を超えた活動や交流を通した機会増大や自己成長の実現を目指し、本人のように行動し本人と経験を共有する分身のようなAIエージェント「Another Me®」の研究開発を進めています。今回、NTT版大規模言語モデル「tsuzumi」(※3)の拡張技術として、少量の対話データから個人の口調や発話内容の特徴を反映して対話を生成する個人性再現対話技術を開発しました。また、少量の音声データから個人の声色を反映した音声を合成するZero/Few-shot音声合成技術を開発しました。従来、個人の特徴を学習し再現するには個人に関するデータが大量に必要だったのに対し、少量データから再現可能になったことで、多くの人が誰でも簡単にデジタル空間内に自身の分身を持つことが可能となります。本研究成果の実用化に向けて、自分自身に代わって人とのコミュニケーションやコミュニティ活動などを行うデジタル分身の公開実証等を進めていきます。

1. 背景

社会全体のデジタル化やAI技術の発展に伴い効率的な生活が実現されていく一方で、汎用AIのようなあらゆる問題に画一的な答えを出すAIへの過度な依存により、個人や社会の多様性が損なわれる可能性も指摘され始めています。こうしたなかNTTでは、IOWN構想において人それぞれが多様な個性を自然に発揮できる社会の実現を目指しており、専門性や個性を備えた比較的小規模なAIの集合知による多様性の確保を方針としてNTT版大規模言語モデル「tsuzumi」の研究開発を進めてきました。さらに、人の多種多様な個性を学習し人の代わりに自律的に活動するAIにより、人の多様性を様々な社会・経済活動に反映していくAnother Meプロジェクトを推進しています。本プロジェクトにおいて、昨年度は「過去の行動からその人が持つ趣味、価値観などを推定する個人性抽出技術」や「プロフィールや属性からその人らしい対話を再現する個人性再現対話技術」の開発(※4)を行いました。今回、Another Meの社会実装をさらに進めるため、大規模言語モデル(LLM: Large Language Model)を対話に適用し、さらに、少量のデータからでも高い本人再現性を実現する技術を開発しました。

図1 Another Meのビジョン 図1 Another Meのビジョン

2. 技術の概要

個性を有する個人の代理として社会の中で活躍できるAnother Meの実現には、その人らしくコミュニケーションする機能が欠かせません。そのような分身を誰もが持てるようにするため、少量データをもとに本人らしい発話を生成する「個人性再現対話技術」と、数秒~数分程度の音声から本人の音声を合成できる「Zero/Few-shot音声合成技術」を開発しました。

・個人性再現対話技術

優れた文章生成能力を持つLLMは、対話を集めた大量のデータで学習させることで、雑談や議論など人の自然な会話を生成する対話技術にも適用可能です。従来の対話技術の研究においては、個人性を再現するために個人の大量のデータでLLMをファインチューニング(※5)していましたが、コストが高くAnother Meで目指す万人のデジタル分身の再現には適用できませんでした。これに対し、比較的少量のデータによりLLMを効率的に追加学習させる方法として、アダプタ技術(※6)があります。これを対話における個人性の再現に適用した場合、ベースとなるLLMが多種多様な人の大量のデータで学習されているため、少量のデータでは十分に学習が進まず、結果として特徴が全く異なる他人のような発話が生成され、個人の再現度が低下するという課題がありました(図2上)。
 それに対して個人性再現対話技術では、アダプタ技術にペルソナ対話技術(※7)を組み合わせることで、課題の解決を図っています。ペルソナ対話技術によりベースとなるLLMにペルソナ機能を付加することで、LLMの応答が再現したい本人の大まかな個人性を反映するようになり、学習の初期状態がより本人に近づくため、少ないデータでも効率的な学習が可能になります。また、生成段階においても、アダプタの学習データに含まれるものとは全く異なるような対話においても、ペルソナを反映した妥当な応答を返すことで、個人の再現性が高まります。
 tsuzumiのアダプタ技術を個人性の再現に適用した個人アダプタは、エピソードを交えた発話や口癖など、対象の個人に特化した発話生成が可能です。個人アダプタとして個人ごとに追加されるモデルのサイズは非常に小さく、動的に切り替えることができるため、多人数の対話の再現を効率的に実現できます(図2下)。

図2 従来技術と個人性再現対話技術の比較 図2 従来技術と個人性再現対話技術の比較

・Zero/Few-shot音声合成技術

従来技術では、声を作りたい話者・口調ごとに数十分程度の音声データを用意する(収録に要する時間はその数倍)必要があり、万人の音声の再現やキャラクタの多彩な口調を実現するにはコストが高くなる課題がありましたが、より少ない音声データからでも高品質かつ多様な表現の生成を可能にする2つの技術を実現しました。
 1つ目は、「Zero-shot音声合成技術」です。話者のほんの数秒程度の音声から声色の特徴を抽出し、音声合成モデルの学習をすることなくその特徴を再現した音声を生成し、多忙な方や声を失った方など極少量の音声しか得られない方を含む万人の音声の簡易な再現をめざします。
 2つ目は、「Few-shot音声合成技術」です。著名人や有名キャラクタ等の声色・口調をより高い再現度で反映させることをめざし、再現したい口調の音声を含む数分~10分程度の音声データから音声合成モデルを学習し、従来に比べ必要な音声データ量を大きく削減しながらも再現性の高い音声を合成可能な「Few-shot音声合成技術」です。
 これらの技術を実現するためには多くのパラメータを持つ深層学習モデルを必要としますが、演算処理の高速化により一般的なスペックのCPUで動作させることに成功しており、本技術を用いた音声合成サービスの運用コストを低く抑えることを実現しています。

図3 Zero-shot音声合成技術(上)、Few-shot音声合成技術(下) 図3 Zero-shot音声合成技術(上)、Few-shot音声合成技術(下)

3. 技術の効果

これら技術により、自分の代わりに他人とコミュニケーションをするデジタル分身を誰もが持つことができるようになり、その主な適用先としてメタバースのような新たなデジタルコミュニケーションサービスが考えられます。サービスを使いこなして物理空間では会えない様々な人と交流している先進的なユーザがいる一方、多くの新規ユーザは誰と話せばよいか、何をすればよいか、最初は戸惑うことが多いのも実情です。それに対して本技術によるデジタル分身は、ユーザ自身がログインしていなくても自律的に活動するNPC(Non-Player Character)として他のユーザやそのデジタル分身とコミュニケーションし、その内容をユーザ本人に持ち帰って共有します。そうすることで、全く知らない人に話しかける心理的障壁や仕事・家事などの時間的制約に縛られず、興味関心や気心の合うユーザと友達になるきっかけが得られます。また、趣味や関心が共通する人々のコミュニティに分身が代理参加してユーザに橋渡しすることで、コミュニティ活動を活性化することができます。有名人やインフルエンサーのデジタル分身をサービス内に常時配置することで、ファンコミュニティの拡大・活性化も期待できます。
 このようなデジタル分身のプロトタイプをNTTドコモの最新技術を活用したメタコミュニケーションサービス「MetaMe®」上に実装し、2024年1月17日から東京国際フォーラムにて開催されるdocomo Open House'24(※8)にて展示予定です。

図4 本技術によるデジタル分身プロトタイプのユーザ体験イメージ 図4 本技術によるデジタル分身プロトタイプのユーザ体験イメージ

4. 今後の展望

ユーザのデジタル分身を通じた人間関係の創出効果に関してMetaMe®上でのフィールド実験を2023年度中に開始予定です。このような取り組みを通して、NTT版大規模言語モデルtsuzumiによる個人性再現機能の提供に向け、2024年度中に技術の精度向上を図ります。それにより、特定の領域に関する高い専門的な言語能力を有しながら、親しみやすい個性を持ち顧客や社員等との関係性を築けるデジタルヒューマンやチャットボットの実現につなげていきます。

※1IOWN 構想
あらゆる情報を基に個と全体との最適化を図り、光を中心とした革新的技術を活用し、高速大容量通信ならびに膨大な計算リソースなどを提供可能な、端末を含むネットワーク・情報処理基盤の構想です。
https://www.rd.ntt/iown/当該ページを別ウィンドウで開きます

※2地球・社会・個人間の調和的な関係が築かれる未来社会の実現に向けて
~デジタルツインコンピューティングの4つの挑戦~
https://group.ntt/jp/newsrelease/2020/11/13/201113c.html

※3NTT版大規模言語モデル「tsuzumi」
https://www.rd.ntt/research/LLM_tsuzumi.html当該ページを別ウィンドウで開きます

※4NTTニュースリリース 2023年2月1日:人との繋がりを生み出す次世代アバターUX技術の開発~NTTドコモが技術提供するコミュニケーションサービスMetaMe®に人デジタルツイン技術を試験実装~
https://group.ntt/jp/newsrelease/2023/02/01/230201a.html
なお、2023年2月1日に発表した個人性再現対話技術(2022年度版)は、個人性再現対話技術の中のペルソナ対話技術のみを実装したものです。

※5ファインチューニング: AIにデータに基づく知識を与えるための機械学習技術に関する用語で、大規模なデータで既に学習してあるAIモデルを、別の比較的小規模なデータで学習させて微調整(fine tuning)すること

※6アダプタ技術: 事前学習済みモデルの外部に比較的小規模のモデル(アダプタ)を追加することで、事前学習済みモデルのパラメータを固定したまま効率的に追加学習が可能となる技術
NTT版大規模言語モデル「tsuzumi」 柔軟なチューニング ~基盤モデル+アダプタ~
https://www.rd.ntt/research/LLM_tsuzumi.html#anc03当該ページを別ウィンドウで開きます

※7ペルソナ対話技術: ペルソナ対話技術は、対話データとともにプロフィールを学習させることでLLMにペルソナ機能を付加します。それにより、居住地や趣味などその人の大まかなプロフィール情報をパラメータ指定することで、そのようなプロフィールを持った人格(ペルソナ)に相応しい発話内容を再現することが可能です。

※8docomo Open House'24
https://docomo-openhouse24.smktg.jp/public/application/add/32当該ページを別ウィンドウで開きます

「MetaMe®」は、株式会社NTTドコモの登録商標です。

本件に関する報道機関からのお問い合わせ先

日本電信電話株式会社
サービスイノベーション総合研究所
広報担当
nttrd-pr@ml.ntt.com

ニュースリリースに記載している情報は、発表日時点のものです。
現時点では、発表日時点での情報と異なる場合がありますので、あらかじめご了承いただくとともに、ご注意をお願いいたします。