検索パネルを開く 検索パネルを閉じる メニューを開く メニューを閉じる

2018年10月16日

黒柳徹子さんのアンドロイドtottoがインタビュー! ~幅広い話題で自律的にインタビューを行う音声対話システムを実現~

日本電信電話株式会社(東京都千代田区、代表取締役社長:澤田 純、以下「NTT」)は、キャラクター性を持ち、自律的に会話を行う音声対話システムを開発し、黒柳徹子さんのアンドロイドtotto(※1)へ導入しました。これまでは人がtottoを操作することでユーザとの会話を実現していましたが、NTTがこれまで培ってきた音声対話技術を応用することでtotto自らがユーザに働きかけ、より自然な対話を実現しています。
 なお、本技術を搭載したtottoとのインタビューをWorldRobotSummit内のWorldRobotExpo(※2)、InterBEE(※3)およびNTTR&Dフォーラム2018(秋)(※4)で体験して頂けます。

1.背景・経緯

NTTでは『日常会話ができる対話システム』の研究を進めてきました。世の中の多くの対話システムが特定の仕事をこなすタスク指向型の対話システムであるのに対し、日常の幅広い話題に対応し、自分からユーザに働きかけ長時間の会話を続けられる対話システムの開発を目指しています。
 またNTTでは、システムにキャラクター性を持たせることで親しみが増し、長く使い続けられると考えており、キャラクター性を持った対話システムの検討を進めています。
 現在、『自律型アンドロイドロボットの実現性検証』に関する共同実験(※5)をtotto製作委員会(テレビ朝日、電通、電通テック、エーラボ)、株式会社国際電気通信基礎技術研究所(ATR)、大阪大学と行っております。その枠組みの中でNTTのこれまでの研究で培ってきた「自律的」、「キャラクター性」を持った音声対話システムをtottoへ搭載しました。これにより、黒柳徹子さんにより近づいたtottoとの自然な対話を実現しています。

2.技術の概要

従来のユーザからシステムへ働きかける対話システムではなく、システム側からの自律的なインタビューで状況、文脈に合わせた幅広い話題でユーザに働きかけるための技術を開発しました。
 また、ユーザとシステムとの円滑なやり取りを実現するために、ユーザがいつでも話しかけられる機能とユーザの発話がまだ継続するか、終了するかをリアルタイムに判断する機能を持たせました。さらに、従来言語情報のみでやり取りされてきた対話システムに動作を加えることで、より多くの表現が可能となり、豊かなコミュニケーションが可能になりました。
 システムに黒柳徹子さんのキャラクター性を反映させるため、テレビ朝日グループが保有する過去の放送(「徹子の部屋」)コンテンツを利用しました。これにより、黒柳さんの声、話し方、動作などを忠実に再現。それをtotto制作委員会が制作したtottoと組み合わせることで外見から内面までキャラクター性を再現し、その場に存在しているかのような体験をユーザに提供できるようになりました。

tottoとのインタビューイメージ

tottoとのインタビューイメージ

3.技術の特長

以下のNTT技術を用いてインタビュー型音声対話システムを実現しています。

(1)キャラクター性を持ち、幅広い話題でユーザに働きかけ会話を促す対話技術

<1>短応答発話生成技術
相槌等のやりとりについて言語理解に基づいてパターン化し、ユーザの発話に対しリアルタイムで適切な応答を返せるようになりました。
<2>支持発話生成技術
大規模な支持発話データを元にニューラルネットワークを用いて学習し、任意の発話に対してその内容をサポートする肯定的な発言を生成することで、ユーザが心地よく会話することを可能にしました。
<3>深掘り質問生成技術
大量の質問発話ペアを元にニューラルネットワークを用いて学習し、相手の発話に合わせて相手の情報を聞き出す質問を生成することで、ユーザの発話を促し、会話への参加意欲を高めることを可能にしました。
<4>なりきり質問応答技術
放送コンテンツから抽出した特定のキャラクタの質問と応答ペアから,発話の解析結果とニューラルネットワークを用いることで,相手の質問に対応する応答を高精度に選択します。

(2)円滑な会話を行う対話技術

<1>モーション生成技術
人間の対話時における発話テキストと頷きなどの頭の動き、視線、表情、ハンドジェスチャ、身体姿勢といった身体モーションの関係性を学習し、発話テキストを入力として発話に合わせた自然なモーションを自動生成すること可能としました。
<2>ユーザフレンドリな発話聞き取り技術
ウェイクワード(※6)無しでも、いつでもシステム側に話しかける事ができます。また、システム側が発話中にユーザが割り込んで話し始めた場合でも、システム側の発話を中断し話を聞き取ることができるようになりました。さらに、話者交替のタイミングを音声情報のみからリアルタイムに予測するニューラネットワークを用いることで、円滑なインタラクションを実現しました。

(3)キャラクターの声を再現しつつ、多様な話題を認識する音声認識合成技術

<1>音声合成技術
過去の放送コンテンツに含まれる音声を手がかりにして最新のニューラルネットワーク(※7)を学習させることで、どのようなテキストでも任意の人の声にチューニングできる音声合成を実現しました。
<2>音声認識技術
最新のニューラルネットワークに基づく音響モデリングと、WFST(※8)による最適な探索ネットワークにより、さまざまな話題に対しても高速かつ高精度に認識することを可能としました。

4.今後の展開

現在、tottoへ導入した機能の一部をエンジン化した、対話エンジンを開発しており、事業導入を目指しています。今後はバーチャルユーチューバーや既存のキャラクターとの対話サービスへの応用などを検討しています。

用語解説

※1totto 黒柳徹子さんのアンドロイド。黒柳さんの「おしゃべり」の力を世界中に届けるため、totto製作委員会により2017年に開発。今年度NTT研究所の対話システムが搭載され、自律的な会話が可能に。黒柳さんのおしゃべりを世界中のあらゆる人々に届け、笑顔を広める「totto夢プロジェクト」が進行中。
http://totto-android.com/ (別ウインドウが開きます)

※2WorldRobotExpo
2018年10月17日~21日、東京ビッグサイト 東6/7/8ホールにて開催。

※3InterBEE
2018年11月14日~16日、幕張メッセにて開催。

※4NTTR&Dフォーラム2018(秋)
11月29日、30日、NTT武蔵野研究所にて開催。

※5『自律型アンドロイドロボットの実現性検証』に関する共同実験
totto製作委員会は学習に用いる過去の放送コンテンツ及びアンドロイド(totto)本体提供、ATR/大阪大学はアンドロイド制御技術を担当。また、NTTは対話システムおよびATRと共同でモーション生成技術を担当。

※6ウェイクワード
スマートスピーカーなどの音声応答システムに指示を伝える際に呼びかける言葉

※7ニューラルネットワーク
機械学習手法の1つ。人間の脳内にある神経細胞(ニューロン)とそのつながり神経回路網を人工ニューロンという数式的なモデルで表現したもの。

※8WFST
有限状態オートマトンの1つ。単語辞書や言語モデルをWFSTで構築することで超大語彙でも高速な認識結果探索処理が可能となる。

本件に関するお問い合わせ先

日本電信電話株式会社
サービスイノベーション総合研究所
企画部広報担当
E-mail:randd-ml@hco.ntt.co.jp
Tel:046-859-2032

Innovative R&D by NTT
NTTのR&D活動を「ロゴ」として表現しました

ニュースリリースに記載している情報は、発表日時点のものです。
現時点では、発表日時点での情報と異なる場合がありますので、あらかじめご了承いただくとともに、ご注意をお願いいたします。