2018年10月16日

黒柳徹子さんのアンドロイドtottoがインタビュー！～幅広い話題で自律的にインタビューを行う音声対話システムを実現～

日本電信電話株式会社（東京都千代田区、代表取締役社長：澤田　純、以下「NTT」）は、キャラクター性を持ち、自律的に会話を行う音声対話システムを開発し、黒柳徹子さんのアンドロイドtotto（※1）へ導入しました。これまでは人がtottoを操作することでユーザとの会話を実現していましたが、NTTがこれまで培ってきた音声対話技術を応用することでtotto自らがユーザに働きかけ、より自然な対話を実現しています。
　なお、本技術を搭載したtottoとのインタビューをWorldRobotSummit内のWorldRobotExpo（※2）、InterBEE（※3）およびNTTR&Dフォーラム2018（秋）（※4）で体験して頂けます。

1．背景・経緯

NTTでは『日常会話ができる対話システム』の研究を進めてきました。世の中の多くの対話システムが特定の仕事をこなすタスク指向型の対話システムであるのに対し、日常の幅広い話題に対応し、自分からユーザに働きかけ長時間の会話を続けられる対話システムの開発を目指しています。
　またNTTでは、システムにキャラクター性を持たせることで親しみが増し、長く使い続けられると考えており、キャラクター性を持った対話システムの検討を進めています。
　現在、『自律型アンドロイドロボットの実現性検証』に関する共同実験（※5）をtotto製作委員会（テレビ朝日、電通、電通テック、エーラボ）、株式会社国際電気通信基礎技術研究所（ATR）、大阪大学と行っております。その枠組みの中でNTTのこれまでの研究で培ってきた「自律的」、「キャラクター性」を持った音声対話システムをtottoへ搭載しました。これにより、黒柳徹子さんにより近づいたtottoとの自然な対話を実現しています。

2．技術の概要

従来のユーザからシステムへ働きかける対話システムではなく、システム側からの自律的なインタビューで状況、文脈に合わせた幅広い話題でユーザに働きかけるための技術を開発しました。
　また、ユーザとシステムとの円滑なやり取りを実現するために、ユーザがいつでも話しかけられる機能とユーザの発話がまだ継続するか、終了するかをリアルタイムに判断する機能を持たせました。さらに、従来言語情報のみでやり取りされてきた対話システムに動作を加えることで、より多くの表現が可能となり、豊かなコミュニケーションが可能になりました。
　システムに黒柳徹子さんのキャラクター性を反映させるため、テレビ朝日グループが保有する過去の放送（「徹子の部屋」）コンテンツを利用しました。これにより、黒柳さんの声、話し方、動作などを忠実に再現。それをtotto制作委員会が制作したtottoと組み合わせることで外見から内面までキャラクター性を再現し、その場に存在しているかのような体験をユーザに提供できるようになりました。

tottoとのインタビューイメージ

3．技術の特長

以下のNTT技術を用いてインタビュー型音声対話システムを実現しています。

（1）キャラクター性を持ち、幅広い話題でユーザに働きかけ会話を促す対話技術

<1>短応答発話生成技術: 相槌等のやりとりについて言語理解に基づいてパターン化し、ユーザの発話に対しリアルタイムで適切な応答を返せるようになりました。
<2>支持発話生成技術: 大規模な支持発話データを元にニューラルネットワークを用いて学習し、任意の発話に対してその内容をサポートする肯定的な発言を生成することで、ユーザが心地よく会話することを可能にしました。
<3>深掘り質問生成技術: 大量の質問発話ペアを元にニューラルネットワークを用いて学習し、相手の発話に合わせて相手の情報を聞き出す質問を生成することで、ユーザの発話を促し、会話への参加意欲を高めることを可能にしました。
<4>なりきり質問応答技術: 放送コンテンツから抽出した特定のキャラクタの質問と応答ペアから，発話の解析結果とニューラルネットワークを用いることで，相手の質問に対応する応答を高精度に選択します。

（2）円滑な会話を行う対話技術

<1>モーション生成技術: 人間の対話時における発話テキストと頷きなどの頭の動き、視線、表情、ハンドジェスチャ、身体姿勢といった身体モーションの関係性を学習し、発話テキストを入力として発話に合わせた自然なモーションを自動生成すること可能としました。
<2>ユーザフレンドリな発話聞き取り技術: ウェイクワード（※6）無しでも、いつでもシステム側に話しかける事ができます。また、システム側が発話中にユーザが割り込んで話し始めた場合でも、システム側の発話を中断し話を聞き取ることができるようになりました。さらに、話者交替のタイミングを音声情報のみからリアルタイムに予測するニューラネットワークを用いることで、円滑なインタラクションを実現しました。

（3）キャラクターの声を再現しつつ、多様な話題を認識する音声認識合成技術

<1>音声合成技術: 過去の放送コンテンツに含まれる音声を手がかりにして最新のニューラルネットワーク（※7）を学習させることで、どのようなテキストでも任意の人の声にチューニングできる音声合成を実現しました。
<2>音声認識技術: 最新のニューラルネットワークに基づく音響モデリングと、WFST（※8）による最適な探索ネットワークにより、さまざまな話題に対しても高速かつ高精度に認識することを可能としました。

4．今後の展開

現在、tottoへ導入した機能の一部をエンジン化した、対話エンジンを開発しており、事業導入を目指しています。今後はバーチャルユーチューバーや既存のキャラクターとの対話サービスへの応用などを検討しています。

用語解説

^※1totto 黒柳徹子さんのアンドロイド。黒柳さんの「おしゃべり」の力を世界中に届けるため、totto製作委員会により2017年に開発。今年度NTT研究所の対話システムが搭載され、自律的な会話が可能に。黒柳さんのおしゃべりを世界中のあらゆる人々に届け、笑顔を広める「totto夢プロジェクト」が進行中。
http://totto-android.com/ （別ウインドウが開きます）