【レポート】未来のコミュニケーション最新技術を展示公開！「オープンハウス2024」

2024年7月11日

【レポート】未来のコミュニケーション最新技術を展示公開！
「オープンハウス2024」

1)
オープンハウス2024の見どころ
2)
展示の紹介
3)
研究講演
- ・
  人の知覚に寄り添った自然で快適な映像表示
  ～人間の視覚情報処理モデルに基づく表示映像の最適化～
4)
関連情報

1) オープンハウス2024の見どころ

NTTグループは、コミュニケーション科学基礎研究所の最新のR&D成果を一般公開するイベント「オープンハウス2024」を、2024年6月24日（月）・6月25日（火）・6月26日（水）、NTT西日本QUINTBRIDGEおよびPRISM（所在地：大阪府大阪市）において開催しました。本イベントは、NTT コミュニケーション科学基礎研究所（以下「NTT CS研」）が主催するものです。
　今回のオープンハウスでは、「語り会おう未来のコミュニケーション」をテーマに、錯覚を用いた3D映像提示やリアルタイムの音声変換など最新の研究開発技術 (合計22点) の展示や研究講演を行いました。

2) 展示の紹介

光を使って音を見る

画像：光を使って音を見る

光技術を利用して音の波を高精細に可視化することで音がどのように発生するのか、どのように伝わるのかといった音の性質を、ハイスピードカメラとレーザー光、AI処理を用いて詳しく解析する技術。
　音は水面の波紋のように空気中を波として伝わりますが、音が伝搬する様子を直接観察することはできません。一般的なマイクロホンによる音の観測では、マイクロホンが置かれた位置の音の波形を測りますが、それに対してこの技術では、光学技術とハイスピードカメラを用いることで、空気中を気圧変化として伝わる音の波をレーザー光の微細な変調の動画像として捉えることができます。さらに深層学習による音場画像雑音除去技術がノイズを除去し、音の可視化を高精度に実現することができます。

音は私たちの生活に身近な存在ですが、理想的な音とは何か、どう評価すればよいのかなど、未解決な研究課題が多数残されています。この技術によって、聞くだけではわからない音の微妙な違いを見える化することで、スピーカーやヘッドホンなど音響製品の高品質化や差別化を促進、快適な音環境の創出をめざします。

声と話し方を好みのスタイルに一瞬で変える

画像：声と話し方を好みのスタイルに一瞬で変える

声色や音声の属性を高品質かつ低遅延にリアルタイム変換・生成する技術。従来の音声変換技術では発話の終了を待ってから発話単位で変換していたため、話をしている最中に音声を変換することができませんでしたが、この技術によってライブ配信で話者の音声を別の話者の音声に変換したり、Web会議やコールセンターで相手の声を聞き取りやすい声に変換することが可能になります。

画像：声と話し方を好みのスタイルに一瞬で変える

音声には、言語情報以外にも性別や声の高さ、感情など、さまざまな変動要因が複雑にもつれ合って混在しています。この技術では声の抑揚や声質における話者ごとの違いを考慮した深層生成モデルを用いて変動要因のもつれを解き、高品質で快適な音声表現を実現しています。
　この技術によって、ライブ配信やコールセンターにおける話者の秘匿性を高めるなど、対面・遠隔を問わず、さまざまな音声コミュニケーションでの応用が可能になります。

大規模なインフラ障害はどのくらい起こる？

画像：大規模なインフラ障害はどのくらい起こる？

たびたび起こるケーブルや電線などインフラ部品の故障を原因とする、障害規模別の障害発生率を近似なしに計算する技術。通信や電力などのネットワークインフラでは、大規模な障害を避けるため、障害規模ごとに発生率をおさえる高信頼設計が求められています。しかし従来の技術では、すべての故障パターンやユーザの障害パターンを調べるために膨大な時間が必要となっていました。
　この技術では決定グラフと呼ばれるデータ構造を用いて、障害規模別の発生率を近似なしで高速に求めることに成功。従来技術で発生していた同じ計算を繰り返す無駄を省くことで、都道府県規模のネットワークでは1秒以内、従来技術の10万倍以上の速度で規模別不稼働率を計算できるようになりました。
　この技術は、設計したインフラが現代のネットワークインフラに要求される高い信頼性基準を満たしているかを確認することに貢献。大規模障害がより起こりづらいネットワークインフラ設計が実現する未来をめざします。

絵に表れる友達への気持ち

画像：絵に表れる友達への気持ち

幼児が描く絵から、他者に抱く親密さを簡便かつ自然に測定する技術。3～6歳の幼児に自分と他者の絵を描いてもらい、描かれた人物の一番近い点同士の距離は、幼児がその他者に抱く親密さと関連することが分かりました。描画という簡易的な手法で幼児の親密さを測定できることを示した世界で初めての研究です。
　幼児が他者に抱く親密さは友人関係の基盤であり、発達心理学分野の重要なテーマです。しかし従来の測定手法では準備に時間を要する、質問意図が分かりやすいなどの問題がありましたが、幼児にとって馴染みがあり実施が容易な描画によって、他者との親密さを測定することに成功。

画像：絵に表れる友達への気持ち

幼児の社会においても、孤立やいじめなどさまざまな問題が潜んでいます。これらの問題をいち早く検知し、深刻な事態となることを防ぎながら良好な関係を構築する支援手法を確立することで、幼児期のウェルビーイングを向上させ、その子の将来にポジティブな影響を与えることができます。

手持ちのモニタのかき集めで巨大3D映像提示

画像：手持ちのモニタのかき集めで巨大3D映像提示

隙間のある大小複数のモニタで構成されたディスプレイでも、飛び出す3Dの映像として見る人が知覚できる世界初の技術。従来、複数個のモニタを隙間を開けて配置した場合、モニタ全体で投影する巨大な3D映像は上手く知覚できないと思われていました。しかし、人に備わっている視覚情報を補完するメカニズムを利用したこの技術によって、モニタの隙間に映像がなくても錯覚的に像がつながり、3Dとして浮き出て見ることが可能となりました。また複数の一般的なモニタを集めてひとつの巨大なスクリーンを構成するため、そのうちのひとつにトラブルが発生しても復旧が容易です。

画像：手持ちのモニタのかき集めで巨大3D映像提示

人間の視覚システムの理解をさらに進め、この技術がさらに進化することで、より臨場感の高い3D映像が一般的なデバイスでも楽しめるようになります。また今は専用の機器や特別な施設でのみ体験できるような迫力ある映像を、誰もが身近な場所で気軽に体験できるような未来をめざしています。

運動スキルを見える化しよう！

画像：運動スキルを見える化しよう！

簡単な繰り返し運動をするだけで運動スキルや利き手・利き足度合いを定量化する技術。従来の利き手や利き足の調査は矯正などに左右されやすく、実際の運動スキルに基づいた定量的な測定を行うことが困難でした。また従来の手の器用さを測る手法には特別な器具が必要であったため、手軽に評価することもできませんでした。
　この技術では、一般的なスマートフォンを手や足に付けて行う繰り返し運動の軌道のばらつきが少ないほど運動スキルが高いことを実証。手に持ったり足に装着したスマートフォンを音に合わせて回すことで加速度の軌道を計測、運動スキルの評価や、利き手・利き足度合いの定量化を可能にしました。同時に成長に伴う運動スキルの向上や、高齢化による運動スキルの低下の見える化にも貢献します。

画像：運動スキルを見える化しよう！

運動スキルを簡単に評価する手法をさらに発展させることにより、スポーツごとに適したトレーニングを提案、また運動リハビリにおいて左右のバランスや学習効果を容易に見える化。さらに運動機能と脳情報処理の関係を探るツールとしての展開もめざしています。

3) 研究講演

NTTコミュニケーション科学基礎研究所の講演の中で、「人の知覚に寄り添った自然で快適な映像表示」についてダイジェストでご紹介します。

人の知覚に寄り添った自然で快適な映像表示
～人間の視覚情報処理モデルに基づく表示映像の最適化～

NTTコミュニケーション科学基礎研究所人間情報研究部
吹上大樹

情報表示技術や表示デバイスの発展に伴い、近い将来、現実空間のあらゆる場所が情報表示のためのスクリーンとして使われるようになるかもしれません。しかし、プロジェクタや透過型ディスプレイを用いた新しい表示技術では、周囲の明るさや背景の模様によって表示画像の見え方が大きく変化するため、映画館のように常に理想的な表示はできません。このようなとき、人間がどのようにしてものを見ているのかを理解することが問題解決の鍵となります。
　人間の視覚特性に合わせた映像表示技術の重要性は今後さらに高まると考えられます。こうしたアプローチのひとつとして、私たちの研究グループでは、人間の視覚情報処理プロセスをモデル化し、そのモデルに基づいて表示映像を自動的に最適化する研究に取り組んでいます。
　例えば、拡張現実感ディスプレイなどでは現実空間中に別の画像情報を半透明表示することがよくあります。しかし、半透明表示した画像の視認性は背景の影響を受けて変化するため、望んだ視認性を雑持することは困難です。これに対処するため、私たちは脳内におけるコントラスト検出メカニズムの振る舞いが視認性にどのように影響しているかを調査し、このメカニズムを模徴するモジュールを備えた視認性予測モデルを開発しました。また、プロジェクションマッピングという技術では、現実空間に馴染むように画像や映像を投影しますが、明るい環境や投影先の実物体の光吸収率によっては、投影像のコントラストが足りず、思ったような見た目が得られないことがあります。これに対し脳内の視覚情報表現を再現する計算モデルを用いて「知覚の上で」理想的な映像に最も近づけるよう投影像を最適化する方法を提案しました。
　将来的に、現実空間のあらゆる場所が情報表示のスクリーンとして使用されるようになるかもしれません。しかし、表示環境が常に変化するなかで、最適な表示を人手で作り込むことは現実的ではありません。私たちの研究では、人の知覚のモデルを用いることで、こうした場面でも常に自然で違和感のない体験を提供することをめざします。