検索パネルを開く 検索パネルを閉じる メニューを開く メニューを閉じる

2022年3月 4日

日本電信電話株式会社

リアルタイム遠隔セッションを実現する超低遅延の映像分割表示処理技術の実証
~離れた場所でも演奏者同士の一体感のある演奏スタイルの実現へ~

日本電信電話株式会社(本社:東京都千代田区、代表取締役社長:澤田 純、以下「NTT」)は、IOWNの低遅延の特長を活用して、離れた地点間でタイムラグなく相互の映像をやり取りし、オーケストラの遠隔合奏等の映像コミュニケーションを実現する複数映像の超低遅延分割表示処理技術を実証しました。武蔵野・横須賀・厚木のそれぞれの演奏拠点で撮影した映像をストリーム型で分割表示処理してやり取りする実験用ネットワークシステムにおいて、映像の遅延のストレスなく合奏が実現できることを確認しました。

1.研究の背景

新型コロナウイルスの世界的な感染拡大を契機に、私たちの生活スタイルが大きく変化し、社会のさまざまな活動のリモート化が進展しています。音楽エンターテイメントの領域でも、演奏者が同じ場所に集まることなくネットワークを介してリアルタイムで遠隔セッションすることのニーズが高まっています。
 NTTはこれまで臨場感のある遠隔パフォーマンスの実現に向けて、離れた別々の場所から伝送された映像・音声を同期させて、視聴者にライブ配信する技術などの研究開発に取り組んできました。今回、演奏者同士のセッションの一体感の向上に着目し、IOWNの特長を活用することで演奏者が遅延を感じることなく相互の映像をやり取りできる遠隔コミュニケーションシステムの実現に向けた技術の研究開発に取り組みました。
 リアルタイムの遠隔セッションの実現には、指揮者などの特定の人物だけでなく、演奏者同士のジェスチャーなどを相互に見て、演奏のタイミングを合わせることが必要です。そのためには、一方向ではなく、複数の拠点間で相互に音声のみならず映像についても遅延無くやり取りすることが重要です(図1)。しかし、リモートワークなどで使用されている従来のインターネットを用いたWeb会議では、ベストエフォート品質のネットワークのため映像伝送の遅延が発生し、加えて、各拠点からの映像を縮小し、1つのモニタの画面を分割して表示させる処理(分割表示処理)にかかる遅延が大きくなることから、相互の演奏のタイミングを合わせづらく、遠隔セッションに適用することが困難でした。

図1 一体感のあるリアルタイムの遠隔セッションのための演奏タイミングの合わせ方 図1 一体感のあるリアルタイムの遠隔セッションのための演奏タイミングの合わせ方

2.技術のポイント

NTTでは次世代のコミュニケーション基盤としてIOWN構想を提唱しており、この特長の1つとして、光技術を活用したネットワークで情報を圧縮することなく伝送するなどの仕組みによる、低遅延な伝送の実現があります。更に、従来のベストエフォート品質のネットワークとは異なり、遅延のゆらぎの無い伝送が可能となるため、遅延の振る舞いを理解した上でネットワークシステムやユーザエクスペリエンスを設計することが可能になります。
 今回、この特長を活用し複数拠点から届けられる複数の映像を、超低遅延に分割表示処理する技術を実現しました(図2)。これにより、光ベースのネットワーク(APN: All Photonics Network)の低遅延の特長を損なうことなく、分割表示処理も含めたEvent-to-Eye(被写体の状態が変化してから表示するまで)の映像遅延を短縮することができ、複数の離れた拠点間でタイムラグを感じず相互の映像をやり取りできるシステムを構成できます。
 従来手法では、異なるタイミングで入力される複数の映像に対し、それらの全ての入力の1画面分のデータ(フレーム)が揃ってから分割表示処理をすることから、最後のフレームを待つ分の遅延が発生します。本技術では、各拠点からの映像をフレーム単位で処理するのではなく、届いた順に画面配置を制御しながら分割表示映像を出力するストリーム型の処理技術を用いることで、フレーム待ち時間を低減し、超低遅延の映像分割表示出力を実現しています。この分割表示処理技術を実装した装置では、FPGA(Field Programmable Gate Array)を用いたハードウェアで処理させることで、4つの非同期のHDMI映像が装置に入力されてから、分割表示処理して装置から出力されるまでの時間が10ミリ秒程度以下で実現できることを確認しました。

図2 IOWN構想における超低遅延映像分割表示処理技術を用いた遠隔映像コミュニケーション 図2 IOWN構想における超低遅延映像分割表示処理技術を用いた遠隔映像コミュニケーション

3.実証実験

実際の遠隔合奏における本技術の効果を確認するために、NTTの武蔵野(離れた場所に2拠点)、横須賀、厚木の3つの研究開発センタ間において、それぞれの拠点で演奏する模様を撮影したHDMI映像を圧縮することなく伝送し、これらをストリーム型で分割表示処理した映像を再び各拠点に非圧縮で送って演奏者※に表示する実験用ネットワークシステムを構築しました(図3)。この実験構成の遅延特性を測定したところ、従来のインターネットを用いたWeb会議では分割表示処理を含めたEvent-to-Eyeの全体の遅延として数100ミリ秒程度かかっていたのに対して、この技術を適用したシステムによれば20ミリ秒程度以下まで短縮できることを確認しました。
 実験は、指揮者(武蔵野1)、第1ヴァイオリン(武蔵野2)、第2ヴァイオリン・ヴィオラ(横須賀)、チェロ・コントラバス(厚木)の配置で、各拠点において、モニタで分割表示映像を見ながら遠隔で演奏する形態としました。

協力:日本フィルハーモニー交響楽団、永峰 大輔 氏(指揮)

図3 実証実験の概要 図3 実証実験の概要

まず比較のために、高遅延の映像遅延(150ミリ秒)を模擬した環境で遠隔合奏した場合には、分割表示された映像と実際の動作との間にタイムラグがあるため拠点間で演奏の映像タイミングが合わず、一体感のある合奏を行うことが困難でした。一方、本技術を用いた場合には、分割表示された映像を基に他の拠点の演奏者の動きをリアルタイムに確認できるため、演奏のタイミングがずれることなく合奏できることが確認できました(図4)。
 更に、演奏者の方々へ遠隔合奏の体感をインタビューしたところ「映像の遅延を感じなかった」、「複数拠点の映像を同時に確認できて演奏がし易かった」といった意見が得られました。
 以上より、本技術を用いることで、リモートでも映像の遅延のストレスなく合奏が実現できることを確認できました。

図4 実験結果 図4 実験結果

4.今後の展開

本実証実験の評価を通じて、離れた場所同士でも遅延を感じず一体感が得られる新しいスタイルの遠隔映像コミュニケーションを実現すべく、研究開発を進めてまいります。また、早期の実用化に向け、ビジネス性を含めNTTグループ会社と共に検討を進めてまいります。

本件に関する報道機関からのお問い合わせ先

NTT情報ネットワーク総合研究所
企画部 広報担当
inlg-pr-pb-ml@hco.ntt.co.jp
TEL:0422-59-3663

ニュースリリースに記載している情報は、発表日時点のものです。
現時点では、発表日時点での情報と異なる場合がありますので、あらかじめご了承いただくとともに、ご注意をお願いいたします。