検索パネルを開く 検索パネルを閉じる メニューを開く メニューを閉じる

2015年8月10日

1フレームの誤差なく映像ショットを特定できる高精度シーン探索技術を開発
~映像制作ワークフローにおける目視による映像比較の省略により作業効率を飛躍的に向上~

日本電信電話株式会社(本社:東京都千代田区、代表取締役社長:鵜浦博夫、以下 NTT)は、多数の映像の中から編集映像に使われている映像ショットを1フレームの誤差なく特定できる高精度シーン探索技術を開発しました。これにより、映像制作ワークフローにおける目視による映像比較を省略することができ、映像制作作業の効率を飛躍的に向上させることができます。
 NTTは、ハリウッドの映画スタジオ等を顧客に持つPIX SYSTEM, LLC(以下PIX社)※1と共同で、2013年7月から本技術のフィールド検証を実施してきました。実際の映画の編集された映像を対象として、映像ショットの検出精度及び検出速度を検証し、本技術の実用性を実証するとともに、映像制作ワークフローの中で高い評価を得ました。今後も検証を継続し、映像制作現場の作業効率化に貢献する技術開発を進めていきます。

1.映像制作における課題

映画制作においては、シナリオや演出に従って日々多数の映像が撮影されるだけでなく、同じシーンが何度も撮影されるなど、通常上映される映像の数倍以上の映像が撮影されています。この映像には極めて類似した映像や、動きのない映像が含まれますし、映像編集において、色調整や映像効果の利用等の編集加工技法の利用、キャプションやタイムコードの挿入などにより、元の映像から差異を持った映像も作成されていきます。
 このような多数の映像の管理においてはメタデータ※2が重要になりますが、現状メタデータの付与は十分になされていません。また映像編集時には何度も映像の差し替えがあったり、映像の加工がなされたりするため、編集管理が非常に煩雑になっています。そのため、映像の再編集や元の映像を再利用する場合、元の映像がどれであったのか、どの映像フレームが使われていたのかを特定するには、目視で確認しているのが現状です。また編集済映像になされた映像加工等を考慮しながら映像の同一性について判断する必要があるため、その作業に多大な時間とコストがかかっていました。

2.開発概要

今回NTTが開発した高精度シーン探索技術は、映像から抽出した特徴データを利用して、編集済映像に用いられた元の映像を、多数の類似した映像の中から、フレームレベルで誤差無く高速に特定するもので、目視による検索時間を1万分の1以下に削減できると試算しています。このように映像制作ワークフローでの目視で行われていた作業を省略することが可能になるため、映像検索作業の大幅な効率化を図ることができます。
 NTTは、2013年7月からPIX社と共同で本技術のフィールド検証を行い、実際の映画映像の映像編集に関わるエンドユーザへのデモンストレーションとヒアリングを通じて、映像検索における検出精度、及び検索速度に関して実用的なレベルとの評価結果を得ました。また、一連の映像編集ワークフロー(撮影現場からの映像登録、監督からの編集指示、プロダクションによるオフショア作業、監督・プロデューサによる編集映像チェック)の中においても、高い評価を得ています(図1)。

図2 高精度シーン探索実現イメージ 図1 フィールド検証における映像制作ワークフロー上での利用

3.技術のポイント:高精度シーン探索技術

同じシナリオ・演出による類似した映像、色調整など編集加工された映像を探索できるようにするため、NTTは、これまでに研究開発してきたロバストメディア探索(RMS)技術※3を拡張し、識別性を保持しつつ輝度変動に対してロバストな情報を特徴値として利用する技術を新たに開発しました。また、抽出レベルが異なる特徴データを生成し、探索範囲を絞り込む多段的な特徴データ判定を行う構成を取ることにより、省メモリ化と検索の高速化を実現しました(図2)。
 また映像の種類、画質に関わらずフレーム位置を検出できる新たなフレーム検出方法を開発しました。類似フレームの最頻値を利用してフレームレベルでのショットを特定する従来方法においては、類似映像が連結された編集映像の検出はほとんどできなかったものが、映像の同期ずれ量に着目したフレーム同期・正否判定処理とすることで、実用的な検出精度(90%以上)を実現しました。また、ショット開始・終了位置の検出に適応的な閾値を設定することにより、切り替え区間外の誤検出を抑制しつつ、微小な変化位置も検出可能となっています。
 システム的には、一つの映像データから密度の異なる二つの特徴データをあらかじめ抽出し、それらを使い分けて探索範囲を絞りこむ多段的な探索を行います。また本技術は、映像だけでなく音声へも適用可能であり、音声信号から抽出した特徴データの比較により、同一の音声を含む区間を特定することができます。

図2 高精度シーン探索実現イメージ 図2 高精度シーン探索実現イメージ<

4.今後の予定

NTTでは、今後も映像編集・加工の多様化に対応した検索技術の高度化やネットワークを利用した遠隔協調制作の高機能化を図ってまいります。
 また本技術を利用したビジネストライアルを、株式会社エヌ・ティ・ティ・データ(本社:東京都江東区、代表取締役社長:岩本敏男)が実施していく予定です。

用語解説

※1PIX SYSTEM, LLC
映画制作におけるメタデータ・映像管理をサービス提供する企業。米国ハリウッドスタジオ、メディアグループ企業を顧客としています。
URL:http://www.pixsystem.com当該ページを別ウィンドウで開きます

※2メタデータ
映像の内容を表すためのデータのこと。映像のタイトルや、撮影日時、撮影場所、シーン/カット番号などの他、データ形式(フォーマット・コーデック)、解像度、フレームレート、尺など多岐にわたる。

※3音や映像の信号の断片を探索のキーとし、多数の音楽や映像を格納したデータベースの中を検索し一致するものを見つけ出す、NTTが開発した技術。一般的なメディア探索技術に比べて高いロバスト性をもつ点に大きな特徴があります。
ロバストメディア探索技術に関する報道発表
URL:http://www.ntt.co.jp/news/news08/0804/080422a.html

本件に関するお問い合わせ先

ニュースリリースに記載している情報は、発表日時点のものです。
現時点では、発表日時点での情報と異なる場合がありますので、あらかじめご了承いただくとともに、ご注意をお願いいたします。