2025年1月14日
2024年10月27日から30日までアラブ首長国連邦 アブダビで開催された画像処理分野の難関国際会議ICIP (IEEE International Conference on Image Processing) 2024において、NTT研究所から投稿した論文がBest Paper Award (1st Runner-up)とBest Industry Paper Awardを受賞しました。なお、ICIP2024では、総投稿数1258件から596件の研究論文が採択されました(採択率47%)(*)。
なお、所属は論文投稿時のものであり、略称の研究所名は以下のとおりです。
CS研:コミュニケーション科学基礎研究所
人間研:人間情報研究所
CD研:コンピュータ&データサイエンス研究所
Cross-action cross-subject skeleton action recognition via simultaneous action-subject learning with two-step feature removal
三鼓 悠 研究員(CS研)、木村 昭悟 主席研究員(CS研)、入江 豪 客員研究員(CS研 ※1)、中澤 篤志 准教授(京大 ※2)
※1現在、東京理科大学准教授
※2現在、岡山大学教授
人物の三次元姿勢から行動の種類を予測する行動認識問題では、行動に起因する情報(行動情報)と動作を行う人物に起因する情報(人物情報)とを切り分け、行動情報のみを適切に抽出することが重要です。これにより,任意の人物が特定の行動をとっていると正しく認識する精度が高くなります。しかしながら、下図に示すような特定の行動を特定の人物しか行っていない学習データしか得られない場合、行動情報と人物情報を分離することが困難になります。その結果、特定の行動をデータセット中で観測したある人物の固有性と混同し、行動認識性能が大きく劣化することがあります。
そこで本研究では、以下の手法を考案しました。
上記により、行動情報と人物情報を分離することが可能になりました。本技術によって、特定の行動を特定の人物しか行っていないような学習データしか得られない状況においても、より高精度な行動認識を実現しました。
映像からの人物行動認識は、インタラクション分析やセキュリティなど多くの分野での応用が期待できます。行動認識が困難かつ学習データの収集において遭遇する現実的な問題設定に新たに挑戦し、そのための有効な手法を考案したことが高く評価され、受賞につながりました。
MVAFormer: RGB-Based Multi-View Spatio-Temporal Action Recognition with Transformer
山根 大河 社員(人間研)、鈴木 聡志 研究員(人間研)、増村 亮 特別研究員(人間研)、東羅 翔太郎 主任研究員(CD研)
複数カメラの映像から人間の行動を認識するマルチビュー行動認識の先行研究は、映像全体を通して一つの行動を認識するタスク設定にのみ取り組んでいるため実用的ではありません。本研究では、時空間行動認識と呼ばれる複数人の連続的な行動を認識するタスク設定とマルチビュー行動認識を組み合わせたマルチビュー時空間行動認識に新たに取り組みました。
さらに本研究ではマルチビュー時空間行動認識向けのモデリングを新たに提案しました。提案モデリングのポイントは、
の2点です。これらの技術的工夫により、高精度に複数カメラから人間の行動を認識することを可能としました。複数カメラを利用して人の行動を把握する技術は、教育分野やヘルスケア分野のDX化に向けて非常に重要であり、産業分野での応用が強く期待される技術として高く評価され、受賞につながりました。
NTTのR&Dでは、引き続き人間と情報の本質に迫る基礎理論の構築を目指すとともに、世界を変革する技術の研究開発を続けていきます。
(*)ICIP2024採択時のトピックス
https://group.ntt/jp/topics/2024/11/01/icip_2024.html
トピックスに記載している情報は、発表日時点のものです。
現時点では、発表日時点での情報と異なる場合がありますので、あらかじめご了承いただくとともに、ご注意をお願いいたします。
NTTとともに未来を考えるWEBメディアです。