画像処理分野における難関国際会議ICIP2024にてBest Paper Award (1st Runner-up)とBest Industry Paper Awardを受賞

2024年10月27日から30日までアラブ首長国連邦アブダビで開催された画像処理分野の難関国際会議ICIP (IEEE International Conference on Image Processing) 2024において、NTT研究所から投稿した論文がBest Paper Award (1st Runner-up)とBest Industry Paper Awardを受賞しました。なお、ICIP2024では、総投稿数1258件から596件の研究論文が採択されました（採択率47%）（＊）。
なお、所属は論文投稿時のものであり、略称の研究所名は以下のとおりです。
CS研：コミュニケーション科学基礎研究所
人間研：人間情報研究所
CD研：コンピュータ＆データサイエンス研究所

Best Paper Award (1st Runner-up):

Cross-action cross-subject skeleton action recognition via simultaneous action-subject learning with two-step feature removal

三鼓悠研究員（CS研）、木村昭悟主席研究員（CS研）、入江豪客員研究員（CS研 ^※1）、中澤篤志准教授（京大 ^※2）

^※1現在、東京理科大学准教授

^※2現在、岡山大学教授

人物の三次元姿勢から行動の種類を予測する行動認識問題では、行動に起因する情報（行動情報）と動作を行う人物に起因する情報（人物情報）とを切り分け、行動情報のみを適切に抽出することが重要です。これにより，任意の人物が特定の行動をとっていると正しく認識する精度が高くなります。しかしながら、下図に示すような特定の行動を特定の人物しか行っていない学習データしか得られない場合、行動情報と人物情報を分離することが困難になります。その結果、特定の行動をデータセット中で観測したある人物の固有性と混同し、行動認識性能が大きく劣化することがあります。

画像：Best Paper Award (1st Runner-up)

そこで本研究では、以下の手法を考案しました。

行動情報を大幅に減らす変換（位相ランダム化）および人物情報を大幅に減らす変換（骨格ランダム化）をそれぞれ個別に元の人物三次元姿勢に施す。
変換された三次元姿勢から抽出した特徴量に対して、変換後にも残存している情報をさらに取り除くために、敵対的な学習を導入する。

上記により、行動情報と人物情報を分離することが可能になりました。本技術によって、特定の行動を特定の人物しか行っていないような学習データしか得られない状況においても、より高精度な行動認識を実現しました。

画像：Best Paper Award (1st Runner-up)

映像からの人物行動認識は、インタラクション分析やセキュリティなど多くの分野での応用が期待できます。行動認識が困難かつ学習データの収集において遭遇する現実的な問題設定に新たに挑戦し、そのための有効な手法を考案したことが高く評価され、受賞につながりました。

Best Industry Paper Award:

MVAFormer: RGB-Based Multi-View Spatio-Temporal Action Recognition with Transformer

山根大河社員（人間研）、鈴木聡志研究員（人間研）、増村亮特別研究員（人間研）、東羅翔太郎主任研究員（CD研）

複数カメラの映像から人間の行動を認識するマルチビュー行動認識の先行研究は、映像全体を通して一つの行動を認識するタスク設定にのみ取り組んでいるため実用的ではありません。本研究では、時空間行動認識と呼ばれる複数人の連続的な行動を認識するタスク設定とマルチビュー行動認識を組み合わせたマルチビュー時空間行動認識に新たに取り組みました。

画像：Best Industry Paper Award