2024年10月27日~30日にアラブ首長国連邦アブダビにて開催される、画像処理の難関国際会議ICIP(IEEE International Conference on Image Processing)2024にて、NTTの研究所から投稿した6件の論文が採択されました。ICIP 2024では、総投稿数1258件から596件の研究論文が採択され、最も規模の大きな国際会議の一つとして知られています。
なお、所属は論文投稿時のものであり、略称の研究所名は以下のとおりです。
SIC:ソフトウェアイノベーションセンタ
CD研:コンピュータ&データサイエンス研究所
人間研:人間情報研究所
CS研:コミュニケーション科学基礎研究所
- SCENE GENERALIZED MULTI-VIEW PEDESTRIAN DETECTION WITH ROTATION-BASED AUGMENTATION AND REGULARIZATION
- 鈴木 聡志 研究員(人間研)、東羅 翔太郎 主任研究員(CD研)、増村 亮 特別研究員(人間研)
- 複数カメラの画像を用いて、鳥瞰図上で人物の検出を行うMulti-view pedestrian detectionタスクは深層学習技術によって精度が向上しています。しかし、多くの先行研究は学習時とは異なるカメラ位置での利用時には十分な性能が発揮できないという課題がありました。本研究では、鳥瞰図状に表現された特徴量を回転することでカメラ位置に対するデータ拡張効果が得られることに着目し、新たな正則化手法を提案することで既存手法のカメラ位置に対する汎化性能向上を実現しました。
- MVAFORMER: RGB-BASED MULTI-VIEW SPATIO-TEMPORAL ACTION RECOGNITION WITH TRANSFORMER
- 山根 大河 社員(人間研)、鈴木 聡志 研究員(人間研)、増村 亮 特別研究員(人間研)、東羅 翔太郎 主任研究員(CD研)
- 複数カメラの映像から人間の行動を認識するマルチビュー行動認識の先行研究は、映像全体を通して一つの行動を認識するタスク設定にのみ取り組んでいるため実用的ではありません。本研究では、時空間行動認識と呼ばれる複数人の連続的な行動を認識するタスク設定とマルチビュー行動認識を組み合わせたマルチビュー時空間行動認識に新たに取り組みました。さらに、我々はTransformerをもとにした新たな手法を提案し、比較手法を大きく上回る認識性能を達成しました。
- COLLABORATIVE INTELLIGENCE FOR VISION TRANSFORMERS: A TOKEN
SPARSITY-DRIVEN EDGE-CLOUD FRAMEWORK
- Monikka Roslianna Busto 研究員(SIC)、榎本 昇平 研究員(CD研)、江田 毅晴 担当部長(SIC)
- Collaborative Intelligence(CI)は、エッジ・クラウドシステムにおける深層ニューラルネットワーク(DNN)の展開を、ワークロードの最適化やデータスパース性を活用した圧縮と計算コスト削減によって効率化します。Vision Transformer(ViT)は利点がある一方で、従来の畳み込みニューラルネットワーク(CNN)に比べて計算負荷が高く、エッジ・クラウドでの展開が難しいとされています。既存のCI手法は、主にCNNの特徴マップのスパース性に基づいていますが、ViTはトークンスパース性を利用するため、異なるアプローチが求められます。本研究では、ViTのトークンスパース性を活用する新しいCI手法を提案し、推論前にタスクに関連するトークンを優先するオフロードポリシーネットワークを導入しました。これにより、計算コストを41.98-45.75%削減し、精度劣化を1.96-3.10ポイントに抑えながら、最大36.85%の圧縮率を達成しました。
- IMPROVING IMAGE CODING FOR MACHINES THROUGH OPTIMIZING ENCODER VIA AUXILIARY LOSS
- 飯野 景(早稲田大)、赤松 俊輔(コロンビア大)、渡辺 裕(早稲田大)、榎本 昇平 研究員(CD研)、坂本 啓主任研究員(SIC)、江田 毅晴 担当部長(SIC)
- 機械向け画像符号化(Image Coding for Machines (ICM))では、人間の視覚ではなく、機械による認識に必要な情報を圧縮することが重要です
しかし、既存の手法であるタスク固有の損失を使用した圧縮モデル最適化や、注視領域(ROI)に基づくビット割り当ては、深層モデルでの訓練の困難さや評価時の追加オーバーヘッドといった課題に直面します。
本論文では、エンコーダに補助損失を導入し、認識能力とレート-歪み性能を向上させる新しい学習済みICMモデルの訓練方法を提案します。実験により、この方法は物体検出タスクで27.7%、セマンティックセグメンテーションタスクで20.3%のBjøntegaard Deltaレートの改善を達成することが確認されました。
- CROSS-ACTION CROSS-SUBJECT SKELETON RECOGNITION VIA SIMULTANEOUS ACTION-SUBJECT LEARNING WITH TWO-STEP FEATURE REMOVAL
- 三鼓 悠 研究員(CS研)、木村 昭悟 主席研究員(CS研)、入江 豪 客員研究員(CS研 ※1)、中澤 篤志 准教授(京大 ※2)
※1 現在、東京理科大学 准教授
※2 現在、岡山大学 教授
- 人物の三次元姿勢から行動の種類を予測する行動認識問題では、行動に起因する情報(行動情報)と動作を行う人物に起因する情報(人物情報)とを切り分け、行動情報のみを適切に抽出することが必要です。しかしながら、特定の行動を特定の人物しか行っていない学習データしか得られない場合、データに含まれる特定の人物の行動に特化して認識してしまい、他人による同じ行動の認識がうまくいかず、結果として全体的な行動認識性能が大きく劣化します。本研究では、三次元姿勢のランダム変換と敵対的学習により行動データの個人性と行動特有の動きを分離する手法を提案し、より高精度な行動認識を実現しました。本技術は、インタラクション分析やセキュリティなど、幅広い分野で映像からの人物行動認識能力の向上への貢献が期待されます。
- ESTIMATING INDOOR SCENE DEPTH MAPS FROM ULTRASONIC ECHOES
- 本間 純平(東京理科大学)、木村 昭悟 主席研究員(CS研)、入江 豪 准教授(東京理科大学)
- 一般的な可視光カメラや近赤外光を用いた距離センサなどが利用できない状況においても屋内の構造を推定する方法として、発信した音波の反射・反響波を観測する方法が注目されています。しかしながら、実環境において可聴音を発信した計測は騒音の問題を引き起こす可能性があります。そこで本研究では、学習データの収集の際に可聴音波と超音波を発信した計測を行い、学習後は超音波のみで屋内の奥行き情報を高精度に推定できる手法を実現しました。
NTTのR&Dは、環境にやさしい持続的な成長、多様性に寛容な個と全体の最適化を狙う未来のコミュニケーション基盤であるIOWN(Innovative Optical and Wireless Network)構想を掲げ、その実現に向けた研究開発を進めてまいります。また、それとともに、今後も研究テーマの多様性・継続性を大切に、NTTグループの各事業会社をはじめ、さまざまな分野の産業界の方々と一緒に、さまざまな社会的課題を解決し、人々が意識することなく技術の恩恵を受けることができるスマートな世界の実現をめざし、世界を変革する技術の研究開発を続けていきます。