コンピュータビジョン分野の最高峰国際会議CVPRにNTT研究所から2件採択

2026年6月3日から7日まで（米国山岳時間）アメリカコロラド州デンバーで開催される国際会議CVPR（The IEEE/CVF Conference on Computer Vision and Pattern Recognition）2026において、NTT研究所より提出された2件の論文が採択されました。CVPRは、計算機が画像・動画を理解・制御・生成する技術の開発やそのための基礎理論の探求をめざす研究分野であるコンピュータビジョンにおける世界最高峰とされる国際会議です。

なお、所属としてそれぞれ略称で記載されている研究所名は以下の通りです。（所属は投稿時点）

人間研：NTT人間情報研究所
CD研：NTTコンピュータ＆データサイエンス研究所

■Rationale-Enhanced Decoding for Multi-Modal Chain-of-Thought
（マルチモーダル CoT のための根拠強化デコーディング）

山口真弥（准特別研究員）（CD研）、西田光甫（准特別研究員）（人間研）、千々和大輝（准特別研究員）（CD研）

大規模視覚言語モデル（LVLM）の推論能力を高める手法として、中間的な根拠を生成するChain-of-Thought（CoT）が利用されています。しかし、既存の推論手法ではモデルが CoT において生成した根拠の内容を無視して回答を出力してしまうという課題がありました。本研究では、この課題を解決するため、追加学習を必要としないマルチモーダル CoT 向けの新たな推論手法「RED（Rationale-Enhanced Decoding）」を提案しました。REDは画像と根拠の情報をデコーディング時に適切に調和させることで、モデルが根拠に忠実な出力を行うことを可能にします。実験の結果、複数のベンチマークにおいて根拠への忠実度（解釈性）が改善し、その結果推論の精度が大幅に向上することを確認しました。本技術は LVLM の性能を改善するだけでなく、重要な意思決定に AI を活用するために必要な解釈性を改善することが可能であり、AI コンステレーション©を始めとした人間と AI が連携する様々な領域での適用が期待されます。

■Parallel In-Context Learning for Large Vision Language Models
（大規模視覚言語モデルのための並列文脈内学習）

山口真弥（准特別研究員）（CD研）、千々和大輝（准特別研究員）（CD研）、坂尾珠和（研究員）（CD研）、長谷川拓（研究主任）（人間研）

大規模視覚言語モデル（LVLM）が新しいタスクに適応する際、複数の例示を与えるマルチモーダル文脈内学習（MM-ICL）が有効ですが、例示を増やすと入力コンテキストが長くなることで計算量が増大し、推論速度が著しく低下するという課題がありました。本研究では、この課題を解決する推論手法Parallel-ICL を提案しました。Parallel-ICL は、アンサンブル学習理論に基づき、長い例示コンテキストを複数の短い多様なチャンクに分割し、並列処理した予測結果をクエリとの関連度で重みづけて統合することで効率的な推論を実現します。実験の結果、通常の MM-ICL と同等の推論精度を維持しつつ、推論速度を大幅に向上させることに成功しました。本成果により、汎用的な LVLM が学習時に十分カバーしきれていない特化ドメイン（例. 医療画像処理）のタスクであっても高速かつ高精度に推論することが可能となり、AI のさらなる適用領域拡大が期待されます。

トピックスに記載している情報は、発表日時点のものです。
現時点では、発表日時点での情報と異なる場合がありますので、あらかじめご了承いただくとともに、ご注意をお願いいたします。

トピックス一覧に戻る

NTT STORY

NTTとともに未来を考えるWEBメディアです。

グループ企業一覧

コンピュータビジョン分野の最高峰国際会議CVPRにNTT研究所から2件採択

■Rationale-Enhanced Decoding for Multi-Modal Chain-of-Thought（マルチモーダル CoT のための根拠強化デコーディング）

■Parallel In-Context Learning for Large Vision Language Models（大規模視覚言語モデルのための並列文脈内学習）

NTT STORY

■Rationale-Enhanced Decoding for Multi-Modal Chain-of-Thought
（マルチモーダル CoT のための根拠強化デコーディング）

■Parallel In-Context Learning for Large Vision Language Models
（大規模視覚言語モデルのための並列文脈内学習）