検索パネルを開く 検索パネルを閉じる メニューを開く メニューを閉じる

2025年6月 9日

お知らせ

コンピュータビジョン分野の最高峰国際会議CVPRにNTT研究所から5件採択

2025年6月11日から15日まで(米国中部時間)アメリカ ナシュビルで開催される国際会議CVPR(IEEE/CVF Conference on Computer Vision and Pattern Recognition)2025において、NTT研究所より提出された5件の論文が採択されました。CVPRは、計算機が画像・動画を理解・制御・生成する技術の開発やそのための基礎理論の探求をめざす研究分野であるコンピュータビジョンにおける世界最高峰とされる国際会議です。CVPR2025の採択率は22.1%(13008件の応募から2878件採択)と、難関国際会議として知られていますが、その中でNTT研究所から5件採択され、うち1件がOral発表(採択された2878件のうち96件)、1件がHighlight発表(387件)に選出されています。
 なお、所属としてそれぞれ略称で記載されている研究所名は以下の通りです。(所属は投稿時点)

人間研:NTT人間情報研究所
CD研:NTTコンピュータ&データサイエンス研究所
CS研:NTTコミュニケーション科学基礎研究所

  1. Gromov–Wasserstein Problem with Cyclic Symmetry(巡回対称性を持つグロモフ・ワッサースタイン問題:Oral発表)
    1. 武田翔一郎 准特別研究員(人間研)、赤木康紀 准特別研究員(人間研)
    2. グロモフ・ワッサースタイン問題は、データ間の構造的な類似度や対応関係を求める問題です。例えば、異なるタンパク質の共通構造を見つけて新薬の発見に繋げたり、新旧建造物の構造を比較して劣化箇所を特定したりするなど、この問題の応用は多岐にわたります。今回我々は、実世界のデータに潜む巡回対称性を利用することで、この問題を高速に解く新しいアルゴリズムを開発しました。この成果によって、より大規模なデータ間の構造的な類似度や対応関係を効率的に求めることが可能になりました。
  2. VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents(VDocRAG:視覚表現された文書を基盤とする検索拡張生成)
    1. 田中涼太 准特別研究員(人間研)、壹岐太一 研究主任(人間研)、長谷川拓 研究主任(人間研)、西田京介 上席特別研究員(人間研)、齋藤邦子 主席研究員(人間研)、鈴木潤 教授(東北大)
    2. 視覚的に表現された文書(PDFなど)から成るコーパスを知識源に持つ新たな検索拡張生成(RAG)フレームワークであるVDocRAGを提案しました。VDocRAGは多様な文書を画像形式で統一的に理解することで、文書に含まれる図や表などの視覚情報を直接利用することができます。本研究は、実世界に多数存在する視覚表現された文書を知識源とした、質問応答や検索など様々な技術の発展に貢献します。
  3. Post-pre-training for Modality Alignment in Vision-Language Foundation Models(モダリティ整合のための視覚言語基盤モデルの事後学習)
    1. 山口真弥 准特別研究員(CD研)、Dewei Feng(MIT)、金井関利 研究主任(CD研)、足立一樹 研究員(CD研)、千々和大輝 准特別研究員(CD研)
    2. 画像とテキストを理解する事前学習済み深層学習モデルのCLIPは、優れたゼロショット性能を持つ一方で、画像とテキストの細かな特徴をうまく結びつけられないという課題がありました。この研究では、「CLIP-Refine」という新しい事後学習法を提案します。これは、少量のデータを使って短時間の学習を行うだけで、CLIPのゼロショット性能を向上させる技術です。具体的には、画像とテキストの特徴を共通の基準に近づけ、CLIPが既に持っている知識を保ちつつ新しい知識を学習することで、詳細に画像とテキストを関連付けます。様々な実験の結果、CLIP-Refineは画像とテキストの理解をより正確にし、CLIPのゼロショット性能を向上させることに成功しました。
  4. HuPerFlow: A Comprehensive Benchmark for Human vs. Machine Motion Estimation Comparison(人間とAIとの動き推定の比較のための包括的なベンチマーク)
    1. 楊詠皓(京都大学)、孫子棠(京都大学)、吹上大樹 主任研究員(CS研)、西田眞也 教授(京都大学)
    2. AIモデルが人との直接的なインタラクションを伴うアプリケーションへの導入が進む中、人間の視覚特性を正確に理解し協調動作するAIの実現が重要課題となっています。本研究では、人が映像内の動きをどのように知覚するかを調べるため、大規模な心理物理実験を実施し、データベース「HuPerFlow」を構築して人間の知覚特性を分析しました。その結果、人間が知覚する動きは物理的な実際の動きとは体系的に異なり、既存のAIによる動き推定とも一致しないことが明らかになりました。このデータベースにより、AIと人間の知覚の一致度を評価する新たな基盤が確立され、人間中心のAI技術の発展につながることが期待できます。
  5. Structure from Collision(衝突からの構造復元:Highlight発表)
    1. 金子卓弘 特別研究員(CS研)
    2. 近年のニューラル3D表現の進展により、多視点画像から三次元形状を高精度に推定することが可能になりつつあります。しかし、これらの手法は物体表面の推定にとどまっており、直接観測できない物体の内部構造の推定は依然として困難です。この問題に対処するため、本研究ではStructure from Collision(SfC)と呼ぶ新たなタスクを提唱しました。具体的には、SfC-NeRFと呼ぶ新たなモデルを用い、衝突中の外観変化を手がかりにして、観測可能な外部構造だけではなく物体内部構造の推定も可能にしました。本成果は、画像から物体の内部構造まで考慮して、形状変化予測などを可能とし、ロボットによる物体操作や計算機による外界とのインタラクションの精度・信頼性を高める技術としての活用が期待されます。

NTTのR&Dは、環境にやさしい持続的な成長、多様性に寛容な個と全体の最適化を狙う未来のコミュニケーション基盤であるIOWN(Innovative Optical and Wireless Network)構想を掲げ、その実現に向けた研究開発を進めてまいります。また、それとともに、今後も研究テーマの多様性・継続性を大切に、NTTグループの各事業会社をはじめ、さまざまな分野の産業界の方々と一緒に、さまざまな社会的課題を解決し、人々が意識することなく技術の恩恵を受けることができるスマートな世界の実現をめざし、世界を変革する技術の研究開発を続けていきます。

トピックスに記載している情報は、発表日時点のものです。
現時点では、発表日時点での情報と異なる場合がありますので、あらかじめご了承いただくとともに、ご注意をお願いいたします。