検索パネルを開く 検索パネルを閉じる メニューを開く メニューを閉じる

2026年4月23日

お知らせ

深層学習分野の難関国際会議ICLRにNTTグループから6件採択

2026年4月23日~4月27日にブラジルのリオデジャネイロにて開催される、深層学習分野の国際会議ICLR(International Conference on Learning Representations)2026に、NTTから5件と、NTT Research, Inc.(以下、「NTT Research」)から1件の論文が採択されました。ICLR2026は、難関国際会議として知られており、これまでAI技術の基礎的な成果やコンセプトが発表されるなど、現在のAIの発展に大きく貢献している国際会議です。NTTから採択された論文は以下の通りです。

なお、所属としてそれぞれ略称で書かれている研究所名は、以下の通りです。
人間研:人間情報研究所
社会研:社会情報研究所
CD研:コンピュータ&データサイエンス研究所
CS研:コミュニケーション科学基礎研究所

■Do We Really Need Permutations? Impact of Model Width on Linear Mode Connectivity
(パーミュテーションは本当に必要か?線形モード連結性に対するモデル幅の影響)

  • 伊東 燦(東北大学)、山田 真徳(NTTドコモ)、千々和 大輝 准特別研究員(CD研)、 熊谷 充敏 特別研究員(CD研/社会研)

モデルマージ(合成)は複数のモデルを組み合わせ、新しいモデルを作る手法として注目されています。従来研究では、**異なるニューラルネットワーク同士の対応関係をそろえるための調整操作(パーミュテーション)**が必要と考えられてきました。本研究では、このような複雑な調整を行わなくても、ネットワークを十分に大きくし(モデル幅を広げ)、softmaxの温度を調整することでモデルマージが成功することを実証しました。さらに理論的には、マージされたモデルはsoftmaxを除けば2つのモデルを組み合わせたもの(アンサンブル)に近い振る舞いをすることを示しました。本成果により、学習データを事前に共有することなく複数のAIモデルを統合できるようになり、プライバシーに配慮したAI活用の発展に貢献することが期待されます。

■Lossless Vocabulary Reduction for Auto-Regressive Language Models
(自己回帰言語モデルのための損失なし語彙削減)

  • 千々和 大輝 准特別研究員(CD研)、長谷川 拓 研究主任(人間研)、西田 京介 上席特別研究員(人間研)、山口 真弥 准特別研究員(CD研)、大庭 知也 研究員(CD研)、坂尾 珠和 研究員(CD研)、竹内 亨 主幹研究員(CD研)

大規模言語モデル(LLM)は各トークンの確率分布(次トークン分布)に基づいて次トークンの推論・生成を行いますが、複数LLM間でこの分布を組み合わせることで、動的に知識共有する「アンサンブル」や学習結果を再利用する「ポータブルチューニング」など高度な連携が可能になります。一方、そのためにはLLM間でトークン語彙集合が同一である必要があり、連携可能な範囲が限定的という問題がありました。本研究では、語彙の異なるLLM同士を共通語彙上で連携させる着想に基づき、次トークン分布の語彙を精度劣化なく自在に縮小変換できる効率的な推論技術を確立しました。これにより各LLMが同一の「最大共通語彙」上で推論できるようになり、語彙の異なるLLM間でも動的な知識共有や学習結果の再利用が低コストで実現可能となります。

■ Probing Rotary Position Embeddings through Frequency Entropy
(周波数エントロピーによる位置埋込みの解明 )

  • 岡 佑依 研究員(人間研)、花房 健太郎(愛媛大)、長谷川 拓 研究主任(人間研)、西田 京介 上席特別研究員(人間研)、齋藤 邦子 主席研究員(人間研)

大規模言語モデルで標準的に採用されているRoPE における周波数次元の役割は、高周波・低周波という粗い二分に基づく分析により、先行研究間で矛盾した解釈が与えられてきた。本研究は、各回転ペアを信号として周波数エントロピーで評価することで、周波数帯と周期性という二つの構造を分離して捉える。その結果、性能に本質的なのは周波数帯であり、周期性は冗長であることを示し、これらの特徴は高周波・低周波に依存しないことを示し、従来の矛盾した結果を解消する。

■Frequency Bands in RoPE: Base Frequency and Context Length Shape the Interpolation–Extrapolation Trade-off
(位置符号化の基底拡大戦略は外挿性能を制限する)

  • 岡 佑依 研究員(人間研)、斉藤 いつみ(東北大学)、西田 京介 上席特別研究員(人間研)、齋藤 邦子 主席研究員(人間研)

大規模言語モデルで標準的に採用されているRotary Position Embedding(RoPE)は LLM で広く用いられており、一般に基底θを大きい値に設定することで長文脈性能が向上すると考えられているが、コンテキスト拡張には依然として再学習が不可欠である。
 しかし、本研究では、基底θを事前学習時の最大系列長に設定し、推論時に大きくするだけで、微調整なしで外挿性能が向上し、コンテキスト拡張のための再学習が不要となることを示す。この設定の妥当性は、RoPEの周波数帯構造の実証的および理論的分析によって裏付けられる。

■A Representer Theorem for Hawkes Processes via Penalized Least Squares Minimization
(制約付き二乗誤差最適化に基づくホークス過程の表現定理)

  • 金 秀明 主任研究員(CS研)、岩田 具治 上席特別研究員(CS研)

ホークス過程は、株取引やSNS上の情報拡散、地震など、あるイベントがその後のイベントを誘発または抑制する現象を解析するための確率モデルです。近年、ホークス過程とカーネル法を組み合わせ、イベント間の影響関係を表す「励起カーネル」をデータから柔軟に推定する手法が注目されています。しかし従来手法は計算コストが高く、大規模なイベントデータへの適用が困難でした。本研究では、点過程二乗誤差関数に基づく新たなカーネル法モデルを提案します。提案モデルでは、従来必要とされていた高コストな最適化計算を省略できるため、大規模データに対しても高速かつ高精度な推定が可能です。本成果は、災害予測やインフラ管理など、社会の安全性と効率性の向上への貢献が期待されます。

また、NTT Researchより提出された採択論文は以下の1件となります。

PHI:Physics & Informatics Laboratories

■A universal compression theory: Lottery ticket hypothesis and superpolynomial scaling laws
(普遍的な圧縮理論:宝くじ仮説と超多項式スケーリング則)

  • Hong-Yi Wang(Princeton University, PHI)、Di Luo(Tsinghua University, UCLA)、Tomaso Poggio(Massachusetts Institute of Technology)、Isaac Chuang(Massachusetts Institute of Technology)、Liu Ziyin(Massachusetts Institute of Technology, PHI)

トピックスに記載している情報は、発表日時点のものです。
現時点では、発表日時点での情報と異なる場合がありますので、あらかじめご了承いただくとともに、ご注意をお願いいたします。