深層学習分野の難関国際会議ICLRにNTTグループから6件採択

2026年4月23日～4月27日にブラジルのリオデジャネイロにて開催される、深層学習分野の国際会議ICLR（International Conference on Learning Representations）2026に、NTTから5件と、NTT Research, Inc.（以下、「NTT Research」）から1件の論文が採択されました。ICLR2026は、難関国際会議として知られており、これまでAI技術の基礎的な成果やコンセプトが発表されるなど、現在のAIの発展に大きく貢献している国際会議です。NTTから採択された論文は以下の通りです。

なお、所属としてそれぞれ略称で書かれている研究所名は、以下の通りです。
人間研：人間情報研究所
社会研：社会情報研究所
CD研：コンピュータ＆データサイエンス研究所
CS研：コミュニケーション科学基礎研究所

■Do We Really Need Permutations? Impact of Model Width on Linear Mode Connectivity
（パーミュテーションは本当に必要か？線形モード連結性に対するモデル幅の影響）

伊東　燦（東北大学）、山田真徳（NTTドコモ）、千々和大輝　准特別研究員（CD研）、　熊谷充敏　特別研究員（CD研/社会研）

モデルマージ（合成）は複数のモデルを組み合わせ、新しいモデルを作る手法として注目されています。従来研究では、**異なるニューラルネットワーク同士の対応関係をそろえるための調整操作（パーミュテーション）**が必要と考えられてきました。本研究では、このような複雑な調整を行わなくても、ネットワークを十分に大きくし（モデル幅を広げ）、softmaxの温度を調整することでモデルマージが成功することを実証しました。さらに理論的には、マージされたモデルはsoftmaxを除けば2つのモデルを組み合わせたもの（アンサンブル）に近い振る舞いをすることを示しました。本成果により、学習データを事前に共有することなく複数のAIモデルを統合できるようになり、プライバシーに配慮したAI活用の発展に貢献することが期待されます。

■Lossless Vocabulary Reduction for Auto-Regressive Language Models
（自己回帰言語モデルのための損失なし語彙削減）

千々和大輝　准特別研究員（CD研）、長谷川拓　研究主任（人間研）、西田京介　上席特別研究員（人間研）、山口真弥　准特別研究員（CD研）、大庭知也　研究員（CD研）、坂尾珠和　研究員（CD研）、竹内亨　主幹研究員（CD研）

大規模言語モデル（LLM）は各トークンの確率分布（次トークン分布）に基づいて次トークンの推論・生成を行いますが、複数LLM間でこの分布を組み合わせることで、動的に知識共有する「アンサンブル」や学習結果を再利用する「ポータブルチューニング」など高度な連携が可能になります。一方、そのためにはLLM間でトークン語彙集合が同一である必要があり、連携可能な範囲が限定的という問題がありました。本研究では、語彙の異なるLLM同士を共通語彙上で連携させる着想に基づき、次トークン分布の語彙を精度劣化なく自在に縮小変換できる効率的な推論技術を確立しました。これにより各LLMが同一の「最大共通語彙」上で推論できるようになり、語彙の異なるLLM間でも動的な知識共有や学習結果の再利用が低コストで実現可能となります。

■ Probing Rotary Position Embeddings through Frequency Entropy
（周波数エントロピーによる位置埋込みの解明）

岡佑依研究員（人間研）、花房健太郎（愛媛大）、長谷川拓　研究主任（人間研）、西田京介　上席特別研究員（人間研）、齋藤邦子　主席研究員（人間研）

大規模言語モデルで標準的に採用されているRoPE における周波数次元の役割は、高周波・低周波という粗い二分に基づく分析により、先行研究間で矛盾した解釈が与えられてきた。本研究は、各回転ペアを信号として周波数エントロピーで評価することで、周波数帯と周期性という二つの構造を分離して捉える。その結果、性能に本質的なのは周波数帯であり、周期性は冗長であることを示し、これらの特徴は高周波・低周波に依存しないことを示し、従来の矛盾した結果を解消する。

■Frequency Bands in RoPE: Base Frequency and Context Length Shape the Interpolation–Extrapolation Trade-off
（位置符号化の基底拡大戦略は外挿性能を制限する）

岡佑依研究員（人間研）、斉藤いつみ（東北大学）、西田京介　上席特別研究員（人間研）、齋藤邦子　主席研究員（人間研）

大規模言語モデルで標準的に採用されているRotary Position Embedding（RoPE）は LLM で広く用いられており、一般に基底θを大きい値に設定することで長文脈性能が向上すると考えられているが、コンテキスト拡張には依然として再学習が不可欠である。
　しかし、本研究では、基底θを事前学習時の最大系列長に設定し、推論時に大きくするだけで、微調整なしで外挿性能が向上し、コンテキスト拡張のための再学習が不要となることを示す。この設定の妥当性は、RoPEの周波数帯構造の実証的および理論的分析によって裏付けられる。

■A Representer Theorem for Hawkes Processes via Penalized Least Squares Minimization
（制約付き二乗誤差最適化に基づくホークス過程の表現定理）

金秀明主任研究員（CS研）、岩田具治上席特別研究員（CS研）

ホークス過程は、株取引やSNS上の情報拡散、地震など、あるイベントがその後のイベントを誘発または抑制する現象を解析するための確率モデルです。近年、ホークス過程とカーネル法を組み合わせ、イベント間の影響関係を表す「励起カーネル」をデータから柔軟に推定する手法が注目されています。しかし従来手法は計算コストが高く、大規模なイベントデータへの適用が困難でした。本研究では、点過程二乗誤差関数に基づく新たなカーネル法モデルを提案します。提案モデルでは、従来必要とされていた高コストな最適化計算を省略できるため、大規模データに対しても高速かつ高精度な推定が可能です。本成果は、災害予測やインフラ管理など、社会の安全性と効率性の向上への貢献が期待されます。

また、NTT Researchより提出された採択論文は以下の1件となります。

PHI：Physics & Informatics Laboratories

■A universal compression theory: Lottery ticket hypothesis and superpolynomial scaling laws
（普遍的な圧縮理論：宝くじ仮説と超多項式スケーリング則）

Hong-Yi Wang（Princeton University, PHI）、Di Luo（Tsinghua University, UCLA）、Tomaso Poggio（Massachusetts Institute of Technology）、Isaac Chuang（Massachusetts Institute of Technology）、Liu Ziyin（Massachusetts Institute of Technology, PHI）

トピックスに記載している情報は、発表日時点のものです。
現時点では、発表日時点での情報と異なる場合がありますので、あらかじめご了承いただくとともに、ご注意をお願いいたします。

トピックス一覧に戻る

NTT STORY

NTTとともに未来を考えるWEBメディアです。

グループ企業一覧

深層学習分野の難関国際会議ICLRにNTTグループから6件採択

■Do We Really Need Permutations? Impact of Model Width on Linear Mode Connectivity（パーミュテーションは本当に必要か？線形モード連結性に対するモデル幅の影響）

■Lossless Vocabulary Reduction for Auto-Regressive Language Models（自己回帰言語モデルのための損失なし語彙削減）

■ Probing Rotary Position Embeddings through Frequency Entropy（周波数エントロピーによる位置埋込みの解明 ）

■Frequency Bands in RoPE: Base Frequency and Context Length Shape the Interpolation–Extrapolation Trade-off（位置符号化の基底拡大戦略は外挿性能を制限する）

■A Representer Theorem for Hawkes Processes via Penalized Least Squares Minimization（制約付き二乗誤差最適化に基づくホークス過程の表現定理）

■A universal compression theory: Lottery ticket hypothesis and superpolynomial scaling laws（普遍的な圧縮理論：宝くじ仮説と超多項式スケーリング則）