2026年4月30日

お知らせ

音声音響信号処理を中心とした信号処理全般における世界最大の国際会議 ICASSP2026に、NTTから21本の論文が採択

2026年5月4日～5月8日（スペイン標準時）にスペインのバルセロナで開催される、信号処理における世界最大の国際会議ICASSP2026 （2026 IEEE International Conference on Acoustics, Speech, and Signal Processing）当該ページを別ウィンドウで開きますに、NTTの研究所より提出された21本の論文が採択されました。またICASSPの会場では、デモンストレーションも1件行ないます。以下に主な論文の概要を記載します

なお、所属としてそれぞれ略称で書かれている研究所名は、以下の通りです。（所属は投稿時点）
CS研：NTTコミュニケーション科学基礎研究所
人間研：NTT人間情報研究所
CD研：NTTコンピュータ＆データサイエンス研究所

◆Ensemble for Reducing Target Speech Extraction Errors
（目的話者抽出誤りを低減するためのアンサンブル手法の研究）

落合翼研究主任（CS研）、マークデルクロア特別研究員（CS研）、加茂直之研究員（CS研）、芦原孝典主任研究員（人間研）、俵直弘主任研究員（CS研）、中谷智広上席特別研究員（CS研）

アンサンブルは、多様なシステムの仮説を組み合わせて誤りを減らす手法です。音声認識や話者ダイアライゼーションの分野で広く使用されている一方、音声強調分野における手法の確立や有効性の検証は不十分でした。本論文では、目的音抽出技術において、品質が低い仮説や目的話者の選択誤りが起きた仮説を除外する枠組みを含む新しいアンサンブル手法を提案しています。この技術は今後、音声入力インタフェースを利用する多様なアプリケーションにおいて、安定した音声強調結果の提供に貢献できると期待されます。

◆Generating Training Targets for Real-world Speech Enhancement via Close-to-distant Microphone Projection
（近接マイクから遠方マイクへの射影による実環境音声強調のための参照信号生成法）

中谷智広上席特研員（CS研）、池下林太郎研究主任（CS研）、加茂直之研究員（CS研）、マークデルクロア特別研究員（CS研）、荒木章子主席研究員（CS研）

ニューラルネットワークに基づく音声強調の学習には、観測音声とクリーン音声の組が必要です。しかし、実環境では、観測音声と整合性が取れたクリーン音声の取得が困難なため、実収録音声を学習に用いることはこれまで困難でした。これを克服するために、実環境で遠隔マイクと近接マイクを用いて同時収録された音声から、遠隔マイクと整合性が取れたクリーン音声を生成する手法を提案します。提案法は、実環境音声強調のための新しい効果的な学習機構を可能にする基本技術です。

◆Reference Microphone Selection for Guided Source Separation based on the Normalized L-p Norm
（正規化 L‑p ノルムに基づくガイド付き音源分離のための参照マイクロホン選択）

Anselm Lohmann （Oldenburg Univ.）、中谷智広上席特別研究員（CS研）、池下林太郎研究主任（CS研）、マークデルクロア特別研究員（CS研）、荒木章子主席研究員（CS研）、Simon Doclo （Oldenburg Univ.）

近年、マイクロホンアレイを用いることでマイクから離れた話者に対しても正確に音声認識する手法が考案されてきていますが、その性能は参照マイクの選択方法に大きく依存します。本研究では、信号対雑音比（SNR）に加えて、音の反射が音声品質に与える影響をも考慮した、より高度な参照マイク選択手法を提案します。提案手法により実環境における音声認識精度が向上することで、より信頼性が高く、誰にとっても使いやすい音声コマンドシステムなどの実現が可能になります。

◆Frontend Token Enhancement for Token-Based Speech Recognition
（離散トークンを入力とする音声認識のためのフロントエンド音声強調）

芦原孝典主任研究員（人間研）、堀口翔太リサーチスペシャリスト（人間研）、松浦孝平研究員（人間研）、落合翼研究主任（CS研）、マークデルクロア特別研究員（CS研）

雑音下でも頑健に音声認識を行うため、さまざまな音声強調フロントエンドを提案、比較しました。具体的には、音声離散トークンを入力とする音声認識を対象に、音声波形レベルで音声強調する従来手法に加え、離散トークン上で音声強調する手法を体系的に複数提案しました。その結果、連続ベクトルを入力とする従来の音声認識を上回る精度を達成しました。本技術は、街中や車内などの雑音環境における音声認識のフロントエンドとしての活用が期待されます。

◆Entropy-guided GRVQ for Ultra-Low Bitrate Neural Speech Codec
（超低ビットレートニューラル音声符号化のためのエントロピーを考慮したGRVQ）

Yanzhou Ren（早稲田大学）、原田登上席特別研究員（CS研）、竹内大起研究員（CS研）、Ciyu Chen（早稲田大学）、Wei Liu（早稲田大学）、Xiao Zhang（早稲田大学）、Liyuan Zhang（早稲田大学）、守谷健弘フェロー（CS研）、牧野昭二（早稲田大学）

本研究では、超低ビットレートで高い品質のニューラル符号化方式を提供するために、グループ残差ベクトル符号化（GRVQ）の効率を改善したEntropy-guided GRVQを提案しました。本手法ではベクトル符号化の対象となる入力信号がガウス分布に従う場合には、分散によりエントロピーを近似できることに着目し、エントロピーに従ってグループ分割を行うことで符号化効率が改善できることを示しました。衛星通信サービスなど伝送帯域が限られた状況で、より高品質な通話ができるようになると期待されます。

◆VBx for End-to-end Neural and Clustering-based Diarization
（話者クラスタリングとエンドツーエンドニューラル話者ダイアライゼーションのための VBx）

Petr Palka（BUT）、Jiangyu Han（BUT）、マークデルクロア特別研究員（CS研）、俵直弘主任研究員（CS研）、Lukas Burget（BUT）

本研究は、「誰がいつ話したか」を推定する技術である話者ダイアライゼーションを対象に、発話区間ごとの話者活動を推定した後、時間をまたいで話者埋め込みをクラスタリングする二段階のニューラルダイアライゼーション手法を改良します。特に第2段階を強化し、短区間から得られる信頼性の低い話者埋め込みを除外したうえで、最先端のクラスタリング手法である VBx を導入することで、幅広い条件下でも大規模な調整を必要とせず安定した性能を実現します。その結果、会議などの実環境アプリケーションに向けて、より高精度かつ拡張性の高い話者ダイアライゼーションを可能にします。

◆Loose Coupling of Spectral and Spatial Models for Multi-channel Diarization and Enhancement of Meetings in Dynamic Environments
（動的環境の会議音声に対するマルチチャネル話者ダイアライゼーション／音声強調のためのスペクトル・空間モデルのルーズな統合）

Adrian Meise（Paderborn Univ.）、Tobias Cord-Landwehr（Paderborn Univ.）、Christoph Boeddeker（Paderborn Univ.）、マークデルクロア特別研究員（CS研）、中谷智広上席特別研究員（CS研）、Reinhold Haeb-Umbach（Paderborn Univ.）

本研究は、音の周波数特徴と空間特徴の柔軟な組み合わせによる新しい複数マイク話者ダイアライゼーションモデルを提案します。提案法では、話者と音源位置の関係を確率的にモデル化（＝疎に結合）する新たな混合モデルを導入することで、位置が変化する話者であっても追跡が可能な話者分類を実現します。会議音声の書き起こしなどを実現するための重要な要素技術である話者ダイアライゼーションに対して、本手法を用いることで、さらなる高精度化と高い頑健性を実現できると期待されます。

◆Spatially Aware Self-Supervised Models for Multi-Channel Neural Speaker Diarization
（空間情報を活用した自己教師ありモデルによるマルチチャネル・ニューラル話者ダイアライゼーション） ^*

Jiangyu Han（BUT）、Ruoyu Wang（USTC）、Yoshiki Masuyama（MERL）、マークデルクロア特別研究員（CS研）、Johan Rohdin（BUT）、Jun Du（USTC）、Lukáš Burget（BUT）

話者ダイアライゼーションは、複数話者が存在する音声において「誰がいつ話したか」を推定する技術です。しかし、WavLM などのモデルに基づく近年の手法は、通常単一マイクでの学習を前提としており、複数マイク環境を十分に活用できません。本研究では、追加の計算負荷や特別なハードウェアを必要とせずに、これらのモデルに空間的な情報を持たせ、複数マイクを効果的に利用するためのシンプルな手法を提案します。本手法により、デバイスや環境に依存せず高精度な話者ダイアライゼーションが可能となり、会議分析やスマートアシスタントなどの応用を支えます。

^*上記は2025 Jelinek Workshop on Speech and Language Technologies 当該ページを別ウィンドウで開きますの成果です。

◆Mixtures of Lightweight Articulatory Experts for Multilingual ASR
（軽量な調音素性エキスパートを用いた多言語音声認識）

三村正人主任研究員（人間研）、イジェヨン社員（人間研）、馬越亮（京大）、河原達也（京大）

多言語音声認識では、多様な書記体系や文法構造等の言語依存的な情報を符号化する必要があるため、一般に大きなネットワークを必要とします。また、地理的・言語学的に近縁でない言語間では、多言語学習により、見かけ上のデータ量は増えるにも関わらず、かえって互いの性能を低下させる負の知識転移と呼ばれる問題が生じやすい傾向にあります。本技術は、音声を生成するときの調音器官の動きを記述する「調音素性」の知識を明示的にネットワーク構造に埋め込むことで、これらの問題を緩和します。

◆Decoder-Only Conformer with Modality-Aware Sparse Mixtures of Experts for ASR
（モダリティ別スパースMoEを組み込んだDecoder-only Conformerによる音声認識）

イジェヨン社員（人間研）、三村正人主任研究員（人間研）

大規模言語モデル（LLM）でよく採用されているDecoder-only方式のアーキテクチャを音声認識に適用する方法を提案しました。Decoder-only方式では単一モデルで音声とテキストといった二つのモダリティを同時に処理することが課題となりますが、モダリティ別に Mixture of Experts を導入することで既存のEncoder-decoder方式を上回る精度を達成しました。本技術は、LLMと音声認識モデルを融合する技術に使われることが期待されます。

◆Chunkwise Aligners for Streaming Speech Recognition
（チャンクごとに動作可能なAlignerを用いたストリーミング音声認識）

テオウェンシェン（電気通信大学大学院）、森谷崇史准特別研究員（人間研）、三村正人主任研究員（人間研）

実用的なストリーミング音声認識においては、Transducerと呼ばれるモデリング手法が広く用いられていますが、学習時の計算コストが非常に高いという課題がありました。本研究では、Alignerを用いた新たなモデリング手法と、その学習・推論フレームワークを提案します。提案手法は、Transducerと同程度の認識性能を維持しながら、学習および推論の両速度において約2倍以上の高速化を達成しました。本技術は、実利用環境においても有効な次世代の音声認識技術としての活用が期待されます。

◆MeanVoiceFlow: One-step Nonparallel Voice Conversion with Mean Flows
（MeanVoiceFlow: 平均フローを用いたワンステップ非パラレル声質変換）

金子卓弘特別研究員（CS研）、亀岡弘和上席特別研究員（CS研）、田中宏主任研究員（CS研）、近藤祐斗研究員（CS研）

声質変換では、音質や話者類似度に優れた拡散モデルベースの手法が注目されている一方、反復推論による計算コストの高さが課題となっています。本研究では、1回のフォワード計算で変換可能で、事前学習も不要な新しい声質変換手法「MeanVoiceFlow」を提案しました。実験により、従来の多段推論モデルや事前学習を要する手法と同等の性能を達成できることが確認され、今後高性能かつ高速な声質変換を実現する上で重要な技術になると期待されます。

◆Class-Aware Permutation-Invariant Signal-to-Distortion Ratio for Semantic Segmentation of Sound Scene With Same-Class Sources
（同一クラス音源の存在する音響シーンの意味論的理解のためのクラスを考慮した順列不変信号歪み比）

グエンビンティエン RA（CS研）、安田昌弘研究員（CD研/CS研）、竹内大起研究員（CS研）、仁泉大輔 RS（CS研）、原田登上席特別研究員（CS研/CD研）

音響シーンに含まれる音響イベントを認識し、認識された音響イベントごとに音源を分離する空間音響信号の意味論的理解と分離タスクがDCASE 2025 Challengeで実施されています。この課題を解決するために、さまざまな方式が提案されていますが、実際の音響シーンで頻繁に起こる「同じ種類の音が複数存在する（重複ラベル）」状況に対応できないという課題が残されています。本研究では、この課題を解決するため、単一クラスの複数のイベント音が存在しても正しく認識し、それぞれの音源を抽出できるような改良を提案しました。本研究のような意味論的理解の実環境適用を目指した改善は、高度な没入感のあるコミュニケーション体験の実現や、スマート音モニタリングシステムの実現へつながると期待されます。

◆Task-Oriented Sound Privacy Preservation for Sound Event Detection via End-to-End Adversarial Multi-Task Learning
（エンドツーエンド敵対的マルチタスク学習を用いた音響イベント検出のためのタスク指向型プライバシー保護）

佐藤菜緒社員（CD研）、安田昌弘研究員（CD研/CS研）、齊藤翔一郎主任研究員（CD研）

音を活用した環境認識技術は、見守りや警備への応用が期待される一方で、実社会への導入に際しては、継続的な録音によるプライバシー侵害が課題となる可能性があります。本研究では、敵対的学習を用いた「タスク指向型」の手法により、プライバシーに関わる情報を識別不能化しつつ、アプリケーションの実行に必要な環境音の情報は保持するという、相反する二つの目的の最適なバランスを取れる手法を実現しました。本成果は、プライバシーの不安なく安心して利用できる音環境認識システムの実現に貢献します。

◆Microphone-less Measurement of Three-dimensional Radiating Impulse Response of Sound Source using Spherical Harmonic-domain Acousto-optic Tomography
（球面調和関数型音響光学トモグラフィによるマイクロホン不要な音源の3次元放射インパルス応答計測）

齋藤結月（早稲田大学）、石川憲治研究主任（CS研）、谷川理佐子研究員（CS研）、及川靖広（早稲田大学）

音響工学においてインパルス応答の計測は、音源の性質や音の伝わり方を知るための基本的な技術ですが、通常はマイクロホンを用いて行われるため測定できる位置や空間分解能に限界があります。本研究では、光を用いて音場の3次元計測を行う音響光学トモグラフィに着目し、マイクロホンを使わずに全天球方向にわたる3次元インパルス応答を高分解能かつ非接触で測定する技術を実現しました。本成果により音源の3次元的な音響特性を緻密に把握することが可能になることで、空間オーディオ技術や騒音探知などの高度化への貢献が期待されます。

◆Secondary Source Placement for Sound Field Control based on Ising Model
（音場制御のためのイジングモデルに基づく二次音源配置最適化）

小塚詩穂里研究員（CD研）、小山翔一准教授（NII）、伊藤弘章主任研究員（CD研）、鎌土記良主任研究員（CD研）

特定の領域に所望の音を届ける音場制御技術において、多数のスピーカーの最適配置を高速に探索する手法を提案しました。組み合わせ最適化問題を高速に解くことのできるイジングモデルを応用し、従来手法より計算時間を数百分の一に短縮しながら配置位置の高精度化を実現することで、最小限のスピーカー台数で音の制御の自由度を拡大でき設備コストも削減できます。この技術は今後、能動騒音制御への応用においてスタジアムなど大規模な会場や、野外など開放的な空間での騒音を効率的に低減することが可能になると期待されます。

◆Low-Frequency Harmonic Control for Speech Intelligibility in Open-Ear Headphones
（オープンイヤー型ヘッドホンにおける音声聞き取りやすさ向上のための低周波調波構造制御）

渡邊悠希研究員（CD研）、千葉大将研究主任（CD研）、鎌本優主幹研究員（CD研）、加古達也主任研究員（CD研）

雑音環境下において、オープンイヤー型ヘッドホンから再生される音声を、音量を上げることなく聞き取りやすくする低演算量な信号処理手法を提案しました。本手法では、コムフィルタを基本とする低演算量なフィルタを利用し、低周波の環境騒音と小型スピーカユニットの出力の制約の影響が小さくなるように基本周波数と低次倍音のエネルギーを制御します。主観評価実験を実施し、本手法を適用することで音声の聞き取りやすさが有意に向上することを確認しました。この技術は今後、雑音環境下でも音量を上げすぎずに聞き取りやすい、快適な音声コミュニケーションの実現に貢献することが期待されます。

◆Stylized Text-to-Motion Synthesis via Multi-Condition Latent Diffusion
（複数条件の制御が可能な潜在拡散モデルによるテキストからのスタイル付きモーション生成）

謝芳陸研究主任（人間研）、塩田宰研究員（人間研）、高木基宏主任研究員（人間研）、シモセラエドガー准教授（早稲田大学）

人の行動を説明するテキストに加え、個人特有の動き方を捉えた3Dスケルトンと移動軌跡を入力として組み合わせ、それらを反映した行動を生成するモデルを提案しました。動き方や移動軌跡を明示的に取り込んでモデル化することで、個人らしさを表現し、かつ安定して自然な軌跡での行動の生成を可能としました。今後は、ヒューマノイドロボットの動作生成に加え、人とのインタラクションなど幅広い分野への応用を見込んでいます。

◆Real-Time Demo of Single-Channel Target Speaker Extraction Using State-Space Modeling
（状態空間モデリングを用いたリアルタイム目的話者抽出のデモンストレーション）

佐藤宏研究主任（人間研）、森谷崇史准特別研究員（人間研）、マークデルクロア特別研究員（CS研）、落合翼研究主任（CS研）、浅見太一主幹研究員（人間研）

目的話者抽出技術は、雑音や他話者を含む音声から特定話者の音声のみを抽出する技術です。本発表は状態空間モデル（SSM）を導入した軽量なConv-TasNetベース手法により、ノートPCのCPU上で低遅延・リアルタイム動作するオンデバイス目的話者抽出を実演するデモンストレーションを行います。本技術は、将来的に騒がしい環境での通話やオンライン会議の明瞭化などを通じて、一般ユーザの音声コミュニケーションの質向上に貢献することが期待されます。

トピックスに記載している情報は、発表日時点のものです。
現時点では、発表日時点での情報と異なる場合がありますので、あらかじめご了承いただくとともに、ご注意をお願いいたします。

トピックス一覧に戻る

NTT STORY

NTTとともに未来を考えるWEBメディアです。

グループ企業一覧

音声音響信号処理を中心とした信号処理全般における世界最大の国際会議 ICASSP2026に、NTTから21本の論文が採択

◆Ensemble for Reducing Target Speech Extraction Errors（目的話者抽出誤りを低減するためのアンサンブル手法の研究）

◆Generating Training Targets for Real-world Speech Enhancement via Close-to-distant Microphone Projection（近接マイクから遠方マイクへの射影による実環境音声強調のための参照信号生成法）

◆Reference Microphone Selection for Guided Source Separation based on the Normalized L-p Norm（正規化 L‑p ノルムに基づくガイド付き音源分離のための参照マイクロホン選択）

◆Frontend Token Enhancement for Token-Based Speech Recognition（離散トークンを入力とする音声認識のためのフロントエンド音声強調）

◆Entropy-guided GRVQ for Ultra-Low Bitrate Neural Speech Codec（超低ビットレートニューラル音声符号化のためのエントロピーを考慮したGRVQ）

◆VBx for End-to-end Neural and Clustering-based Diarization（話者クラスタリングとエンドツーエンドニューラル話者ダイアライゼーションのための VBx）

◆Spatially Aware Self-Supervised Models for Multi-Channel Neural Speaker Diarization（空間情報を活用した自己教師ありモデルによるマルチチャネル・ニューラル話者ダイアライゼーション） *

◆Mixtures of Lightweight Articulatory Experts for Multilingual ASR（軽量な調音素性エキスパートを用いた多言語音声認識）

◆Decoder-Only Conformer with Modality-Aware Sparse Mixtures of Experts for ASR（モダリティ別スパースMoEを組み込んだDecoder-only Conformerによる音声認識）

◆Chunkwise Aligners for Streaming Speech Recognition（チャンクごとに動作可能なAlignerを用いたストリーミング音声認識）

◆MeanVoiceFlow: One-step Nonparallel Voice Conversion with Mean Flows（MeanVoiceFlow: 平均フローを用いたワンステップ非パラレル声質変換）

◆Class-Aware Permutation-Invariant Signal-to-Distortion Ratio for Semantic Segmentation of Sound Scene With Same-Class Sources（同一クラス音源の存在する音響シーンの意味論的理解のためのクラスを考慮した順列不変信号歪み比）

◆Task-Oriented Sound Privacy Preservation for Sound Event Detection via End-to-End Adversarial Multi-Task Learning（エンドツーエンド敵対的マルチタスク学習を用いた音響イベント検出のためのタスク指向型プライバシー保護）

◆Microphone-less Measurement of Three-dimensional Radiating Impulse Response of Sound Source using Spherical Harmonic-domain Acousto-optic Tomography（球面調和関数型音響光学トモグラフィによるマイクロホン不要な音源の3次元放射インパルス応答計測）

◆Secondary Source Placement for Sound Field Control based on Ising Model（音場制御のためのイジングモデルに基づく二次音源配置最適化）

◆Low-Frequency Harmonic Control for Speech Intelligibility in Open-Ear Headphones（オープンイヤー型ヘッドホンにおける音声聞き取りやすさ向上のための低周波調波構造制御）

◆Stylized Text-to-Motion Synthesis via Multi-Condition Latent Diffusion（複数条件の制御が可能な潜在拡散モデルによるテキストからのスタイル付きモーション生成）

◆Real-Time Demo of Single-Channel Target Speaker Extraction Using State-Space Modeling（状態空間モデリングを用いたリアルタイム目的話者抽出のデモンストレーション）