検索パネルを開く 検索パネルを閉じる メニューを開く メニューを閉じる

2026年4月30日

お知らせ

音声音響信号処理を中心とした信号処理全般における世界最大の国際会議 ICASSP2026に、NTTから21本の論文が採択

2026年5月4日~5月8日(スペイン標準時)にスペインのバルセロナで開催される、信号処理における世界最大の国際会議ICASSP2026 (2026 IEEE International Conference on Acoustics, Speech, and Signal Processing)当該ページを別ウィンドウで開きますに、NTTの研究所より提出された21本の論文が採択されました。またICASSPの会場では、デモンストレーションも1件行ないます。以下に主な論文の概要を記載します

なお、所属としてそれぞれ略称で書かれている研究所名は、以下の通りです。(所属は投稿時点)
CS研:NTTコミュニケーション科学基礎研究所
人間研:NTT人間情報研究所
CD研:NTTコンピュータ&データサイエンス研究所

◆Ensemble for Reducing Target Speech Extraction Errors
(目的話者抽出誤りを低減するためのアンサンブル手法の研究)

落合 翼 研究主任(CS研)、マーク デルクロア 特別研究員(CS研)、加茂 直之 研究員(CS研)、芦原 孝典 主任研究員(人間研)、俵 直弘 主任研究員(CS研)、中谷 智広 上席特別研究員(CS研)

アンサンブルは、多様なシステムの仮説を組み合わせて誤りを減らす手法です。音声認識や話者ダイアライゼーションの分野で広く使用されている一方、音声強調分野における手法の確立や有効性の検証は不十分でした。本論文では、目的音抽出技術において、品質が低い仮説や目的話者の選択誤りが起きた仮説を除外する枠組みを含む新しいアンサンブル手法を提案しています。この技術は今後、音声入力インタフェースを利用する多様なアプリケーションにおいて、安定した音声強調結果の提供に貢献できると期待されます。

◆Generating Training Targets for Real-world Speech Enhancement via Close-to-distant Microphone Projection
(近接マイクから遠方マイクへの射影による実環境音声強調のための参照信号生成法)

中谷 智広 上席特研員(CS研)、池下 林太郎 研究主任(CS研)、加茂 直之 研究員(CS研)、マーク デルクロア 特別研究員(CS研)、荒木 章子 主席研究員(CS研)

ニューラルネットワークに基づく音声強調の学習には、観測音声とクリーン音声の組が必要です。しかし、実環境では、観測音声と整合性が取れたクリーン音声の取得が困難なため、実収録音声を学習に用いることはこれまで困難でした。これを克服するために、実環境で遠隔マイクと近接マイクを用いて同時収録された音声から、遠隔マイクと整合性が取れたクリーン音声を生成する手法を提案します。提案法は、実環境音声強調のための新しい効果的な学習機構を可能にする基本技術です。

◆Reference Microphone Selection for Guided Source Separation based on the Normalized L-p Norm
(正規化 L‑p ノルムに基づくガイド付き音源分離のための参照マイクロホン選択)

Anselm Lohmann (Oldenburg Univ.)、中谷 智広 上席特別研究員(CS研)、池下 林太郎 研究主任(CS研)、マーク デルクロア 特別研究員(CS研)、荒木 章子 主席研究員(CS研)、Simon Doclo (Oldenburg Univ.)

近年、マイクロホンアレイを用いることでマイクから離れた話者に対しても正確に音声認識する手法が考案されてきていますが、その性能は参照マイクの選択方法に大きく依存します。本研究では、信号対雑音比(SNR)に加えて、音の反射が音声品質に与える影響をも考慮した、より高度な参照マイク選択手法を提案します。提案手法により実環境における音声認識精度が向上することで、より信頼性が高く、誰にとっても使いやすい音声コマンドシステムなどの実現が可能になります。

◆Frontend Token Enhancement for Token-Based Speech Recognition
(離散トークンを入力とする音声認識のためのフロントエンド音声強調)

芦原 孝典 主任研究員(人間研)、堀口 翔太 リサーチスペシャリスト(人間研)、松浦 孝平 研究員(人間研)、落合 翼 研究主任(CS研)、マーク デルクロア 特別研究員(CS研)

雑音下でも頑健に音声認識を行うため、さまざまな音声強調フロントエンドを提案、比較しました。具体的には、音声離散トークンを入力とする音声認識を対象に、音声波形レベルで音声強調する従来手法に加え、離散トークン上で音声強調する手法を体系的に複数提案しました。その結果、連続ベクトルを入力とする従来の音声認識を上回る精度を達成しました。本技術は、街中や車内などの雑音環境における音声認識のフロントエンドとしての活用が期待されます。

◆Entropy-guided GRVQ for Ultra-Low Bitrate Neural Speech Codec
(超低ビットレートニューラル音声符号化のためのエントロピーを考慮したGRVQ)

Yanzhou Ren(早稲田大学)、原田 登 上席特別研究員(CS研)、竹内 大起 研究員(CS研)、Ciyu Chen(早稲田大学)、Wei Liu(早稲田大学)、Xiao Zhang(早稲田大学)、Liyuan Zhang(早稲田大学)、守谷 健弘 フェロー(CS研)、牧野 昭二(早稲田大学)

本研究では、超低ビットレートで高い品質のニューラル符号化方式を提供するために、グループ残差ベクトル符号化(GRVQ)の効率を改善したEntropy-guided GRVQを提案しました。本手法ではベクトル符号化の対象となる入力信号がガウス分布に従う場合には、分散によりエントロピーを近似できることに着目し、エントロピーに従ってグループ分割を行うことで符号化効率が改善できることを示しました。衛星通信サービスなど伝送帯域が限られた状況で、より高品質な通話ができるようになると期待されます。

◆VBx for End-to-end Neural and Clustering-based Diarization
(話者クラスタリングとエンドツーエンドニューラル話者ダイアライゼーションのための VBx)

Petr Palka(BUT)、Jiangyu Han(BUT)、マーク デルクロア 特別研究員(CS研)、俵 直弘 主任研究員(CS研)、Lukas Burget(BUT)

本研究は、「誰がいつ話したか」を推定する技術である話者ダイアライゼーションを対象に、発話区間ごとの話者活動を推定した後、時間をまたいで話者埋め込みをクラスタリングする二段階のニューラルダイアライゼーション手法を改良します。特に第2段階を強化し、短区間から得られる信頼性の低い話者埋め込みを除外したうえで、最先端のクラスタリング手法である VBx を導入することで、幅広い条件下でも大規模な調整を必要とせず安定した性能を実現します。その結果、会議などの実環境アプリケーションに向けて、より高精度かつ拡張性の高い話者ダイアライゼーションを可能にします。

◆Loose Coupling of Spectral and Spatial Models for Multi-channel Diarization and Enhancement of Meetings in Dynamic Environments
(動的環境の会議音声に対するマルチチャネル話者ダイアライゼーション/音声強調のためのスペクトル・空間モデルのルーズな統合)

Adrian Meise(Paderborn Univ.)、Tobias Cord-Landwehr(Paderborn Univ.)、Christoph Boeddeker(Paderborn Univ.)、マーク デルクロア 特別研究員(CS研)、中谷 智広 上席特別研究員(CS研)、Reinhold Haeb-Umbach(Paderborn Univ.)

本研究は、音の周波数特徴と空間特徴の柔軟な組み合わせによる新しい複数マイク話者ダイアライゼーションモデルを提案します。提案法では、話者と音源位置の関係を確率的にモデル化(=疎に結合)する新たな混合モデルを導入することで、位置が変化する話者であっても追跡が可能な話者分類を実現します。会議音声の書き起こしなどを実現するための重要な要素技術である話者ダイアライゼーションに対して、本手法を用いることで、さらなる高精度化と高い頑健性を実現できると期待されます。

◆Spatially Aware Self-Supervised Models for Multi-Channel Neural Speaker Diarization
(空間情報を活用した自己教師ありモデルによるマルチチャネル・ニューラル話者ダイアライゼーション) *

Jiangyu Han(BUT)、Ruoyu Wang(USTC)、Yoshiki Masuyama(MERL)、マーク デルクロア 特別研究員(CS研)、Johan Rohdin(BUT)、Jun Du(USTC)、Lukáš Burget(BUT)

話者ダイアライゼーションは、複数話者が存在する音声において「誰がいつ話したか」を推定する技術です。しかし、WavLM などのモデルに基づく近年の手法は、通常単一マイクでの学習を前提としており、複数マイク環境を十分に活用できません。本研究では、追加の計算負荷や特別なハードウェアを必要とせずに、これらのモデルに空間的な情報を持たせ、複数マイクを効果的に利用するためのシンプルな手法を提案します。本手法により、デバイスや環境に依存せず高精度な話者ダイアライゼーションが可能となり、会議分析やスマートアシスタントなどの応用を支えます。

*上記は2025 Jelinek Workshop on Speech and Language Technologies当該ページを別ウィンドウで開きますの成果です。

◆Mixtures of Lightweight Articulatory Experts for Multilingual ASR
(軽量な調音素性エキスパートを用いた多言語音声認識)

三村 正人 主任研究員(人間研)、イ ジェヨン 社員(人間研)、馬越 亮(京大)、河原 達也(京大)

多言語音声認識では、多様な書記体系や文法構造等の言語依存的な情報を符号化する必要があるため、一般に大きなネットワークを必要とします。また、地理的・言語学的に近縁でない言語間では、多言語学習により、見かけ上のデータ量は増えるにも関わらず、かえって互いの性能を低下させる負の知識転移と呼ばれる問題が生じやすい傾向にあります。本技術は、音声を生成するときの調音器官の動きを記述する「調音素性」の知識を明示的にネットワーク構造に埋め込むことで、これらの問題を緩和します。

◆Decoder-Only Conformer with Modality-Aware Sparse Mixtures of Experts for ASR
(モダリティ別スパースMoEを組み込んだDecoder-only Conformerによる音声認識)

イ ジェヨン 社員(人間研)、三村 正人 主任研究員(人間研)

大規模言語モデル(LLM)でよく採用されているDecoder-only方式のアーキテクチャを音声認識に適用する方法を提案しました。Decoder-only方式では単一モデルで音声とテキストといった二つのモダリティを同時に処理することが課題となりますが、モダリティ別に Mixture of Experts を導入することで既存のEncoder-decoder方式を上回る精度を達成しました。本技術は、LLMと音声認識モデルを融合する技術に使われることが期待されます。

◆Chunkwise Aligners for Streaming Speech Recognition
(チャンクごとに動作可能なAlignerを用いたストリーミング音声認識)

テオ ウェン シェン(電気通信大学大学院)、森谷 崇史 准特別研究員(人間研)、三村 正人 主任研究員(人間研)

実用的なストリーミング音声認識においては、Transducerと呼ばれるモデリング手法が広く用いられていますが、学習時の計算コストが非常に高いという課題がありました。本研究では、Alignerを用いた新たなモデリング手法と、その学習・推論フレームワークを提案します。提案手法は、Transducerと同程度の認識性能を維持しながら、学習および推論の両速度において約2倍以上の高速化を達成しました。本技術は、実利用環境においても有効な次世代の音声認識技術としての活用が期待されます。

◆MeanVoiceFlow: One-step Nonparallel Voice Conversion with Mean Flows
(MeanVoiceFlow: 平均フローを用いたワンステップ非パラレル声質変換)

金子 卓弘 特別研究員(CS研)、亀岡 弘和 上席特別研究員(CS研)、田中 宏 主任研究員(CS研)、近藤 祐斗 研究員(CS研)

声質変換では、音質や話者類似度に優れた拡散モデルベースの手法が注目されている一方、反復推論による計算コストの高さが課題となっています。本研究では、1回のフォワード計算で変換可能で、事前学習も不要な新しい声質変換手法「MeanVoiceFlow」を提案しました。実験により、従来の多段推論モデルや事前学習を要する手法と同等の性能を達成できることが確認され、今後高性能かつ高速な声質変換を実現する上で重要な技術になると期待されます。

◆Class-Aware Permutation-Invariant Signal-to-Distortion Ratio for Semantic Segmentation of Sound Scene With Same-Class Sources
(同一クラス音源の存在する音響シーンの意味論的理解のためのクラスを考慮した順列不変信号歪み比)

グエン ビン ティエン RA(CS研)、安田 昌弘 研究員(CD研/CS研)、竹内 大起 研究員(CS研)、仁泉 大輔 RS(CS研)、原田 登 上席特別研究員(CS研/CD研)

音響シーンに含まれる音響イベントを認識し、認識された音響イベントごとに音源を分離する空間音響信号の意味論的理解と分離タスクがDCASE 2025 Challengeで実施されています。この課題を解決するために、さまざまな方式が提案されていますが、実際の音響シーンで頻繁に起こる「同じ種類の音が複数存在する(重複ラベル)」状況に対応できないという課題が残されています。本研究では、この課題を解決するため、単一クラスの複数のイベント音が存在しても正しく認識し、それぞれの音源を抽出できるような改良を提案しました。本研究のような意味論的理解の実環境適用を目指した改善は、高度な没入感のあるコミュニケーション体験の実現や、スマート音モニタリングシステムの実現へつながると期待されます。

◆Task-Oriented Sound Privacy Preservation for Sound Event Detection via End-to-End Adversarial Multi-Task Learning
(エンドツーエンド敵対的マルチタスク学習を用いた音響イベント検出のためのタスク指向型プライバシー保護)

佐藤 菜緒 社員(CD研)、安田 昌弘 研究員(CD研/CS研)、齊藤 翔一郎 主任研究員(CD研)

音を活用した環境認識技術は、見守りや警備への応用が期待される一方で、実社会への導入に際しては、継続的な録音によるプライバシー侵害が課題となる可能性があります。本研究では、敵対的学習を用いた「タスク指向型」の手法により、プライバシーに関わる情報を識別不能化しつつ、アプリケーションの実行に必要な環境音の情報は保持するという、相反する二つの目的の最適なバランスを取れる手法を実現しました。本成果は、プライバシーの不安なく安心して利用できる音環境認識システムの実現に貢献します。

◆Microphone-less Measurement of Three-dimensional Radiating Impulse Response of Sound Source using Spherical Harmonic-domain Acousto-optic Tomography
(球面調和関数型音響光学トモグラフィによるマイクロホン不要な音源の3次元放射インパルス応答計測)

齋藤 結月(早稲田大学)、石川 憲治 研究主任(CS研)、谷川 理佐子 研究員(CS研)、及川 靖広(早稲田大学)

音響工学においてインパルス応答の計測は、音源の性質や音の伝わり方を知るための基本的な技術ですが、通常はマイクロホンを用いて行われるため測定できる位置や空間分解能に限界があります。本研究では、光を用いて音場の3次元計測を行う音響光学トモグラフィに着目し、マイクロホンを使わずに全天球方向にわたる3次元インパルス応答を高分解能かつ非接触で測定する技術を実現しました。本成果により音源の3次元的な音響特性を緻密に把握することが可能になることで、空間オーディオ技術や騒音探知などの高度化への貢献が期待されます。

◆Secondary Source Placement for Sound Field Control based on Ising Model
(音場制御のためのイジングモデルに基づく二次音源配置最適化)

小塚 詩穂里 研究員(CD研)、小山 翔一 准教授(NII)、伊藤 弘章 主任研究員(CD研)、鎌土 記良 主任研究員(CD研)

特定の領域に所望の音を届ける音場制御技術において、多数のスピーカーの最適配置を高速に探索する手法を提案しました。組み合わせ最適化問題を高速に解くことのできるイジングモデルを応用し、従来手法より計算時間を数百分の一に短縮しながら配置位置の高精度化を実現することで、最小限のスピーカー台数で音の制御の自由度を拡大でき設備コストも削減できます。この技術は今後、能動騒音制御への応用においてスタジアムなど大規模な会場や、野外など開放的な空間での騒音を効率的に低減することが可能になると期待されます。

◆Low-Frequency Harmonic Control for Speech Intelligibility in Open-Ear Headphones
(オープンイヤー型ヘッドホンにおける音声聞き取りやすさ向上のための低周波調波構造制御)

渡邊 悠希 研究員(CD研)、千葉 大将 研究主任(CD研)、鎌本 優 主幹研究員(CD研)、加古 達也 主任研究員(CD研)

雑音環境下において、オープンイヤー型ヘッドホンから再生される音声を、音量を上げることなく聞き取りやすくする低演算量な信号処理手法を提案しました。本手法では、コムフィルタを基本とする低演算量なフィルタを利用し、低周波の環境騒音と小型スピーカユニットの出力の制約の影響が小さくなるように基本周波数と低次倍音のエネルギーを制御します。主観評価実験を実施し、本手法を適用することで音声の聞き取りやすさが有意に向上することを確認しました。この技術は今後、雑音環境下でも音量を上げすぎずに聞き取りやすい、快適な音声コミュニケーションの実現に貢献することが期待されます。

◆Stylized Text-to-Motion Synthesis via Multi-Condition Latent Diffusion
(複数条件の制御が可能な潜在拡散モデルによるテキストからのスタイル付きモーション生成)

謝 芳陸 研究主任(人間研)、塩田 宰 研究員 (人間研)、高木 基宏 主任研究員 (人間研)、シモセラ エドガー 准教授(早稲田大学)

人の行動を説明するテキストに加え、個人特有の動き方を捉えた3Dスケルトンと移動軌跡を入力として組み合わせ、それらを反映した行動を生成するモデルを提案しました。動き方や移動軌跡を明示的に取り込んでモデル化することで、個人らしさを表現し、かつ安定して自然な軌跡での行動の生成を可能としました。今後は、ヒューマノイドロボットの動作生成に加え、人とのインタラクションなど幅広い分野への応用を見込んでいます。

また、Show and Tellセッションにて、デモンストレーションを伴う発表も行ないます:

◆Real-Time Demo of Single-Channel Target Speaker Extraction Using State-Space Modeling
(状態空間モデリングを用いたリアルタイム目的話者抽出のデモンストレーション)

佐藤 宏 研究主任(人間研)、森谷 崇史 准特別研究員(人間研)、マーク デルクロア 特別研究員(CS研)、落合 翼 研究主任(CS研)、浅見 太一 主幹研究員(人間研)

目的話者抽出技術は、雑音や他話者を含む音声から特定話者の音声のみを抽出する技術です。本発表は状態空間モデル(SSM)を導入した軽量なConv-TasNetベース手法により、ノートPCのCPU上で低遅延・リアルタイム動作するオンデバイス目的話者抽出を実演するデモンストレーションを行います。本技術は、将来的に騒がしい環境での通話やオンライン会議の明瞭化などを通じて、一般ユーザの音声コミュニケーションの質向上に貢献することが期待されます。

トピックスに記載している情報は、発表日時点のものです。
現時点では、発表日時点での情報と異なる場合がありますので、あらかじめご了承いただくとともに、ご注意をお願いいたします。