2023年8月10日

お知らせ

音声言語処理における世界最大の国際学会 INTERSPEECH2023に、NTTから19本の論文が採択

2023年8月20日～8月24日に、アイルランドのダブリンにて開催される、音声言語処理における世界最大の国際会議INTERSPEECH2023（the 24th INTERSPEECH Conference）当該ページを別ウィンドウで開きますにて、NTTの研究所より提出された19本の論文が採択されました（表1）。（所属は投稿時点）
　なお、所属としてそれぞれ略称で書かれている研究所名は、以下の通りです。

CS研：NTTコミュニケーション科学基礎研究所
CD研：NTTコンピュータ＆データサイエンス研究所
人間研：NTT人間情報研究所
SIC:：NTTソフトウェアイノベーションセンタ

表1 採択分野と件数

研究分野	件数
表現学習	2
音声認識	5
音声要約	1
話者ダイアライゼーション・会話分析	2
音声強調	3
音声合成・声質変換	3
音声知覚	2
話者年齢推定	1

NTTのR&Dは、環境にやさしい持続的な成長、多様性に寛容な個と全体の最適化を狙う未来のコミュニケーション基盤であるIOWN（Innovative Optical and Wireless Network）構想を掲げ、その実現に向けた研究開発を進めてまいります。また、それとともに、今後も研究テーマの多様性・継続性を大切に、NTTグループの各事業会社をはじめ、さまざまな分野の産業界の方々と一緒に、さまざまな社会的課題を解決し、人々が意識することなく技術の恩恵を受けることができるスマートな世界の実現をめざし、世界を変革する技術の研究開発を続けていきます。

【採択論文】

■ 表現学習

● Masked Modeling Duo for Speech: Specializing General-Purpose Audio Representation to Speech using Denoising Distillation

仁泉大輔リサーチスペシャリスト（CS研）, 竹内大起研究員（CS研）, 大石康智担当部長（CS研）, 原田登上席特別研究員（CS研）, 柏野邦夫フェロー（CS研）
ICASSP2023で2023年6月に提案した汎用音響信号表現Masked Modeling Duoは、様々な目的で有効な表現の学習を実現しました。本研究では競争の激しい音声分野に特化した場合でも最先端性能を実現できることを示し、特定用途に特化させる場合も含め、今後の様々な応用の実現に貢献する可能性を示しました。

● SpeechGLUE: How Well Can Self-Supervised Speech Models Capture Linguistic Knowledge?

芦原孝典主任研究員（人間研）、森谷崇史准特別研究員（人間研/CS研）、松浦孝平社員（人間研）、田中智大研究員（CD研）、井島勇祐特別研究員（人間研）、浅見太一主幹研究員（人間研）、デルクロアマーク特別研究員（CS研）、本間幸徳研究主任（人間研）
音声表現向け自己教師あり学習（音声SSL）によってどの程度の言語知識が捉えられているのかを、自然言語理解タスクに基づくプロービングを通じて探索しました。実験結果から、音声SSLはベースラインよりも高い精度を示すことを確認し、一定量の言語知識を捉えていることが示唆されました。

■ 音声認識

● End-to-End Joint Target and Non-Target Speakers ASR

増村亮特別研究員（CD研）、水野沙希社員（CD研）、牧島直輝研究員（CD研）、庵愛研究員（CD研）、内田美尋研究員（CD研）、佐藤宏研究員（人間研）、田中智大研究員（CD研）、鈴木聡志研究員（CD研）、高島瑛彦研究員（CD研）、折橋翔太研究員（CD研）、森谷崇史准特別研究員（人間研/CS研）、北条伸克研究主任（CD研）、安藤厚志主任研究員（人間研/CD研）、山﨑善啓研究員（CD研）、山根大河社員（CD研）
複数人の声が重畳されたシングルチャネルの音声信号から、あらかじめ登録してある話者の声と、登録していない話者の声を同時に音声認識する方式を確立しました。本方式のポイントは、単一の自己回帰モデルで、各話者の発話内容と、登録話者かどうかを判断する識別子を統一的に生成できた点であり、これによりEnd-to-Endな最適化を可能としています。

● Joint Autoregressive Modeling of End-to-End Multi-Talker Overlapped Speech Recognition and Utterance-level Speech Time Estimation

牧島直輝研究員（CD研）、鈴木啓太研究員（CD研）、鈴木聡志研究員（CD研）、安藤厚志主任研究員（人間研/CD研）、増村亮特別研究員（CD研）
複数人がオーバーラップする区間を含む音声に対する複数人音声認識と各発話の発話時間推定の統合モデリングを提案しました。本技術では、発話時間推定を離散時間の分類問題として扱うことで、複数人音声認識と発話時間推定をシンプルな同一機構で解き、両者の推定精度を向上させました。

● Knowledge Distillation for Neural Transducer-based Target-Speaker ASR: Exploiting Parallel Mixture/Single-Talker Speech Data

森谷崇史准特別研究員（人間研/CS研）、佐藤宏研究員（人間研）、落合翼研究員（CS研）、デルクロアマーク特別研究員（CS研）、芦原孝典主任研究員（人間研）、松浦孝平社員（人間研）、田中智大研究員（CD研）、増村亮特別研究員（CD研）、小川厚徳主任研究員（CS研）、浅見太一主幹研究員（人間研）
複数の話者の音声を重畳した混合音から目的話者の音声のみを書き起こす目的話者音声認識モデルの学習において、従来では用いられていなかった重畳前の目的話者の音声を活用する手法を提案し、実験によって目的話者音声認識モデルのさらなる認識性能の改善を確認しました。

● Transcribing Speech as Spoken and Written Dual Text Using an Autoregressive Model

庵愛研究員（CD研）、佐藤宏研究員（人間研）、田中智大研究員（CD研）、増村亮特別研究員（CD研）、水野沙希社員（CD研）、北条伸克研究主任（CD研）
音声を入力として話し言葉テキストと書き言葉テキストの両方を1つのモデルから出力する手法を提案しました。本技術では、2つのテキストの統合系列を出力することで、音声と話し言葉テキストの両方の情報を考慮して書き言葉テキストを出力することができ、性能が向上することを確認しました。

● miniStreamer: Enhancing Small Conformer with Chunked-Context Masking for Streaming Applications on the Edge

グルザーハリス社員（SIC）、ブストモニカ社員（SIC）、江田毅晴担当課長（SIC）、糸山克寿（東京工業大学）、中臺一博（東京工業大学）
ストリーミング音声認識にはリアルタイム処理が必要です。従来の手法では、発話が長くなると計算コストも二次関数オーダで増加します。提案手法は固定コンテキストだけに注目を当て、計算コストを一定値に制限します。提案手法により、低電力エッジデバイスでの遅延も低く抑えられます。

■ 音声要約

● Transfer Learning from Pre-trained Language Models Improves End-to-End Speech Summarization

松浦孝平社員（人間研）、芦原孝典主任研究員（人間研）、森谷崇史准特別研究員（人間研/CS研）、田中智大研究員（CD研）、叶高朋研究主任（CS研）、小川厚徳主任研究員（CS研）、デルクロアマーク特別研究員（CS研）
End-to-End音声要約の実用化に向けて、限られた量の学習データで高い性能を得るために、事前学習済みの言語モデルを End-to-End 音声要約モデルへ転移学習で統合する手法を提案し、How2データを用いた実験において要約の質と精度の改善を確認しました。

■ 話者ダイアライゼーション・会話分析

● Multi-Stream Extension of Variational Bayesian HMM Clustering（MS-VBx）for Combined End-to-End and Vector Clustering-based Diarization

デルクロアマーク特別研究員（CS研）, Mireia Diez（BUT）, Federico Landini（BUT）, Anna Silnova（BUT）, 小川厚徳主任研究員（CS研）, 中谷智広上席特別研究員（CS研）, Lukas Burget（BUT）, 荒木章子主幹研究員（CS研）
（BUT: Brno University of Technology）
本論文では、話者ダイアライゼーション（SD）のための新しい埋込ベクトルクラスタリング（VC）法を提案しました。VBxクラスタリングを、E2EとVCに基づくSD（EEND-VC）により生成されるマルチストリーム埋込ベクトルに拡張することで、SD性能を向上できることを確認しました。

● Audio-Visual Praise Estimation for Conversational Video based on Synchronization-Guided Multimodal Transformer

北条伸克研究主任（CD研）、水野沙希社員（CD研）、小橋川哲主幹研究員（CD研）、増村亮特別研究員（CD研）、庵愛研究員（CD研）、佐藤宏研究員（人間研）、田中智大研究員（CD研）
コミュニケーションスキルの向上を支援するために、会話の映像と音声データから話者の望ましい行動を推定する手法を提案しました。提案手法は、異なるモダリティ間の時間同期関係に焦点を当てることでTransformerモデルの学習を効率化し、推定精度を向上させました。

■ 音声強調

● Target Speech Extraction with Conditional Diffusion Model

加茂直之研究員（CS研）, デルクロアマーク特別研究員（CS研）, 中谷智広上席特別研究員（CS研）
入力された混合音声からの特定音声抽出タスクについて生成モデルの拡散モデルを利用した手法を提案しました。観測音声と音声を特定するための登録音声に条件づけられた拡散モデルとして定式化することで、音声抽出を実現しました。評価実験により、従来法と比べSDR、ESTOI, PESQの基準で性能向上を確認しました。

● Downstream Task Agnostic Speech Enhancement Conditioned on Self-Supervised Representation Loss

佐藤宏研究員（人間研）、増村亮特別研究員（CD研）、落合翼研究員（CS研）、デルクロアマーク特別研究員（CS研）、森谷崇史准特別研究員（人間研/CS研）、芦原孝典主任研究員（人間研）、品山健太朗社員（人間研）、庵愛研究員（CD研）、水野沙希社員（CD研）、田中智大研究員（CD研）、北条伸克研究主任（CD研）
様々な音声タスクに対して汎用的に利用可能な音声強調モデルを構築するために、音声の自己教師あり学習（SSL）モデルの出力の観点で強調信号がクリーン信号に近づくように音声強調モデルを学習する手法を提案し、雑音環境用に拡張したSSLモデルの評価用ベンチマーク（Noisy SUPERB benchmark）において、性能を大幅に改善できることを示しました。

● Impact of Residual Noise and Artifacts in Speech Enhancement Errors on Intelligibility of Human and Machine

荒木章子主幹研究員（CS研）, 山本絢子（和歌山大学）, 落合翼研究員（CS研）, 新井賢一　主任研究員（CS研）, 小川厚徳主任研究員（CS研）, 中谷智広上席特別研究員（CS研）, 入野俊夫（和歌山大学）
シングルチャネル音声強調による強調音声が、時に音声認識性能を劣化させる原因として、雑音の消し残りよりも音声自体の非線形歪みの影響の方が大きいことがこれまでに示されています。本研究では、これら消し残り雑音と非線形歪みが、人の音声認識精度（了解度）に与える影響について調査した結果を報告します。

■ 音声合成・声質変換

● iSTFTNet2: Faster and More Lightweight iSTFT-Based Neural Vocoder Using 1D-2D CNN

金子卓弘特別研究員（CS研）, 亀岡弘和上席特別研究員（CS研）, 田中宏研究主任（CS研）, 関翔悟リサーチアソシエイト（CS研）
ニューラルボコーダの高速化と軽量化をめざし、1D-2D CNNを用いたiSTFTNetの改良モデル（iSTFTNet2）を提案しました。iSTFTNet2では、1D CNNを用いて時間方向の大域的なモデリングを行い、2D CNNを用いて周波数方向の局所的なモデリングを行います。これにより、時間方向に必要なアップサンプリングの量を削減し、評価実験では、iSTFTNet2は音声品質を維持したままiSTFTNetを高速化及び軽量化できることを示しました。

● CFCV: Conditional Filtering for Controllable Voice Conversion

田中宏研究主任（CS研）, 金子卓弘特別研究員（CS研）, 亀岡弘和上席特別研究員（CS研）,関翔悟リサーチアソシエイト（CS研）
事前の統計量計算やアノテーションを用いずに話者属性の分離表現を獲得するため、条件付きフィルタリングとデータ拡張手法を組み合わせてモデル学習をする音声変換手法（CFVC）を提案しました。CFVCでは、話者ベクトルを例えば話速に関する成分とそれ以外の成分に分解します。そうすることで、声の音色を保ちながら、話速のような高レベル属性の制御が可能であることを評価実験より示しました。

● VC-T: Streaming Voice Conversion Based on Neural Transducer

金川裕紀研究主任（人間研）、森谷崇史准特別研究員（人間研/CS研）、井島勇祐特別研究員（人間研）
実用的な声質変換（VC）を目指し、音声認識で用いられるニューラルトランスデューサー（RNN-T）をVCに初めて組み込みました。次時刻の音声の予測に入力音声と過去に出力した音声の両方を使うRNN-Tの特性を活かし、1）従来法のseq2seq声質変換で課題だった言語情報破綻の克服、および2）安定したストリーミング動作を達成しました。

■ 音声知覚

● A stimulus-organism-response model of willingness to buy from advertising speech using voice quality

長野瑞生研究員（人間研）、井島勇祐特別研究員（人間研）、廣谷定男主任研究員（CS研）
買い物の際、店舗内のBGM等によって心地よい感情になることで購買意欲が向上することが知られています。しかし宣伝音声の場合、声の印象が購買意欲にどのように影響するかは分かっていませんでした。本研究では、温かい声や明るい声の宣伝音声が聴取者の購買意欲を高めることを示しました。

● Influence of Personal Traits on Impressions of One's Own Voice

柳田耀社員（人間研）、井島勇祐特別研究員（人間研）、俵直弘研究主任（CS研）
自己の録音音声が聞き手自身にどのような印象をもたらすかを解明するべく、大規模な主観評価実験を実施し、自己の録音音声の印象（魅力、親近感等）と個人特性（年代、性別、性格等）の関係性を分析しました。結果から、自己の録音音声の聴取習慣がある人は自己の録音音声の魅力、親近感を高く評価することを明らかにしました。

■ 話者年齢推定

● What are differences? Comparing DNN and human by their performance and characteristics in speaker age estimation

北岸佑樹研究員（人間研）、俵直弘研究主任（CS研）、小川厚徳主任研究員（CS研）、増村亮特別研究員（CD研）、浅見太一主幹研究員（人間研）
音声からの年齢推定において、人間とDNNの精度や傾向の違いを明らかにしました。SoTAなDNNモデルにより、人間と同等以上の推定精度を達成しました。推定傾向としてDNNは対象音声が短時間、もしくは学習データの条件と異なる場合、人間は対象音声が特定の性別や年代、音響特徴を有する場合に推定精度が悪化することを示しました。

トピックスに記載している情報は、発表日時点のものです。
現時点では、発表日時点での情報と異なる場合がありますので、あらかじめご了承いただくとともに、ご注意をお願いいたします。

トピックス一覧に戻る

NTT STORY

NTTとともに未来を考えるWEBメディアです。

グループ企業一覧