2023年8月10日
2023年8月20日~8月24日に、アイルランドのダブリンにて開催される、音声言語処理における世界最大の国際会議INTERSPEECH2023(the 24th INTERSPEECH Conference)にて、NTTの研究所より提出された19本の論文が採択されました(表1)。(所属は投稿時点)
なお、所属としてそれぞれ略称で書かれている研究所名は、以下の通りです。
CS研:NTTコミュニケーション科学基礎研究所
CD研:NTTコンピュータ&データサイエンス研究所
人間研:NTT人間情報研究所
SIC::NTTソフトウェアイノベーションセンタ
表1 採択分野と件数
研究分野 | 件数 |
---|---|
表現学習 | 2 |
音声認識 | 5 |
音声要約 | 1 |
話者ダイアライゼーション・会話分析 | 2 |
音声強調 | 3 |
音声合成・声質変換 | 3 |
音声知覚 | 2 |
話者年齢推定 | 1 |
NTTのR&Dは、環境にやさしい持続的な成長、多様性に寛容な個と全体の最適化を狙う未来のコミュニケーション基盤であるIOWN(Innovative Optical and Wireless Network)構想を掲げ、その実現に向けた研究開発を進めてまいります。また、それとともに、今後も研究テーマの多様性・継続性を大切に、NTTグループの各事業会社をはじめ、さまざまな分野の産業界の方々と一緒に、さまざまな社会的課題を解決し、人々が意識することなく技術の恩恵を受けることができるスマートな世界の実現をめざし、世界を変革する技術の研究開発を続けていきます。
● Masked Modeling Duo for Speech: Specializing General-Purpose Audio Representation to Speech using Denoising Distillation
仁泉 大輔 リサーチスペシャリスト(CS研), 竹内 大起 研究員(CS研), 大石 康智 担当部長 (CS研), 原田 登 上席特別研究員(CS研), 柏野 邦夫 フェロー(CS研)
ICASSP2023で2023年6月に提案した汎用音響信号表現Masked Modeling Duoは、様々な目的で有効な表現の学習を実現しました。本研究では競争の激しい音声分野に特化した場合でも最先端性能を実現できることを示し、特定用途に特化させる場合も含め、今後の様々な応用の実現に貢献する可能性を示しました。
● SpeechGLUE: How Well Can Self-Supervised Speech Models Capture Linguistic Knowledge?
芦原 孝典 主任研究員(人間研)、森谷 崇史 准特別研究員(人間研/CS研)、松浦 孝平 社員(人間研)、田中 智大 研究員(CD研)、井島 勇祐 特別研究員(人間研)、浅見 太一 主幹研究員(人間研)、デルクロア マーク 特別研究員(CS研)、本間 幸徳 研究主任(人間研)
音声表現向け自己教師あり学習(音声SSL)によってどの程度の言語知識が捉えられているのかを、自然言語理解タスクに基づくプロービングを通じて探索しました。実験結果から、音声SSLはベースラインよりも高い精度を示すことを確認し、一定量の言語知識を捉えていることが示唆されました。
● End-to-End Joint Target and Non-Target Speakers ASR
増村 亮 特別研究員(CD研)、水野 沙希 社員(CD研)、牧島 直輝 研究員(CD研)、庵 愛 研究員(CD研)、内田 美尋 研究員(CD研)、佐藤 宏 研究員(人間研)、田中 智大 研究員(CD研)、鈴木 聡志 研究員(CD研)、高島 瑛彦 研究員(CD研)、折橋 翔太 研究員(CD研)、森谷 崇史 准特別研究員(人間研/CS研)、北条 伸克 研究主任(CD研)、安藤 厚志 主任研究員(人間研/CD研)、山﨑 善啓 研究員(CD研)、山根 大河 社員(CD研)
複数人の声が重畳されたシングルチャネルの音声信号から、あらかじめ登録してある話者の声と、登録していない話者の声を同時に音声認識する方式を確立しました。本方式のポイントは、単一の自己回帰モデルで、各話者の発話内容と、登録話者かどうかを判断する識別子を統一的に生成できた点であり、これによりEnd-to-Endな最適化を可能としています。
● Joint Autoregressive Modeling of End-to-End Multi-Talker Overlapped Speech Recognition and Utterance-level Speech Time Estimation
牧島 直輝 研究員(CD研)、鈴木 啓太 研究員(CD研)、鈴木 聡志 研究員(CD研)、安藤 厚志 主任研究員(人間研/CD研)、増村 亮 特別研究員(CD研)
複数人がオーバーラップする区間を含む音声に対する複数人音声認識と各発話の発話時間推定の統合モデリングを提案しました。本技術では、発話時間推定を離散時間の分類問題として扱うことで、複数人音声認識と発話時間推定をシンプルな同一機構で解き、両者の推定精度を向上させました。
● Knowledge Distillation for Neural Transducer-based Target-Speaker ASR: Exploiting Parallel Mixture/Single-Talker Speech Data
森谷 崇史 准特別研究員(人間研/CS研)、佐藤 宏 研究員(人間研)、落合 翼 研究員(CS研)、デルクロア マーク 特別研究員(CS研)、芦原 孝典 主任研究員(人間研)、松浦 孝平 社員(人間研)、田中 智大 研究員(CD研)、増村 亮 特別研究員(CD研)、小川 厚徳 主任研究員(CS研)、浅見 太一 主幹研究員(人間研)
複数の話者の音声を重畳した混合音から目的話者の音声のみを書き起こす目的話者音声認識モデルの学習において、従来では用いられていなかった重畳前の目的話者の音声を活用する手法を提案し、実験によって目的話者音声認識モデルのさらなる認識性能の改善を確認しました。
● Transcribing Speech as Spoken and Written Dual Text Using an Autoregressive Model
庵 愛 研究員(CD研)、佐藤 宏 研究員(人間研)、田中 智大 研究員(CD研)、増村 亮 特別研究員(CD研)、水野 沙希 社員(CD研)、北条 伸克 研究主任(CD研)
音声を入力として話し言葉テキストと書き言葉テキストの両方を1つのモデルから出力する手法を提案しました。本技術では、2つのテキストの統合系列を出力することで、音声と話し言葉テキストの両方の情報を考慮して書き言葉テキストを出力することができ、性能が向上することを確認しました。
● miniStreamer: Enhancing Small Conformer with Chunked-Context Masking for Streaming Applications on the Edge
グルザー ハリス 社員(SIC)、ブスト モニカ 社員(SIC)、江田 毅晴 担当課長(SIC)、糸山 克寿(東京工業大学)、中臺 一博(東京工業大学)
ストリーミング音声認識にはリアルタイム処理が必要です。従来の手法では、発話が長くなると計算コストも二次関数オーダで増加します。提案手法は固定コンテキストだけに注目を当て、計算コストを一定値に制限します。提案手法により、低電力エッジデバイスでの遅延も低く抑えられます。
● Transfer Learning from Pre-trained Language Models Improves End-to-End Speech Summarization
松浦 孝平 社員(人間研)、芦原 孝典 主任研究員(人間研)、森谷 崇史 准特別研究員(人間研/CS研)、田中 智大 研究員(CD研)、叶 高朋 研究主任(CS研)、小川 厚徳 主任研究員(CS研)、デルクロア マーク 特別研究員(CS研)
End-to-End音声要約の実用化に向けて、限られた量の学習データで高い性能を得るために、事前学習済みの言語モデルを End-to-End 音声要約モデルへ転移学習で統合する手法を提案し、How2データを用いた実験において要約の質と精度の改善を確認しました。
● Multi-Stream Extension of Variational Bayesian HMM Clustering(MS-VBx)for Combined End-to-End and Vector Clustering-based Diarization
デルクロア マーク 特別研究員(CS研), Mireia Diez(BUT), Federico Landini(BUT), Anna Silnova(BUT), 小川 厚徳 主任研究員(CS研), 中谷 智広 上席特別研究員(CS研), Lukas Burget(BUT), 荒木 章子 主幹研究員(CS研)
(BUT: Brno University of Technology)
本論文では、話者ダイアライゼーション(SD)のための新しい埋込ベクトルクラスタリング(VC)法を提案しました。VBxクラスタリングを、E2EとVCに基づくSD(EEND-VC)により生成されるマルチストリーム埋込ベクトルに拡張することで、SD性能を向上できることを確認しました。
● Audio-Visual Praise Estimation for Conversational Video based on Synchronization-Guided Multimodal Transformer
北条 伸克 研究主任(CD研)、水野 沙希 社員(CD研)、小橋川 哲 主幹研究員(CD研)、増村 亮 特別研究員(CD研)、庵 愛 研究員(CD研)、佐藤 宏 研究員(人間研)、田中 智大 研究員(CD研)
コミュニケーションスキルの向上を支援するために、会話の映像と音声データから話者の望ましい行動を推定する手法を提案しました。提案手法は、異なるモダリティ間の時間同期関係に焦点を当てることでTransformerモデルの学習を効率化し、推定精度を向上させました。
● Target Speech Extraction with Conditional Diffusion Model
加茂 直之 研究員(CS研), デルクロア マーク 特別研究員(CS研), 中谷 智広 上席特別研究員(CS研)
入力された混合音声からの特定音声抽出タスクについて生成モデルの拡散モデルを利用した手法を提案しました。観測音声と音声を特定するための登録音声に条件づけられた拡散モデルとして定式化することで、音声抽出を実現しました。評価実験により、従来法と比べSDR、ESTOI, PESQの基準で性能向上を確認しました。
● Downstream Task Agnostic Speech Enhancement Conditioned on Self-Supervised Representation Loss
佐藤 宏 研究員(人間研)、増村 亮 特別研究員(CD研)、落合 翼 研究員(CS研)、デルクロア マーク 特別研究員(CS研)、森谷 崇史 准特別研究員(人間研/CS研)、芦原 孝典 主任研究員(人間研)、品山 健太朗 社員(人間研)、庵 愛 研究員(CD研)、水野 沙希 社員(CD研)、田中 智大 研究員(CD研)、北条 伸克 研究主任(CD研)
様々な音声タスクに対して汎用的に利用可能な音声強調モデルを構築するために、音声の自己教師あり学習(SSL)モデルの出力の観点で強調信号がクリーン信号に近づくように音声強調モデルを学習する手法を提案し、雑音環境用に拡張したSSLモデルの評価用ベンチマーク(Noisy SUPERB benchmark)において、性能を大幅に改善できることを示しました。
● Impact of Residual Noise and Artifacts in Speech Enhancement Errors on Intelligibility of Human and Machine
荒木 章子 主幹研究員(CS研), 山本 絢子(和歌山大学), 落合 翼 研究員 (CS研), 新井 賢一 主任研究員(CS研), 小川 厚徳 主任研究員(CS研), 中谷 智広 上席特別研究員(CS研), 入野 俊夫 (和歌山大学)
シングルチャネル音声強調による強調音声が、時に音声認識性能を劣化させる原因として、雑音の消し残りよりも音声自体の非線形歪みの影響の方が大きいことがこれまでに示されています。本研究では、これら消し残り雑音と非線形歪みが、人の音声認識精度(了解度)に与える影響について調査した結果を報告します。
● iSTFTNet2: Faster and More Lightweight iSTFT-Based Neural Vocoder Using 1D-2D CNN
金子 卓弘 特別研究員(CS研), 亀岡 弘和 上席特別研究員(CS研), 田中 宏 研究主任(CS研), 関 翔悟 リサーチアソシエイト(CS研)
ニューラルボコーダの高速化と軽量化をめざし、1D-2D CNNを用いたiSTFTNetの改良モデル(iSTFTNet2)を提案しました。iSTFTNet2では、1D CNNを用いて時間方向の大域的なモデリングを行い、2D CNNを用いて周波数方向の局所的なモデリングを行います。これにより、時間方向に必要なアップサンプリングの量を削減し、評価実験では、iSTFTNet2は音声品質を維持したままiSTFTNetを高速化及び軽量化できることを示しました。
● CFCV: Conditional Filtering for Controllable Voice Conversion
田中 宏 研究主任(CS研), 金子 卓弘 特別研究員(CS研), 亀岡 弘和 上席特別研究員(CS研),関 翔悟 リサーチアソシエイト(CS研)
事前の統計量計算やアノテーションを用いずに話者属性の分離表現を獲得するため、条件付きフィルタリングとデータ拡張手法を組み合わせてモデル学習をする音声変換手法(CFVC)を提案しました。CFVCでは、話者ベクトルを例えば話速に関する成分とそれ以外の成分に分解します。そうすることで、声の音色を保ちながら、話速のような高レベル属性の制御が可能であることを評価実験より示しました。
● VC-T: Streaming Voice Conversion Based on Neural Transducer
金川 裕紀 研究主任(人間研)、森谷 崇史 准特別研究員(人間研/CS研)、井島 勇祐 特別研究員(人間研)
実用的な声質変換(VC)を目指し、音声認識で用いられるニューラルトランスデューサー(RNN-T)をVCに初めて組み込みました。次時刻の音声の予測に入力音声と過去に出力した音声の両方を使うRNN-Tの特性を活かし、1)従来法のseq2seq声質変換で課題だった言語情報破綻の克服、および2)安定したストリーミング動作を達成しました。
● A stimulus-organism-response model of willingness to buy from advertising speech using voice quality
長野 瑞生 研究員(人間研)、井島 勇祐 特別研究員(人間研)、廣谷 定男 主任研究員(CS研)
買い物の際、店舗内のBGM等によって心地よい感情になることで購買意欲が向上することが知られています。しかし宣伝音声の場合、声の印象が購買意欲にどのように影響するかは分かっていませんでした。本研究では、温かい声や明るい声の宣伝音声が聴取者の購買意欲を高めることを示しました。
● Influence of Personal Traits on Impressions of One's Own Voice
柳田 耀 社員(人間研)、井島 勇祐 特別研究員(人間研)、俵 直弘 研究主任(CS研)
自己の録音音声が聞き手自身にどのような印象をもたらすかを解明するべく、大規模な主観評価実験を実施し、自己の録音音声の印象(魅力、親近感等)と個人特性(年代、性別、性格等)の関係性を分析しました。結果から、自己の録音音声の聴取習慣がある人は自己の録音音声の魅力、親近感を高く評価することを明らかにしました。
● What are differences? Comparing DNN and human by their performance and characteristics in speaker age estimation
北岸 佑樹 研究員(人間研)、俵 直弘 研究主任(CS研)、小川 厚徳 主任研究員(CS研)、増村 亮 特別研究員(CD研)、浅見 太一 主幹研究員(人間研)
音声からの年齢推定において、人間とDNNの精度や傾向の違いを明らかにしました。SoTAなDNNモデルにより、人間と同等以上の推定精度を達成しました。推定傾向としてDNNは対象音声が短時間、もしくは学習データの条件と異なる場合、人間は対象音声が特定の性別や年代、音響特徴を有する場合に推定精度が悪化することを示しました。
トピックスに記載している情報は、発表日時点のものです。
現時点では、発表日時点での情報と異なる場合がありますので、あらかじめご了承いただくとともに、ご注意をお願いいたします。
NTTとともに未来を考えるWEBメディアです。