検索パネルを開く 検索パネルを閉じる メニューを開く メニューを閉じる

2024年9月 2日

お知らせ

音声言語処理における世界最大の国際学会 INTERSPEECH2024に、NTTから17本の論文が採択

2024年9月1日~5日に、ギリシャのコス島にて開催される、音声言語処理における世界最大の国際会議INTERSPEECH2024(the 25th INTERSPEECH Conference)当該ページを別ウィンドウで開きます にて、NTTの研究所より提出された17本の論文が採択されました)。また、荒木 章子 主幹研究員(CS研)が、keynote講演 "Frontier of Frontend for Conversational Speech Processing"を行ないます。
 なお、所属としてそれぞれ略称で書かれている研究所名は、以下の通りです。
(所属は投稿時点)
 CS研:NTTコミュニケーション科学基礎研究所
 人間研:NTT人間情報研究所

  1. M2D-CLAP: Masked Modeling Duo Meets CLAP for Learning General-purpose Audio-Language Representation
    1. 仁泉 大輔 リサーチスペシャリスト(CS研)、竹内 大起 研究員(CS研)、大石 康智 担当部長 (CS研)、原田 登 上席特別研究員(CS研)、安田 昌弘 研究員(CS研)、椿 竣介(同志社大)、井本 桂右(同志社大)
    2. 言語と音を対応付けることでゼロショット推論を可能にするCLAP表現は大きな注目を集める一方、回帰問題などには適用できません。論文誌IEEE TASLPで発表した従来の表現学習M2Dを拡張し、言語と音の対応付けも可能にするオールラウンドな表現、M2D-CLAPを提案しました。汎用音響言語表現と呼ぶこの技術は、従来の高性能な音の分類に加え、ゼロショット推論も可能にします。
  2. Unified Multi-Talker ASR with and without Target-speaker Enrollment
    1. 増村 亮 特別研究員 (人間研)、牧島 直輝 研究員 (人間研)、田中 智大 研究員 (人間研)、庵 愛 研究員 (人間研)、河田 尚孝 社員 (人間研)、折橋 翔太 研究主任 (人間研)、篠田 一聡 研究員 (人間研)、山根 大河 社員 (人間研)、水野 沙希 研究員 (人間研)、鈴木 啓太 研究員 (人間研)、鈴木 聡志 研究員 (人間研)、北条 伸克 研究主任 (人間研)、森谷 崇史 准特別研究員 (人間研/CS研)、安藤 厚志 主任研究員 (人間研)
    2. 複数人の発話が重畳したシングルチャンネルの音声を扱う方式であるマルチトーカー音声認識の枠組みに対して、特定話者の音声情報を事前登録することで特定話者の音声のみを選択的に認識する方式と、事前登録なしに重畳音中のすべての話者の音声を同時に認識する方式の2者を、1つの統一的なモデリングで表現する方法を提案します。
  3. SOMSRED: Sequential Output Modeling for Joint Multi-talker Overlapped Speech Recognition and Speaker Diarization
    1. 牧島 直輝 研究員 (人間研)、河田 尚孝 社員 (人間研)、庵 愛 研究員 (人間研)、田中 智大 研究員 (人間研)、折橋 翔太 研究主任 (人間研)、安藤 厚志 主任研究員 (人間研)、増村 亮 特別研究員 (人間研)
    2. 複数人の重畳音声から、誰がいつ何を話したかを推定する問題において、従来は独立した複数モデルが組み合わされて使われています。しかし、これはシステム全体を複雑化し、また話者推定に非重畳部分を必要とするという課題を生みます。本研究では、同じ問題を1つのモデルで統合的に推定することでこの課題を解決する手法を提案します。
  4. Boosting Hybrid Autoregressive Transducer-based ASR with Internal Acoustic Model Training and Dual Blank Thresholding
    1. 森谷 崇史 准特別研究員(人間研/CS研)、芦原 孝典 主任研究員(人間研)、三村 正人 主任研究員(人間研)、佐藤 宏 研究員(人間研)、松浦 孝平 研究員(人間研)、増村 亮 特別研究員(人間研)、浅見 太一 主幹研究員(人間研)
    2. Transducer型の音声認識モデルは長さが異なる音声とテキストのペアを用いて学習するため不安定な挙動となることがあります。本研究では学習を安定かつ高性能化する手法として内部音響モデル(IAM)を提案しました。また、TransducerおよびIAMの、認識結果を出力しない区間を推定する特性を活かし、認識速度改善のための閾値処理についても提案しました。
  5. Text-only domain adaptation for CTC-based speech recognition through substitution of implicit linguistic information in the search space
    1. 高城 巽成 (豊橋技術科学大学)、若林 佑幸 (豊橋技術科学大学)、小川 厚徳 主任研究員 (CS研)、北岡 教英 (豊橋技術科学大学)
    2. CTCに基づくend-to-end音声認識モデルにおいて、デコーディング中に暗黙的に学習されている言語情報を減算してターゲットドメインの言語情報を加算する、効率的なドメイン適応手法を提案しました。減算には1-gram言語モデルを用い、加算には4-gram言語モデルを用いると良いことを実験により明らかにしました。
  6. Boosting CTC-based ASR using inter-layer attention-based CTC loss
    1. 北條 圭悟 (豊橋技術科学大学)、若林 佑幸 (豊橋技術科学大学)、太田 健吾 (阿南工業高等専門学校)、小川 厚徳 主任研究員 (CS研)、北岡 教英 (豊橋技術科学大学)
    2. CTCに基づくend-to-end音声認識モデルにおけるエンコーダの下位層と上位層は、それぞれ音素情報への局在化と言語情報への局在化の役割を持つと考えられます、本研究ではこの役割の違いに着目し、下位層と上位層それぞれに個別の注意機構に基づく補助CTC損失を設定してモデルを学習することで、音声認識精度を向上させる手法を提案しました。
  7. Factor-Conditioned Speaking Style Captioning
    1. 安藤 厚志 主任研究員(人間研)、森谷 崇史 准特別研究員(人間研/CS研)、堀口 翔太 リサーチスペシャリスト(人間研)、増村 亮 特別研究員(人間研)
    2. 話者の話し方情報を自由記述形式で推定する発話スタイルキャプショニングにおいて、様々な表現を含む正解記述文からでも話し方情報を効率的に学習する手法を提案しました。評価実験の結果、従来手法に比べて多様かつ正解精度の高いキャプション文の生成が可能であることを確認しました。
  8. Sentence-wise Speech Summarization: Task, Datasets, and End-to-End Modeling with LM Knowledge Distillation
    1. 松浦 孝平 研究員(人間研)、芦原 孝典 主任研究員(人間研)、森谷 崇史 准特別研究員(人間研/CS研)、三村 正人 主任研究員(人間研)、叶 高朋 研究主任(CS研)、小川 厚徳 主任研究員(CS研)、デルクロア マーク 特別研究員(CS研)
    2. 従来の音声認識システムによる書き起こしには冗長な表現や言い淀みが多く含まれ、可読性を妨げています。これに対し、ユーザが簡潔かつ読みやすいテキストを逐次的に参照可能となる新技術「発話要点認識」を提案しました。また、本技術をEnd-to-Endモデルを用いて実装するにあたり、外部言語モデルを使用したデータ拡張手法を併せて提案しました。
  9. Participant-Pair-Wise Bottleneck Transformer for Engagement Estimation from Video Conversation
    1. 鈴木 啓太 研究員(人間研)、北条 伸克 研究主任(人間研)、水野 沙希 研究員(人間研)、篠田 一聡 研究員(人間研)、増村 亮 特別研究員(人間研)
    2. 複数人会議でのエンゲージメント(参加度合い)推定において、複数人の音声・映像という高次元データ間の相互作用を少数のトークンにより効率的に表現するTransformerベースの手法を提案しました。相互作用を少数のトークンを表現することにより、精度改善できることを確認しました。
  10. Learning from Multiple Annotator Biased Labels in Multimodal Conversation
    1. 篠田 一聡 研究員(人間研)、北条 伸克 研究主任(人間研)、水野 沙希 研究員(人間研)、鈴木 啓太 研究員(人間研)、小橋川 哲 主幹研究員(人間研)、増村 亮 特別研究員(人間研)
    2. 話者の音声と動画からなるマルチモーダル対話を分類するタスクにおいて、複数人のアノテータの判断の違いに由来するデータの偏りへの過学習を回避するための、新たなバイアス除去手法を提案しました。提案手法によって、多数派の話者とクラスでの精度を落とさずに、少数派の話者とクラスでの精度を改善しました。
  11. Geometry-Robust Attention-Based Neural Beamformer for Moving Speakers
    1. タメン マーヴィン (University of Oldenburg)、落合 翼 (CS研)、デルクロア マーク (CS研); 中谷 智広 (CS研)、荒木 章子 (CS研)、ドクロ サイモン (University of Oldenburg)
    2. 我々が近年提案したアテンション機構に基づいた移動音源対応のニューラルビームフォーミング技術を、マイクアレイの形状に依存せずに利用可能する技術を提案しました。実験結果から、学習の際に用いていない未知のマイクアレイを用いた場合でも、移動音源を自動的に追従し、高精度に目的音源を抽出可能であることが確認されました。
  12. SpeakerBeam-SS: Real-time Target Speaker Extraction with Lightweight Conv-TasNet and State Space Modeling
    1. 佐藤 宏 研究員(人間研)、森谷 崇史 准特別研究員(人間研/CS研)、三村 正人 主任研究員(人間研)、堀口 翔太 リサーチスペシャリスト(人間研)、落合 翼 研究員(CS研)、芦原 孝典 主任研究員(人間研)、安藤 厚志 主任研究員(人間研)、品山 健太朗 社員(人間研)、デルクロア マーク 特別研究員(CS研)
    2. リアルタイム音声強調を実現するうえで、その性能を保持しつつ処理を軽量化することは重要な課題です。本研究では、目的の話者を観測信号から抽出する音声強調技術である目的話者抽出技術に、状態空間モデルを組み込んだSpeakerBeam-SSを提案し、性能を保持しつつ約5倍の処理速度を実現しました。
  13. Lightweight Zero-shot Text-to-Speech with Mixture of Adapters
    1. 藤田 健一 研究員 (人間研)、芦原 孝典 主任研究員 (人間研)、デルクロア マーク 特別研究員 (CS研)、井島 勇祐 特別研究員 (人間研)
    2. 数秒の音声からその話者に類似した合成音声が生成可能なzero-shot音声合成を少ないモデルパラメータで実現する手法を提案しました。これによりGPU等を使用せずにCPUでの高速な音声合成を実現します。音声対話システム等の高速なレスポンスが要求される用途への応用が期待されます。
  14. FastVoiceGrad: One-step Diffusion-Based Voice Conversion with Adversarial Conditional Diffusion Distillation
    1. 金子 卓弘 特別研究員(CS研)、亀岡 弘和 上席特別研究員(CS研)、田中 宏 研究主任(CS研)、近藤 祐斗 社員(CS研)
    2. VoiceGradなどの拡散モデルベースの音声変換モデルは高品質・高話者類似度の音声を生成可能で、近年注目を集めています。しかし、推論には反復計算が必要で、変換に時間がかかることがネックとなっていました。この課題を解決するため、本研究では、FastVoiceGradと呼ぶ新たな拡散モデルベースの音声変換モデルを提案し、VoiceGradと同等または上回る音声変換能力を有しながら反復計算を1回に低減することを可能にしました。
  15. PRVAE-VC2: Non-Parallel Voice Conversion by Distillation of Speech Representations
    1. 田中 宏 研究主任(CS研)、亀岡 弘和 上席特別研究員(CS研)、金子 卓弘 特別研究員(CS研)、近藤 祐斗 社員(CS研)
    2. 自己教師あり音声表現学習を用いた音声変換が近年注目を集めています。本研究では、離散化を用いた音声表現学習手法(HuBERT)と我々が近年提案した摂動抵抗を考慮した音声表現学習手法(PRVAE-VC)が異なる軸において情報圧縮を行う手法であることに着目し、複数の情報圧縮手法を加算的に用いることで効果的に音声変換性能を向上させることが可能であることを示しました。
  16. Knowledge Distillation from Self-Supervised Representation Learning Model with Discrete Speech Units for Any-to-Any Streaming Voice Conversion
    1. 金川 裕紀 主任研究員 (人間研)、井島 勇祐 特別研究員 (人間研)
    2. オフライン動作が主眼であった自己教師あり学習(音声SSL)モデルからの知識蒸留により、ストリーミング動作可能な音声変換を提案しました。提案法は音声SSLモデルの強みである頑健性を生かして、学習データ内外のどちらの話者に対してもオフライン動作の声質変換と同等の高精度な音声変換を可能にしました。
  17. Pre-training Neural Transducer-based Streaming Voice Conversion for Faster Convergence and Alignment-free Training
    1. 金川 裕紀 主任研究員 (人間研)、森谷 崇史 准特別研究員(人間研/CS研)、井島 勇祐 特別研究員 (人間研)
    2. 破綻に頑健なストリーミング音声変換モデルVC-Tの学習高速化のため、ソース・ターゲット話者間で音声長を揃える事前学習ステージを導入しました。提案法は従来VC-Tと同等以上の品質を得ながら学習期間を1/3に短縮しました。また適切な初期値を得られることで、学習の安定化に不可欠だった時間情報ラベルが不要となりました。

トピックスに記載している情報は、発表日時点のものです。
現時点では、発表日時点での情報と異なる場合がありますので、あらかじめご了承いただくとともに、ご注意をお願いいたします。