2023年6月 2日
2023年6月4日~6月10日に、ギリシャのロードス島にて開催される、信号処理における世界最大の国際会議ICASSP2023 (2023 IEEE International Conference on Acoustics, Speech, and Signal Processing)にて、NTTの研究所より提出された15本の論文が採択されました。またICASSPの会場では、これらの採録論文に加えて、IEEEの論文誌に最近採録された論文の中から4本を発表予定です。(所属は投稿時点)
なお、所属としてそれぞれ略称で書かれている研究所名は、以下の通りです。
CS研:NTTコミュニケーション科学基礎研究所
CD研:NTTコンピュータ&データサイエンス研究所
人間研:NTT人間情報研究所
■Masked Modeling Duo: Learning Representations by Encouraging Both Networks to Model the Input
仁泉 大輔 リサーチスペシャリスト(CS研)、竹内 大起 研究員(CS研)、大石 康智 担当部長 (CS研)、原田 登 上席特別研究員(CS研)、柏野 邦夫 フェロー(CS研)
音や画像データを各種用途で扱いやすい数値表現に変換する表現学習技術を提案しました。学習フレームワークを構成する2つのネットワーク両方で入力のモデル化を促すことで、より性能の良い表現を学習できることを示しました。改善した表現を利用することで、音の分類や音声話者の識別など、様々な用途における性能向上に貢献できます。
■Leveraging Language Embeddings for Cross-Lingual Self-Supervised Speech Representation Learning
田中 智大 研究員 (CD研)、増村 亮 特別研究員 (CD研)、庵 愛 研究員 (CD研)、佐藤 宏 研究員 (人間研/CD研)、山根 大河 社員 (CD研)、芦原 孝典 研究主任 (人間研)、松浦 孝平 社員 (人間研)、森谷 崇史 准特別研究員 (人間研/CS研)
入力音声に対応する言語情報の埋め込みベクトルを利用した多言語音声の事前学習手法を提案しました。本技術を利用することで、日本語だけでなく、それ以外の言語の音声データを有効利用できる他、様々な言語の音声タスクの精度改善を実現することが可能です。
■Exploration of Language Dependency for Japanese Self-Supervised Speech Representation Models
芦原 孝典 研究主任 (人間研)、森谷 崇史 准特別研究員 (人間研/CS研)、松浦 孝平 社員 (人間研)、田中 智大 研究員 (CD研)
自己教師あり学習(SSL)において、学習用音声データの言語(例:日本語、英語)が、音響ドメインと比較して、音声認識の精度にどの程度影響するのか分析しました。結果から、SSLでは入力に音声波形データしか用いない(人手で付与した書き起こし等は用いない)にも関わらず、学習データの言語が精度に強く影響を及ぼすこと(SSLの強い言語依存性)を示しました。
■Improving Scheduled Sampling for Neural Transducer-based ASR
森谷 崇史 准特別研究員 (人間研/CS研)、芦原 孝典 研究主任 (人間研)、佐藤 宏 研究員 (人間研/CD研)、松浦 孝平 社員 (人間研)、田中 智大 研究員 (CD研)、増村 亮 特別研究員 (CD研)
音声認識では、学習時に正解ラベルを、推論時にはモデル自身の出力をデコーダに入力することで次の出力の予測を行います。しかしながら推論時の出力には誤りが含まれるため、学習時との挙動の違いによる認識性能の劣化が問題となります。本研究では学習時にモデルの出力の一部を入力として利用するNeural Transducerに適したScheduled Samplingを提案し、音声認識システムの精度向上を確認しました。
■Iterative shallow fusion of backward language model for end-to-end speech recognition
小川 厚徳 主任研究員(CS研)、 森谷 崇史 准特別研究員(人間研/CS研)、加茂 直之 研究員(CS研)、 俵 直弘 研究主任(CS研)、 デルクロア マーク 特別研究員(CS研)
End-to-end音声認識の精度向上には、大量のテキストデータで学習された外部言語モデルのshallow fusionが大きく寄与します。従来、外部言語モデルとしては前向き言語モデルが用いられていましたが、本研究では後向き言語モデルを用いる繰り返しshallow fusion手法を考案しました。提案手法に基づき互いに相補的な前向き言語モデルと後向き言語モデルを同時に用いることで、音声認識精度が大幅に向上することを実験により確認しました。
■Wave-U-Net Discriminator: Fast and Lightweight Discriminator for Generative Adversarial Network-Based Speech Synthesis
金子 卓弘 特別研究員(CS研)、亀岡 弘和 上席特別研究員(CS研)、田中 宏 研究主任(CS研)、関 翔悟 リサーチアソシエイト(CS研)
敵対的生成ネットワークベースの音声合成の学習の効率化をめざし、Wave-U-Net Discriminatorと呼ぶ新たな識別器を提案しました。実験では、提案法をニューラルボコーダ及びEnd-to-Endテキスト音声合成の学習に適用し、従来法と比較して音声品質を維持したまま識別器の高速化と軽量化が可能であることを示しました。
■Enhancement of text prediction style token with generative adversarial network for expressive speech synthesis
金川 裕紀 研究主任 (人間研)、井島 勇祐 特別研究員 (人間研)
音声合成技術の多様なコンテンツ業界での活用を狙い、文章の内容に応じたスタイルでの高精度な読み上げを実現する方式を提案しました。既存方式は文章からのスタイル予測器の精度が低く、スタイルの再現が不十分でした。提案法はこの予測器をGANに基づき学習し、かつ文章の入力方法を工夫することで、スタイル再現性を著しく向上させました。
■JSV-VC: Jointly Trained Speaker Verification and Voice Conversion Models
関 翔悟 リサーチアソシエイト(CS研)、亀岡 弘和 上席特別研究員(CS研)、田中 宏 研究主任(CS研)、金子 卓弘 特別研究員(CS研)
非パラレル学習データを用い任意話者の音声を任意話者の声質に変換する全対全声質変換手法を提案しました。従来、同一話者の音声を入力した場合の出力が近くなり、かつ、異なる話者の音声を入力した場合の出力が遠ざかるように学習した話者符号化器は任意話者の話者認証タスクにおいて有効であることが示されていますが、本提案法では当該学習規範を組み合わせて話者符号化器と音声変換器を同時学習することにより、全対全の声質変換を高品質に行えることを示しました。
■Speech Summarization of Long Spoken Document: Improving Memory Efficiency of Speech/Text Encoders
叶 高朋 研究主任 (CS研)、小川 厚徳 主任研究員 (CS研)、 デルクロア マーク 特別研究員 (CS研)、ロシャン シャルマ (CMU)、 松浦 孝平 社員 (人間研)、渡部 晋治 (CMU)
音声要約は、会議の議事録や講演の概要作成などで利用される技術です。本研究では深層学習において、非常に長い音声系列を効率よく計算する手法と、長い文章から的確に要点を見つける手法を組み合わせ、従来困難であった10分の長い音声の要約を可能にし要約精度を向上させました。
■Leveraging Large Text Corpora for End-to-End Speech Summarization
松浦 孝平 社員 (人間研)、芦原 孝典 研究主任 (人間研)、森谷 崇史 准特別研究員 (人間研/CS研)、田中 智大 研究員 (CD研)、小川 厚徳 主任研究員 (CS研)、デルクロア マーク 特別研究員 (CS研)、増村 亮 特別研究員 (CD研)
音声から直接要約を生成する End-to-End 音声要約モデルは、収集の難しい音声・要約のペアが学習時に大量に必要になる点が問題となります。そこで、本研究では既存のテキスト・要約ペアと音声合成技術を用いることで疑似的に音声・要約ペアを増やし、End-to-End音声要約モデルの精度を向上させました。さらに、音素列を用いたより低コストなデータ拡張手法も提案し、同様の精度向上を確認しました。
■Deep Quantigraphic Image Enhancement via Comparametric Equations
武 小萌 主任研究員(CS研)、孫 泳青 研究主任(CD研)、木村 昭悟 主幹研究員(CS研)
画像強調をComparametric Equationとして定式化した新しい学習可能な深層学習モジュールを提案しました。本モジュールを照明推定中心方式のDNNに組み込むことで、提案手法は、様々な用途の需要に容易に適応し、柔軟性のある深層画像強調を可能にします。
■Whether Contribution of Features Differ between Video-Mediated and In-Person Meetings in Important Utterance Estimation
二瓶 芙巳雄 研究員 (人間研)、石井 亮 特別研究員 (人間研)、中野 有紀子 教授 (成蹊大学)、深山 篤 主幹研究員 (人間研)、中村 高雄 主席研究員 (人間研)
ビデオ会議と対面会議の違いを、発言の重要度に影響する要因の観点から定量的に明らかにしました。発言の重要度を予測する機械学習モデルをビデオと対面で構築し比較しました。これにより、会議の形態に関わらず、結論に影響する重要な発言の抽出や強調が可能になります。
■Next-Speaker Prediction Based on Non-Verbal Information in Multi-Party Video Conversation
水野 沙希 社員 (CD研)、北条 伸克 研究主任 (CD研)、小橋川 哲 主幹研究員 (CD研)、増村 亮 特別研究員 (CD研)
多人数のビデオ会話を円滑化するため、次に誰が話すかを予測する次話者予測手法を提案しました。非言語情報が現れにくいビデオ会話について、高精度な予測が可能な特徴量(顔表情、手の動き、相槌)を明らかにしました。また、更に頑健な予測を可能とするため、多人数会話データ向けのデータ拡張手法を提案しました。
■On Word Error Rate Definitions and their Efficient Computation for Multi-Speaker Speech Recognition Systems.
T. von Neumann (Paderborn大)、 C. Boeddeker、木下 慶介 特別研究員 (CS研)、 デルクロア マーク 特別研究員 (CS研)、 R. Haeb-Umbach (Paderborn大)
複数の話者の音声を含む録音を入力とした時に複数の音声認識結果を出力するシステムの単語誤り率(WER)を計算するための一般的なフレームワークを提案しました。このような音声認識システムは、会議録などで必要となります。本論文では、各発話の正解と認識結果とを対応させる制約のもとでの、多次元レーベンシュタイン距離テンソルの動的プログラミング探索に基づく効率的な方法を提供しました。
■Fast Online Source Steering Algorithm for Tracking Single Moving Source Using Online Independent Vector Analysis
中嶋 大志 (東京都立大)、池下 林太郎 (CS研)、小野 順貴 (東京都立大)、荒木 章子 (CS研)、中谷 智広 (CS研)
オンラインブラインド音源分離において、移動音源(高々1音源と仮定)を分離・追跡するための計算量が最適な手法である Online Source Steering (OSS) を提案しました。OSS は従来のオンラインアルゴリズムと同等の性能を維持しつつ 3 倍以上高速に動作することを実験により示しました。
――――
またICASSPの会場では、上述した採録論文に加えて、最近IEEEの論文誌に採録された以下の論文も発表予定です。
■M. Delcroix, J. B. Vázquez, T. Ochiai, K. Kinoshita, Y. Ohishi and S. Araki, "SoundBeam: Target Sound Extraction Conditioned on Sound-Class Labels and Enrollment Clues for Increased Performance and Continuous Learning," in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 31, pp. 121-136, 2023, doi: 10.1109/TASLP.2022.3221000. [link]
■T . Ochiai, M. Delcroix, T. Nakatani and S. Araki, "Mask-Based Neural Beamforming for Moving Speakers With Self-Attention-Based Tracking," in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 31, pp. 835-848, 2023, doi: 10.1109/TASLP.2023.3237172. [link]
■T. Nakatani, R. Ikeshita, K. Kinoshita, H. Sawada, N. Kamo and S. Araki, "Switching Independent Vector Analysis and its Extension to Blind and Spatially Guided Convolutional Beamforming Algorithms," in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 30, pp. 1032-1047, 2022, doi: 10.1109/TASLP.2022.3155271.[link]
■D. Niizumi, D. Takeuchi, Y. Ohishi, N. Harada and K. Kashino, "BYOL for Audio: Exploring Pre-Trained General-Purpose Audio Representations," in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 31, pp. 137-151, 2023, doi: 10.1109/TASLP.2022.3221007. [link]
――――
NTTのR&Dは、環境にやさしい持続的な成長、多様性に寛容な個と全体の最適化を狙う未来のコミュニケーション基盤であるIOWN(Innovative Optical and Wireless Network)構想を掲げ、その実現に向けた研究開発を進めてまいります。また、それとともに、今後も研究テーマの多様性・継続性を大切に、NTTグループの各事業会社をはじめ、さまざまな分野の産業界の方々と一緒に、さまざまな社会的課題を解決し、人々が意識することなく技術の恩恵を受けることができるスマートな世界の実現をめざし、世界を変革する技術の研究開発を続けていきます。
トピックスに記載している情報は、発表日時点のものです。
現時点では、発表日時点での情報と異なる場合がありますので、あらかじめご了承いただくとともに、ご注意をお願いいたします。
NTTとともに未来を考えるWEBメディアです。