2024年4月15日
2024年4月14日~4月19日(韓国標準時)に大韓民国のソウルで開催される、信号処理における世界最大の国際会議ICASSP2024(2024 IEEE International Conference on Acoustics, Speech, and Signal Processing)に、NTTの研究所より提出された20件の論文が採択されました。またICASSPの会場では、これらの採録論文に加えて、Show and Tellセッションにおけるデモンストレーションも発表予定です。(所属は投稿時点)
なお、所属としてそれぞれ略称で書かれている研究所名は、以下の通りです。
CS研:NTTコミュニケーション科学基礎研究所
CD研:NTTコンピュータ&データサイエンス研究所
人間研:NTT人間情報研究所
■Sparse Regularization Based on Reverse Ordered Weighted L1-Norm and Its Application to Edge-Preserving Smoothing
佐々木 崇元 研究員(CD研)、坂東 幸浩 主幹研究員(CD研)、北原 正樹 主幹研究員(CD研)
雑音除去や超解像など信号値を推定するのが難しい諸問題には、推定対象信号の「疎らな性質」に着目するスパース正則化のアプローチが広く使われています。しかし従来のアプローチでは、画像の適用においてエッジの鈍化やグラデーション消失が課題になっていました。本研究では新たなスパース正則化関数(ROWL)を提案し、これらの画質劣化を同時に抑制できることを確認しました。
■Online Target Sound Extraction with Knowledge Distillation from Partially Non-Causal Teacher
若山 圭吾 研究主任(CD研)、落合 翼 研究員(CS研)、マーク デルクロア 特別研究員(CS研)、安田 昌弘 研究員(CD研/CS研)、齊藤 翔一郎 主任研究員(CD研)、荒木 章子 主幹研究員(CS研)、中山 彰 主幹研究員(CD研)
目的音抽出のオンライン化による精度劣化を改善するため、非因果モデルや部分的非因果モデルを教師とする知識蒸留に基づくオンライン目的音抽出を提案し、データセットによる実験で提案手法の有効性を確認しました。
■6DoF SELD: Sound Event Localization and Detection Using Microphones and Tracking Sensors on Self-Motioning Human
安田 昌弘 研究員(CD研/CS研)、齊藤 翔一郎 主任研究員(CD研)、中山 彰 主幹研究員(CD研)、原田 登 上席特別研究員(CS研)
自己運動する人間に取り付けたマイクロフォンを用いて、人物の周囲事象の位置と種類を特定する6DoF SELDタスクを新たに設計し、実収録データセットの収録・公開を行いました。さらに、自己運動時における性能低下の問題に対処するため、トラッキングセンサによって取得される頭部の運動情報を手掛かりに有効な音響特徴を励起する機構を提案し、有効性を確認しました。
■On the Equivalence of Dynamic Mode Decomposition and Complex Nonnegative Matrix Factorization
幸島 匡宏 主任研究員(人間研)
流体解析で用いられる動的モード分解と、音響信号処理で用いられる複素NMF(非負値行列分解)という、出自の異なる2つの時系列分析手法の関係性を理論的に解明しました。この理論解析により、これら分析手法の基礎となる原理や仮定、長所や短所に対する理解を深めることに成功しました。
■StyleCap: Automatic Speaking-Style Captioning from Speech Based on Speech and Language Self-Supervised Learning Models
山内 一輝(東大)、井島 勇祐 特別研究員(人間研)、齋藤 佑樹(東大)
音声に含まれる話し方(発話スタイル)などの情報を事前に定義されたクラスを識別するのではなく、自然言語で記述する新たなタスク"発話スタイルキャプショニング"とそのための手法である"StyleCap"を提案しました。提案法は音声エンコーダ、大規模言語モデル(LLM)から構成されます。実験により、音声に含まれる話し方の情報を自然言語で高精度に記述できることを示しました。
■What Do Self-Supervised Speech and Speaker Models Learn? New Findings from a Cross Model Layer-Wise Analysis
芦原 孝典 主任研究員(人間研)、デルクロア マーク 特別研究員(CS研)、森谷 崇史 准特別研究員(人間研/CS研)、松浦 孝平 研究員(人間研)、浅見 太一 主幹研究員(人間研)、井島 勇祐 特別研究員(人間研)
話者照合やターゲット話者音声認識など様々なタスクで用いられる話者埋込表現の精度改善に向けて、発話単位自己教師あり学習(SSL)の獲得する表現を分析。結果から、発話単位SSL・フレーム単位SSL・教師あり話者埋込モデル間の強み・弱みを探索し、精度改善に向けた知見を見出しました。
■Noise-Robust Zero-Shot Text-to-Speech Synthesis Conditioned on Self-Supervised Speech-Representation Model with Adapters
藤田 健一 研究員(人間研)、佐藤 宏 研究員(人間研)、芦原 孝典 主任研究員(人間研)、金川 裕紀 主任研究員(人間研)、デルクロア マーク 特別研究員(CS研)、森谷 崇史 准特別研究員(人間研/CS研)、井島 勇祐 特別研究員(人間研)
ノイズを含んだ所望話者の数秒の音声からでも高い自然性・類似性の音声合成を実現する音声合成手法を提案しました。本技術を用いることで、病気などで声を失った方の残されたわずかな音声からでも、その方の声の再現をするなどの応用が期待されます。
■Talking Face Generation for Impression Conversion Considering Speech Semantics
水野 沙希 研究員(CD研)、北条 伸克 研究主任(CD研)、篠田 一聡 研究員(CD研)、鈴木 啓太 研究員(CD研)、庵 愛 研究員(CD研)、佐藤 宏 研究員(人間研)、田中 智大 研究員(CD研)、河田 尚考 社員(CD研)、小橋川 哲 主幹研究員(CD研)、増村 亮 特別研究員(CD研)
発話動画が与える印象を変換するため、顔表情を変換するタスクと手法を新たに提案しました。印象変換は、従来の感情変換とは異なり、同じ「好感が持てる」印象を与える場合も、発話内容によって適切な表情が異なります。この点に注目し、映像特徴に加え、入力動画の発話内容を考慮する手法を提案し、有効性を確認しました。
●NTT Speaker Diarization System for CHiME-7: Multi-Domain, Multi-Microphone End-to-End and Vector Clustering Diarization
俵 直弘 研究主任(CS研)、デルクロア マーク 特別研究員(CS研)、安藤 厚志 主任研究員(人間研)、小川 厚徳 主任研究員(CS研)
エンドツーエンド深層学習モデルに基づく話者区間検出、投票に基づくチャネル統合および自己教師あり適応を組み合わせることで、マイク配列や収録環境、発話スタイル等の違いに頑健な話者ダイアライゼーションを実現しました。提案システムはCHiME-7チャレンジの遠隔発話音声認識タスクに提出したNTTシステムのフロントエンドとして導入され、本システムの上位入賞に貢献しました。
●Discriminative Training of VBx Diarization
Dominik Klement(BUT)、Mireia Diez(BUT)、Federico Landini(BUT)、Lukas Burget(BUT)、Anna Silnova(BUT)、デルクロア マーク 特別研究員(CS研)、俵 直弘 研究主任(CS研)
VBxは、複数人発話音声から誰がいつ話したかを推定する話者ダイアライゼーション技術の基盤技術として広く利用されています。VBxはベイズ推論を用いて話者埋め込みベクトルをクラスタリングすることで、各発話と話者とを関連付けることができます。本論文では、識別学習に基づきVBxのパラメタを更新することでVBxのハイパーパラメタ探索を大幅に簡素化できる新たなフレームワークを提案します。
●Target Speech Extraction with Pre-Trained Self-Supervised Learning Models
Junyi Peng(BUT)、デルクロア マーク 特別研究員(CS研)、落合 翼 研究主任(CS研)、Oldrich Plchot(BUT)、荒木 章子 主幹研究員(CS研)、Jan Cernocky(BUT)
目的音声抽出(TSE)は、予め録音された目的話者の短い登録音声を用いて、複数話者を含む混合音声の中から目的話者の音声を識別し、他の話者の音声から分離する技術です。本研究では、音声分野で広く用いられている自己教師付き学習モデル(SSL)のTSEへの利用を検討し、目的音声抽出誤りを大幅に低減できることを示します。
●Train Long and Test Long: Leveraging Full Document Contexts in Speech Processing
William Chen(CMU)、叶 高朋 研究主任(CS研)、小川 厚徳 主任研究員(CS研)、デルクロア マーク 特別研究員(CS研)、渡部 晋治(CMU)
自己注意機構の2次関数的なメモリ複雑性により、Transformerベースのモデルは発話単位の音声処理に制限され、長い文脈を活用することができません。本論文では、Flash Attentionのような高速・省メモリな自己注意機構を用いて、文書単位の音声処理を実現します。また、より単純な代替手段として自己注意を利用しない自己教師付きモデルLongHuBERTを提案します。長い文脈を学習することで、文書単位の音声認識・要約タスクにおいて高い性能を示しました。
●Neural Network-Based Virtual Microphone Estimation with Virtual Microphone and Beamformer-Level Multi-Task Loss
瀬川 華子(筑波大)、落合 翼 研究主任(CS研)、デルクロア マーク 特別研究員(CS研)、中谷 智広 上席特別研究員(CS研)、荒木 章子 主幹研究員(CS研)、山田 武士(筑波大)、牧野 昭二(筑波大)
仮想マイク生成とは、実際に観測された少数のマイク観測から未観測のマイク観測を推定し,仮想的にマイク数を増加させる技術です。本研究では、アレイ処理の出力レベルでの損失を含んだマルチタスク学習基準を導入することで、後段のアレイ処理により適した仮想マイク信号の生成に成功しました。
●How Does End-to-End Speech Recognition Training Impact Speech Enhancement Artifacts?
岩本 一真(同志社大)、落合 翼 研究主任(CS研)、デルクロア マーク 特別研究員(CS研)、池下 林太郎 研究主任(CS研)、佐藤 宏 研究員(人間研)、荒木 章子 主幹研究員(CS研)、片桐 滋(同志社大)
遠隔音声認識タスクにおいて、音声強調の推定誤差が音声認識性能に与える影響について、これまで十分に明らかにされていませんでした。本研究では、音声認識基準による音声強調の最適化が、音声強調誤差から分解して得られるアーティファクト誤差を減少させる働きをすることを世界で初めて明らかにしました。
●Training Generative Adversarial Network-Based Vocoder with Limited Data Using Augmentation-Conditional Discriminator
金子 卓弘 特別研究員(CS研)、亀岡 弘和 上席特別研究員(CS研)、田中 宏 研究主任(CS研)
近年、音声合成では、生成器と識別器を敵対的に学習する敵対的生成ネットワーク(GAN)が広く用いられていますが、学習に大量のデータが必要なことが課題でした。この解決にデータ拡張が有効ですが、従来の識別器はデータの拡張状態を不可知で、拡張音声と真の目的音声を混同してしまうという問題がありました。本研究では拡張状態を考慮した識別器(AugCondD)を新たに構築することでこの問題を解決しました。
●Selecting N-Lowest Scores for Training MOS Prediction Models
近藤 祐斗 社員(CS研)、亀岡 弘和 上席特別研究員(CS研)、田中 宏 研究主任(CS研)、金子 卓弘 特別研究員(CS研)
音声合成システムの品質評価の自動化を目的として、音声品質に関するアンケート結果の平均値であるMOSを予測する深層学習モデルの開発が近年盛んとなっています。本研究ではこのラベリング傾向に関する仮説を提案します。音声品質スコアデータセットを分析して仮説の裏付けを行い、さらに仮説に基づいてMOSに代わる音声品質の代表値を提案します。
●Unrestricted Global-Phase-Bias Aware Single-Channel Speech Enhancement with Conformer-Based Metric GAN
Shiqi Zhang(早大), Qui Zheng(早大), 竹内 大起 研究員(CS研)、原田 登 上席特別研究員(CS研)、牧野 昭二(早大)
雑音の混ざった音から音声を抽出する音声強調という技術があり、最近は深層学習による手法が広く利用されています。本研究では、人間が知覚できない音声波形の位相の絶対値は拘束せず、位相の変化量のみに着目した損失関数による学習手法を提案しました。実験では、推論時の計算量が従来手法と同じのまま、人間の知覚に基づく音声品質の客観評価指標の値を改善することを示しました。
●Sunflower Strategy for Bayesian Relational Data Analysis
中野 允裕 特別研究員(CS研)、渋江 遼平 研究員(CS研)、柏野 邦夫 フェロー(CS研)
遺伝子の発現量、ユーザの購買ログ、ネットワークの隣接関係など、表(行列)の形で表現されるデータは世の中に数多くあります。このような行列型のデータから部分的なまとまり(クラスタ構造)を発見する技術は、信号処理や機械学習の諸課題に広く用いられる重要な基礎技術です。本論文は、データを行方向・列方向の別々の視点で見たクラスタ構造を利用して、データ全体の重複のないクラスタを推論する技術を提案しています。
以下はShow and Tellセッションにおけるデモンストレーションを伴う発表です。
●MeetEval, Show Me the Errors! Interactive Visualization of Transcript Alignments for the Analysis of Conversational ASR
Thilo von Neumann(Paderborn University), Christoph Boeddeker(Paderborn University), デルクロア マーク 特別研究員(CS研), Reinhold Haeb-Umbach(Paderborn University)
会話音声認識システムによる誤りを可視化・分析する新しいツールのデモを紹介します。本ツールは、複数話者の長時間録音について、正解発話内容と音声認識結果の間の対応付けを表示します。単語の挿入、削除、置換など、さまざまな種類の誤りをハイライトしてまとめ上げることで誤り密度の高い領域を簡単に特定できるようになります。
●Target Speech Spotting and Extraction Based on ConceptBeam
大石 康智 担当部長(CS研), デルクロア マーク 特別研究員(CS研), 落合 翼 研究主任(CS研), 荒木 章子 主幹研究員(CS研), 竹内 大起 研究員(CS研), 仁泉 大輔 リサーチスペシャリスト(CS研), 木村 昭悟 主席研究員(CS研), 原田 登 上席特別研究員(CS研), 柏野 邦夫 フェロー(CS研)
ConceptBeamと呼ばれる目的音声の検出・抽出技術を実演します。これは意味に基づく音源分離を可能にする新技術であり、話し言葉、画像、またはそれらの組み合わせによって指定される興味の対象(概念または話題)に合致する音声信号を、複数話者が混在した音響信号から抽出することができます。
――――
NTTのR&Dは、環境にやさしい持続的な成長、多様性に寛容な個と全体の最適化を狙う未来のコミュニケーション基盤であるIOWN(Innovative Optical and Wireless Network)構想を掲げ、その実現に向けた研究開発を進めてまいります。また、それとともに、今後も研究テーマの多様性・継続性を大切に、NTTグループの各事業会社をはじめ、さまざまな分野の産業界の方々と一緒に、さまざまな社会的課題を解決し、人々が意識することなく技術の恩恵を受けることができるスマートな世界の実現をめざし、世界を変革する技術の研究開発を続けていきます。
トピックスに記載している情報は、発表日時点のものです。
現時点では、発表日時点での情報と異なる場合がありますので、あらかじめご了承いただくとともに、ご注意をお願いいたします。
NTTとともに未来を考えるWEBメディアです。