検索パネルを開く 検索パネルを閉じる メニューを開く メニューを閉じる

2025年3月31日

お知らせ

音声音響信号処理を中心とした信号処理全般の世界最大の国際会議ICASSP2025に、NTTから22本の論文が採択

2025年4月6日~4月11日(インド標準時)にインドのハイデラバードで開催される、音声音響信号処理を中心とした信号処理における世界最大の国際会議ICASSP2025 (2025 IEEE International Conference on Acoustics, Speech, and Signal Processing)当該ページを別ウィンドウで開きますに、NTTの研究所より提出された22本の論文が採択されました。またICASSPの会場では、これらの採録論文に加えて、IEEEの論文誌に最近採録された論文の中から3本を発表予定です。
 なお、所属としてそれぞれ略称で書かれている研究所名は、以下の通りです(所属は投稿時点)、
 CS研:NTTコミュニケーション科学基礎研究所
 人間研:NTT人間情報研究所
 CD研:NTTコンピュータ&データサイエンス研究所

  1. Guided Speaker Embedding (発話区間を用いた話者特徴量抽出)
    1. 堀口翔太 リサーチスペシャリスト(人間研)、森谷崇史 准特別研究員(人間研/CS研)、安藤厚志 主任研究員(人間研)、芦原孝典 主任研究員(人間研)、佐藤宏 研究員(人間研)、俵直弘 主任研究員(CS研)、デルクロアマーク 特別研究員(CS研)
    2. 複数の話者が発話する音声から、その中の特定の話者に対応する特徴量を抽出する手法を提案しました。各話者がどの時刻において発話しているかという情報を活用することで、当該話者が別の話者と重なって発話している区間からも効果的に特徴を抽出することを可能にしました。本技術は、会議や商談といった複数人が発話する状況における音声の認識・理解への活用が期待されます。
  2. Multi-channel Speaker Counting for EEND-VC-based Speaker Diarization on Multi-domain Conversation (End-to-end 話者ダイアライゼーションのためのマルチチャネル話者数推定)
    1. 俵直弘 主任研究員(CS研)、安藤厚志 主任研究員(人間研)、堀口翔太 リサーチスペシャリスト(人間研)、デルクロアマーク 特別研究員(CS研)
    2. 複数のマイクで収録した音声を使って、会話中に何人の話者がいるかを正確に推定する新しい手法を開発しました。提案手法では、EEND-VCと呼ばれる話者ダイアライゼーション法と、信号処理に基づく音声強調技術を組み合わせることで、環境に依存せず安定して動作する話者数推定を実現します。本手法をNTT遠隔音声認識システムに組み込むことで、遠隔会話音声認識の国際コンペティション「CHiME-8チャレンジ」で優れた成績を収めました。今後、この技術は複数人会話音声処理の重要な基盤として活用されることが期待されています。
  3. Mamba-based Segmentation Model for Speaker Diarization(話者ダイアライゼーションのための状態空間モデルMambaに基づく発話セグメンテーションモデル)
    1. Alexis Plaquet (IRIT、 Universite de Toulouse, CNRS) 、俵直弘 主任研究員(CS研)、デルクロアマーク 特別研究員(CS研)、堀口翔太 リサーチスペシャリスト(人間研)、安藤厚志 主任研究員(人間研)、荒木章子 主幹研究員(CS研)
    2. 複数の人が話す音声から『誰が、いつ話したか』を推測するタスクである話者ダイアライゼーションのための新しい方法を開発しました。この手法では最新の状態空間モデルであるMambaを本タスクに初めて適用し、これまで難しかった長時間の会話の流れを考慮した話者ダイアライゼーションを実現しました。また、この手法を pyannote という広く使われている話者ダイアライゼーションフレームワークと互換性のあるモジュールとして公開することで、誰でも簡単に試せるようにしました。今後は、この技術を音声認識と組み合わせることで、会議音声の自動書き起こしシステムのような実用的な会話分析システムへの拡張を目指していきます。
  4. Alignment-Free Training for Transducer-based Multi-Talker ASR (学習時にアライメントを必要としないトランスデューサ型複数話者音声認識)
    1. 森谷崇史 准特別研究員(人間研/CS研)、堀口翔太 リサーチスペシャリスト(人間研)、デルクロアマーク 特別研究員(CS研)、増村亮 特別研究員(人間研)、芦原孝典 主任研究員(人間研)、佐藤宏 研究員(人間研)、松浦孝平 研究員(人間研)、三村正人 主任研究員(人間研)
    2. 複数の話者の発話を含む音声から全ての発話を同時に書き起こすストリーミング音声認識手法を提案しました。話者の出現順序を表すプロンプトを付与することで、複数話者音声認識の学習手順をシンプルにし、オフラインおよびリアルタイムの両動作で非常に高い認識性能で複数話者の発話を同時に音声認識することを可能にしました。本技術は、会議や商談といった複数人が発話する状況における音声議事録等への活用が期待されます。
  5. Advancing Streaming ASR with Chunk-wise Attention and Trans-chunk Selective State Spaces (チャンク内アテンションとチャンク間選択的状態空間を用いたストリーミング音声認識の改善)
    1. 三村正人 主任研究員(人間研)、森谷崇史 准特別研究員(人間研/CS研)、松浦孝平 研究員(人間研)
    2. 音声の短い区間のみに注目するアテンション機構と、より長い範囲の依存関係を効率よくとらえることのできる選択的状態空間モデルを組み合わせることにより、精度と計算効率の両面でストリーミング音声認識の性能を改善しました。対話やリアルタイムの字幕生成、スマートアシスタントなど、精度と速さがともに求められるアプリケーションでの活用が期待できます。
  6. Leveraging IPA and Articulatory Features as Effective Inductive Biases for Multilingual ASR Training (End-to-End 多言語音声認識における帰納バイアスとしての IPA および調音素性の効果)
    1. Lee Jaeyoung (京都大学)、三村正人 主任研究員(人間研)、河原達也(京都大学)
    2. 非常に多くの言語(最大120言語)のための多言語音声認識システムを構築する際に、IPA(国際音声記号)や人間が発声する際の器官の動きを記述した調音素性など、言語によらない音声学的な知識を用いることで、より良い音声認識性能が得られることを示しました。この技術は、多言語コミュニケーションを支援するアプリケーションでの活用が期待できます。
  7. Bridging Speech and Text Foundation Models with ReShape Attention (ReShape Attentionによる音声と言語の基盤モデルの統合)
    1. 叶高朋 研究主任(CS 研)、 小川厚徳 主任研究員(CS 研)、 デルクロアマーク 特別研究員(CS研)、 チェンウィリアム (カーネギーメロン大学)、 福田りょう 研究員(CS 研)、 松浦孝平(人間研)、 芦原孝典 主任研究員(人間研)、 渡部晋治(カーネギーメロン大学)
    2. LLMなどの大規模事前学習モデル(基盤モデル)は、音声認識やテキスト翻訳など多様なタスクに使われます。音声と言語の基盤モデルを結合すれば音声翻訳モデルを容易に構築可能ですが、音声認識の誤りに起因する誤訳や、話し方・抑揚など音声情報の理解不足が課題です。この課題に対し、異なる基盤モデル同士を統合・最適化する手法が注目されています。本研究では従来手法を改良し、学習の効率と安定性を両立する新手法を提案しました。これにより、モダリティ(音声/テキスト)やドメイン(分野/用途)を跨ぐ基盤モデルの統合が可能となり、少ないデータ・計算資源・時間で高精度なモデルを構築できます。
  8. Speech Emotion Recognition Based on Large-Scale Automatic Speech Recognizer(大規模音声認識モデルに基づく韻律・言語情報を考慮した音声感情認識)
    1. 福田りょう 研究員(CS研)、 叶高朋 研究主任(CS研)、 安藤厚志 主任研究員(人間研)、 小川厚徳 主任研究員(CS研)
    2. 音声感情認識は、音声から人間の表出感情を識別する技術です。本研究では、事前学習された大規模音声認識モデルを活用し、言語情報(話の内容)と韻律情報(話し方)の両方を考慮できる音声感情認識モデルを提案しました。実験により、提案手法が最先端の認識精度を達成することを示しました。この技術は今後例えば、メンタルヘルスケアやカスタマーサービス等において役立てられることが期待されます。
  9. Training Dialogue Systems by AI Feedback for Improving Overall Dialogue Impression (LLM を用いた対話印象評価による対話システム学習)
    1. 吉田快(奈良先端大/理研GRP)、水上雅博 研究主任(CS研/人間研)、河野誠也(理研GRP/奈良先端大)、クルンカライカナサイ(理研GRP)、杉山弘晃 主任研究員(CS研/人間研)、吉野幸一郎(東京科学大学/理研GRP/奈良先端大)
    2. 大規模言語モデル (LLM) を活用した対話システムにおいて、個々の応答だけでなく対話全体の印象を改善する手法を提案しました。 個性、一貫性、共感度合いといった12種類の印象を評価するモデルを用い、印象を向上させるように設計した報酬を用いた強化学習を適用することで、自動評価と人手評価の両方において、対話の印象が向上しただけでなく、応答の自然さも改善されました。 この技術は今後、より自然かつ魅力的なチャットボットやAIアシスタントの構築に役立つことが期待されます。本研究はNTTと理研 ガーディアンロボットプロジェクトの共同研究成果です。
  10. A Hybrid Probabilistic-Deterministic Model Recursively Enhancing Speech (再帰的に音声を強調する確率論的-決定論的ハイブリッドモデル)
    1. 中谷智広 上席特別研究員(CS 研)、加茂直之 研究員(CS 研)、デルクロアマーク 特別研究員(CS 研)、荒木章子 主幹研究員(CS 研)
    2. 騒がしい環境で収録された音声から背景雑音や残響を高精度に抑制する技術「Probabilistic-Deterministic Recursive Enhancement (PDRE)」を開発しました。この技術は、深層学習に基づく再帰処理により、音声の分布とその波形を高精度に同時推定します。拡散モデルに基づく最新の音声強調技術と同等以上の品質の処理を、100分の1以下の計算時間で実現しました。今後、この技術を活用して様々な音声アプリケーションの性能向上に貢献していきます。
  11. SoundBeam meets M2D: Target Sound Extraction with Audio Foundation Model (SoundBeam meets M2D: 音声基盤モデルに基づくターゲットサウンド抽出)
    1. Carlos Hernandez-Olivan (University of Zaragoza)、 デルクロアマーク 特別研究員(CS研)、落合翼 研究主任(CS研)、仁泉大輔 リサーチスペシャリスト(CS研)、俵直弘 主任研究員(CS研)、中谷智広 上席特別研究員(CS研)、荒木章子 主幹研究員(CS研)
    2. 複数の音が含まれる混合音から、特定の音だけを取り出すための新しい音分離技術(Target Sound Extraction: TSE)を提案しました。この技術では、NTTが開発したTSE技術『SoundBeam』に、NTT独自の音声基盤モデルである『masked-modeling duo (M2D)』を組み合わせることで、これまで以上に高い音の分離性能を実現しました。この成果は、周囲の音の中から、聞きたい音だけを聞くことができる近未来型のヒアリングデバイスの実現などに繋がることが期待されます。
  12. TS-SUPERB: A Target Speech Processing Benchmark for Speech Self-Supervised Learning Models(目的話者音声処理のための音声の自己教師あり学習モデル用ベンチマーク)
    1. Junyi Peng (BUT)、 芦原孝典 主任研究員 (人間研)、 デルクロアマーク 別研究員(CS研)、 落合翼 研究主任(CS研)、 Plchot Oldřich (BUT)、 荒木章子 主幹研究員(CS研)、 Jan Honza Cernocky (BUT)
    2. 目的話者音声処理タスクにおける自己教師あり学習(SSL)モデルの有効性を評価するための新たなベンチマーク (TS-SUPERB: target-speaker speech processing universal performance benchmark) を提案しました。TS-SUPERBは、目的話者抽出、パーソナライズド音声強調、パーソナライズド発話区間検出、目的話者音声認識といった、目的話者の特定と混合音声からの情報抽出を必要とする4つのタスクで構成されています。ベンチマークの結果から、関連する単一話者タスクから目的話者タスクの性能を推測できないことが確認され、目的話者タスクにおいてSSLモデルを評価することの重要性を明らかにしました。今後の目的話者抽出技術の研究開発を牽引するベンチマークとしての活用が期待されます。
  13. Collision-less and Balanced Sampling for Language-Queried Audio Source Separation(自然言語クエリによる音源分離のための低衝突バランスサンプリングの提案)
    1. グエン ビン ティエン リサーチアソシエイト(CS研)、 竹内 大起 研究員(CS研)、 安田 昌弘 研究員(CS研/CD研)、 仁泉 大輔 リサーチスペシャリスト(CS研)、 原田登 上席特別研究員(CS研)
    2. 複数の音が含まれる混合音から自然言語で表現されたクエリに基づいて所望の音を分離するタスクにおいて、モデルの学習における効果的なデータのサンプリング手法を提案しました。従来の無作為なサンプリングではなく、学習データに音クラスを自動タグ付けし、音クラスの衝突を避け、学習データ全体における音クラスの分布を考慮したサンプリングにより作成した混合音をモデルの学習に利用することで、DCASE 2024チャレンジタスク9の最先端の手法よりも提案手法の分離性能が優れていることを確認しました。今後この技術は、大量の音データからモデルの学習に必要なデータを選択する(サンプリングする)技術の一つとして活用されることが期待されます。
  14. 30+ Years of Source Separation Research: Achievements and Future Challenges (音源分離研究の30+年: 成果と展望)
    1. 荒木章子 主幹研究員(CS研)、 伊藤信貴 (東京大学)、 Reinhold Haeb-Umbach (Paderborn University)、 Gordon Wichern (Mitsubishi Electric Research Laboratories)、 Zhong-Qiu Wang (Southern University of Science and Technology)、 光藤祐基 (Sony AI)
    2. ICASSP第50回を記念して、音声音響および音楽の音源分離研究の30年の歴史を振り返ります。本分野の研究の歴史のみならず、音源分離研究を世界的に盛んにした重要な取り組み(性能評価チャレンジ企画、評価尺度、データセットなど)を取り上げます。さらに音源分離研究が今後取り組むべき方向性について議論し、研究分野のさらなる発展に寄与します。
  15. Rethinking Mean Opinion Scores in Speech Quality Assessment: Score Aggregation through Quantized Distribution Fitting (自動音声品質予測タスクにおけるMOSの再考:離散分布へのフィッティングによるスコア集計法の提案)
    1. 近藤 祐斗 社員(CS研)、亀岡 弘和 上席特別研究員(CS研)、田中 宏 研究主任(CS研)、金子 卓弘 特別研究員(CS研)
    2. 近年、テキスト音声合成で生成された音声の品質を自動評価する予測モデルの開発が盛んとなっています。その中で最も基本的なモデルは、主観評価アンケートを通じて複数の聴取者が付与した音声品質に関する点数の平均値であるmean opinion score(MOS)を予測するように学習されています。私たちは、例えば点数付けで1~5点の選択肢がある場合に-1点や6点に相当する点数を付けたい音声であっても端の1点や5点を付与せざるを得ないという事象を考慮して、予測モデル学習においてただ単なる平均値である MOSを使用することに疑問を呈しました。本研究では上記のような聴取者の評点付けプロセスを意識したスコア集計法を提案しました。 予測モデルの予測対象をMOSから新たな集計値に置き換えて学習することでモデルの予測性能の向上を確認しました。さらに、提案法は音声品質のみならず、主観評価(例えば声の『かっこよさ』など)の平均値を予測する予測モデルであれば原理的にどのようなものであっても適用できる汎用的なアプローチとなっています。提案法を活用することで音声認識AIがより人間らしく音声を捉えられるようになり、AIが人と自然に対話できるような社会の実現に貢献すると期待されます。
  16. Sound Source Distance Estimation Utilizing Physics-informed Prior for Sound Event Localization and Detection(音響イベント定位のための物理に基づく事前知識を活用した音源距離推定)
    1. 佐藤 菜緒 社員(CD研)、 安田 昌弘 研究員(CD研/CS研)、 齊藤 翔一郎 主任研究員(CD研)、原田登 上席特別研究員(CS研/CD研)
    2. 音響イベントの検知・定位 (SELD) とは、音からその周囲で発生した音響イベントの種類と位置を特定するタスクです。本研究は、SELDのための音源距離推定タスクに焦点を当てています。従来のデータ駆動型の距離推定手法で学習されたシステムでは、異なる条件のデータが与えられた時に精度低下するという課題がありました。この課題に対し、物理に基づく事前知識を距離推定に活用する手法を提案し、有効性を確認しました。本成果は、音に基づく公共空間の警備等のアプリケーションを、多様な実環境において実現することへの貢献が期待されます。
  17. Spatial Annotation-free Training for Sound Event Localization and Detection (音響イベント定位のための音源到来方向に関する正解ラベルを必要としない学習手法)
    1. 安田 昌弘 研究員(CD研/CS研)、 佐藤 菜緒 社員(CD研)、齊藤 翔一郎 主任研究員(CD研)、原田登 上席特別研究員(CS研/CD研)
    2. Sound event localization and detection (SELD) は、音響イベントの種類、継続時間、及び到来方向を特定するタスクです。本研究は、音源到来方向の正解ラベルを用いずにSELDシステムを学習する、Spatial annotation-free SELDという枠組みを提案します。実験結果は、提案手法を用いることで、音源到来方向のラベルを持たないデータをSELDの学習に有効に活用出来ることを示しています。本成果によりこれまで利用出来なかった音データが利用出来るようになることで、身近なデバイスを用いて歩行者の安全支援等の音による人の支援が行うことが可能になると期待されます。
  18. Multi-Task Learning for Ultrasonic Echo-based Depth Estimation with Audible Frequency Recovery (可聴音復元を同時に行うマルチタスク学習を用いた超音波反響音からの屋内深度推定)
    1. 本間 純平(東京理科大学)、木村 昭悟 主席研究員(CS研)、入江 豪(東京理科大学)
    2. スピーカを屋内環境に配置して超音波を発信し、その環境反響音をマイクで収録することで屋内環境の深度情報を推定する手法を考案しました。従来は、深度推定に有効な反響音を得るために音量の可聴音をスピーカから発信する必要があり、周囲の環境や人体に悪影響をもたらす可能性がありました。本論文では、計測対象環境に可聴音を発信した際に得られる反響音を非可聴超音波反響音から予測するタスクを追加することで、可聴音の情報を仮想的かつ間接的に利用しつつ実際には超音波発信音のみから屋内環境の深度を推定する手法を提案しました。この技術は、カメラなどの画像情報を利用できない状況における実世界情景の分析や復元再合成に道を拓く技術の一つとして期待されます。
  19. 3GPP IVAS Codec -Perspective on Development, Testing and Standardization (3GPP IVAS 符号復号化 -開発、試験、標準化の概要)
    1. Stefan Bruhn (Dolby)、 Tomas Toftgård (Ericsson)、 Stefan Döhla  (FhG)、 Huan-yu Su (Huawei)、 Lasse Laaksonen (Nokia)、 守谷 健弘 フェロー(CS研)、 Stéphane Ragot (Orange)、 Hiroyuki Ehara (Panasonic)、 Marek Szczerba (Philips)、 Imre Varga (Qualcomm)、 Andrey Schevciw (Qualcomm)、 Milan Jerinec (VoiceAge)
    2. 3GPP (3rd Generation Partnership Project)では、高臨場音声音響サービス(Immersive Voice and Audio Services; IVAS) の符号化の標準化規格を2024年6月に制定しました。IVAS はこれまでのスマホのモノラル通信から音響空間特性を使った双方向の高臨場感通信を実現します。これにより、音声通信の主役が単なる電話でなく、拡張現実感なども含む高臨場電話会議やユーザのコンテンツの実時間配信など多様なサービスに発展していくと期待されます。 本稿はIVASの標準規格の特徴的技術内容の概要と制定までの特筆すべき共同開発の経緯も含めて説明します。
  20. Stereo Downmix in 3GPP IVAS for EVS Compatibility (EVSとの互換性を保つための3GPP IVAS規格のステレオダウンミックス)
    1. 守谷健弘 フェロー(CS研)、 Stephane Rago (Orange)、 Arnaud Lefort (Orange)、 Alexsandre Guerin (Orange)、 原田登 上席特別研究員(CS研)、 杉浦亮介 研究主任(CS研)、 鎌本優 主幹研究員(CS研)
    2. 3GPP で制定した高臨場音声音響サービス(IVAS向けの符号化標準規格には、現在世界に普及しているスマートフォンの符号化(Enhanced Voice Services; EVS)と互換性を維持するためのステレオ信号からモノラル信号への適応的ダウンミックス規格が含まれます。本稿では多地点会議に向けて、この機能を活かしたEVSとIVASが混在するネットワーク構成での利点を紹介します。さらに追加の遅延を発生させずに、先行音を重視する重みづけ、あるいは位相をそろえた重みづけによる適応的ダウンミックスの処理を紹介します。主観品質評価により 、標準規格は静的なダウンミックスより高い音声品質を提供できることを示しました。これにより高品質高機能電話会議の実現と円滑な普及に向けて大きく前進しました。
  21. Hyperbolic PHATE: Visualizing Continuous Hierarchy of Latent Differentiation Structures(潜在的分化構造の可視化のための双曲拡散埋め込み)
    1. 中野允裕 特別研究員(CS研)、佐久間大樹 研究員(CS研)、錦見亮 研究員(CS研)、小宮賢士 研究員(CS研)、岩田具治 上席特別研究員(CS研)、柏野邦夫 フェロー(CS研)
    2. 遺伝子情報をもとに生体細胞の誕生から心臓・肺などの臓器や器官へ分化していく軌跡を可視化する技術を提案しました。細胞の遺伝子発現量の時間変化を捉える際に、従来は、時間経過に伴って細胞が徐々に成長を続ける拡散構造と、別々の臓器や器官へと細胞が分岐する枝分かれ構造とを、別々の規準・尺度を用いて表出されることが主流でした。本技術は細胞分化において顕著に現れるこれら二つの拡散構造と枝分かれ構造とを同時に表出させることのできる可視化を可能にしました。今後は本成果によるデータに基づく生体細胞の分化メカニズムの分析を通じて、病気の原因の解明や再生医療への応用に役立てていきたいと考えています。
  22. CardioFlow: Learning to Generate ECG from PPG with Rectified Flow (CardioFlow: Rectified Flowを用いた脈波からの心電位生成モデルの学習)
    1. 南部 優太 研究員(人間研)、幸島 匡宏 主任研究員(人間研)、山本 隆二 主幹研究員(人間研)
    2. スマートウオッチでも計測が容易な脈波から、計測に手間のかかる心電位を生成する深層学習モデルを提案しました。最先端モデルRectified Flowを用いることで、拡散モデルベースの従来手法よりも正確かつ高速な心電位生成を実現しました。感情喚起時と運動時の脈波と心電位を記録した2つのデータセットを用いた実験から、提案手法の有効性を確認しました。また、感情認識タスクにおいて、生成された心電位を学習データとして使用することで生成元である脈波を使用する場合よりも分類性能が向上することを確認しました。

以下、IEEEの論文誌に最近採録された論文の発表:

  1. Rethinking Processing Distortions: Disentangling the Impact of Speech Enhancement Errors on Speech Recognition Performance (処理歪みの再考: 音声強調の誤りが音声認識性能に与える影響の解明)
    1. 落合翼 研究主任(CS研)、岩本一真 (同志社大) 、デルクロアマーク 特別研究員(CS研)、池下林太郎 研究主任 (CS研)、佐藤宏 研究員(人間研)、荒木章子 主幹研究員(CS研)、片桐 滋 (同志社大)
    2. 単チャネル音声強調は、目的音の抽出度合いを測る音声強調の評価尺度では大きな改善がある一方で、そうした強調信号を用いても音声認識性能が改善しない(むしろ悪化する)という現象が報告されていました。本研究では、正射影に基づいた誤差分解を応用した分析手法を提案し、音声認識性能の劣化要因が音声強調の誤差に含まれるアーティファクト誤差であると特定しました。加えて、音声認識の劣化要因を抑える方法として、原音を抽出音声に付加する技術や新たな学習基準を提案し、実験によりその有効性を示しました。本研究で得られた知見により、音声認識性能を向上させる単チャネル音声強調システムの設計が可能になると期待されます。
  2. Masked Modeling Duo: Towards a Universal Audio Pre-training Framework (Masked Modeling Duo: ユニバーサル音響事前学習フレームワーク)
    1. 仁泉 大輔 リサーチスペシャリスト(CS研)、竹内 大起 研究員(CS研)、大石 康智 主幹研究員(CS研)、原田 登 上席特別研究員(CS研)、柏野 邦夫 フェロー(CS研)
    2. 音の表現学習は、私達の身の回りの様々な音をAIで汎用的に扱えるデータに変換する技術です。本研究では教師ラベルを必要とせず、見えているデータから隠された部分の予測を通じて学習する自己教師あり学習を改善した手法Masked Modeling Duo (M2D)を提案しました。加えて、応用先に特化した表現を学習する枠組みM2D for Xを提案し、様々な音を入力とするAIシステムに役立つ表現の学習を可能にしました。音をより役立つ情報表現を提供する技術を通じて、音を理解する様々な応用システムの今後の発展に貢献します。
  3. Sparse Regularization with Reverse Sorted Sum of Squares via an Unrolled Difference-of-Convex Approach (DC計画法アルゴリズムの深層展開アプローチに基づく逆順序付け二乗和によるスパース正則化)
    1. 佐々木 崇元 研究主任 (CD研)、早瀬 和也 主任研究員 (CD研)、北原 正樹 主幹研究員 (CD研)、小野 峻佑 (東京科学大)
    2. 不十分な観測から信号値を推定する逆問題では、推定対象信号の「疎らな性質」に着目するスパース正則化のアプローチが広く使われています。近年は推定性能の向上のために非凸スパース正則化関数が用いられますが、理論的解析が難しく、説明性の高いアルゴリズムの構築が課題になっていました。本研究では新たな非凸スパース正則化関数(RSSS)を提案し、DC計画法に帰着させることで、高い推定性能と説明性の両立に成功しました。この技術は今後、雑音除去や超解解像、カラリゼーションなどの逆問題に役立つことが期待されます。

トピックスに記載している情報は、発表日時点のものです。
現時点では、発表日時点での情報と異なる場合がありますので、あらかじめご了承いただくとともに、ご注意をお願いいたします。