2020年7月22日
NTTサービスイノベーション総合研究所メディアインテリジェンス研究所の小泉悠馬研究員、NTT先端技術総合研究所コミュニケーション科学基礎研究所の竹内大起社員、大石康智主任研究員、原田登主幹研究員、柏野邦夫上席特別研究員で結成されたチームは、本年3月から7月にかけて行われた標記のチャレンジにおいて世界一の精度を達成しました。
小泉悠馬研究員 |
竹内大起社員 |
大石康智主任研究員 |
原田登主幹研究員 |
柏野邦夫上席特別研究員 |
DCASE※チャレンジは、IEEE Audio and Acoustic Signal Processing Technical Committee が公認する国際コンペティションで、今年で6回目を迎えます。説明文生成部門(Task 6:Automated audio captioning)は、DCASEチャレンジにおいて今年初めて設定されたもので、さまざまな音がどのような音かを説明する文章を生成する技術の精度、的確さを競います。今年は世界各国から10チームが参加しました。
NTTは、さまざまな音の言語化に世界でも最も早くから取り組んでいる研究機関のひとつです。今回も、上記の各メンバーそれぞれが蓄積したアルゴリズムや知見を元に検討を重ね、データの前処理、後処理、メタパラメータのチューニング自動化に至るまでさまざまなアイデアを結集して臨みました。
音に対する説明文生成は、技術分野自体が立ち上がりつつあるところで、まだ標準的な方式が定まっている状況ではありません。しかし、近い将来、あらゆる音をわかりやすく見える化することができれば、私たちの暮らしにさまざまなメリットをもたらすと期待されます。NTTでは、さらにこの技術の完成度を高めるべく引き続き研究を進めてまいります。
DCASE:Detection and Classification of Acoustic Scenes and Event 音響イベント検知、音響シーン分類に関する主要な国際会議。
DCASE2020 Challenge (DCASE2020)トピックスに記載している情報は、発表日時点のものです。
現時点では、発表日時点での情報と異なる場合がありますので、あらかじめご了承いただくとともに、ご注意をお願いいたします。
NTTとともに未来を考えるWEBメディアです。