2021年10月14日
NTTコミュニケーション科学基礎研究所が言語心理学や自然言語処理などの分野における基盤的言語資源として調査・構築してきた単語親密度データベースを、2021年10月よりNTT印刷株式会社から『NTT語彙データベース』として販売を開始いたしました。
単語親密度とは、語のなじみ深さを成人による評定実験によって数値化したものです。NTTでは20年以上前から単語親密度などの基盤的言語資源の構築に取り組み、過去に調査した約7万7千語からなるデータは「日本語の語彙特性」として公開され、幅広く活用されてきました。しかしながら、調査から時間が経ち、単語親密度自体が時代とともに変化している可能性や、新しく出現した語に対応していないといった問題があり、昨年度、単語親密度の調査を約16万3千語という過去最大の規模で実施し、『令和版単語親密度データベース』を構築しました。
今回、この『令和版単語親密度データベース』と過去に公開したデータ(『日本語の語彙特性』の一部)を、NTT印刷の専用ウェブサイトより購入いただけるようになりました。詳細は、専用ウェブサイトをご覧ください。
▶NTT印刷ニュースリリース「NTT語彙データベースの販売開始について」
https://www.nttprint.com/company/itemid419-000072.html
▶NTTニュースリリース「令和版単語親密度データベースの構築と語彙数推定テストの作成」
https://group.ntt/jp/newsrelease/2020/06/03/200603a.html
▶NTT語彙データベース紹介
https://www.nttprint.com/lexicon-db/
トピックスに記載している情報は、発表日時点のものです。
現時点では、発表日時点での情報と異なる場合がありますので、あらかじめご了承いただくとともに、ご注意をお願いいたします。
NTTとともに未来を考えるWEBメディアです。