2024年12月5日~8日にベトナム ハノイにて開催される、機械学習の難関国際会議ACML(Asian Conference on Machine Learning)2024にて、NTT研究所から投稿した論文が採択されました。ACMLは、特にアジアにおいて影響力のある機械学習分野の重要な国際会議です。
NTTの研究所より提出された採択論文は以下の3件となります。
(以下、NTT社会情報研究所は社会研、NTTコンピュータ&データサイエンス研究所はCD研、NTTコミュニケーション科学基礎研究所はCS研と略します。)
- ●One-Shot Machine Unlearning with Mnemonic Code
- ・山下智也(社会研)、山田真徳(社会研)、柴田剛志(CS研※)
- ・※現在、日本電気株式会社
- ・プライバシーや倫理的な問題に対応するために、望ましくないデータを学習済モデルから取り除く手法としてマシンアンラーニングという手法があります。既存のマシンアンラーニングは計算コストが高いという問題がありました。本論文ではニーモニックコードと呼ばれるランダムなノイズを利用し、高速に忘却する手法を提案しました。更に、本手法は高速であるため、既存手法では難しかったVision Transformerのような大規模なモデルにおいても適用可能なことを示しました。
- ●Toward Data Efficient Model Merging between Different Datasets without Performance Degradation
- ・山田真徳(社会研)、山下智也(社会研)、山口真弥(CD研)、千々和大輝(CD研)
- ・モデル合成は複数のモデルを組み合わせて新しいモデルを作る手法として注目されています。既存のモデル合成は、共通する事前学習モデルからファインチューニングしたモデル間しか合成できないという制約がありました。本論文では、ニューラルネットワークの対称性を利用することで、ファインチューニングされたモデル間に縛られない、「任意の初期値から学習したモデル間を合成する手法」を提案しました。
- ●Analyzing Diffusion Models on Synthesizing Training Datasets
- ・山口真弥(CD研)
- ・生成モデルの一種である拡散モデルは、データセットの分布を学習し高品質なサンプルを合成できるため、合成サンプルを別のモデルを学習するためのデータセットとして活用する応用が期待されます。しかし、この合成データセットがどれだけ実データセットを学習モデルの性能面で再現できているかは知られていませんでした。本論文では実験的な分析を通して、学習データセットとしてのサンプル効率が実データセットよりも劣っており、これが拡散モデルの逆拡散プロセスに起因することを発見しました。
NTTのR&Dは、環境にやさしい持続的な成長、多様性に寛容な個と全体の最適化を狙う未来のコミュニケーション基盤であるIOWN(Innovative Optical and Wireless Network)構想を掲げ、その実現に向けた研究開発を進めてまいります。また、それとともに、今後も研究テーマの多様性・継続性を大切に、NTTグループの各事業会社をはじめ、さまざまな分野の産業界の方々と一緒に、さまざまな社会的課題を解決し、人々が意識することなく技術の恩恵を受けることができるスマートな世界の実現をめざし、世界を変革する技術の研究開発を続けていきます。