#202305ns 大規模言語モデル
深層学習の課題を克服するアプローチが #2017y から #2018y に登場した。大量のテキストデータで訓練され、多様な個別タスクに適応できる「大規模言語モデル」だ。視覚データを大量に学習するモデルも登場し、それらを総称した「基盤モデル」という呼び名が定着した。
#2018y、時代を画す言語モデルが続々と登場した。#201802m にアレン人工知能研究所のELMo、#201806m にOpenAIのGPT、#201810m にグーグルのBERTという新たな言語モデルが発表され、ベンチマークの記録を競い合うように塗り替えていった。
GPTとBERTのモデル学習の手法は斬新だった。大量データによる事前学習と、比較的少量のデータによる追加的な再学習(ファインチューニング)の2段階に分けていた。大規模言語モデルの事前学習では、学習用のデータセットのラベル付の必要がなく、自動化できた。
#201810m #201806m #201802m #2018y #2017y #202305ns