S_orza · @S_orza
4 followers · 162 posts · Server mstdn.jp

大規模言語モデル

深層学習の課題を克服するアプローチが から に登場した。大量のテキストデータで訓練され、多様な個別タスクに適応できる「大規模言語モデル」だ。視覚データを大量に学習するモデルも登場し、それらを総称した「基盤モデル」という呼び名が定着した。

、時代を画す言語モデルが続々と登場した。 にアレン人工知能研究所のELMo、 にOpenAIのGPT、 にグーグルのBERTという新たな言語モデルが発表され、ベンチマークの記録を競い合うように塗り替えていった。

GPTとBERTのモデル学習の手法は斬新だった。大量データによる事前学習と、比較的少量のデータによる追加的な再学習(ファインチューニング)の2段階に分けていた。大規模言語モデルの事前学習では、学習用のデータセットのラベル付の必要がなく、自動化できた。

#201810m #201806m #201802m #2018y #2017y #202305ns

Last updated 2 years ago