FedSearch - Federated network search engine

FedSearch

4 followers · 162 posts · Server mstdn.jp

#202305ns 大規模言語モデル

深層学習の課題を克服するアプローチが #2017y から #2018y に登場した。大量のテキストデータで訓練され、多様な個別タスクに適応できる「大規模言語モデル」だ。視覚データを大量に学習するモデルも登場し、それらを総称した「基盤モデル」という呼び名が定着した。

#2018y、時代を画す言語モデルが続々と登場した。#201802m にアレン人工知能研究所のELMo、#201806m にOpenAIのGPT、#201810m にグーグルのBERTという新たな言語モデルが発表され、ベンチマークの記録を競い合うように塗り替えていった。

GPTとBERTのモデル学習の手法は斬新だった。大量データによる事前学習と、比較的少量のデータによる追加的な再学習（ファインチューニング）の2段階に分けていた。大規模言語モデルの事前学習では、学習用のデータセットのラベル付の必要がなく、自動化できた。

Last updated 3 years ago

Original post