ktp_programming · @ktp_programming
9 followers · 129 posts · Server piaille.fr

à mon sens, est potentiellement une nouvelle voie en termes de modèles de langage. On en parle peu parce qu'un étudiant chinois fait moins de marketing qu'une boite de la SV, mais son modèle permet des performances incroyables pour sa taille, et met le fine-tuning à portée de machines plus modestes. Et le fine-tuning, on le sait, amène de meilleures perfs que le zero-shot à la ChatGPT.

twitter.com/BlinkDL_AI/status/

#rwkv

Last updated 1 year ago

smashmaster0045 · @smashmaster
6 followers · 137 posts · Server mastodon.gamedev.place

RT @BlinkDL_AI
Raven v8🐦14B to the moon🚀based on (100% language model) 14B/7B/3B/1B Download: huggingface.co/BlinkDL/rwkv-4- And v9 soon (ctxlen 8192, 3x SFT data)🚀

#rwkv #rnn

Last updated 2 years ago

smashmaster0045 · @smashmaster
5 followers · 110 posts · Server mastodon.gamedev.place

RT @BlinkDL_AI
is One Dev's Journey to Dethrone GPT Transformers. The largest RNN ever (up to 14B). Parallelizable. Faster inference & training. Supports INT8/4. No KV cache. 3 years of hard work. DEMO: huggingface.co/spaces/BlinkDL/ Computation sponsored by @StabilityAI @AiEleuther @EMostaque

#rwkv

Last updated 2 years ago