tgoop.com/dlinnlp/1578
Last Update:
Слухи о гиганской языковой модели от Google
twitter.com/o42nl/status/1642204593206509568
Гонка вооружений языковых моделей в самом разгаре и понятно что гугл один из первых кто в неё включился: у них очень сильная рисеч команда, свой уникальный hardware который уже проверен at scale - TPU Pod. Ну и ещё бизнес гугла реально может быть под угрозой - ChatGPT и бинг уже немного его подъели.
Суть слуха:
1. Тридцать триллионов параметров - в 170 раз больше GPT-3
1. Архитектура основана на PALM - FFN и Attention параллельны друг другу, что позволяет проще скейлиться на большое число TPU
1. Тренируется на восьми TPUv4 Pods - в сумме 16 тысяч TPU-чипов
1. Использует некую новую форму scaling law, что насекает на серьезные изменения в архитектуре - скорее всего MoE, но может быть и ещё что-то
1. Мультимодальность - текст, картинки, видео, аудио, и векторы состояния роботов
Модель будет анонсирована на Google I/O в Мае
BY DL in NLP

Share with your friend now:
tgoop.com/dlinnlp/1578