DEF_MODEL_TRAIN Telegram 961
Свежие сплетни из Твиттера про архитектуру GPT-4 👀

George Hotz на подкасте Latent Space вбросил, что GPT-4 – это Mixture of Experts, в котором 8 экспертов по 220B параметров (то есть 1.76T в совокупности). Каждый эксперт учился на своей выборке данных и заданий

Еще сказано что-то про «16 inferences» – пока нет единого мнения, что это значит конкретно. Что получают по два ответа откаждого эксперта, может быть? Это и есть some little trick?

Пока пара человек подтвердила, что слышала такие же слухи, так что might be true
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥175



tgoop.com/def_model_train/961
Create:
Last Update:

Свежие сплетни из Твиттера про архитектуру GPT-4 👀

George Hotz на подкасте Latent Space вбросил, что GPT-4 – это Mixture of Experts, в котором 8 экспертов по 220B параметров (то есть 1.76T в совокупности). Каждый эксперт учился на своей выборке данных и заданий

Еще сказано что-то про «16 inferences» – пока нет единого мнения, что это значит конкретно. Что получают по два ответа откаждого эксперта, может быть? Это и есть some little trick?

Пока пара человек подтвердила, что слышала такие же слухи, так что might be true

BY я обучала одну модель




Share with your friend now:
tgoop.com/def_model_train/961

View MORE
Open in Telegram


Telegram News

Date: |

Add up to 50 administrators Earlier, crypto enthusiasts had created a self-described “meme app” dubbed “gm” app wherein users would greet each other with “gm” or “good morning” messages. However, in September 2021, the gm app was down after a hacker reportedly gained access to the user data. A vandalised bank during the 2019 protest. File photo: May James/HKFP. Your posting frequency depends on the topic of your channel. If you have a news channel, it’s OK to publish new content every day (or even every hour). For other industries, stick with 2-3 large posts a week. Clear
from us


Telegram я обучала одну модель
FROM American