tgoop.com/dlinnlp/1685
Last Update:
Large Language Models (in 2023)
Видео, слайды
Лекция от Hyung Won Chung из OpenAI о языковых модельках. Где мы находимся и куда мы идём. Очень рекомендую, а вот короткий пересказ:
Perspective of "Yet"
Если что-то не работает на текущем размере LLM, не стоит думать что это в принципе не работает, мы это много раз видели. Те свойства моделей которые мы нашли в 2022 могут не быть в моделях 2024 года. Из-за этого те кто только погружаются в DL могут иногда иметь лучшую интуицию чем те кто там уже давно и выработал её за предыдущие 10 лет. А ещё пишите свои скрипты так чтобы вы могли перезапустить их через год на новых модельках 😅
How is the scaling actually done?
Натренировать самую большую в мире модель гораздо сложнее чем просто написать новый конфиг где в 20 раз больше слоёв. Для эффективного использования серверов надо правильно понимать боттлеки в системах текущего размера и того размера которые вы хотите тренировать. Они могут быть разными.
Рассказал почему GSPMD так крут, и я теперь понял почему гугловцы так любили Mesh-Tensorflow. Для того чтобы параллелизовать матричное умножение в нём одновременно по нескольких осям (data parallel + tensor parallel + model parallel) вам не нужно переписывать модель, вы просто декорируете train_step
и пишите по каким осям тензоров он распределяется.
Post-training
Тут классический рассказ о том как работает RLHF
Can we learn an objective function?
В RLHF мы больше не задаём reward-функцию, она выучивается другой моделью. Hyung Won Chung делает ещё один шаг и говорит что кросс-энтропия это серьёзный текущий боттлнек тк она может учить модель только очень конкретным вещам, таким как предсказание следующего токена. Возможно будущие модели мы будем учить на более абстрактых reward-функциях вместо этого. По аналогии с тем что мы со вреенем отказались от hand-written фичей в пользу DL и скоро мы откажемся от hand-written objective functions в пользу выучивания reward model.
Последний тейк интересен, мне лично в это не очень верится (так что скорее всего правда 🤣)
BY DL in NLP

Share with your friend now:
tgoop.com/dlinnlp/1685