tgoop.com/big_ledovsky/181
Create:
Last Update:
Last Update:
Ревью Intro to LLM от Андрея Карпати
Решил наконец посмотреть (пересмотреть) видео Андрея Карпати (Andrej Karpathy) на ютубе.
Краткая справка. Андрей - один из пионеров глубокого обучения начала 2010-х, когда оно совершило серьезный прорыв. Работал в Open AI, но потом оттуда ушел. Последнее время раз в несколько месяцев выпускает видео, где то рассказывает про нейронные сети, то что-то кодит. Мой интерес с одной стороны связан желанием быть в мете* современного ML с его LLM (Large Language Models, ChatGPT и др). Я писал про мое восприятие технологического прогресса и сложности нахождения в мете в этом посте. Но еще мне просто нравится слушать Андрея, потому что он рассказывает интересно.
Могу порекомендовать каждому часовое видео, которое называется Intro to LLM**. Оно одновременно очень доступное, но при этом подошло бы в качестве вводного занятия серьезного курса лекций. Вот концепции, которые кажутся мне очень важными
- LLM стоит воспринимать как быстрое мышление. Книга "думай медленно, решай быстро" популяризировала идею о наличии быстрого (интуитивного) и медленного (логического). Так вот текущий LLM - первое. Текущий челлендж - научить LLM построению цепочек логических связей.
- LLM стоит воспринимать как процессор в операционной системе, а не как самодостаточный искусственный интеллект. Данная концепция называется LLM OS. Сама LLM это процессор, оперативная память это контекст (= последняя ваша переписка), есть возможность воспользоваться внешними программами (запустить код на питоне, сходить в браузер), есть интерфейсы взаимодействия в виде speech2text/text2speech и генерации видео
- Обучение LLM можно воспринимать, как сжатие обучающего датасета, примерно как это делает ZIP архиватор или MP3 кодек. Обучающий датасет для модели весит ~10 Tb и сжимается ~ в 100 раз до 140 Gb в модели Llama v2 с 7 млрд параметрами. В отличии от ZIP архива LLM сжимает данные с потерями. В этом плане она больше похожа на MP3 формат.
* Слово мета часто используют для описания коллективного понимания эффективных подходов, архитектур и алгоритмов
** Если сложно слушать на английском, но на ютубе есть автосгенерированный перевод
#tech
BY Big Ledovsky | блог DS лида

Share with your friend now:
tgoop.com/big_ledovsky/181