BIG_LEDOVSKY Telegram 181
Ревью Intro to LLM от Андрея Карпати

Решил наконец посмотреть (пересмотреть) видео Андрея Карпати (Andrej Karpathy) на ютубе.

Краткая справка. Андрей - один из пионеров глубокого обучения начала 2010-х, когда оно совершило серьезный прорыв. Работал в Open AI, но потом оттуда ушел. Последнее время раз в несколько месяцев выпускает видео, где то рассказывает про нейронные сети, то что-то кодит. Мой интерес с одной стороны связан желанием быть в мете* современного ML с его LLM (Large Language Models, ChatGPT и др). Я писал про мое восприятие технологического прогресса и сложности нахождения в мете в этом посте. Но еще мне просто нравится слушать Андрея, потому что он рассказывает интересно.


Могу порекомендовать каждому часовое видео, которое называется Intro to LLM**. Оно одновременно очень доступное, но при этом подошло бы в качестве вводного занятия серьезного курса лекций. Вот концепции, которые кажутся мне очень важными

- LLM стоит воспринимать как быстрое мышление. Книга "думай медленно, решай быстро" популяризировала идею о наличии быстрого (интуитивного) и медленного (логического). Так вот текущий LLM - первое. Текущий челлендж - научить LLM построению цепочек логических связей.
- LLM стоит воспринимать как процессор в операционной системе, а не как самодостаточный искусственный интеллект. Данная концепция называется LLM OS. Сама LLM это процессор, оперативная память это контекст (= последняя ваша переписка), есть возможность воспользоваться внешними программами (запустить код на питоне, сходить в браузер), есть интерфейсы взаимодействия в виде speech2text/text2speech и генерации видео
- Обучение LLM можно воспринимать, как сжатие обучающего датасета, примерно как это делает ZIP архиватор или MP3 кодек. Обучающий датасет для модели весит ~10 Tb и сжимается ~ в 100 раз до 140 Gb в модели Llama v2 с 7 млрд параметрами. В отличии от ZIP архива LLM сжимает данные с потерями. В этом плане она больше похожа на MP3 формат.

* Слово мета часто используют для описания коллективного понимания эффективных подходов, архитектур и алгоритмов
** Если сложно слушать на английском, но на ютубе есть автосгенерированный перевод

#tech
👍7🔥21



tgoop.com/big_ledovsky/181
Create:
Last Update:

Ревью Intro to LLM от Андрея Карпати

Решил наконец посмотреть (пересмотреть) видео Андрея Карпати (Andrej Karpathy) на ютубе.

Краткая справка. Андрей - один из пионеров глубокого обучения начала 2010-х, когда оно совершило серьезный прорыв. Работал в Open AI, но потом оттуда ушел. Последнее время раз в несколько месяцев выпускает видео, где то рассказывает про нейронные сети, то что-то кодит. Мой интерес с одной стороны связан желанием быть в мете* современного ML с его LLM (Large Language Models, ChatGPT и др). Я писал про мое восприятие технологического прогресса и сложности нахождения в мете в этом посте. Но еще мне просто нравится слушать Андрея, потому что он рассказывает интересно.


Могу порекомендовать каждому часовое видео, которое называется Intro to LLM**. Оно одновременно очень доступное, но при этом подошло бы в качестве вводного занятия серьезного курса лекций. Вот концепции, которые кажутся мне очень важными

- LLM стоит воспринимать как быстрое мышление. Книга "думай медленно, решай быстро" популяризировала идею о наличии быстрого (интуитивного) и медленного (логического). Так вот текущий LLM - первое. Текущий челлендж - научить LLM построению цепочек логических связей.
- LLM стоит воспринимать как процессор в операционной системе, а не как самодостаточный искусственный интеллект. Данная концепция называется LLM OS. Сама LLM это процессор, оперативная память это контекст (= последняя ваша переписка), есть возможность воспользоваться внешними программами (запустить код на питоне, сходить в браузер), есть интерфейсы взаимодействия в виде speech2text/text2speech и генерации видео
- Обучение LLM можно воспринимать, как сжатие обучающего датасета, примерно как это делает ZIP архиватор или MP3 кодек. Обучающий датасет для модели весит ~10 Tb и сжимается ~ в 100 раз до 140 Gb в модели Llama v2 с 7 млрд параметрами. В отличии от ZIP архива LLM сжимает данные с потерями. В этом плане она больше похожа на MP3 формат.

* Слово мета часто используют для описания коллективного понимания эффективных подходов, архитектур и алгоритмов
** Если сложно слушать на английском, но на ютубе есть автосгенерированный перевод

#tech

BY Big Ledovsky | блог DS лида




Share with your friend now:
tgoop.com/big_ledovsky/181

View MORE
Open in Telegram


Telegram News

Date: |

Administrators Some Telegram Channels content management tips With Bitcoin down 30% in the past week, some crypto traders have taken to Telegram to “voice” their feelings. There have been several contributions to the group with members posting voice notes of screaming, yelling, groaning, and wailing in different rhythms and pitches. Calling out the “degenerate” community or the crypto obsessives that engage in high-risk trading, Co-founder of NFT renting protocol Rentable World emiliano.eth shared this group on his Twitter. He wrote: “hey degen, are you stressed? Just let it out all out. Voice only tg channel for screaming”. Matt Hussey, editorial director at NEAR Protocol also responded to this news with “#meIRL”. Just as you search “Bear Market Screaming” in Telegram, you will see a Pepe frog yelling as the group’s featured image.
from us


Telegram Big Ledovsky | блог DS лида
FROM American