tgoop.com/eboutdatascience/147
Last Update:
Дайджест ресурсов или как стать гуру в LLM, устройстве тензорах и DL парадигм
На YouTube от 3Blue1Brown вышла понятная и короткая серия лекций LLM. В них рассказывают всю базу про их устройство, наглядно визуализируя основные механизмы.
Вследствие этого обновил RoadMap по уничтожению LLM
1.
Introduction
(определения, важные теоремы и общие понятия)
10.
Machine Learning Applications
(про то, как тензоры работают в привычной нам среде, оптимизацию лоссов и атеншен)
12.
Tensorgrad
(более глубоко про производные, градиенты и операции над тензорами)
Ребята c Reddit пару выпустили книгу "Illustrated book to learn about Transformers & LLMs" с объяснением главных DL-парадигм в картинках. Там рассказывается про:
- База нейросетей: (перцептроны, backprop, dropout и тд)
- Эмбеддинги, токенизация, word2vec, RNN, LSTM, GRU
- Трансформеры: BERT, GTP, T5, self-attention, Encoder`ы, Decoder`ы и рекомендации по ускорению вычисления
- LLM: SFT, RLHF, промпт-инжиниринг
- бонусом рассказ про классические задачи: машинный перевод, sentiment extraction и RAG