tgoop.com/opendatascience/2719
Last Update:
Follow-up статья: что придумали помимо базовых декодерных авторегрессионных моделей в современных LLM. Спойлер: не особо много чего.
Linear Attention Hybrids – замена базового квадратичного аттеншена на линейный. KV-кэш оптимизирован лучше, но метрики немного просели. Первые вариации придумали еще в 2020, хех (см. Qwen3-Next, DeepSeek V3.2 и т.д.).
Text Diffusion Models – теоретически дают выигрыш за счёт параллельной генерации, но на практике результаты хуже из-за проблем с моделированием сложных условных вероятностей. К тому же не работает Chain of Thought, про который рассказывают уже даже на бизнесовых докладах.
Small Recursive Transformers – красиво решают головоломки. Возможно, будут использоваться как тулзы для больших моделей, но пока это больше красивая история – хотя модели сильно меньше 100млн
Code World Models – LLM для кодинга, которые внутри себя моделируют то, как будет работать код. На деле – увеличение compute, и результат выходит то на то по сравнению с классическими подходами, но звучит красиво
BY Data Science by ODS.ai 🦜

Share with your friend now:
tgoop.com/opendatascience/2719
