Warning: file_put_contents(aCache/aDaily/post/stuffyNLP/-28" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);"><b>Масштабирование и параметризация</b></a><br/><br/>Разбор сразу двух статей о сохранении стабильности гиперпараметров при масштабировании модели. Авторы одной работы предлагают озаботиться правильным масштабированием инициализаций и послойных LR, либо напрямую спектральной нормализацией матриц весов и их обновлений в процессе обучения. Авторы другой статьи считают, что обновления весов в градиентном спуске имеют низкий ранг и хорошо согласуются с векторами активаций.<br/><br/><a href="https://t.me/stuffyNLP/22" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);"><b>SpecExec: cпекулятивное декодирование для запуска больших моделей на потребительских GPU </b></a><br/><br/>Метод SpecExec позволяет генерировать до 20 токенов за итерацию и достигает ускорения x15 при офлодинге. Производительность достигается за счёт использования высокой пиковости распределений вероятностей токенов в современных LLM.<br/><br/><a href="https://t.me/stuffyNLP/36" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);"><b>ReMax как альтернатива PPO </b></a><br/><br/>Авторы статьи предлагают замену алгоритму Proximal Policy Optimization (PPO). В отличие от последнего, в ReMax в качестве бейзлайна не используется отдельная value-модель. Благодаря этому снижение потребления GPU-памяти составляет до 46%.<br/><br/><a href="https://t.me/stuffyNLP/39" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);"><b>Ограничения Instruction Tuning и как их преодолеть </b></a><br/><br/>Авторы рассматривают то, как LoRA (Low-Rank Adaptation) может помочь нивелировать недостатки SFT. Эксперименты показывают, что LoRA-модель действительно даёт более точные ответы, при этом метод остаётся эффективным даже на небольших датасетах. <br/><br/><a href="https://t.me/stuffyNLP/43" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);"><b>TDPO — потокенный DPO или просто регуляризация? </b></a><br/><br/>Разбор статьи, авторы которой предложили метод потокеннного DPO. На деле всё оказывается не так просто. Результаты действительно улучшились, но, похоже, что авторы просто добавили регуляризацию. <br/><br/><a href="https://t.me/stuffyNLP/25" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);"><b>Mixture-of-Agents — простой способ улучшения ответов LLM</b></a><br/><br/>Суть метода Mixture-of-Agents заключается в использовании нескольких LLM на разных слоях для генерации ответов на один и тот же вопрос. Результат превосходит по качеству то, что выдавала бы одна модель. <br/><br/><a href="https://t.me/stuffyNLP/3" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);"><b>Что такое дистилляция и как она применяется в LLM</b></a><br/><br/>Дистилляция — это передача знаний от тяжёлой модели более лёгкой. В посте рассказали, как появилась дистилляция и какие методы в ней используют, например, применение датасета reward-модели и расширение набора данных с помощью генерации с разными параметрами.<br/><br/><a href="https://t.me/stuffyNLP/27" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);"><b>DeepSeek-V2 — MoE-модель с технологией MLA </b></a><br/><br/>DeepSeek-V2 — модель на 236 миллиардов параметров. Модифицированный attention MLA (Multi-Head Latent Attention) позволяет ей значительно снизить объём ресурсов, необходимых для работы. <br/><br/><a href="https://t.me/stuffyNLP/11" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);"><b>Карточки с интересными статьями с ICLR</b></a><b> и </b><a href="https://t.me/stuffyNLP/29" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);"><b>два поста</b></a><b> с </b><a href="https://t.me/stuffyNLP/30-): Failed to open stream: Invalid argument in /var/www/tgoop/post.php on line 50

Warning: Cannot modify header information - headers already sent by (output started at /var/www/tgoop/post.php:50) in /var/www/tgoop/post.php on line 106
Душный NLP@stuffyNLP P.60
STUFFYNLP Telegram 60
🏆 Лучшее за год в Душном NLP

Конец года — время подводить итоги и рассказывать о достижениях. Спасибо, что подписывались, читали, комментировали и ставили реакции на посты. О самых популярных из них мы сейчас и расскажем. Хороший способ вспомнить интересное или наверстать упущенное.

Масштабирование и параметризация

Разбор сразу двух статей о сохранении стабильности гиперпараметров при масштабировании модели. Авторы одной работы предлагают озаботиться правильным масштабированием инициализаций и послойных LR, либо напрямую спектральной нормализацией матриц весов и их обновлений в процессе обучения. Авторы другой статьи считают, что обновления весов в градиентном спуске имеют низкий ранг и хорошо согласуются с векторами активаций.

SpecExec: cпекулятивное декодирование для запуска больших моделей на потребительских GPU

Метод SpecExec позволяет генерировать до 20 токенов за итерацию и достигает ускорения x15 при офлодинге. Производительность достигается за счёт использования высокой пиковости распределений вероятностей токенов в современных LLM.

ReMax как альтернатива PPO

Авторы статьи предлагают замену алгоритму Proximal Policy Optimization (PPO). В отличие от последнего, в ReMax в качестве бейзлайна не используется отдельная value-модель. Благодаря этому снижение потребления GPU-памяти составляет до 46%.

Ограничения Instruction Tuning и как их преодолеть

Авторы рассматривают то, как LoRA (Low-Rank Adaptation) может помочь нивелировать недостатки SFT. Эксперименты показывают, что LoRA-модель действительно даёт более точные ответы, при этом метод остаётся эффективным даже на небольших датасетах.

TDPO — потокенный DPO или просто регуляризация?

Разбор статьи, авторы которой предложили метод потокеннного DPO. На деле всё оказывается не так просто. Результаты действительно улучшились, но, похоже, что авторы просто добавили регуляризацию.

Mixture-of-Agents — простой способ улучшения ответов LLM

Суть метода Mixture-of-Agents заключается в использовании нескольких LLM на разных слоях для генерации ответов на один и тот же вопрос. Результат превосходит по качеству то, что выдавала бы одна модель.

Что такое дистилляция и как она применяется в LLM

Дистилляция — это передача знаний от тяжёлой модели более лёгкой. В посте рассказали, как появилась дистилляция и какие методы в ней используют, например, применение датасета reward-модели и расширение набора данных с помощью генерации с разными параметрами.

DeepSeek-V2 — MoE-модель с технологией MLA

DeepSeek-V2 — модель на 236 миллиардов параметров. Модифицированный attention MLA (Multi-Head Latent Attention) позволяет ей значительно снизить объём ресурсов, необходимых для работы.

Карточки с интересными статьями с ICLR и два поста с занимательными статьями с ICML

А ещё в этом году мы побывали на конференциях ICLR и ICML — и увидели там очень много интересных статей. Обо всех них мы рассказывали в серии постов.

Душный NLP
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/stuffyNLP/60
Create:
Last Update:

🏆 Лучшее за год в Душном NLP

Конец года — время подводить итоги и рассказывать о достижениях. Спасибо, что подписывались, читали, комментировали и ставили реакции на посты. О самых популярных из них мы сейчас и расскажем. Хороший способ вспомнить интересное или наверстать упущенное.

Масштабирование и параметризация

Разбор сразу двух статей о сохранении стабильности гиперпараметров при масштабировании модели. Авторы одной работы предлагают озаботиться правильным масштабированием инициализаций и послойных LR, либо напрямую спектральной нормализацией матриц весов и их обновлений в процессе обучения. Авторы другой статьи считают, что обновления весов в градиентном спуске имеют низкий ранг и хорошо согласуются с векторами активаций.

SpecExec: cпекулятивное декодирование для запуска больших моделей на потребительских GPU

Метод SpecExec позволяет генерировать до 20 токенов за итерацию и достигает ускорения x15 при офлодинге. Производительность достигается за счёт использования высокой пиковости распределений вероятностей токенов в современных LLM.

ReMax как альтернатива PPO

Авторы статьи предлагают замену алгоритму Proximal Policy Optimization (PPO). В отличие от последнего, в ReMax в качестве бейзлайна не используется отдельная value-модель. Благодаря этому снижение потребления GPU-памяти составляет до 46%.

Ограничения Instruction Tuning и как их преодолеть

Авторы рассматривают то, как LoRA (Low-Rank Adaptation) может помочь нивелировать недостатки SFT. Эксперименты показывают, что LoRA-модель действительно даёт более точные ответы, при этом метод остаётся эффективным даже на небольших датасетах.

TDPO — потокенный DPO или просто регуляризация?

Разбор статьи, авторы которой предложили метод потокеннного DPO. На деле всё оказывается не так просто. Результаты действительно улучшились, но, похоже, что авторы просто добавили регуляризацию.

Mixture-of-Agents — простой способ улучшения ответов LLM

Суть метода Mixture-of-Agents заключается в использовании нескольких LLM на разных слоях для генерации ответов на один и тот же вопрос. Результат превосходит по качеству то, что выдавала бы одна модель.

Что такое дистилляция и как она применяется в LLM

Дистилляция — это передача знаний от тяжёлой модели более лёгкой. В посте рассказали, как появилась дистилляция и какие методы в ней используют, например, применение датасета reward-модели и расширение набора данных с помощью генерации с разными параметрами.

DeepSeek-V2 — MoE-модель с технологией MLA

DeepSeek-V2 — модель на 236 миллиардов параметров. Модифицированный attention MLA (Multi-Head Latent Attention) позволяет ей значительно снизить объём ресурсов, необходимых для работы.

Карточки с интересными статьями с ICLR и два поста с занимательными статьями с ICML

А ещё в этом году мы побывали на конференциях ICLR и ICML — и увидели там очень много интересных статей. Обо всех них мы рассказывали в серии постов.

Душный NLP

BY Душный NLP


Share with your friend now:
tgoop.com/stuffyNLP/60

View MORE
Open in Telegram


Telegram News

Date: |

1What is Telegram Channels? So far, more than a dozen different members have contributed to the group, posting voice notes of themselves screaming, yelling, groaning, and wailing in various pitches and rhythms. A new window will come up. Enter your channel name and bio. (See the character limits above.) Click “Create.” Hui said the messages, which included urging the disruption of airport operations, were attempts to incite followers to make use of poisonous, corrosive or flammable substances to vandalize police vehicles, and also called on others to make weapons to harm police. Telegram desktop app: In the upper left corner, click the Menu icon (the one with three lines). Select “New Channel” from the drop-down menu.
from us


Telegram Душный NLP
FROM American