tgoop.com/def_model_train/1071
Last Update:
Самые интересные, на мой взгляд, статьи с ACL'25
- Training Dynamics Underlying Language Model Scaling Laws: Loss Deceleration and Zero-Sum Learning: авторы замечают, что у моделей разного размера на разных этапах обучения происходит loss deceleration – то есть момент, когда лосс резко перестает быстро падать и продолжает снижаться гораздо медленнее. В статье они показывают, что это происходит из-за zero-sum learning: научившись решать какие-то задачи, модель не может научиться чему-то новому, не пожертвовав качеством на уже приобретенных навыках. Чем больше модель, тем больше типов задач она может "поддерживать" параллельно -> тем позже в обучении у нее замедляется падение лосса, и тем большая скорость падения сохраняется после этого перелома
- Between Circuits and Chomsky: Pre-pretraining on Formal Languages Imparts Linguistic Biases: показывают, что претрен модели на формальных языках (например, Dyck, который состоит из последовательности корректно открытых и закрытых скобок) позволяет ей дальше более эффективно обучаться естественным языкам. Например, модели, предварительно обученной на формальных языках, нужно на 33% меньше токенов на естественном языке, чтобы добиться такого же лосса, как при обычной тренировке только на тексте. Еще показывают, что веса аттеншн-хедов, выученные при тренировке на формальных языках, потом переиспользуются дальше, то есть модели получается выучить что-то о структуре и логике языка из скобочек. Кстати у моего друга Миши есть статья на ту же тему, где он еще находит язык, который лучше всего в итоге транслируется в понимание английского
- Byte Latent Transformer: Patches Scale Better Than Tokens: кажется все кроме меня уже ее прочитали, но главная идея в том, что хочется избавиться от токенизации, но при этом разбивать текст на отдельные байты получается слишком неэффективно. Поэтому байты можно сгруппировать по энтропии. Например, в предложении "Daenerys Targeryen is in Game of Thrones, a fantasy epic by George R.R. Martin." легко угадать, что после "Daene" идет "rys", но сложно угадать "is" после "Targeryen", поэтому энтропия там будет высокая, и там можно разбить на два патча
- A Little Human Data Goes A Long Way: можно повышать процент синтететических данных в обучающем датасете до 90% без изменения в качестве итоговой модели, но дальше 90% все резко становится хуже. Еще в статье пробовали добавлять человеческие данные в чисто синтетические датасеты: чтобы побить выигрыш от 200 человеческих ответов, надо было докинуть 16к синтетических датапоинтов
- Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?: показывают, что очень большое число токенов в long cot довольно бесполезное - 67.8% токенов в среднем не несут пользы, так как не ведут к корректному решению, а 27% шагов, которые LLM перечисляют в решении, по сути являются повторениями одного и того же. Находить ошибки в своих и чужих решениях у моделей на удивление плохо получается, и лучшим критиком в этом плане оказалась GPT-4-turbo, которая заметно впереди более сильных о1-preview и r1
- U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in LLMs: помимо бенчмарка там показывают, что модели, которые хорошо умеют решать математику, часто при этом плохо оценивают чужие решения, и наоборот. При этом, у семейств моделей обычно есть свои внутренние баесы: например, Qwen часто признают неправильные ответы правильными, а Claude оценивает горадо строже

