я обучала одну модель@def_model

я обучала одну модель

Самые интересные, на мой взгляд, статьи с ACL'25 🙃:

- Training Dynamics Underlying Language Model Scaling Laws: Loss Deceleration and Zero-Sum Learning: авторы замечают, что у моделей разного размера на разных этапах обучения происходит loss deceleration – то есть момент, когда лосс резко перестает быстро падать и продолжает снижаться гораздо медленнее. В статье они показывают, что это происходит из-за zero-sum learning: научившись решать какие-то задачи, модель не может научиться чему-то новому, не пожертвовав качеством на уже приобретенных навыках. Чем больше модель, тем больше типов задач она может "поддерживать" параллельно -> тем позже в обучении у нее замедляется падение лосса, и тем большая скорость падения сохраняется после этого перелома

- Between Circuits and Chomsky: Pre-pretraining on Formal Languages Imparts Linguistic Biases: показывают, что претрен модели на формальных языках (например, Dyck, который состоит из последовательности корректно открытых и закрытых скобок) позволяет ей дальше более эффективно обучаться естественным языкам. Например, модели, предварительно обученной на формальных языках, нужно на 33% меньше токенов на естественном языке, чтобы добиться такого же лосса, как при обычной тренировке только на тексте. Еще показывают, что веса аттеншн-хедов, выученные при тренировке на формальных языках, потом переиспользуются дальше, то есть модели получается выучить что-то о структуре и логике языка из скобочек. Кстати у моего друга Миши есть статья на ту же тему, где он еще находит язык, который лучше всего в итоге транслируется в понимание английского

- Byte Latent Transformer: Patches Scale Better Than Tokens: кажется все кроме меня уже ее прочитали, но главная идея в том, что хочется избавиться от токенизации, но при этом разбивать текст на отдельные байты получается слишком неэффективно. Поэтому байты можно сгруппировать по энтропии. Например, в предложении "Daenerys Targeryen is in Game of Thrones, a fantasy epic by George R.R. Martin." легко угадать, что после "Daene" идет "rys", но сложно угадать "is" после "Targeryen", поэтому энтропия там будет высокая, и там можно разбить на два патча

- A Little Human Data Goes A Long Way: можно повышать процент синтететических данных в обучающем датасете до 90% без изменения в качестве итоговой модели, но дальше 90% все резко становится хуже. Еще в статье пробовали добавлять человеческие данные в чисто синтетические датасеты: чтобы побить выигрыш от 200 человеческих ответов, надо было докинуть 16к синтетических датапоинтов

- Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?: показывают, что очень большое число токенов в long cot довольно бесполезное - 67.8% токенов в среднем не несут пользы, так как не ведут к корректному решению, а 27% шагов, которые LLM перечисляют в решении, по сути являются повторениями одного и того же. Находить ошибки в своих и чужих решениях у моделей на удивление плохо получается, и лучшим критиком в этом плане оказалась GPT-4-turbo, которая заметно впереди более сильных о1-preview и r1

- U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in LLMs: помимо бенчмарка там показывают, что модели, которые хорошо умеют решать математику, часто при этом плохо оценивают чужие решения, и наоборот. При этом, у семейств моделей обычно есть свои внутренние баесы: например, Qwen часто признают неправильные ответы правильными, а Claude оценивает горадо строже

Please open Telegram to view this post

VIEW IN TELEGRAM

arXiv.org

Between Circuits and Chomsky: Pre-pretraining on Formal Languages...

Pretraining language models on formal language can improve their acquisition of natural language. Which features of the formal language impart an inductive bias that leads to effective transfer?...

❤31🔥9👍7

www.tgoop.com/def_model_train/1071

3.79K viewsedited Aug 2 at 12:49