Forwarded from Kali Novskaya
🌸Спидраним NanoGPT агентами: новый бенчмарк🌸
#nlp #про_nlp #nlp_papers
На днях мы с коллегами опубликовали новую статью и бенчмарк для агентов, сделанный на основе NanoGPT speedrun от Карпаты:
The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements
NanoGPT speedrun — это открытый репозиторий, где сообщество соревнуется в оптимизации обучения мини-GPT2 модели. Бейзлайн — llm.c от Карпаты, написанный в рамках туториала на чистой C/CUDA.
У спидрана Карпаты есть публичный лидерборд с историей рекордов, кратким описанием изменений и кодом (сейчас их 21).
Все это делает его идеальным исходником для оценки агентов: смогут ли они воспроизвести и улучшить результаты?
🌸Дизайн бенчмарка:
В бенчмарке две основные группы задач:
🟣 воспроизводимость — агенту нужно воспроизвести рекорд R+1, когда рекорд R дается в качестве бейзлайна для итерирования, со всей информацией об основных нововведениях.
🟣 оптимизация — агенту нужно улучшить бейзлайн R, но безо всяких подсказок. Основная метрика — нормализованное улучшение рантайма обучения в среднем по всем попыткам.
Scaffold агента ученого реализует цикл экспериментирования, состоящий из нескольких этапов:
Можно использовать агентов с любыми скаффолдами, но в рамках работы мы продемонстрировали результаты на нескольких SOTA-бейзлайнах, включая AIDE и multi-AIDE. У каждого скаффолда есть циклы решений, состояние из
1) Идеации: генерации новых идей для проверки гипотез (в нашем случае идеи предоставляются непосредственно из задачи).
2) Реализация эксперимента: кодирование экспериментов, которые проверяют идеи, полученные на этапе формирования идей.
3) Выполнение эксперимента: запуск кода
4) Анализ результатов: извлечение идей из результатов
🌸Основные итоги:
Мы провели большое количество аблейшенов с разными моделями, чтобы сравнить, как scaffold и разные типы подсказок могут повлиять на качество агента.
Лучше всего показывают себя скаффолд Multi-AIDE, полный набор подсказок из псевдокода и текстового саммари. В редких случаях, агент достигает 100% или даже 120% от существующего решения, но в большинстве случаев результат сильно ниже.
Все модели, включая топовые, со state-of-the-art scaffold, все равно испытывают трудности при воспроизведении результатов.
И даже больше, пока что существенная разница сохраняется, когда агентам дается максимально полная информация о том, что надо сделать, и псевдокод. Хорошее качество воспроизводимости — из статей, репозиториев, инструкций — должно быть пререквизитом на пути к надежной и воспроизводимой автоматизации науки агентами.
🟣 Статья https://arxiv.org/abs/2506.22419
🟣 Бенчмарк https://github.com/facebookresearch/llm-speedrunner
#nlp #про_nlp #nlp_papers
На днях мы с коллегами опубликовали новую статью и бенчмарк для агентов, сделанный на основе NanoGPT speedrun от Карпаты:
The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements
NanoGPT speedrun — это открытый репозиторий, где сообщество соревнуется в оптимизации обучения мини-GPT2 модели. Бейзлайн — llm.c от Карпаты, написанный в рамках туториала на чистой C/CUDA.
У спидрана Карпаты есть публичный лидерборд с историей рекордов, кратким описанием изменений и кодом (сейчас их 21).
Все это делает его идеальным исходником для оценки агентов: смогут ли они воспроизвести и улучшить результаты?
🌸Дизайн бенчмарка:
В бенчмарке две основные группы задач:
Scaffold агента ученого реализует цикл экспериментирования, состоящий из нескольких этапов:
Можно использовать агентов с любыми скаффолдами, но в рамках работы мы продемонстрировали результаты на нескольких SOTA-бейзлайнах, включая AIDE и multi-AIDE. У каждого скаффолда есть циклы решений, состояние из
1) Идеации: генерации новых идей для проверки гипотез (в нашем случае идеи предоставляются непосредственно из задачи).
2) Реализация эксперимента: кодирование экспериментов, которые проверяют идеи, полученные на этапе формирования идей.
3) Выполнение эксперимента: запуск кода
4) Анализ результатов: извлечение идей из результатов
🌸Основные итоги:
Мы провели большое количество аблейшенов с разными моделями, чтобы сравнить, как scaffold и разные типы подсказок могут повлиять на качество агента.
Лучше всего показывают себя скаффолд Multi-AIDE, полный набор подсказок из псевдокода и текстового саммари. В редких случаях, агент достигает 100% или даже 120% от существующего решения, но в большинстве случаев результат сильно ниже.
Все модели, включая топовые, со state-of-the-art scaffold, все равно испытывают трудности при воспроизведении результатов.
И даже больше, пока что существенная разница сохраняется, когда агентам дается максимально полная информация о том, что надо сделать, и псевдокод. Хорошее качество воспроизводимости — из статей, репозиториев, инструкций — должно быть пререквизитом на пути к надежной и воспроизводимой автоматизации науки агентами.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22👍6
линрег, нейронка, ямль, стек, трансформер, гит, эпоха
ассемблер, кафка, бустинг, хэш, дэдлок, сегфолт... линковка
тензорфлоу, деструктор, бэкпроп, адам, конструктор
катбуст, линалище, матанище, процессор, функтор
куда, коммит, берт, оверфит
мьютекс, пресижн, моментум, конфиг
докер, сходимость, дропаут, эмбеддинг
нумпай, компилятор, пи-вэлью, инит...
ассемблер, кафка, бустинг, хэш, дэдлок, сегфолт... линковка
тензорфлоу, деструктор, бэкпроп, адам, конструктор
катбуст, линалище, матанище, процессор, функтор
куда, коммит, берт, оверфит
мьютекс, пресижн, моментум, конфиг
докер, сходимость, дропаут, эмбеддинг
нумпай, компилятор, пи-вэлью, инит...
😁256🥴42🔥21 6💩5 4✍3❤🔥2👍1👏1👾1
Вот полный перевод документа “盘古之殇” (буквально «Гибель Паньгу») — исповедь сотрудника Huawei, работавшего над большим языковым моделем Pangu в лаборатории Noah’s Ark.
⸻
ПАНЬГУ之殇: Горечь и тьма в истории разработки большого языка модели Huawei Noah’s Ark
Здравствуйте.
Я — сотрудник команды Pangu в лаборатории Noah’s Ark компании Huawei.
Чтобы подтвердить свою личность, приведу несколько подробностей:
• Текущий директор лаборатории — Ван Юньхэ (ранее возглавлял отдел прикладных алгоритмов, позже переименованный в лабораторию малых моделей). Прежний директор — Яо Цзюнь (все звали его Яо Лаоши).
• Другие руководители лабораторий: Тан Жуймин (Мин Гэ, ушёл), Шан Лифэн, Чжан Вэй (Вэй Гэ), Хао Цзяньё, Лю Улун и др. Многие ключевые сотрудники уже уволились.
• Мы входили в организацию «Сы Е» (четвёртый фронт), где большая языковая модель — это «четвёртая вертикаль». Малые модели — «шестнадцатая вертикаль».
• Мы проходили «сборы» в Сучжоу: командировки, жизнь в гостиницах, разлука с семьёй. Работали по субботам. В обстановке — европейские офисы, фуршеты, мелкие бытовые радости среди изнурительной работы.
• Noah позиционировалась как исследовательская лаборатория, но в итоге мы стали командой по реализации, заваленной встречами, отчетами, согласованиями.
• Ранняя версия модели Pangu называлась «盘古智子» (Pangu Zhizi). Сначала доступ только через внутренний веб-интерфейс, потом интеграция в WeLink.
⸻
ПЕРЕЖИВАНИЯ И ВНУТРЕННИЙ КРИЗИС
Последние дни обострились слухи о том, что Pangu скопировала модель Qianwen. Я не могу больше спать. Моё будущее, карьера, усилия — под угрозой. А в то же время я испытываю радость от того, что кто-то всё же решился говорить правду.
Мы годами молчали, наблюдая, как фальсификации приносят награды отдельным лицам. Эта атмосфера лжи и бессилия уничтожила мою привязанность к Huawei, оставив только смятение и усталость.
Я признаю свою слабость. Я — наёмный работник, с семьёй, с детьми, не решавшийся пойти против Ван Юньхэ и всей машины Huawei. Но когда я увидел, что продолжаются попытки оправдания и обмана общественности, я не выдержал. Пусть это навредит мне — я хочу навредить и лжи. Вот моя история.
⸻
ИСТИНА О PAN GU
1. Обучение на Ascend
• Мы начинали на Huawei Ascend 910A с поддержкой только fp16. Moe-модель 38B начали обучать в 2023, затем — dense-модель 71B, расширенная до 135B.
• Tokenizer был ужасным: каждый символ, цифра, даже пробел занимал токен. Это сильно ухудшало качество и эффективность.
2. Смена tokenizer’а
• Использовали частично tokenizer из лаборатории малых моделей. 71B провалилась при замене, 135B с трудом перенесли. Результат всё равно был плохим.
• В это время конкуренты (Ali, Zhipu) уже добились стабильных результатов на GPU.
3. Попытки выжить
• Из-за провала 230B модели и давления руководство решили “переосмыслить” 38B moe → сделали из неё 13B dense с RoPE и RMSNorm. Это стало новой 38B dense.
4. Скандал с 135B V2
• Заявили, что она — продолжение старой 135B. На деле это была модель Qwen 1.5 110B, обёрнутая в “пангу”. Даже названия классов не изменили.
• Это было подано руководству как “великое достижение”. Многие знали правду, но молчали. Мы шутливо называли это «千古» (Тысяча Лжи).
5. 135B V3 — гордость настоящих инженеров
• Это была первая модель, действительно натренированная с нуля, с расширенным llama tokenizer. Мы ночами трудились, восстанавливали обучение при каждом сбое. Без единого loss spike.
• Это была наша победа. Но…
6. Нас лишали заслуг
• Малые лаборатории приходили и забирали данные, код, заставляли нас всё адаптировать. Мы называли их «лабораторией кликов мышкой».
• Люди увольнялись. Уходили лучшие: в ByteDance Seed, Deepseek, Moonshot AI, Tencent, Kuaishou. Один сказал: «Это пятно на моей карьере».
7. Скандал с moe 72B
• Вновь “обёртка”: взяли Qwen 2.5 14B и начали обучение с водяными знаками, “грязными данными”, чтобы замести следы. Понадобилась колоссальная мощность — больше, чем для тренировки с нуля.
8. Финальный удар — Deepseek
• После выхода Deepseek v3 и r1 началась паника. Мы начали обучение 718B moe.
⸻
ПАНЬГУ之殇: Горечь и тьма в истории разработки большого языка модели Huawei Noah’s Ark
Здравствуйте.
Я — сотрудник команды Pangu в лаборатории Noah’s Ark компании Huawei.
Чтобы подтвердить свою личность, приведу несколько подробностей:
• Текущий директор лаборатории — Ван Юньхэ (ранее возглавлял отдел прикладных алгоритмов, позже переименованный в лабораторию малых моделей). Прежний директор — Яо Цзюнь (все звали его Яо Лаоши).
• Другие руководители лабораторий: Тан Жуймин (Мин Гэ, ушёл), Шан Лифэн, Чжан Вэй (Вэй Гэ), Хао Цзяньё, Лю Улун и др. Многие ключевые сотрудники уже уволились.
• Мы входили в организацию «Сы Е» (четвёртый фронт), где большая языковая модель — это «четвёртая вертикаль». Малые модели — «шестнадцатая вертикаль».
• Мы проходили «сборы» в Сучжоу: командировки, жизнь в гостиницах, разлука с семьёй. Работали по субботам. В обстановке — европейские офисы, фуршеты, мелкие бытовые радости среди изнурительной работы.
• Noah позиционировалась как исследовательская лаборатория, но в итоге мы стали командой по реализации, заваленной встречами, отчетами, согласованиями.
• Ранняя версия модели Pangu называлась «盘古智子» (Pangu Zhizi). Сначала доступ только через внутренний веб-интерфейс, потом интеграция в WeLink.
⸻
ПЕРЕЖИВАНИЯ И ВНУТРЕННИЙ КРИЗИС
Последние дни обострились слухи о том, что Pangu скопировала модель Qianwen. Я не могу больше спать. Моё будущее, карьера, усилия — под угрозой. А в то же время я испытываю радость от того, что кто-то всё же решился говорить правду.
Мы годами молчали, наблюдая, как фальсификации приносят награды отдельным лицам. Эта атмосфера лжи и бессилия уничтожила мою привязанность к Huawei, оставив только смятение и усталость.
Я признаю свою слабость. Я — наёмный работник, с семьёй, с детьми, не решавшийся пойти против Ван Юньхэ и всей машины Huawei. Но когда я увидел, что продолжаются попытки оправдания и обмана общественности, я не выдержал. Пусть это навредит мне — я хочу навредить и лжи. Вот моя история.
⸻
ИСТИНА О PAN GU
1. Обучение на Ascend
• Мы начинали на Huawei Ascend 910A с поддержкой только fp16. Moe-модель 38B начали обучать в 2023, затем — dense-модель 71B, расширенная до 135B.
• Tokenizer был ужасным: каждый символ, цифра, даже пробел занимал токен. Это сильно ухудшало качество и эффективность.
2. Смена tokenizer’а
• Использовали частично tokenizer из лаборатории малых моделей. 71B провалилась при замене, 135B с трудом перенесли. Результат всё равно был плохим.
• В это время конкуренты (Ali, Zhipu) уже добились стабильных результатов на GPU.
3. Попытки выжить
• Из-за провала 230B модели и давления руководство решили “переосмыслить” 38B moe → сделали из неё 13B dense с RoPE и RMSNorm. Это стало новой 38B dense.
4. Скандал с 135B V2
• Заявили, что она — продолжение старой 135B. На деле это была модель Qwen 1.5 110B, обёрнутая в “пангу”. Даже названия классов не изменили.
• Это было подано руководству как “великое достижение”. Многие знали правду, но молчали. Мы шутливо называли это «千古» (Тысяча Лжи).
5. 135B V3 — гордость настоящих инженеров
• Это была первая модель, действительно натренированная с нуля, с расширенным llama tokenizer. Мы ночами трудились, восстанавливали обучение при каждом сбое. Без единого loss spike.
• Это была наша победа. Но…
6. Нас лишали заслуг
• Малые лаборатории приходили и забирали данные, код, заставляли нас всё адаптировать. Мы называли их «лабораторией кликов мышкой».
• Люди увольнялись. Уходили лучшие: в ByteDance Seed, Deepseek, Moonshot AI, Tencent, Kuaishou. Один сказал: «Это пятно на моей карьере».
7. Скандал с moe 72B
• Вновь “обёртка”: взяли Qwen 2.5 14B и начали обучение с водяными знаками, “грязными данными”, чтобы замести следы. Понадобилась колоссальная мощность — больше, чем для тренировки с нуля.
8. Финальный удар — Deepseek
• После выхода Deepseek v3 и r1 началась паника. Мы начали обучение 718B moe.
😢108🔥19 5🤔4💔4✍1👏1😁1 1
вероятно лучший генератор картинок сделали ребята из higgsfield.ai, внутри затюненные промпты и lorы на flux, к черту претрены друзья!
😁41 19💩14👍6🍌3🤔1
работа аи инженера в 2025:
- nccl ошибки фиксит
- кубер запускат
- кернелы писат
- мое обучать
- сидеть фиксить промпт на два абзаца тк они докдывают оставшиеся 99% качества, но без первых пунктов юзлесс
- nccl ошибки фиксит
- кубер запускат
- кернелы писат
- мое обучать
- сидеть фиксить промпт на два абзаца тк они докдывают оставшиеся 99% качества, но без первых пунктов юзлесс
👍114😁43 25💯16🔥5💊3 2🦄1
This media is not supported in your browser
VIEW IN TELEGRAM
https://huggingface.co/blog/reachy-mini
Вау, первый робот от huggingface, открытый и с возможностью запускать в нем hf spaces!!!
Внутри Raspberry Pi 5 4 микро, камера, а еще всякие анимации тела и головы
Стартовая цена 300 (без rpi вроде но я не оч понял) и 450 за богатую версию
Вау, первый робот от huggingface, открытый и с возможностью запускать в нем hf spaces!!!
Внутри Raspberry Pi 5 4 микро, камера, а еще всякие анимации тела и головы
Стартовая цена 300 (без rpi вроде но я не оч понял) и 450 за богатую версию
😨53🔥34👍4 1