Love. Death. Transformers. 9527

🌸Спидраним NanoGPT агентами: новый бенчмарк🌸
#nlp #про_nlp #nlp_papers

На днях мы с коллегами опубликовали новую статью и бенчмарк для агентов, сделанный на основе NanoGPT speedrun от Карпаты:
The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements

NanoGPT speedrun — это открытый репозиторий, где сообщество соревнуется в оптимизации обучения мини-GPT2 модели. Бейзлайн — llm.c от Карпаты, написанный в рамках туториала на чистой C/CUDA.

У спидрана Карпаты есть публичный лидерборд с историей рекордов, кратким описанием изменений и кодом (сейчас их 21).

Все это делает его идеальным исходником для оценки агентов: смогут ли они воспроизвести и улучшить результаты?

🌸Дизайн бенчмарка:

В бенчмарке две основные группы задач:
🟣воспроизводимость — агенту нужно воспроизвести рекорд R+1, когда рекорд R дается в качестве бейзлайна для итерирования, со всей информацией об основных нововведениях.
🟣оптимизация — агенту нужно улучшить бейзлайн R, но безо всяких подсказок. Основная метрика — нормализованное улучшение рантайма обучения в среднем по всем попыткам.

Scaffold агента ученого реализует цикл экспериментирования, состоящий из нескольких этапов:

Можно использовать агентов с любыми скаффолдами, но в рамках работы мы продемонстрировали результаты на нескольких SOTA-бейзлайнах, включая AIDE и multi-AIDE. У каждого скаффолда есть циклы решений, состояние из
1) Идеации: генерации новых идей для проверки гипотез (в нашем случае идеи предоставляются непосредственно из задачи).
2) Реализация эксперимента: кодирование экспериментов, которые проверяют идеи, полученные на этапе формирования идей.
3) Выполнение эксперимента: запуск кода
4) Анализ результатов: извлечение идей из результатов

🌸Основные итоги:

Мы провели большое количество аблейшенов с разными моделями, чтобы сравнить, как scaffold и разные типы подсказок могут повлиять на качество агента.

Лучше всего показывают себя скаффолд Multi-AIDE, полный набор подсказок из псевдокода и текстового саммари. В редких случаях, агент достигает 100% или даже 120% от существующего решения, но в большинстве случаев результат сильно ниже.

Все модели, включая топовые, со state-of-the-art scaffold, все равно испытывают трудности при воспроизведении результатов.

И даже больше, пока что существенная разница сохраняется, когда агентам дается максимально полная информация о том, что надо сделать, и псевдокод. Хорошее качество воспроизводимости — из статей, репозиториев, инструкций — должно быть пререквизитом на пути к надежной и воспроизводимой автоматизации науки агентами.

🟣Статья https://arxiv.org/abs/2506.22419
🟣Бенчмарк https://github.com/facebookresearch/llm-speedrunner

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥22👍6

8.08K views10:39

Love. Death. Transformers.

https://habr.com/ru/articles/914392/

жесть красивая штука поверх qvikhr

🔥32🤔85👍1😁1

8.21K viewsedited 14:31

Love. Death. Transformers.

😨101😁33💯146🔥4😢2🤓2👍1

8.11K views17:24

Love. Death. Transformers.

линрег, нейронка, ямль, стек, трансформер, гит, эпоха
ассемблер, кафка, бустинг, хэш, дэдлок, сегфолт... линковка
тензорфлоу, деструктор, бэкпроп, адам, конструктор
катбуст, линалище, матанище, процессор, функтор
куда, коммит, берт, оверфит
мьютекс, пресижн, моментум, конфиг
докер, сходимость, дропаут, эмбеддинг
нумпай, компилятор, пи-вэлью, инит...

😁256🥴42🔥216💩54✍3❤‍🔥2👍1👏1👾1

10.5K views16:17

Love. Death. Transformers.

СКАНДАЛЫ ИНТРИГИ РАССЛЕДОВАНИЯ Huawei 10 лет чо то ресерчили, ничего явно полезного не сделали, но дропнули недавно Pangu Moe , moe-global router, gqa, большой рассказ про то как на Ascend можно учить что либо(нет). По бенчам +- что то там бьет, что то не…

https://github.com/HW-whistleblower/True-Story-of-Pangu

😐16💔12🤷‍♂4😢1🆒1

9.58K views08:08

Love. Death. Transformers.

Вот полный перевод документа “盘古之殇” (буквально «Гибель Паньгу») — исповедь сотрудника Huawei, работавшего над большим языковым моделем Pangu в лаборатории Noah’s Ark.

⸻

ПАНЬГУ之殇: Горечь и тьма в истории разработки большого языка модели Huawei Noah’s Ark

Здравствуйте.

Я — сотрудник команды Pangu в лаборатории Noah’s Ark компании Huawei.

Чтобы подтвердить свою личность, приведу несколько подробностей:
• Текущий директор лаборатории — Ван Юньхэ (ранее возглавлял отдел прикладных алгоритмов, позже переименованный в лабораторию малых моделей). Прежний директор — Яо Цзюнь (все звали его Яо Лаоши).
• Другие руководители лабораторий: Тан Жуймин (Мин Гэ, ушёл), Шан Лифэн, Чжан Вэй (Вэй Гэ), Хао Цзяньё, Лю Улун и др. Многие ключевые сотрудники уже уволились.
• Мы входили в организацию «Сы Е» (четвёртый фронт), где большая языковая модель — это «четвёртая вертикаль». Малые модели — «шестнадцатая вертикаль».
• Мы проходили «сборы» в Сучжоу: командировки, жизнь в гостиницах, разлука с семьёй. Работали по субботам. В обстановке — европейские офисы, фуршеты, мелкие бытовые радости среди изнурительной работы.
• Noah позиционировалась как исследовательская лаборатория, но в итоге мы стали командой по реализации, заваленной встречами, отчетами, согласованиями.
• Ранняя версия модели Pangu называлась «盘古智子» (Pangu Zhizi). Сначала доступ только через внутренний веб-интерфейс, потом интеграция в WeLink.

⸻

ПЕРЕЖИВАНИЯ И ВНУТРЕННИЙ КРИЗИС

Последние дни обострились слухи о том, что Pangu скопировала модель Qianwen. Я не могу больше спать. Моё будущее, карьера, усилия — под угрозой. А в то же время я испытываю радость от того, что кто-то всё же решился говорить правду.

Мы годами молчали, наблюдая, как фальсификации приносят награды отдельным лицам. Эта атмосфера лжи и бессилия уничтожила мою привязанность к Huawei, оставив только смятение и усталость.

Я признаю свою слабость. Я — наёмный работник, с семьёй, с детьми, не решавшийся пойти против Ван Юньхэ и всей машины Huawei. Но когда я увидел, что продолжаются попытки оправдания и обмана общественности, я не выдержал. Пусть это навредит мне — я хочу навредить и лжи. Вот моя история.

⸻

ИСТИНА О PAN GU
1. Обучение на Ascend
• Мы начинали на Huawei Ascend 910A с поддержкой только fp16. Moe-модель 38B начали обучать в 2023, затем — dense-модель 71B, расширенная до 135B.
• Tokenizer был ужасным: каждый символ, цифра, даже пробел занимал токен. Это сильно ухудшало качество и эффективность.
2. Смена tokenizer’а
• Использовали частично tokenizer из лаборатории малых моделей. 71B провалилась при замене, 135B с трудом перенесли. Результат всё равно был плохим.
• В это время конкуренты (Ali, Zhipu) уже добились стабильных результатов на GPU.
3. Попытки выжить
• Из-за провала 230B модели и давления руководство решили “переосмыслить” 38B moe → сделали из неё 13B dense с RoPE и RMSNorm. Это стало новой 38B dense.
4. Скандал с 135B V2
• Заявили, что она — продолжение старой 135B. На деле это была модель Qwen 1.5 110B, обёрнутая в “пангу”. Даже названия классов не изменили.
• Это было подано руководству как “великое достижение”. Многие знали правду, но молчали. Мы шутливо называли это «千古» (Тысяча Лжи).
5. 135B V3 — гордость настоящих инженеров
• Это была первая модель, действительно натренированная с нуля, с расширенным llama tokenizer. Мы ночами трудились, восстанавливали обучение при каждом сбое. Без единого loss spike.
• Это была наша победа. Но…
6. Нас лишали заслуг
• Малые лаборатории приходили и забирали данные, код, заставляли нас всё адаптировать. Мы называли их «лабораторией кликов мышкой».
• Люди увольнялись. Уходили лучшие: в ByteDance Seed, Deepseek, Moonshot AI, Tencent, Kuaishou. Один сказал: «Это пятно на моей карьере».
7. Скандал с moe 72B
• Вновь “обёртка”: взяли Qwen 2.5 14B и начали обучение с водяными знаками, “грязными данными”, чтобы замести следы. Понадобилась колоссальная мощность — больше, чем для тренировки с нуля.
8. Финальный удар — Deepseek
• После выхода Deepseek v3 и r1 началась паника. Мы начали обучение 718B moe.

😢108🔥195🤔4💔4✍1👏1😁11

9.99K views11:07

Love. Death. Transformers.

вероятно лучший генератор картинок сделали ребята из higgsfield.ai, внутри затюненные промпты и lorы на flux, к черту претрены друзья!

😁4119💩14👍6🍌3🤔1

9.6K views14:19

Love. Death. Transformers.

ну вы посмотрите

🌭83💩1813💊8😐6🔥33

10.6K views14:27

Love. Death. Transformers.

Опенсурсный агентско ллмный стек имеет визуализацию и это отвратительно.

🔥47😁27🍓54👍1

11.2K views22:22

Love. Death. Transformers.

работа аи инженера в 2025:
- nccl ошибки фиксит
- кубер запускат
- кернелы писат
- мое обучать
- сидеть фиксить промпт на два абзаца тк они докдывают оставшиеся 99% качества, но без первых пунктов юзлесс

👍114😁4325💯16🔥5💊32🦄1

11.7K views15:10

Love. Death. Transformers.

0:52

This media is not supported in your browser

VIEW IN TELEGRAM

https://huggingface.co/blog/reachy-mini

Вау, первый робот от huggingface, открытый и с возможностью запускать в нем hf spaces!!!

Внутри Raspberry Pi 5 4 микро, камера, а еще всякие анимации тела и головы

Стартовая цена 300 (без rpi вроде но я не оч понял) и 450 за богатую версию

😨53🔥34👍41

11.5K viewsedited 13:10

2025/10/21 10:06:17
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>