чат а есть хорошие работы по тому как сильно затираются веса модели при посттрене?
Вернее как: "насколько далеко по метрикам можно уйти от ориг модели при сетапе посттрена"?
Вернее как: "насколько далеко по метрикам можно уйти от ориг модели при сетапе посттрена"?
Forwarded from КПД
Из "вероятной" утечки опенсорса от опен эй эген вырисовается пока следующее:
1️⃣ Одна модель - 120B MoE, другая - 20B dense.
2️⃣ Веса в FP4 с нативной поддержкой в Blackwell (MXFP4 или NVFP4).
3️⃣ SwiGLU clip (-7,7) - т.е активации режутся по абсолютной величине. Полагаю, было важно для 4-х битного обучения.
4️⃣ 4K нативного контекста с YaRN экстраполяцией до 128к (не жирно).
5️⃣ Скользящее окно аттеншена размера 128 + attention sinks (тоже для квантизации, наверное).
6️⃣ Llama/Mixtral архитектура.
Источник
1️⃣ Одна модель - 120B MoE, другая - 20B dense.
2️⃣ Веса в FP4 с нативной поддержкой в Blackwell (MXFP4 или NVFP4).
3️⃣ SwiGLU clip (-7,7) - т.е активации режутся по абсолютной величине. Полагаю, было важно для 4-х битного обучения.
4️⃣ 4K нативного контекста с YaRN экстраполяцией до 128к (не жирно).
5️⃣ Скользящее окно аттеншена размера 128 + attention sinks (тоже для квантизации, наверное).
6️⃣ Llama/Mixtral архитектура.
Источник
💅41😢12🔥5🙈4💩2🗿2 1
Forwarded from addmeto (Grigory Bakunov)
Команда Cloudflare изобличает не самую белую тактику Perplexity по скрапингу веб-сайтов. Там юзерагент не пишет что он бот, игнорируется robots.txt, IP адреса совсем не из сети Perplexity и тп.
Вообще это очень сложный вопрос, что они делают не правильно. Вот например есть ли разница между "я попросил свой браузер загрузить страницу" и "я попросил чат-бота загрузить страницу"? По сути разница только в отображении - браузер показывает страницу в том виде, как ее задумал разработчик, а чат-бот показывает с этой страницы только то, что хочет пользователь. И судя по всему именно против этого и борется клаудфлер
Вообще это очень сложный вопрос, что они делают не правильно. Вот например есть ли разница между "я попросил свой браузер загрузить страницу" и "я попросил чат-бота загрузить страницу"? По сути разница только в отображении - браузер показывает страницу в том виде, как ее задумал разработчик, а чат-бот показывает с этой страницы только то, что хочет пользователь. И судя по всему именно против этого и борется клаудфлер
The Cloudflare Blog
Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives
Perplexity is repeatedly modifying their user agent and changing IPs and ASNs to hide their crawling activity, in direct conflict with explicit no-crawl preferences expressed by websites.
😁51🥴8🍓6🤔5👍3🔥2
Forwarded from Vikhr models
QVikhr-3-8B-Instruction
Пополнение еще одной моделью на базе Qwen 3. В DOoM, QVikhr-3-8B-Instruction получила оценку 0.445, что существенно превосходит результат базовой модели Qwen3-8B. Модель подходит для решения задач по математике и физике на русском языке.
🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-3-8B-Instruction
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/QVikhr-3-8B-Instruction-GGUF
⚖️ Лицензия: apache-2.0
Сайт: https://vikhr.org
Донаты: Здесь
👥 Авторы: @LakoMoorDev @nlpwanderer
Пополнение еще одной моделью на базе Qwen 3. В DOoM, QVikhr-3-8B-Instruction получила оценку 0.445, что существенно превосходит результат базовой модели Qwen3-8B. Модель подходит для решения задач по математике и физике на русском языке.
🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-3-8B-Instruction
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/QVikhr-3-8B-Instruction-GGUF
⚖️ Лицензия: apache-2.0
Сайт: https://vikhr.org
Донаты: Здесь
👥 Авторы: @LakoMoorDev @nlpwanderer
3🔥21❤🔥7😁2💩1😨1
Челы из flymy.ai выпустили Realism LoRA и Trainer для Qwen image, теперь можно баловатся с треном лор для gpt4o уровня картинко генератора дома
huggingface.co
flymy-ai/qwen-image-realism-lora · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥25😁2😍2🍌2
Love. Death. Transformers.
oss gpt Открытые модели от openai, по факту близко к закрытым o4 mini models on hf modelcard
Старшая версия по вайбу потупее чем glm air, младшая on par с qwen 30ba3, но сильно хуже на русском.
По агентности и тд посмотрим, пока не игрался, но чудес не жду. В целом как будто моделям выкрутили очень сильно safety guards и убили полезность.
По агентности и тд посмотрим, пока не игрался, но чудес не жду. В целом как будто моделям выкрутили очень сильно safety guards и убили полезность.
👏29💊9💯4👍2😢2
Хотите крутить и дообучать gpt oss, z.ai glm и прочее?
Купите себе в офис HGX с доставкой по России, здесь и сейчас последние 5 тачек, доставка по всей России
https://nvidia-server.ru/katalog/item/asus_esc_n8_e11_hgx_h100_8gpu/
Купите себе в офис HGX с доставкой по России, здесь и сейчас последние 5 тачек, доставка по всей России
https://nvidia-server.ru/katalog/item/asus_esc_n8_e11_hgx_h100_8gpu/
😁67 5🦄4 3😢1
Love. Death. Transformers.
Тлдр презы опенаи:
Opus 4.1 swebench verified 74.5
Gpt-5 swebench verified 74
Gpt-5 swebench verified 74
😁73🍓3
This media is not supported in your browser
VIEW IN TELEGRAM
52❤🔥55💊14😁5 5👏4🤔3🔥1😢1 1