Love. Death. Transformers. 9618

Love. Death. Transformers.

чат а есть хорошие работы по тому как сильно затираются веса модели при посттрене?

Вернее как: "насколько далеко по метрикам можно уйти от ориг модели при сетапе посттрена"?

357🍌2

8.97K views10:25

Love. Death. Transformers.

Что то готовится...

605

8.68K views11:30

Love. Death. Transformers.

Forwarded from КПД

Из "вероятной" утечки опенсорса от опен эй эген вырисовается пока следующее:

1️⃣ Одна модель - 120B MoE, другая - 20B dense.
2️⃣ Веса в FP4 с нативной поддержкой в Blackwell (MXFP4 или NVFP4).
3️⃣ SwiGLU clip (-7,7) - т.е активации режутся по абсолютной величине. Полагаю, было важно для 4-х битного обучения.
4️⃣ 4K нативного контекста с YaRN экстраполяцией до 128к (не жирно).
5️⃣ Скользящее окно аттеншена размера 128 + attention sinks (тоже для квантизации, наверное).
6️⃣ Llama/Mixtral архитектура.

Источник

💅41😢12🔥5🙈4💩2🗿21

10.2K views12:59

Love. Death. Transformers.

https://arxiv.org/abs/2407.13692

arXiv.org

Prover-Verifier Games improve legibility of LLM outputs

One way to increase confidence in the outputs of Large Language Models (LLMs) is to support them with reasoning that is clear and easy to check -- a property we call legibility. We study...

🔥13

11.2K views07:48

Love. Death. Transformers.

😁90🔥14😢5

10.4K views17:51

Love. Death. Transformers.

Forwarded from ломэ

1😁8713🍓8💩5😢2

9.17K views13:11

Love. Death. Transformers.

Forwarded from addmeto (Grigory Bakunov)

Команда Cloudflare изобличает не самую белую тактику Perplexity по скрапингу веб-сайтов. Там юзерагент не пишет что он бот, игнорируется robots.txt, IP адреса совсем не из сети Perplexity и тп.

Вообще это очень сложный вопрос, что они делают не правильно. Вот например есть ли разница между "я попросил свой браузер загрузить страницу" и "я попросил чат-бота загрузить страницу"? По сути разница только в отображении - браузер показывает страницу в том виде, как ее задумал разработчик, а чат-бот показывает с этой страницы только то, что хочет пользователь. И судя по всему именно против этого и борется клаудфлер

The Cloudflare Blog

Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives

Perplexity is repeatedly modifying their user agent and changing IPs and ASNs to hide their crawling activity, in direct conflict with explicit no-crawl preferences expressed by websites.

😁51🥴8🍓6🤔5👍3🔥2

8.55K views14:46

Love. Death. Transformers.

oss gpt

Открытые модели от openai, по факту близко к закрытым o4 mini

models on hf
modelcard

🔥45👍7😁2

15.4K views17:14

Love. Death. Transformers.

батя пришел с офиса и сказал: а почему не https://openai.com/open-ai

😁94🔥5🍓4🤷3🌚2🦄2👍1

8.81K viewsedited 17:15

Love. Death. Transformers.

батя пришел с офиса и сказал: а почему не https://openai.com/open-ai

https://www.anthropic.com/claude/opus

Ладно

4😁140🔥8🤓2

9.25K views19:57

Love. Death. Transformers.

Forwarded from Vikhr models

QVikhr-3-8B-Instruction

Пополнение еще одной моделью на базе Qwen 3. В DOoM, QVikhr-3-8B-Instruction получила оценку 0.445, что существенно превосходит результат базовой модели Qwen3-8B. Модель подходит для решения задач по математике и физике на русском языке.

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-3-8B-Instruction
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/QVikhr-3-8B-Instruction-GGUF
⚖️ Лицензия: apache-2.0

Сайт: https://vikhr.org
Донаты: Здесь

👥 Авторы: @LakoMoorDev @nlpwanderer

3🔥21❤‍🔥7😁2💩1😨1

7.7K views10:56

Love. Death. Transformers.

Челы из flymy.ai выпустили Realism LoRA и Trainer для Qwen image, теперь можно баловатся с треном лор для gpt4o уровня картинко генератора дома

huggingface.co

flymy-ai/qwen-image-realism-lora · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

🔥25😁2😍2🍌2

9K viewsedited 14:13

Love. Death. Transformers.

oss gpt Открытые модели от openai, по факту близко к закрытым o4 mini models on hf modelcard

Старшая версия по вайбу потупее чем glm air, младшая on par с qwen 30ba3, но сильно хуже на русском.

По агентности и тд посмотрим, пока не игрался, но чудес не жду. В целом как будто моделям выкрутили очень сильно safety guards и убили полезность.

👏29💊9💯4👍2😢2

8.77K viewsedited 14:32

Love. Death. Transformers.

Хотите крутить и дообучать gpt oss, z.ai glm и прочее?

Купите себе в офис HGX с доставкой по России, здесь и сейчас последние 5 тачек, доставка по всей России

https://nvidia-server.ru/katalog/item/asus_esc_n8_e11_hgx_h100_8gpu/

😁675🦄43😢1

8.8K viewsedited 15:10

Love. Death. Transformers.

Как там по болгарски пожарить будет? А, точно "изпържи"

Продолжение треда это автор llama cpp

1😁8414🗿3🍓2👏1🤔1

9.7K viewsedited 08:51

Love. Death. Transformers.

😁147😢25💊12🔥85💩2🍓1🗿1

12.3K views12:22

Love. Death. Transformers.

Тлдр презы опенаи:

🔥103👍5😁2

10.9K views17:13

Love. Death. Transformers.

Тлдр презы опенаи:

Opus 4.1 swebench verified 74.5
Gpt-5 swebench verified 74

😁73🍓3

10.9K views17:43

Love. Death. Transformers.

Это буквально перфоманс

😁70307👍3

10.1K viewsedited 17:58

Love. Death. Transformers.

This media is not supported in your browser

VIEW IN TELEGRAM

0:09

11.1K views18:02

52❤‍🔥55💊14😁55👏4🤔3🔥1😢11

2025/10/19 20:58:24
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>