Telegram Web
Кейс с наймом блогеров rlщиков в сбер, может быть следствием т.н. войны башен и укладываться в рамки теории «Черных лебедей»
81😁21
CWM: An Open-Weights LLM for Research on Code
Generation with World Models


Как выпуская среднюю по размеру и бенчам модель хайпануть в 2025? правильно - назвать ее World Model.

Дефолтный претрен на 8 трлн токенов + посттрен на 5т токенов трейсов Python_овских функций и кодовых контестов. По сути, ребята дистиллировали питоновский интерпретатор в LLM.


Еще надистилировали кучу агенстких SWE bench like трейсов для issue-fix и mutate-fix, из забавного - использовали r Qwen3-235B-A22B и Llama3-70B-Instruct, с этого вышло 3М агентских траекторий.

Архитектурно это обычная Dense модель, qwen-llama3 образная.

RL
- свой grpo на multiturn
- добавили асинхронщину, убрали нормализацию на длинну, убрали KL
- выкидывают траектории без награды


Очень качественная работа, хоть и с кринжевым названием, была б это llama coder4 было б круто. Sota модель не является на большинстве бенчей, скорее где то в районе qwen3 32b + в части бенчей не указан бюджет на ризонинг что вообще не очень приятно

paper
model
👍25🤔11
https://openai.com/index/gdpval/

https://huggingface.co/datasets/openai/gdpval


старая ресерч традиция, underepresented models
🤷208😍5🍓2
T-ECD: E-commerce кросс-доменный датасет для рекомендательных систем

В открытый доступ выложили еще один датасет, на этот раз RecSys

Один из самых больших индустриальных датасетов в открытом доступе. 44 млн уникальных, 135 млрд взаимодействий.

Датасет собран на основе анонимизированных данных пользователей экосистемы, добавили и доставки продуктов и эмбеддинги и детализированные чековые позиции + статистику по ОС

Habr
Huggingface
1🔥65👍103💩22🤔11
Таймлайн у нас... Интересный.
Короче Sama дали PhD в mbzuai


Спасибо Артёму за инсайты!
😁134💩246🥱1
30😁10🤓1
😁49💅4🗿2🥱1🐳1
Forwarded from КПД
Из горячо обсуждаемой книженции Юдковского и Соареса.

Даже если не соглашаться с позицией авторов частично или полностью, сей опус стоит прочитать, чтобы поржать.
😁67🐳238🔥2👏2💩2❤‍🔥1💯1😐1
Сегодня начнётся PML 2025, конференция Яндекса по разным практическим применениям машинного обучения в индустрии.

В этом году я был в программном комитете, отсмотривал CV и NLP доклады. Будет интересно, заходите послушать трансляцию, или приходите лично в Москве.

https://pmlconf.yandex.ru/2025
1👍39💩19🔥11🥴8🥱6❤‍🔥5👏1
Не хочешь быть лохозавром? Приходи на PML и подчиняй ии
😁132😢11💩8💯8🔥3🥴3🍓1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Пока телеграмчик наяривает богоугодные черрипики из Wan 2.5, мы задаемся вопросом, а что там с цензурой?

А ничего! Нет ея!
Берется обычный image2video, в него присовываются ваши бесовские фантазии и Wan 2.5 прекрасно претворяет их в жизнь. Без всяких Лор, которых и быть не может, ибо веса Алибабищенко приподзажал на некоторое время.

Пруфы и промпты вы можете подсмотреть на картинке из Хиггсфилда. И спасибо Мигелю за информацию.
Есть версия, что Хиггсы тупо отключили цензуру на этапе промпта, для охватов, так сказать...

А уж что с лорами будет страшно представить.

@cgevent
1🍓9658🎉124💩3🥱31🔥1🥴1
Охуеть митинг верни 20!8 собрали

Я имею ввиду концерт пошлой Молли в Белграде
🔥57🤓23💩11❤‍🔥6💔2👏1
Forwarded from Vikhr models
Vistral-24B-Instruct

Vistral - это наша новая флагманская унимодальная LLM представляющая из себя улучшенную версию Mistral-Small-3.2-24B-Instruct-2506 командой VikhrModels, адаптированную преимущественно для русского и английского языков. Удалён визуальный энкодер, убрана мультимодальность. Сохранена стандартная архитектура MistralForCausalLM без изменений в базовой структуре модели.

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/Vistral-24B-Instruct
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/Vistral-24B-Instruct-GGUF
⚖️ Лицензия: apache-2.0

Сайт: https://vikhr.org
Донаты: Здесь

👥 Авторы: @LakoMoorDev @nlpwanderer
20🔥9🥱6🥴2👍1
2025/10/12 11:22:17
Back to Top
HTML Embed Code: