Telegram Web
Gguf с любыми квантами Kimi K2 от анслота на месте. Рекомендуют 256гб оперативы и 16гб врам+ иметь для мелких квантов

unsloth/Kimi-K2-Instruct-GGUF · Hugging Face
https://huggingface.co/unsloth/Kimi-K2-Instruct-GGUF
🫡9👍6🤔2
Мб кому интересно
Чел который уволился из OpenAI 3 недели назад рассказывает о своих впечатлениях.
Работал кстати над запуском кодекса
https://calv.info/openai-reflections
👍14🤔4👎1
Как же он понял... 👍👍👍
https://x.com/_jasonwei/status/1945294042138599722
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍238👎2👏1
Хм, похоже новая сота опенсурс ллм-прувер
Статьи пока нет.

Генерили синтетические доказательства с возрастающей сложностью + самокоррекция на фидбеке от Lean компилера. RL

Goedel-Prover-V2-8B моделька пишут что примерно как DeepSeek-Prover-V2-671B.
32B еще лучше

https://blog.goedel-prover.com/

https://huggingface.co/Goedel-LM/Goedel-Prover-V2-8B

https://huggingface.co/Goedel-LM/Goedel-Prover-V2-32B
🔥14🤔5😱2👍1
Ставим звездочки и участвуем в интересном проекте
2
🚀 Уважаемые коллеги, кому интересна математика и машинное обучение, приглашаем Вас принять участие в неформальном научном проекте.

Мы разрабатываем новые методы и опен-соурс библиотеку CayleyPy, которая на основе МЛ/РЛ методов позволяет решить математические задачи, которые были не доступны ранее. Как пример наша система уже по всем параметрам на порядки превсходит аналогичные методы в системе компьютерной алгебры GAP (де-факто стандарт) - использующую алгоритмы доработанные самим Д. Кнутом.

Если у Вас желание поучаствовать в проекте, есть знание Питона и несколько свободных часов в неделю - то присоединяйтесь к нам - при активной работе - Вы будете соавтором научных публикаций. (Напишите @alexander_v_c - к.ф.-м.н. Александр Червов).

Краткая суть задачи может быть описана несколькими способами - нахождение пути на графе размером 10^20-10^200 (из-за размера обычные методы не применимы - только МЛ/РЛ). Решение пазла типа кубика Рубика, задача сортировки, математически - разложение элемента группы по образующим - все это в реальности одна и та же задача. Задача близка к прошедшему конкурсу Каггл Санта 2023. Более общо - это задача планирования - типичная для реинфорсмент ленинг - спланировать действия так чтобы кумулятивный эффект давал лучший результат - управлением манипулятором робота, системы АльфаГо, АльфаТензор, успех DeepSeek - это задачи - тесно связанные с тем, что мы делаем.

А зачем это нужно биологам ? А чтобы превращать людей в мышей ))) (А капусту в репу). Так назвал свои статьи известный биоинформатик П.Певзнер - оказывается эволюционная дистанция - соответствует дистанции на определенных графах - и наша цель улучшить ее оценку через МЛ/РЛ. Зачем нужно нужно в сетях - задержка сигнала (latency) сети определяется диаметром сети - оценка диаметра графов - одна из наших целей. В теории квантовых вычислений тоже нужны подобные графы и приложения этим не ограничены. И, кроме того, а знаете чем знаменит Билл Гейтс ?)) Он отлично сортировал блины ! Наша задача - побить его - через МЛ/РЛ)))

В нашем коллективе есть профессора математики, Каггл градмастеры, и легендарные иностранные специалисты - Tomas Rokicki , Herbert Kociemba - Вам будет у кого поучиться.

Подробнее о проекте вы можете узнать в наших статьях https://arxiv.org/abs/2502.18663 https://arxiv.org/abs/2502.13266 и в нашей группе https://www.tgoop.com/sberlogasci/1 и СТАВЬТЕ СТАРС (звездочки) на наш гитхаб: https://github.com/cayleypy/cayleypy
🔥135👍3
Каждая рандомная группа челов автоматически становится новой LLM RL лабой

CUDA-L1: Improving CUDA Optimization via Contrastive Reinforcement Learning
https://arxiv.org/abs/2507.14111
https://www.alphaxiv.org/ru/overview/2507.14111v1
🍌17
шьто ни день то новые соты опенсурсы

Обнова самой большой модельки от квенов

https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507

Щас бы дипсику чонить выложить. Или ОпенАИ
🔥174👍3
Сегодня мы выложили улучшенную версию RefalMachine/RuadaptQwen3-4B-Instruct 🎉

Модель стала лучше по всем фронтам:
1️⃣ На бенчмарке по каждой категории рост, в частности, на математике.
2️⃣ Стабильность модели повысилась (меньше циклов).
3️⃣ На арене также наблюдается рост (при снижении средней длины ответа!).

Текущая версия (v2) на данный момент вероятно SoTA для русского языка среди всех тюнов и/или адаптаций 4B модели (на основании нашего бенчмарка). От исходной версии присутствуют небольшие отставания, однако на арене RuadaptQwen3-4B-Instruct стабильно обходит Qwen3-4B, а скорость генерации русскоязычного текста существенно лучше. Бенч можно посмотреть по ссылке (там без арены) https://huggingface.co/datasets/RefalMachine/llmtf_open_benchmark

Улучшения связаны с более качественным post-training, включая использование нового SFT датасета (T-Wix), а также добавление preference-tune шага.

Веса в основном репозитории и GGUF также обновлены:
https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct
https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct-GGUF
12👍4🔥4
Мне кажется, что опенаи скинут опенсурсную модельку сегодня
😁31🗿8🤷3👍2🤔2🤡1
Forwarded from Vikhr models
QVikhr-3-8B-Instruction

Пополнение еще одной моделью на базе Qwen 3. В DOoM, QVikhr-3-8B-Instruction получила оценку 0.445, что существенно превосходит результат базовой модели Qwen3-8B. Модель подходит для решения задач по математике и физике на русском языке.

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-3-8B-Instruction
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/QVikhr-3-8B-Instruction-GGUF
⚖️ Лицензия: apache-2.0

Сайт: https://vikhr.org
Донаты: Здесь

👥 Авторы: @LakoMoorDev @nlpwanderer
👍6🔥31🤡1
я вот только вспомнил
Сейчас же RL конференция проходит!

Статьи https://rlj.cs.umass.edu/2025/2025issue.html
👍94🤔1
https://gemini.google.com/app
Впервые запустил кста

PS все уже, не воркает
😁10👍42
Forwarded from Сиолошная
Смешное из подкаста с ex-CTO OpenAI, Greg Brockman. Он рассказал про времена, когда компания занималась разработкой ботов для DOTA 2:

— Мы хотели разработать новые RL алгоритмы, потому что всем в тот момент времени было очевидно, что тогдашние методы не масштабировались. Все знали это. Я помню мой коллега сказал: «а почему это так? Кто-то проверял? Мы правда это знаем?». Я тогда ответил, мол, да, это наш бейзлайн, мы должны отмасштабировать текущий метод и отталкиваться от него. Я помню, как приходил в офис каждую неделю: они удваивали количество ядер на сервере, они играли больше игр, рейтинг агента рос и рос. Я говорил, что нужно продолжать, пока мы не упрёмся в стену. А потом уже можно пойти заняться интересными вещами.

И мы так и не упёрлись в стену...

(прим.: у них по итогу работал тот же метод, PPO, что они придумали ранее. И им же годы спустя дообучали LLM-ки следовать инструкциям. И, вероятно, им же — или его модификацией — учат агентов / рассуждения. GRPO от DeepSeek — это модификация PPO)

Клип (не знал эту историю, решил поделиться)
1🔥92👍2👎1
RL пушить надо
🙉13👍6👎31
2025/10/18 15:24:49
Back to Top
HTML Embed Code: