Gguf с любыми квантами Kimi K2 от анслота на месте. Рекомендуют 256гб оперативы и 16гб врам+ иметь для мелких квантов
unsloth/Kimi-K2-Instruct-GGUF · Hugging Face
https://huggingface.co/unsloth/Kimi-K2-Instruct-GGUF
unsloth/Kimi-K2-Instruct-GGUF · Hugging Face
https://huggingface.co/unsloth/Kimi-K2-Instruct-GGUF
huggingface.co
unsloth/Kimi-K2-Instruct-GGUF · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🫡9👍6🤔2
Мб кому интересно
Чел который уволился из OpenAI 3 недели назад рассказывает о своих впечатлениях.
Работал кстати над запуском кодекса
https://calv.info/openai-reflections
Чел который уволился из OpenAI 3 недели назад рассказывает о своих впечатлениях.
Работал кстати над запуском кодекса
https://calv.info/openai-reflections
👍14🤔4👎1
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23❤8👎2👏1
Хм, похоже новая сота опенсурс ллм-прувер
Статьи пока нет.
Генерили синтетические доказательства с возрастающей сложностью + самокоррекция на фидбеке от Lean компилера. RL
Goedel-Prover-V2-8B моделька пишут что примерно как DeepSeek-Prover-V2-671B.
32B еще лучше
https://blog.goedel-prover.com/
https://huggingface.co/Goedel-LM/Goedel-Prover-V2-8B
https://huggingface.co/Goedel-LM/Goedel-Prover-V2-32B
Статьи пока нет.
Генерили синтетические доказательства с возрастающей сложностью + самокоррекция на фидбеке от Lean компилера. RL
Goedel-Prover-V2-8B моделька пишут что примерно как DeepSeek-Prover-V2-671B.
32B еще лучше
https://blog.goedel-prover.com/
https://huggingface.co/Goedel-LM/Goedel-Prover-V2-8B
https://huggingface.co/Goedel-LM/Goedel-Prover-V2-32B
🔥14🤔5😱2👍1
Forwarded from (sci)Berloga Всех Наук и Технологий
🚀 Уважаемые коллеги, кому интересна математика и машинное обучение, приглашаем Вас принять участие в неформальном научном проекте.
Мы разрабатываем новые методы и опен-соурс библиотеку CayleyPy, которая на основе МЛ/РЛ методов позволяет решить математические задачи, которые были не доступны ранее. Как пример наша система уже по всем параметрам на порядки превсходит аналогичные методы в системе компьютерной алгебры GAP (де-факто стандарт) - использующую алгоритмы доработанные самим Д. Кнутом.
Если у Вас желание поучаствовать в проекте, есть знание Питона и несколько свободных часов в неделю - то присоединяйтесь к нам - при активной работе - Вы будете соавтором научных публикаций. (Напишите @alexander_v_c - к.ф.-м.н. Александр Червов).
Краткая суть задачи может быть описана несколькими способами - нахождение пути на графе размером 10^20-10^200 (из-за размера обычные методы не применимы - только МЛ/РЛ). Решение пазла типа кубика Рубика, задача сортировки, математически - разложение элемента группы по образующим - все это в реальности одна и та же задача. Задача близка к прошедшему конкурсу Каггл Санта 2023. Более общо - это задача планирования - типичная для реинфорсмент ленинг - спланировать действия так чтобы кумулятивный эффект давал лучший результат - управлением манипулятором робота, системы АльфаГо, АльфаТензор, успех DeepSeek - это задачи - тесно связанные с тем, что мы делаем.
А зачем это нужно биологам ? А чтобы превращать людей в мышей ))) (А капусту в репу). Так назвал свои статьи известный биоинформатик П.Певзнер - оказывается эволюционная дистанция - соответствует дистанции на определенных графах - и наша цель улучшить ее оценку через МЛ/РЛ. Зачем нужно нужно в сетях - задержка сигнала (latency) сети определяется диаметром сети - оценка диаметра графов - одна из наших целей. В теории квантовых вычислений тоже нужны подобные графы и приложения этим не ограничены. И, кроме того, а знаете чем знаменит Билл Гейтс ?)) Он отлично сортировал блины ! Наша задача - побить его - через МЛ/РЛ)))
В нашем коллективе есть профессора математики, Каггл градмастеры, и легендарные иностранные специалисты - Tomas Rokicki , Herbert Kociemba - Вам будет у кого поучиться.
Подробнее о проекте вы можете узнать в наших статьях https://arxiv.org/abs/2502.18663 https://arxiv.org/abs/2502.13266 и в нашей группе https://www.tgoop.com/sberlogasci/1 и ⭐ СТАВЬТЕ СТАРС ⭐ (звездочки) на наш гитхаб: https://github.com/cayleypy/cayleypy
Мы разрабатываем новые методы и опен-соурс библиотеку CayleyPy, которая на основе МЛ/РЛ методов позволяет решить математические задачи, которые были не доступны ранее. Как пример наша система уже по всем параметрам на порядки превсходит аналогичные методы в системе компьютерной алгебры GAP (де-факто стандарт) - использующую алгоритмы доработанные самим Д. Кнутом.
Если у Вас желание поучаствовать в проекте, есть знание Питона и несколько свободных часов в неделю - то присоединяйтесь к нам - при активной работе - Вы будете соавтором научных публикаций. (Напишите @alexander_v_c - к.ф.-м.н. Александр Червов).
Краткая суть задачи может быть описана несколькими способами - нахождение пути на графе размером 10^20-10^200 (из-за размера обычные методы не применимы - только МЛ/РЛ). Решение пазла типа кубика Рубика, задача сортировки, математически - разложение элемента группы по образующим - все это в реальности одна и та же задача. Задача близка к прошедшему конкурсу Каггл Санта 2023. Более общо - это задача планирования - типичная для реинфорсмент ленинг - спланировать действия так чтобы кумулятивный эффект давал лучший результат - управлением манипулятором робота, системы АльфаГо, АльфаТензор, успех DeepSeek - это задачи - тесно связанные с тем, что мы делаем.
А зачем это нужно биологам ? А чтобы превращать людей в мышей ))) (А капусту в репу). Так назвал свои статьи известный биоинформатик П.Певзнер - оказывается эволюционная дистанция - соответствует дистанции на определенных графах - и наша цель улучшить ее оценку через МЛ/РЛ. Зачем нужно нужно в сетях - задержка сигнала (latency) сети определяется диаметром сети - оценка диаметра графов - одна из наших целей. В теории квантовых вычислений тоже нужны подобные графы и приложения этим не ограничены. И, кроме того, а знаете чем знаменит Билл Гейтс ?)) Он отлично сортировал блины ! Наша задача - побить его - через МЛ/РЛ)))
В нашем коллективе есть профессора математики, Каггл градмастеры, и легендарные иностранные специалисты - Tomas Rokicki , Herbert Kociemba - Вам будет у кого поучиться.
Подробнее о проекте вы можете узнать в наших статьях https://arxiv.org/abs/2502.18663 https://arxiv.org/abs/2502.13266 и в нашей группе https://www.tgoop.com/sberlogasci/1 и ⭐ СТАВЬТЕ СТАРС ⭐ (звездочки) на наш гитхаб: https://github.com/cayleypy/cayleypy
🔥13❤5👍3
Каждая рандомная группа челов автоматически становится новой LLM RL лабой
CUDA-L1: Improving CUDA Optimization via Contrastive Reinforcement Learning
https://arxiv.org/abs/2507.14111
https://www.alphaxiv.org/ru/overview/2507.14111v1
CUDA-L1: Improving CUDA Optimization via Contrastive Reinforcement Learning
https://arxiv.org/abs/2507.14111
https://www.alphaxiv.org/ru/overview/2507.14111v1
🍌17
шьто ни день то новые соты опенсурсы
Обнова самой большой модельки от квенов
https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507
Щас бы дипсику чонить выложить. Или ОпенАИ
Обнова самой большой модельки от квенов
https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507
Щас бы дипсику чонить выложить. Или ОпенАИ
🔥17❤4👍3
Forwarded from Ruadaptная комната
Сегодня мы выложили улучшенную версию RefalMachine/RuadaptQwen3-4B-Instruct 🎉
Модель стала лучше по всем фронтам:
1️⃣ На бенчмарке по каждой категории рост, в частности, на математике.
2️⃣ Стабильность модели повысилась (меньше циклов).
3️⃣ На арене также наблюдается рост (при снижении средней длины ответа!).
Текущая версия (v2) на данный момент вероятно SoTA для русского языка среди всех тюнов и/или адаптаций 4B модели (на основании нашего бенчмарка). От исходной версии присутствуют небольшие отставания, однако на арене RuadaptQwen3-4B-Instruct стабильно обходит Qwen3-4B, а скорость генерации русскоязычного текста существенно лучше. Бенч можно посмотреть по ссылке (там без арены) https://huggingface.co/datasets/RefalMachine/llmtf_open_benchmark
Улучшения связаны с более качественным post-training, включая использование нового SFT датасета (T-Wix), а также добавление preference-tune шага.
Веса в основном репозитории и GGUF также обновлены:
https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct
https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct-GGUF
Модель стала лучше по всем фронтам:
1️⃣ На бенчмарке по каждой категории рост, в частности, на математике.
2️⃣ Стабильность модели повысилась (меньше циклов).
3️⃣ На арене также наблюдается рост (при снижении средней длины ответа!).
Текущая версия (v2) на данный момент вероятно SoTA для русского языка среди всех тюнов и/или адаптаций 4B модели (на основании нашего бенчмарка). От исходной версии присутствуют небольшие отставания, однако на арене RuadaptQwen3-4B-Instruct стабильно обходит Qwen3-4B, а скорость генерации русскоязычного текста существенно лучше. Бенч можно посмотреть по ссылке (там без арены) https://huggingface.co/datasets/RefalMachine/llmtf_open_benchmark
Улучшения связаны с более качественным post-training, включая использование нового SFT датасета (T-Wix), а также добавление preference-tune шага.
Веса в основном репозитории и GGUF также обновлены:
https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct
https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct-GGUF
❤12👍4🔥4
Мне кажется, что опенаи скинут опенсурсную модельку сегодня
😁31🗿8🤷3👍2🤔2🤡1
Forwarded from Vikhr models
QVikhr-3-8B-Instruction
Пополнение еще одной моделью на базе Qwen 3. В DOoM, QVikhr-3-8B-Instruction получила оценку 0.445, что существенно превосходит результат базовой модели Qwen3-8B. Модель подходит для решения задач по математике и физике на русском языке.
🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-3-8B-Instruction
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/QVikhr-3-8B-Instruction-GGUF
⚖️ Лицензия: apache-2.0
Сайт: https://vikhr.org
Донаты: Здесь
👥 Авторы: @LakoMoorDev @nlpwanderer
Пополнение еще одной моделью на базе Qwen 3. В DOoM, QVikhr-3-8B-Instruction получила оценку 0.445, что существенно превосходит результат базовой модели Qwen3-8B. Модель подходит для решения задач по математике и физике на русском языке.
🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-3-8B-Instruction
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/QVikhr-3-8B-Instruction-GGUF
⚖️ Лицензия: apache-2.0
Сайт: https://vikhr.org
Донаты: Здесь
👥 Авторы: @LakoMoorDev @nlpwanderer
👍6🔥3❤1🤡1
я вот только вспомнил
Сейчас же RL конференция проходит!
Статьи https://rlj.cs.umass.edu/2025/2025issue.html
Сейчас же RL конференция проходит!
Статьи https://rlj.cs.umass.edu/2025/2025issue.html
👍9❤4🤔1
Может кому интересно про сравнение архитектур gpt-oss с GPT2 и Квенов недавних
https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the?utm_campaign=posts-open-in-app
https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the?utm_campaign=posts-open-in-app
Sebastianraschka
From GPT-2 to gpt-oss: Analyzing the Architectural Advances
And How They Stack Up Against Qwen3
🔥18👍7❤3
😁10👍4❤2
Forwarded from Сиолошная
Смешное из подкаста с ex-CTO OpenAI, Greg Brockman. Он рассказал про времена, когда компания занималась разработкой ботов для DOTA 2:
— Мы хотели разработать новые RL алгоритмы, потому что всем в тот момент времени было очевидно, что тогдашние методы не масштабировались. Все знали это. Я помню мой коллега сказал: «а почему это так? Кто-то проверял? Мы правда это знаем?». Я тогда ответил, мол, да, это наш бейзлайн, мы должны отмасштабировать текущий метод и отталкиваться от него. Я помню, как приходил в офис каждую неделю: они удваивали количество ядер на сервере, они играли больше игр, рейтинг агента рос и рос. Я говорил, что нужно продолжать, пока мы не упрёмся в стену. А потом уже можно пойти заняться интересными вещами.
И мы так и не упёрлись в стену...
(прим.: у них по итогу работал тот же метод, PPO, что они придумали ранее. И им же годы спустя дообучали LLM-ки следовать инструкциям. И, вероятно, им же — или его модификацией — учат агентов / рассуждения. GRPO от DeepSeek — это модификация PPO)
Клип (не знал эту историю, решил поделиться)
— Мы хотели разработать новые RL алгоритмы, потому что всем в тот момент времени было очевидно, что тогдашние методы не масштабировались. Все знали это. Я помню мой коллега сказал: «а почему это так? Кто-то проверял? Мы правда это знаем?». Я тогда ответил, мол, да, это наш бейзлайн, мы должны отмасштабировать текущий метод и отталкиваться от него. Я помню, как приходил в офис каждую неделю: они удваивали количество ядер на сервере, они играли больше игр, рейтинг агента рос и рос. Я говорил, что нужно продолжать, пока мы не упрёмся в стену. А потом уже можно пойти заняться интересными вещами.
И мы так и не упёрлись в стену...
(прим.: у них по итогу работал тот же метод, PPO, что они придумали ранее. И им же годы спустя дообучали LLM-ки следовать инструкциям. И, вероятно, им же — или его модификацией — учат агентов / рассуждения. GRPO от DeepSeek — это модификация PPO)
Клип (не знал эту историю, решил поделиться)
YouTube
✂️ ...and we never hit the wall!
60 seconds · Clipped by Igor Kotenkov · Original video "Greg Brockman on OpenAI's Road to AGI" by Latent Space
1🔥9❤2👍2👎1