Агенты ИИ | AGI_and_RL 1199

Агенты ИИ | AGI_and_RL

Gguf с любыми квантами Kimi K2 от анслота на месте. Рекомендуют 256гб оперативы и 16гб врам+ иметь для мелких квантов

unsloth/Kimi-K2-Instruct-GGUF · Hugging Face
https://huggingface.co/unsloth/Kimi-K2-Instruct-GGUF

huggingface.co

unsloth/Kimi-K2-Instruct-GGUF · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

🫡9👍6🤔2

2.61K views15:40

Агенты ИИ | AGI_and_RL

Мб кому интересно
Чел который уволился из OpenAI 3 недели назад рассказывает о своих впечатлениях.
Работал кстати над запуском кодекса
https://calv.info/openai-reflections

👍14🤔4👎1

2.31K views12:55

Агенты ИИ | AGI_and_RL

Как же он понял... 👍

👍

https://x.com/_jasonwei/status/1945294042138599722

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍23❤8👎2👏1

2.49K views18:48

Агенты ИИ | AGI_and_RL

Хм, похоже новая сота опенсурс ллм-прувер
Статьи пока нет.

Генерили синтетические доказательства с возрастающей сложностью + самокоррекция на фидбеке от Lean компилера. RL

Goedel-Prover-V2-8B моделька пишут что примерно как DeepSeek-Prover-V2-671B.
32B еще лучше

https://blog.goedel-prover.com/

https://huggingface.co/Goedel-LM/Goedel-Prover-V2-8B

https://huggingface.co/Goedel-LM/Goedel-Prover-V2-32B

🔥14🤔5😱2👍1

6.32K views12:05

Агенты ИИ | AGI_and_RL

Ставим звездочки и участвуем в интересном проекте

2.05K views14:37

Агенты ИИ | AGI_and_RL

Forwarded from (sci)Berloga Всех Наук и Технологий

🚀 Уважаемые коллеги, кому интересна математика и машинное обучение, приглашаем Вас принять участие в неформальном научном проекте.

Мы разрабатываем новые методы и опен-соурс библиотеку CayleyPy, которая на основе МЛ/РЛ методов позволяет решить математические задачи, которые были не доступны ранее. Как пример наша система уже по всем параметрам на порядки превсходит аналогичные методы в системе компьютерной алгебры GAP (де-факто стандарт) - использующую алгоритмы доработанные самим Д. Кнутом.

Если у Вас желание поучаствовать в проекте, есть знание Питона и несколько свободных часов в неделю - то присоединяйтесь к нам - при активной работе - Вы будете соавтором научных публикаций. (Напишите @alexander_v_c - к.ф.-м.н. Александр Червов).

Краткая суть задачи может быть описана несколькими способами - нахождение пути на графе размером 10^20-10^200 (из-за размера обычные методы не применимы - только МЛ/РЛ). Решение пазла типа кубика Рубика, задача сортировки, математически - разложение элемента группы по образующим - все это в реальности одна и та же задача. Задача близка к прошедшему конкурсу Каггл Санта 2023. Более общо - это задача планирования - типичная для реинфорсмент ленинг - спланировать действия так чтобы кумулятивный эффект давал лучший результат - управлением манипулятором робота, системы АльфаГо, АльфаТензор, успех DeepSeek - это задачи - тесно связанные с тем, что мы делаем.

А зачем это нужно биологам ? А чтобы превращать людей в мышей ))) (А капусту в репу). Так назвал свои статьи известный биоинформатик П.Певзнер - оказывается эволюционная дистанция - соответствует дистанции на определенных графах - и наша цель улучшить ее оценку через МЛ/РЛ. Зачем нужно нужно в сетях - задержка сигнала (latency) сети определяется диаметром сети - оценка диаметра графов - одна из наших целей. В теории квантовых вычислений тоже нужны подобные графы и приложения этим не ограничены. И, кроме того, а знаете чем знаменит Билл Гейтс ?)) Он отлично сортировал блины ! Наша задача - побить его - через МЛ/РЛ)))

В нашем коллективе есть профессора математики, Каггл градмастеры, и легендарные иностранные специалисты - Tomas Rokicki , Herbert Kociemba - Вам будет у кого поучиться.

Подробнее о проекте вы можете узнать в наших статьях https://arxiv.org/abs/2502.18663 https://arxiv.org/abs/2502.13266 и в нашей группе https://www.tgoop.com/sberlogasci/1 и ⭐ СТАВЬТЕ СТАРС ⭐ (звездочки) на наш гитхаб: https://github.com/cayleypy/cayleypy

🔥13❤5👍3

2.25K views14:37

Агенты ИИ | AGI_and_RL

Каждая рандомная группа челов автоматически становится новой LLM RL лабой

CUDA-L1: Improving CUDA Optimization via Contrastive Reinforcement Learning
https://arxiv.org/abs/2507.14111
https://www.alphaxiv.org/ru/overview/2507.14111v1

🍌17

2.75K viewsedited 14:07

Агенты ИИ | AGI_and_RL

шьто ни день то новые соты опенсурсы

Обнова самой большой модельки от квенов

https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507

Щас бы дипсику чонить выложить. Или ОпенАИ

🔥17❤4👍3

2.79K views20:51

Агенты ИИ | AGI_and_RL

Forwarded from Ruadaptная комната

Сегодня мы выложили улучшенную версию RefalMachine/RuadaptQwen3-4B-Instruct 🎉

Модель стала лучше по всем фронтам:
1️⃣ На бенчмарке по каждой категории рост, в частности, на математике.
2️⃣ Стабильность модели повысилась (меньше циклов).
3️⃣ На арене также наблюдается рост (при снижении средней длины ответа!).

Текущая версия (v2) на данный момент вероятно SoTA для русского языка среди всех тюнов и/или адаптаций 4B модели (на основании нашего бенчмарка). От исходной версии присутствуют небольшие отставания, однако на арене RuadaptQwen3-4B-Instruct стабильно обходит Qwen3-4B, а скорость генерации русскоязычного текста существенно лучше. Бенч можно посмотреть по ссылке (там без арены) https://huggingface.co/datasets/RefalMachine/llmtf_open_benchmark

Улучшения связаны с более качественным post-training, включая использование нового SFT датасета (T-Wix), а также добавление preference-tune шага.

Веса в основном репозитории и GGUF также обновлены:
https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct
https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct-GGUF

❤12👍4🔥4

2.91K views16:37

Агенты ИИ | AGI_and_RL

Мне кажется, что опенаи скинут опенсурсную модельку сегодня

😁31🗿8🤷3👍2🤔2🤡1

2.43K views18:43

Агенты ИИ | AGI_and_RL

Forwarded from Vikhr models

QVikhr-3-8B-Instruction

Пополнение еще одной моделью на базе Qwen 3. В DOoM, QVikhr-3-8B-Instruction получила оценку 0.445, что существенно превосходит результат базовой модели Qwen3-8B. Модель подходит для решения задач по математике и физике на русском языке.

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-3-8B-Instruction
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/QVikhr-3-8B-Instruction-GGUF
⚖️ Лицензия: apache-2.0

Сайт: https://vikhr.org
Донаты: Здесь

👥 Авторы: @LakoMoorDev @nlpwanderer

👍6🔥3❤1🤡1

3.12K views14:19

Агенты ИИ | AGI_and_RL

я вот только вспомнил
Сейчас же RL конференция проходит!

Статьи https://rlj.cs.umass.edu/2025/2025issue.html

👍9❤4🤔1

3.99K views20:33

Агенты ИИ | AGI_and_RL

Может кому интересно про сравнение архитектур gpt-oss с GPT2 и Квенов недавних
https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the?utm_campaign=posts-open-in-app

Sebastianraschka

From GPT-2 to gpt-oss: Analyzing the Architectural Advances

And How They Stack Up Against Qwen3

🔥18👍7❤3

4.03K views16:42

Агенты ИИ | AGI_and_RL

https://gemini.google.com/app
Впервые запустил кста

PS все уже, не воркает

😁10👍4❤2

3.02K viewsedited 21:19

Агенты ИИ | AGI_and_RL

Forwarded from Сиолошная

Смешное из подкаста с ex-CTO OpenAI, Greg Brockman. Он рассказал про времена, когда компания занималась разработкой ботов для DOTA 2:

— Мы хотели разработать новые RL алгоритмы, потому что всем в тот момент времени было очевидно, что тогдашние методы не масштабировались. Все знали это. Я помню мой коллега сказал: «а почему это так? Кто-то проверял? Мы правда это знаем?». Я тогда ответил, мол, да, это наш бейзлайн, мы должны отмасштабировать текущий метод и отталкиваться от него. Я помню, как приходил в офис каждую неделю: они удваивали количество ядер на сервере, они играли больше игр, рейтинг агента рос и рос. Я говорил, что нужно продолжать, пока мы не упрёмся в стену. А потом уже можно пойти заняться интересными вещами.

И мы так и не упёрлись в стену...

(прим.: у них по итогу работал тот же метод, PPO, что они придумали ранее. И им же годы спустя дообучали LLM-ки следовать инструкциям. И, вероятно, им же — или его модификацией — учат агентов / рассуждения. GRPO от DeepSeek — это модификация PPO)

Клип (не знал эту историю, решил поделиться)

YouTube

✂️ ...and we never hit the wall!

60 seconds · Clipped by Igor Kotenkov · Original video "Greg Brockman on OpenAI's Road to AGI" by Latent Space

1🔥9❤2👍2👎1

2.57K views19:55

Агенты ИИ | AGI_and_RL

RL пушить надо

🙉13👍6👎3❤1

2.91K views19:56

2025/10/18 15:24:49
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>