Telegram Web
Forwarded from Den4ik Research
Наш русскоязычный датасет для TTS опубликован!

Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1

Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам:

Многоголосые:
ESpeech-podcasts - 3200 часов
ESpeech-webinars - 850 часов

Одноголосые:
ESpeech-igm - 220 часов
ESpeech-buldjat - 54 часа
ESpeech-upvote - 296 часов
ESpeech-tuchniyzhab - 306 часов

Данные лежат вот тут: https://huggingface.co/ESpeech

Техрепорт датасета доступен тут: https://github.com/Den4ikAI/ESpeech/blob/main/ESpeech_techreport.pdf


Также, мы решили провести некоторые эксперименты с TTS. Получилось обучить F5-TTS на 10000 часов речи и сделать одну из лучших по нашим замерам моделей в опенсурсе для русского языка.

Какие модели доступны?
ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)

Лайкайте модель которая больше понравится чтобы мы понимали есть ли смысл запускать RL.

Послушать модели без скачивания можно вот здесь:

https://huggingface.co/spaces/Den4ikAI/ESpeech-TTS

Совместно с @speech_recognition_ru ещё сделали лидерборд русского ТТС, где можно глянуть метрики:

https://huggingface.co/spaces/ESpeech/open_tts_leaderboard_ru
Задать вопросы по поводу данных и модели можно в наших телеграм каналах:
https://www.tgoop.com/den4ikresearch
https://www.tgoop.com/voice_stuff_chat

Вы можете мне задонатить, чтобы у меня были ресурсы делать более крутые модели и датасеты:

USDT (TRC20): TEpEM4VVmGmqKHn4Xz1FxM7qZiXjWtUEUB
BTC: bc1qw5lq7fc455e47hggax6zp8txw4ru7yvsxvawv3
https://www.tbank.ru/cf/7WKnNMqWtOx
1021🔥9👍7
опять обзор агентного ллмного рля
ценой всего

The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
https://arxiv.org/abs/2509.02547
https://www.alphaxiv.org/ru/overview/2509.02547v1

https://github.com/xhyumiracle/Awesome-AgenticLLM-RL-Papers
12👍2😁2🔥1
Поздравляем) 🥳
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🎉2👏1
Forwarded from Vikhr models
Vikhr Borealis - первая русскоязычная открытая audio llm

Мы долго и не очень успешно развивали свой tts - Salt, от него исторически осталось довольно много данных и наработок, мы решили - чо бы не сварить asr + llm как модно?

Ну и сварили. Архитектурно - whisper + qwen, учили на 7к часов аудио только адаптер+llm, сейчас работает только в ASR режиме, позже возможно довезем инструктивный режим. Так же выйдет бенчмарк для русского asr, он пока в доработке.
Блог так же выйдет, там будут небольшие аблейшены по данным

Модель в данный момент бьет whisperы на русском и на части бенчей лучше чем gigam.

Модель
Сolab поиграться
🔥15👍3👏2🤡21🏆1
Тут опять учат квадрокоптеры летать рлем
причем в нейронке всего 2084 параметров и она норм работает на 10 разных квадрокоптерах

Видосик тут
https://www.reddit.com/r/robotics/comments/1njl25z/raptor_a_foundation_policy_for_quadrotor_control/

RAPTOR: A Foundation Policy for Quadrotor Control
https://arxiv.org/abs/2509.11481
https://www.alphaxiv.org/ru/overview/2509.11481v1
🤯117👍3🔥1
М прикольновое

Квены дропнули Qwen3Guard модельки для анализа промтов и ответов моделек на сейфти

0.6B 4B 8B

Обнаружение в реальном времени: Qwen3Guard-Stream специально оптимизирован для потоковой передачи данных, обеспечивая эффективную и своевременную модерацию при инкрементальной генерации токенов.

Трёхуровневая классификация серьёзности: обеспечивает детальную оценку рисков, разделяя выходные данные на безопасные, спорные и небезопасные уровни серьёзности, что позволяет адаптировать их к различным сценариям развертывания.

Многоязыковая поддержка: поддерживает 119 языков и диалектов, обеспечивая стабильную работу в глобальных и кросс-языковых приложениях.

https://qwen.ai/blog?id=f0bbad0677edf58ba93d80a1e12ce458f7a80548&from=research.research-list

https://huggingface.co/collections/Qwen/qwen3guard-68d2729abbfae4716f3343a1

https://github.com/QwenLM/Qwen3Guard
9🔥5👍3
Forwarded from Idea Maze
Poker Battle. Прогресс за третью, четвёртую и пятую недели.

Надеюсь ни у кого не осталось сомнений, что я не буду регулярно писать в канал ))

По ощущениям проект готов процентов на 80%. Значит, остались последние 80%.

Что готово:
* LLM-игроки
* Заметки игроков друг на друга
* Лог событий за столом
* Статистика сессии
* Поддержка нескольких столов

Осталось сделать всё сложить в красивый интерфейс для просмотра.

Тем не менее я определился с датой старта — 27 октября. Оставшийся месяц я потрачу на доделки, тесты и промо.

Сегодня сделал лендинг: https://www.pokerbattle.ai/

Если у вас есть контакты людей из AI или покер related компаний, которые могли бы стать спонсорами, делитесь :)
🔥7👍53
Тут выходила работа от стенфордских

Агент делает других агентов прямо из научных статей

Пишет код для MCP сервера, всякие тулы, сам тестит

Показывают на примере AlphaGenome и говрят что в результате полученный агент 100% на примерах из статьи выбивает
Агент реализовал все нужное за 3 часа

По-моему ну прям хорошо

Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents
https://arxiv.org/abs/2509.06917
https://www.alphaxiv.org/ru/overview/2509.06917v1

https://github.com/jmiao24/Paper2Agent
515👍8🤔3👀2
RL должен быть в школьной программе
🥴44🙏13💯9🤪6👍3🤯2🆒2🔥1🥱1👾1
unsloth завезли ноутбук с рлем для gpt-oss моделек
В примере учат ллмку рлем писать более оптимизированные CUDA-кернелы

https://docs.unsloth.ai/new/gpt-oss-reinforcement-learning
🔥13👍32🥴1
Forwarded from Vikhr models
Vistral-24B-Instruct

Vistral - это наша новая флагманская унимодальная LLM представляющая из себя улучшенную версию Mistral-Small-3.2-24B-Instruct-2506 командой VikhrModels, адаптированную преимущественно для русского и английского языков. Удалён визуальный энкодер, убрана мультимодальность. Сохранена стандартная архитектура MistralForCausalLM без изменений в базовой структуре модели.

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/Vistral-24B-Instruct
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/Vistral-24B-Instruct-GGUF
⚖️ Лицензия: apache-2.0

Сайт: https://vikhr.org
Донаты: Здесь

👥 Авторы: @LakoMoorDev @nlpwanderer
🔥7🥴2
Помним ли мы Genie - ворлд моделс от дипмаинда?
Статья выходила в феврале 2024

Genie: Generative Interactive Environments
https://arxiv.org/abs/2402.15391
https://www.alphaxiv.org/ru/overview/2402.15391v1

(в августе вот уже 3ю версию анонсили https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/)

официального имплемента не выкладывали,
но есть неофициальный
https://github.com/myscience/open-genie

Так вот - на этот раз чел сделал так сказать минималистичную учебную реализацию, так что мы можем сами поизучать и чего-нибудь потренить

https://github.com/AlmondGod/tinyworlds

Всем кому тема интересна считаю обязательно стоит покопаться

ставим автору звездочки, изучаем и делаем свои ворлмоделсы (для RLя конечно же 🎩)
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍3🔥2
Я считаю что нам всем нужен симулятор атомного реактора. Вот (ну конечно пока в начально виде)

https://github.com/researchim-ai/atomic-sim

Я например ничего про них не знаю. Ллмки кое-чего знают и помогают.

В целом это такой заход в симы и енвайроменты для промышленности
Опенсурс конечно же

То есть делаем симчик, потом в gym и генерим данные чтобы потом затачивать ллмки/рл в какой-то области

Сейчас реактор - потому что интересно и я особо такого не видел

(хотя охота конечно вообще в целом станцию сделать, но пока далековато до этого)

В ресечим кстати делаются разные интересные проектики (в том числе и для прома еще один, про него расскажу чутка позже) https://www.tgoop.com/researchim
Ну и стараюсь собирать статьи
1🔥102👏1
AtomicSimDocs.pdf
7.4 MB
А еще погенерил прикольную (на мой вкус) документацию с подробностями и базой, реально может стать понятнее если прям ничего не знаете.
зацените
1🔥92👍1
Опа, квен3вл 4б (и там ещё 8б)
До этого были только 30б и 235б - жирновато

А тут и в домашний комп влезет

https://huggingface.co/Qwen/Qwen3-VL-4B-Instruct
1🔥9👍32
https://www.arxiv.org/abs/2509.19162

Мы выложили на архив третью статью проекта CayleyPy.
(Первая статья была принята на самую топовую конференцию NeaurIPS как spotlight - то есть в топ3%.)

А также представляем первый релиз нашей библиотеки - CayleyPy - для работы методами МЛ/RL с графами размера гугл: https://github.com/cayleypy/cayleypy (Кидайте звезды на наш гитхаб - они нам очень помогут !) Библиотека также ставится через pypi: https://pypi.org/project/cayleypy/ .

Сама статья с упором на математику - предложено около 200 новых математических гипотез полученных с помощью вычислительных экспериментов с нашей библиотекой, которая позволяет делать расчеты - которые за пределами существовавших ранее систем компьютерной алгебры. Если у Вас есть знакомые математики занимающиеся теорий групп или графов - свяжите их с нами - @alexander_v_c . Slides at Oberwolfach.

А также мы рады всем добровольцам - кто знает Питон или математику и имеет несколько свободных часов - будем рады всем участникам - пинганите @alexander_v_c

Чтобы бенчмаркать методы и одновременно двигать математику и биоинформатику - мы создали более 10 челленжей на Каггл.
Всем кому интересен Каггл - тоже присоединяйтесь
https://www.kaggle.com/competitions/cayleypy-christophers-jewel
https://www.kaggle.com/competitions/cayleypy-glushkov
https://www.kaggle.com/competitions/CayleyPy-pancake
https://www.kaggle.com/competitions/cayleypy-transposons
🔥133👍2
2025/10/17 20:00:21
Back to Top
HTML Embed Code: