Forwarded from Machinelearning
🔥 Сенсей Карпаты выложил новый репозиторий - полный пайплайн обучения LLM с нуля
В проекте есть всё, чтобы собрать свой ChatGPT-клон за $100 и 4 часа:
> • токенизатор
> • pretraining
> • SFT (supervised fine-tuning)
> • RL (reinforcement learning)
> • оценка модели (eval)
Всего 8 000 строк кода, без лишних зависимостей - идеальный учебный пример, чтобы понять, как реально устроено обучение больших языковых моделей.
💡 Это проект из его нового курса Карпаты LLM101n, и отличная возможность прокачать свои ML-навыки на практике.
Можно арендовать GPU в облаке и запустить всё самому - код уже готов к запуску.
Если запустить обучение модели nanochat на облачном GPU-сервере (например, 8×H100), то примерно через 12 часов обучения (стоимость ~300–400 $) модель достигает уровня GPT-2 по качеству на тестовых наборах (CORE-score).
А если тренировать около 40 часов (затраты ~1000 $), решает простые задачи по математике и коду, набирая:
- 40+ на MMLU
- 70+ на ARC-Easy
- 20+ на GSM8K
🧠 Это бесплатная практика топ уровня от мастера, которую не стоит упускать.
🟠 GitHub:https://github.com/karpathy/nanochat
🟠 Технические детали: https://github.com/karpathy/nanochat/discussions/1
@ai_machinelearning_big_data
#LLM #nanochat #MachineLearning #DeepLearning #AI #GPT
В проекте есть всё, чтобы собрать свой ChatGPT-клон за $100 и 4 часа:
> • токенизатор
> • pretraining
> • SFT (supervised fine-tuning)
> • RL (reinforcement learning)
> • оценка модели (eval)
Всего 8 000 строк кода, без лишних зависимостей - идеальный учебный пример, чтобы понять, как реально устроено обучение больших языковых моделей.
💡 Это проект из его нового курса Карпаты LLM101n, и отличная возможность прокачать свои ML-навыки на практике.
Можно арендовать GPU в облаке и запустить всё самому - код уже готов к запуску.
Если запустить обучение модели nanochat на облачном GPU-сервере (например, 8×H100), то примерно через 12 часов обучения (стоимость ~300–400 $) модель достигает уровня GPT-2 по качеству на тестовых наборах (CORE-score).
А если тренировать около 40 часов (затраты ~1000 $), решает простые задачи по математике и коду, набирая:
- 40+ на MMLU
- 70+ на ARC-Easy
- 20+ на GSM8K
🧠 Это бесплатная практика топ уровня от мастера, которую не стоит упускать.
@ai_machinelearning_big_data
#LLM #nanochat #MachineLearning #DeepLearning #AI #GPT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤4👍1
MAI-Image-1 создаётся с упором на реализм, разнообразие и художественную точность, а не шаблонные стили.
Она особенно сильна в фотореалистичных сценах - свет, тени, отражения и текстуры выглядят максимально естественно.
Microsoft отмечает, что обучение велось на тщательно отобранных данных с участием художников и дизайнеров, чтобы улучшить восприятие и применимость модели в реальных проектах.
Главное преимущество — скорость и качество: можно мгновенно визуализировать идею, а затем доработать её в привычных инструментах.
💡 В ближайшее время модель появится в Copilot и Bing Image Creator, но уже сейчас её можно протестировать и оценить в LMArena.
🔗 Подробнее здесь: https://microsoft.ai/news/introducing-mai-image-1-debuting-in-the-top-10-on-lmarena/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍4🔥2
🔥 Команда AI VK открыла регистрацию на VK RecSys Challenge
Ребята из RecSys VK снова придумали что-то интересное и снова запустили соревнование по созданию рекомендательных алгоритмов. В этом году задача непростая: построить модель, которая предскажет, кому может понравиться новый клип, даже если его еще никто не видел.
Участникам предстоит работать с реальными данными большого датасета VK-LSVD, включающего 40 млрд обезличенных взаимодействий с 20 млн коротких видео.
📊 Основные условия:
- участие индивидуально или в команде до 4 человек;
- регистрация открыта до 15 декабря;
- призовой фонд: 2,5 млн руб.
Все решения автоматически проверяются на закрытой тестовой выборке с расчетом метрики качества, а лучшие модели будут представлены 17 января.
🔗 Регистрация
Ребята из RecSys VK снова придумали что-то интересное и снова запустили соревнование по созданию рекомендательных алгоритмов. В этом году задача непростая: построить модель, которая предскажет, кому может понравиться новый клип, даже если его еще никто не видел.
Участникам предстоит работать с реальными данными большого датасета VK-LSVD, включающего 40 млрд обезличенных взаимодействий с 20 млн коротких видео.
📊 Основные условия:
- участие индивидуально или в команде до 4 человек;
- регистрация открыта до 15 декабря;
- призовой фонд: 2,5 млн руб.
Все решения автоматически проверяются на закрытой тестовой выборке с расчетом метрики качества, а лучшие модели будут представлены 17 января.
🔗 Регистрация
❤5🔥3👏2😁1
🚀 Высокопроизводительный движок полнотекстового поиска на Go
Blaze — это мощный движок для быстрого полнотекстового поиска с использованием инвертированных индексов. Он идеально подходит для приложений, которые требуют эффективного поиска по текстовым документам без зависимости от внешних поисковых систем.
🚀 Основные моменты:
- Инвертированный индекс для мгновенного поиска
- Поддержка булевых запросов и фразового поиска
- Алгоритм BM25 для оценки релевантности
- Безопасный для потоков с поддержкой конкурентного индексирования
- Компактное бинарное хранилище для данных
📌 GitHub: https://github.com/wizenheimer/blaze
Blaze — это мощный движок для быстрого полнотекстового поиска с использованием инвертированных индексов. Он идеально подходит для приложений, которые требуют эффективного поиска по текстовым документам без зависимости от внешних поисковых систем.
🚀 Основные моменты:
- Инвертированный индекс для мгновенного поиска
- Поддержка булевых запросов и фразового поиска
- Алгоритм BM25 для оценки релевантности
- Безопасный для потоков с поддержкой конкурентного индексирования
- Компактное бинарное хранилище для данных
📌 GitHub: https://github.com/wizenheimer/blaze
❤3👍2🔥1
Microsoft запустила ExCyTIn-Bench - открытую платформу, которая тестирует, как ИИ справляется с реальными инцидентами безопасности, а не просто отвечает на теоретические вопросы.
Что делает ExCyTIn-Bench
- Имитация настоящего SOC (Security Operations Center) с логами, инцидентами и хаосом реальных атак.
- Проверяет не только ответы, но и логику рассуждений ИИ: шаги, объяснения, приоритизацию угроз.
- Включает 57 таблиц логов из Microsoft Sentinel — максимально приближено к практике.
- Поддерживает сравнение разных моделей и метрик, включая reasoning-оценку (пошаговое мышление).
Зачем это нужно
Обычные тесты “вопрос-ответ” не отражают реальную сложность киберугроз.
ExCyTIn-Bench поднимает планку: теперь модели должны мыслить как аналитики SOC.
Microsoft уже использует этот бенчмарк для проверки своих продуктов — Security Copilot, Defender и Sentinel.
Первые результаты показывают, что продвинутые LLM вроде GPT-5 уже уверенно анализируют инциденты и выстраивают цепочку атак.
🔗 Подробнее: https://www.microsoft.com/en-us/security/blog/2025/10/14/microsoft-raises-the-bar-a-smarter-way-to-measure-ai-for-cybersecurity/
#Microsoft #CyberSecurity #AI #SecurityCopilot
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Один One Day Offer вам или целых три — всем? 😉
25 октября Сбер проведёт сразу три экспресс-отбора кандидатов в две команды: GigaData и Kandinsky. Чем вам предстоит заниматься 👇
✔️ Развивать GigaData — внутреннюю платформу Сбера, которая обрабатывает петабайты данных и миллиарды запросов в сутки. One Day Offer для Python‑разработчиков.
✔️ Работать над Kandinsky — обучать большие модели с нуля, собирать и подготавливать данные, исследовать самые эффективные методы дообучения моделей.
— One Day Offer для Machine Learning Engineers с опытом в Deep Learning и компьютерном зрении (CV).
— One Day Offer для Research и Deep Learning Engineers.
Выбирайте то, что больше подходит под ваши навыки, и регистрируйтесь на One Day Offer!
25 октября Сбер проведёт сразу три экспресс-отбора кандидатов в две команды: GigaData и Kandinsky. Чем вам предстоит заниматься 👇
✔️ Развивать GigaData — внутреннюю платформу Сбера, которая обрабатывает петабайты данных и миллиарды запросов в сутки. One Day Offer для Python‑разработчиков.
✔️ Работать над Kandinsky — обучать большие модели с нуля, собирать и подготавливать данные, исследовать самые эффективные методы дообучения моделей.
— One Day Offer для Machine Learning Engineers с опытом в Deep Learning и компьютерном зрении (CV).
— One Day Offer для Research и Deep Learning Engineers.
Выбирайте то, что больше подходит под ваши навыки, и регистрируйтесь на One Day Offer!
🤬2👍1
🚀 Создание AI-агентов без кода
Open Agent Builder — это визуальный конструктор для разработки и развертывания рабочих процессов AI-агентов. Используя интерфейс перетаскивания, вы можете легко создавать сложные потоки, включая автоматизацию исследований и веб-скрапинг.
🚀 Основные моменты:
- Интуитивно понятный интерфейс для создания рабочих процессов
- Поддержка реального времени с обновлениями
- Интеграция с Firecrawl для веб-скрапинга
- Многофункциональные узлы для различных задач
- Поддержка аутентификации и управления пользователями
📌 GitHub: https://github.com/firecrawl/open-agent-builder
Open Agent Builder — это визуальный конструктор для разработки и развертывания рабочих процессов AI-агентов. Используя интерфейс перетаскивания, вы можете легко создавать сложные потоки, включая автоматизацию исследований и веб-скрапинг.
🚀 Основные моменты:
- Интуитивно понятный интерфейс для создания рабочих процессов
- Поддержка реального времени с обновлениями
- Интеграция с Firecrawl для веб-скрапинга
- Многофункциональные узлы для различных задач
- Поддержка аутентификации и управления пользователями
📌 GitHub: https://github.com/firecrawl/open-agent-builder
🔥6❤1
🚀 Новый курс на Stepik: Computer Vision Engineer
Соберёте продакшн-CV: датасет → обучение (YOLO/RT-DETR/SAM, OCR/Doc-AI) → экспорт в ONNX/TensorRT/OpenVINO → API на FastAPI → мониторинг (Prometheus/Grafana). Практика на реальных кейсах: пустые полки, дефекты, документы.
🎯 Результат — сервис с метриками mAP/IoU, p95-latency и cost/req.
🔥 Скидка 30% по промо COMPUTERVISION (48 ч)
👉 Пройти со скидкой
Соберёте продакшн-CV: датасет → обучение (YOLO/RT-DETR/SAM, OCR/Doc-AI) → экспорт в ONNX/TensorRT/OpenVINO → API на FastAPI → мониторинг (Prometheus/Grafana). Практика на реальных кейсах: пустые полки, дефекты, документы.
🎯 Результат — сервис с метриками mAP/IoU, p95-latency и cost/req.
🔥 Скидка 30% по промо COMPUTERVISION (48 ч)
👉 Пройти со скидкой
❤1
🧠 Новая работа показывает, что даже небольшая open-source модель может решать сложные математические задачи — если заставить её "думать дольше" с помощью циклов саморазвития рассуждений.
Исследователи взяли 8B-модель на базе DeepSeek и заставили её проходить долгие итеративные reasoning-loops, где каждая итерация — это маленький шаг к более точному решению.
Если модель находит улучшение хоть чуть-чуть лучше предыдущего ответа, цикл продолжается.
Результат: модель решила 5 задач AIME, которые раньше не могла, и даже превзошла точность своего «учителя» — 600B-модели, если брать голосование по итоговым ответам из множества параллельных циклов.
Метод прост:
1️⃣ Проверить текущий ответ
2️⃣ Исправить ошибки
3️⃣ Повторять несколько десятков итераций
Такой подход увеличивает время вычислений на тесте, но даёт гораздо более надёжные решения, фактически расширяя пределы возможностей малых моделей.
📄 Paper: arxiv.org/abs/2510.17498
Исследователи взяли 8B-модель на базе DeepSeek и заставили её проходить долгие итеративные reasoning-loops, где каждая итерация — это маленький шаг к более точному решению.
Если модель находит улучшение хоть чуть-чуть лучше предыдущего ответа, цикл продолжается.
Результат: модель решила 5 задач AIME, которые раньше не могла, и даже превзошла точность своего «учителя» — 600B-модели, если брать голосование по итоговым ответам из множества параллельных циклов.
Метод прост:
1️⃣ Проверить текущий ответ
2️⃣ Исправить ошибки
3️⃣ Повторять несколько десятков итераций
Такой подход увеличивает время вычислений на тесте, но даёт гораздо более надёжные решения, фактически расширяя пределы возможностей малых моделей.
📄 Paper: arxiv.org/abs/2510.17498
❤7🔥3
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
ByteDance выпустила модель Wan2.1-14B, специализирующуюся на задаче *
video-as-prompt*, то есть использование видео или комбинации изображений и текста как входных данных для генерации нового видео. - Работает в режимах «видео → видео» или «изображения/текст → видео».
- 14 млрд параметров — высокая детализация, плавная динамика, реалистичные движения.
- Использует исходное видео как шаблон стиля и композиции.
⚠️ Что стоит учитывать
- Модель требует мощных GPU и большого объёма памяти.
- Качество результата зависит от сложности запроса и длины видео.
@ai_machinelearning_big_data
#AI #VideoGeneration #ByteDance #Wan2 #HuggingFace
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
🎮 Погружение в мир AI-социума
Microverse — это песочница, где AI-герои взаимодействуют в открытом мире, развивая свои социальные связи. Проект включает демо-версию игры, созданной на Godot 4, и предлагает уникальный опыт общения с многофункциональными AI-персонажами.
🚀 Основные моменты:
- Песочница с AI-экосистемой для социальных взаимодействий
- Поддержка многопользовательских AI-диалогов
- Долговременная память для персонажей
- Автономное управление задачами и взаимодействиями
- Интеграция с различными AI-сервисами
📌 GitHub: https://github.com/KsanaDock/Microverse
#gdscript
Microverse — это песочница, где AI-герои взаимодействуют в открытом мире, развивая свои социальные связи. Проект включает демо-версию игры, созданной на Godot 4, и предлагает уникальный опыт общения с многофункциональными AI-персонажами.
🚀 Основные моменты:
- Песочница с AI-экосистемой для социальных взаимодействий
- Поддержка многопользовательских AI-диалогов
- Долговременная память для персонажей
- Автономное управление задачами и взаимодействиями
- Интеграция с различными AI-сервисами
📌 GitHub: https://github.com/KsanaDock/Microverse
#gdscript
❤3🔥1
Иногда полезно выйти за пределы привычных pet-проектов и Kaggle-соревнований — просто, чтобы напомнить себе, зачем ты этим вообще занимаешься.
Отбор заканчивается совсем скоро. Если ты чувствуешь, что уже перерос курсы и туториалы, — вот твой шанс проверить себя в реальном бою.
👉 yandex.ru/cup/2025
В Yandex Cup ты не соревнуешься ради бейджа или рейтинга. Здесь задачи максимально приближены к реальности: нужно балансировать между скоростью, качеством и интерпретируемостью решений.
Формат гибкий: сначала онлайн-этап, потом финал — офлайн, в Стамбуле. Призовой фонд — 12 млн рублей, но для многих главная мотивация — не деньги, а люди.
Сильные ML-инженеры из Яндекса и других компаний, открытые дискуссии, возможность показать себя и прокачаться рядом с теми, кто двигает индустрию вперёд.
Отбор заканчивается совсем скоро. Если ты чувствуешь, что уже перерос курсы и туториалы, — вот твой шанс проверить себя в реальном бою.
👉 yandex.ru/cup/2025
👍2👎2❤1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🧢CAP4D🧢!
Модель можно генерировать анимируемые 4D-аватары из любых изображений + управляющего видео.
🤩 Поддерживаются даже стилизованные фото!
👉 Код: github.com/felixtaubner/cap4d
🏠 Проект: felixtaubner.github.io/cap4d/
Модель можно генерировать анимируемые 4D-аватары из любых изображений + управляющего видео.
🤩 Поддерживаются даже стилизованные фото!
👉 Код: github.com/felixtaubner/cap4d
🏠 Проект: felixtaubner.github.io/cap4d/
❤3👍1
AIJ Deep Dive – must-attend событие для профессионалов в AI!
Специальный очный трек международной конференции AI Journey для инженеров будущего — для тех, кто создаёт AI своими руками.
Будет два тематических дня:
Почему это событие нельзя пропустить?
Локация: офис Сбера, Кутузовский проспект, д. 32, к. 1 (Е)
Дата: 19–20 ноября 2025 года
Подробности и регистрация: https://aij.ru/deepdive
Приходи и стань частью сообщества, которое пишет будущее!
Специальный очный трек международной конференции AI Journey для инженеров будущего — для тех, кто создаёт AI своими руками.
Будет два тематических дня:
1️⃣ День Науки (19 ноября) — прорывные исследования, передовые R&D-разработки и глубокий технический разбор решений.
2️⃣ День Бизнеса (20 ноября) — реальные кейсы внедрения AI, практические результаты и оценка эффективности.
Почему это событие нельзя пропустить?
✔️ Сообщество тех, кто уже сегодня формирует технологические стандарты завтрашнего дня
✔️ Только реальные кейсы, инсайды и решения
✔️ Нетворкинг и возможность установить контакты с ключевыми игроками рынка и перспективными коллегами
✔️ Постерная сессия научных статей, в том числе уровня А/А*
✔️ Возможность увидеть изнутри, как рождаются прорывные технологии
Локация: офис Сбера, Кутузовский проспект, д. 32, к. 1 (Е)
Дата: 19–20 ноября 2025 года
Подробности и регистрация: https://aij.ru/deepdive
Приходи и стань частью сообщества, которое пишет будущее!
🤖 NanoChat теперь живёт на Modal!
Разработчик перенёс мод для NanoChat от Карпаты на платформу @modal - теперь он обучается на 8× H100 и разворачивается на 1× A10G.
💡 Всё открыто:
Исходники и инструкция — github.com/Echen1246/smarternano
Онлайн-демо space3--nanochat-serve-chat.modal.run
Отличный пример того, как LLM можно поднять на своих GPU - просто, гибко и без огромной инфраструктуры.
Разработчик перенёс мод для NanoChat от Карпаты на платформу @modal - теперь он обучается на 8× H100 и разворачивается на 1× A10G.
💡 Всё открыто:
Исходники и инструкция — github.com/Echen1246/smarternano
Онлайн-демо space3--nanochat-serve-chat.modal.run
Отличный пример того, как LLM можно поднять на своих GPU - просто, гибко и без огромной инфраструктуры.
👍1👎1
Компании всё чаще переносят ИИ-модели в облако
В России растет тренд на использование генеративных нейросетей в облачной инфраструктуре. Облака дают больше инструментов для интеграции ИИ, упрощают масштабирование и делают внедрение экономически выгодным.
Yandex AI Studio — пример этой тенденции: платформа объединяет более 20 моделей и позволяет запускать AI-агентов и RAG-сценарии без программирования. С начала 2025 года спрос на генеративные модели на платформе вырос в 5 раз, ежемесячно там тратят десятки миллиардов токенов — показатель общего роста доверия бизнеса к облачным AI-решениям. Что характерно – на первом месте по потреблению YandexGPT, но около 30% трафика уже занимает Qwen3-235b, которую используют для агентских сценариев.
🔗 Подробнее здесь: https://www.vedomosti.ru/technology/news/2025/10/27/1150016-godovaya-viruchka
#AI #GenerativeAI #Agents #RAG
В России растет тренд на использование генеративных нейросетей в облачной инфраструктуре. Облака дают больше инструментов для интеграции ИИ, упрощают масштабирование и делают внедрение экономически выгодным.
Yandex AI Studio — пример этой тенденции: платформа объединяет более 20 моделей и позволяет запускать AI-агентов и RAG-сценарии без программирования. С начала 2025 года спрос на генеративные модели на платформе вырос в 5 раз, ежемесячно там тратят десятки миллиардов токенов — показатель общего роста доверия бизнеса к облачным AI-решениям. Что характерно – на первом месте по потреблению YandexGPT, но около 30% трафика уже занимает Qwen3-235b, которую используют для агентских сценариев.
🔗 Подробнее здесь: https://www.vedomosti.ru/technology/news/2025/10/27/1150016-godovaya-viruchka
#AI #GenerativeAI #Agents #RAG
😁3❤1👍1
