Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
71 - Telegram Web
Telegram Web
🥳 Мы выложили в открытый доступ DPF - наш фреймворк для обработки и фильтрации мультимодальных данных 🥳

С помощью Data Processing Framework мы уже готовим данные для обучения таких моделей как Kandinsky и Kandinsky Video. Репозиторий содержит фильтры для видео, изображений, различных комбинаций этих модальностей, а также удобный интерфейс к ним - и теперь это доступно для всех!

Буду рад любому контрибьюту в этот фреймворк 🤗

Полезные ссылки:
👉 Хабр
👉 GitHub
👍15🔥113
Вышла новая китайская модель для генерации видео по тексту 可灵 (или просто Kling)!

Выпустила её Kuaishou Technology — китайская компания, которая разрабатывает одноимённую платформу для коротких видео (и довольно популярна в Китае).

Как заявляют авторы:
👉 модель представляет собой Diffusion Transformer (DiT), работающий в латентном пространстве закодированных видео (при этом при обучении DiT берутся видео разного разрешения и соотношения сторон);
👉 в качестве автоэнкодера видео используется специально обученный 3D VAE;
👉 модель может генерировать Full HD видео (разрешение 1920 х 1080) длинной до 2 минут с частотой 30 кадров в секунду (время, за которое модель генерирует такое видео, авторы не уточняют); при этом Sora за один проход умеет генерировать только минутное видео.

Как водится в последнее время, авторы Kling утверждают, что модель способна отлично имитировать физические характеристики реального мира и создавать видеоролики, соответствующие законам физики (что сейчас так или иначе является целью каждой команды, которая создает собственные text-to-video модели). Хотя всё ещё видны артефакты генерации (даже на представленных черри-пиках).

Концептуально в этом подходе к генерации видео нет ничего нового по сравнению с последними сравнимыми по качеству моделями такими как Sora (OpenAI), Vidu (Tsinghua University and ShengShu Technology), Veo (DeepMind). Очень большую роль играют и значимо влияют на финальное качество:
👉 данные, на которых обучалась модель, их количество и, самое главное, качество (в случае Kling эта информация неизвестна - как и в случае большинства других моделей генерации видео);
👉 количество compute, затраченного на обучение (то есть фактически спецификация и размер кластера и время обучения); в частности, авторы Kling специально подчёркивают большую отдачу (с точки зрения финального качества модели) от масшабирования архитектуры и процесса оптимизации её обучения.

Модель Kling закрытая, есть только статья с примерами в блоге и ссылка на бета-тестирование (правда чтобы в нём поучаствовать, нужен китайский номер 😄)

@dendi_math_ai
🔥17👍7🤩41
Мы строили, строили и наконец-то построили :) Книга «Охота на электроовец: большая книга искусственного интеллекта» вышла из печати и доступна к заказу. Полные электронные версии книги (epub, docx, pdf) можно скачать с сайта бесплатно: http://markoff.science#book

«Мифы и заблуждения об искусственном интеллекте, страхи, насущные проблемы, перспективные направления исследований — обо всём этом вы узнаете из «Большой книги искусственного интеллекта»
👍21🔥95
⚡️Буквально несколько часов остаётся до дедлайна подачи заявок на отбор в магистратуру Сколтеха «Науки о данных».

Приведу слова Ивана Оселедца, который является директором вышеупомянутой магистратуры: «Основная фишка DS-магистратуры Сколтеха — это идея deep dive: если это исследования, то исследования с прицелом на A* конференции, если стартап — с прицелом на продукт и рост. Вы сможете поработать с лучшими научными группами в области ИИ, которые регулярно пишут топовые статьи».

На мой взгляд, это очень круто (и, самое главное, полезно)! Поэтому успейте податься, всем удачи! 🤗
👍13🔥84💯1
🥳 Мы выпустили новую линейку моделей Kandinsky 4.0 🥳

Это 4 модели:
👉 Kandinsky 4.0 T2V (text-to-video) — для генерации видеоряда продолжительностью до 12 секунд в разрешении HD (1280×720) с разным соотношением сторон.
👉 Kandinsky 4.0 T2V Flash (быстрый text-to-video) — для генерации видеоряда также продолжительностью до 12 секунд, но в разрешении 480p (720×480); генерация занимает всего 11 секунд (быстрее, чем длительность генерируемого видео!) на 1 H100.
👉 Kandinsky 4.0 I2V (image-to-video) — для «оживления» стартового кадра (то есть генерации видео по стартовому кадру и тексту), полученная с весов Kandinsky 4.0 T2V.
👉 Kandinsky 4.0 V2A (video-to-audio) — для генерации синхронного аудио к видео.

Подробнее про каждую из моделей можно почитать на Хабр или изучить GitHub (есть project page), а попробовать модель Kandinsky 4.0 T2V Flash можно в Spaces 🤗

Пока что доступ к моделям T2V и I2V ограниченный (в рамках инструмента https://fusionbrain.ai/, который даёт его пользователям возможность генерировать мини-фильмы — со сценарием, полноценным видеорядом и звуковым сопровождением), для широкой аудитории нейросети будут также доступны очень скоро.

Stay tuned!

И аккуратно — во вложении есть видео со звуком :)

@dendi_math_ai
21🔥18👍9👏3😁21
Поздравляю всех с Новым годом! 🎄🎉

Год был непростой, но очень продуктивный: получилось представить несколько новых версий Kandinsky, поучаствовать в топовых конференциях и написать ряд статей! 💪 В 2025 году всё будет ещё активнее, буду чаще делиться с вами разными новостями :) 🤗

Всем успехов в 2025!
👍1810🎉7🔥21
2025/10/12 17:14:49
Back to Top
HTML Embed Code: