⚡️ Google выпустил ИИ-фотошоп, который редактирует фотографии с помощью текстовых команд — просто напишите в чате, что нужно изменить на вашей картинке, и нейросеть выполнит задачу.
⚫ Модель способна на многое: добавить текст на русском языке, заменить лицо человека или даже убрать Ежова с фотографии со Сталиным.
⚫ Как попробовать: зайдите в AI Studio и выберите модель Gemini 2.0 Flash Experimental. Установите формат вывода как «Image and text».
⚫ Бесплатный ИИ-фотошоп готов: просто загрузите свою фотографию и укажите нужные правки.
⚫ Кнопка «сделать красиво» — здесь.
👉 Попробовать здесь.
@machinelearning_ru
⚫ Модель способна на многое: добавить текст на русском языке, заменить лицо человека или даже убрать Ежова с фотографии со Сталиным.
⚫ Как попробовать: зайдите в AI Studio и выберите модель Gemini 2.0 Flash Experimental. Установите формат вывода как «Image and text».
⚫ Бесплатный ИИ-фотошоп готов: просто загрузите свою фотографию и укажите нужные правки.
⚫ Кнопка «сделать красиво» — здесь.
👉 Попробовать здесь.
@machinelearning_ru
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Новый апдейт Gemini содержит ряд интересных обновлений:
- Расширенные возможности модели: Обновлённая версия 2.0 Flash Thinking Experimental теперь поддерживает загрузку файлов и имеет увеличенное контекстное окно до 1 миллиона токенов, что позволяет решать более сложные задачи.
- Deep Research: Функция Deep Research стала доступна для всех пользователей. Теперь Gemini может быстро анализировать информацию из интернета и формировать подробные отчёты, показывая свой процесс рассуждения в реальном времени.
- Персонализация: Введена экспериментальная функция персонализации, которая связывает Gemini с Google-сервисами (например, Поиск, Календарь, Заметки). Это позволяет получать более индивидуальные и релевантные рекомендации на основе ваших предыдущих запросов.
- Появилась возможность создавать собственных виртуальных экспертов (Gems), что позволяет настраивать Gemini под конкретные задачи – будь то перевод, планирование питания или помощь в программировании.
Эти обновления доступны бесплатно в приложении Gemini.
https://blog.google/products/gemini/new-gemini-app-features-march-2025/
@machinelearning_ru
- Расширенные возможности модели: Обновлённая версия 2.0 Flash Thinking Experimental теперь поддерживает загрузку файлов и имеет увеличенное контекстное окно до 1 миллиона токенов, что позволяет решать более сложные задачи.
- Deep Research: Функция Deep Research стала доступна для всех пользователей. Теперь Gemini может быстро анализировать информацию из интернета и формировать подробные отчёты, показывая свой процесс рассуждения в реальном времени.
- Персонализация: Введена экспериментальная функция персонализации, которая связывает Gemini с Google-сервисами (например, Поиск, Календарь, Заметки). Это позволяет получать более индивидуальные и релевантные рекомендации на основе ваших предыдущих запросов.
- Появилась возможность создавать собственных виртуальных экспертов (Gems), что позволяет настраивать Gemini под конкретные задачи – будь то перевод, планирование питания или помощь в программировании.
Эти обновления доступны бесплатно в приложении Gemini.
https://blog.google/products/gemini/new-gemini-app-features-march-2025/
@machinelearning_ru
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
ML-комьюнити о крупнейших запусках LLM начала 2025 года:
✔️ DeepSeek — революция или переоцененный запуск?
Запуск китайской модели всколыхнул всю индустрию, вызвав неоднозначную реакцию экспертов. CEO Anthropic Дарио Амодей отмечает, что Claude 3.5 Sonnet, обученный за несколько десятков миллионов долларов, значительно опережает DeepSeek по многим показателям, плюс у модели нет никаких барьеров против генерации чувствительной информации. Демис Хассабис, генеральный директор Google DeepMind, считает DeepSeek лучшей работой китайских исследователей, но не видит в ней новых научных достижений.
✔️ Grok 3 — Маск не дотянул
ИИ-исследователь и профессор Пенсильванского университета Итан Моллик признал, что xAI очень быстро растёт, но Grok 3 пока точно не является лучшей моделью на рынке. Она превосходит некоторые модели OpenAI, но не o3. CTO Caylent Рэнделл Хант обнаружил ряд проблем с Grok 3: уязвимость к джейлбрейкам, неуместную саркастичность, медлительность и частые ошибки в ответах. По его словам, даже простые логические тесты оказались ей не под силу, что делает модель практически бесполезной для бизнес-задач. При этом CEO Replit Амджад Масад назвал Grok 3 передовой моделью и огромным достижением.
✔️ GPT-4.5 — не оправдал ожиданий экспертов
Релиз GPT-4.5 от OpenAI получил смешанные отзывы в профессиональном сообществе. Соучредитель OpenAI и бывший глава Tesla AI Андрей Карпатый отметил, что GPT-4.5 напомнил ему GPT-4 на момент релиза — он увидел потенциал этой модели. В посте на X он сказал, что при использовании GPT-4.5 «всё стало немного лучше, и это здорово, но не совсем так, как можно было бы ожидать». В более резких выражениях высказался известный критик Гэри Маркус, назвавший модель «пустышкой». Генеральный директор Hugging Face Клемент Деланж также остался недоволен, охарактеризовав GPT-4.5 как «так себе» и раскритиковав закрытость исходного кода.
✔️ YandexGPT 5 — что в России?
Виктор Тарнавский, директор по ИИ Т-Банка, отметил, что в Яндексе выложили Lite-версию модели в опенсорс, а пайплайн Pro-версии инициализировали весами от Qwen 2.5. По его мнению, это правильное решение, позволяющее избежать бессмысленной траты ресурсов. При этом, пишет Тарнавский, разработчики делают не файнтюн, а полный цикл обучения модели — просто стартуют претрейн не с нулевых весов. По опубликованным бенчмаркам, модели показывают хорошие результаты. В СМИ также писали, что Яндекс работает над ризонингом. Максим Болотских, директор ИИ в Яков и Партнёры (ex-McKinsey), прокомментировал, что ежегодные совокупные затраты на разработку подобного функционала могут составлять 10 млрд рублей и более, и такого рода модели могут монетизироваться не только классическими подписками B2C пользователей, но и значимо лучше решать задачи В2В-сегмента.
✔️ Gemini 2.0 Flash — лучшее соотношение цена/качество
Релиз Gemini 2.0 Flash от Google получил восторженные отклики экспертов. Тим Брукс, ИИ-исследователь в Google DeepMind, высоко оценил встроенную функцию генерации изображений с возможностью визуальной цепочки рассуждений. Соучредитель и бывший глава Intel AI Райан Карсон назвал модель "умной, быстрой и дешёвой", отметив отличную производительность при тестировании через API. Мэтт Шумер, соучредитель и генеральный директор компании OthersideAI, подчеркнул, что по большинству бенчмарков Gemini 2.0 Flash приближается к Claude 3.5 Sonnet и даже превосходит его в бенчмарке MATH, сохраняя при этом значительное ценовое преимущество.
✔️ Claude 3.7 — достойный шаг вперёд при умеренных затратах
Релиз Claude 3.7 от Anthropic получил преимущественно положительные отзывы экспертов. Сэм Альтман и Дарио Амодей подчеркнули экономическую эффективность разработки — обучение Claude 3.7 Sonnet обошлось лишь в несколько десятков миллионов долларов, что значительно меньше затрат на GPT-4. Артём Санакоев, ИИ-исследователь в Meta Generative AI и автор канала "эйай ньюз", выделил инновационный подход Anthropic к рассуждениям модели — в отличие от конкурентов, Claude использует единую модель без отдельного reasoning тюна.
@ai_machinelearning_big_data
#AI #ML #LLM
Запуск китайской модели всколыхнул всю индустрию, вызвав неоднозначную реакцию экспертов. CEO Anthropic Дарио Амодей отмечает, что Claude 3.5 Sonnet, обученный за несколько десятков миллионов долларов, значительно опережает DeepSeek по многим показателям, плюс у модели нет никаких барьеров против генерации чувствительной информации. Демис Хассабис, генеральный директор Google DeepMind, считает DeepSeek лучшей работой китайских исследователей, но не видит в ней новых научных достижений.
ИИ-исследователь и профессор Пенсильванского университета Итан Моллик признал, что xAI очень быстро растёт, но Grok 3 пока точно не является лучшей моделью на рынке. Она превосходит некоторые модели OpenAI, но не o3. CTO Caylent Рэнделл Хант обнаружил ряд проблем с Grok 3: уязвимость к джейлбрейкам, неуместную саркастичность, медлительность и частые ошибки в ответах. По его словам, даже простые логические тесты оказались ей не под силу, что делает модель практически бесполезной для бизнес-задач. При этом CEO Replit Амджад Масад назвал Grok 3 передовой моделью и огромным достижением.
Релиз GPT-4.5 от OpenAI получил смешанные отзывы в профессиональном сообществе. Соучредитель OpenAI и бывший глава Tesla AI Андрей Карпатый отметил, что GPT-4.5 напомнил ему GPT-4 на момент релиза — он увидел потенциал этой модели. В посте на X он сказал, что при использовании GPT-4.5 «всё стало немного лучше, и это здорово, но не совсем так, как можно было бы ожидать». В более резких выражениях высказался известный критик Гэри Маркус, назвавший модель «пустышкой». Генеральный директор Hugging Face Клемент Деланж также остался недоволен, охарактеризовав GPT-4.5 как «так себе» и раскритиковав закрытость исходного кода.
Виктор Тарнавский, директор по ИИ Т-Банка, отметил, что в Яндексе выложили Lite-версию модели в опенсорс, а пайплайн Pro-версии инициализировали весами от Qwen 2.5. По его мнению, это правильное решение, позволяющее избежать бессмысленной траты ресурсов. При этом, пишет Тарнавский, разработчики делают не файнтюн, а полный цикл обучения модели — просто стартуют претрейн не с нулевых весов. По опубликованным бенчмаркам, модели показывают хорошие результаты. В СМИ также писали, что Яндекс работает над ризонингом. Максим Болотских, директор ИИ в Яков и Партнёры (ex-McKinsey), прокомментировал, что ежегодные совокупные затраты на разработку подобного функционала могут составлять 10 млрд рублей и более, и такого рода модели могут монетизироваться не только классическими подписками B2C пользователей, но и значимо лучше решать задачи В2В-сегмента.
Релиз Gemini 2.0 Flash от Google получил восторженные отклики экспертов. Тим Брукс, ИИ-исследователь в Google DeepMind, высоко оценил встроенную функцию генерации изображений с возможностью визуальной цепочки рассуждений. Соучредитель и бывший глава Intel AI Райан Карсон назвал модель "умной, быстрой и дешёвой", отметив отличную производительность при тестировании через API. Мэтт Шумер, соучредитель и генеральный директор компании OthersideAI, подчеркнул, что по большинству бенчмарков Gemini 2.0 Flash приближается к Claude 3.5 Sonnet и даже превосходит его в бенчмарке MATH, сохраняя при этом значительное ценовое преимущество.
Релиз Claude 3.7 от Anthropic получил преимущественно положительные отзывы экспертов. Сэм Альтман и Дарио Амодей подчеркнули экономическую эффективность разработки — обучение Claude 3.7 Sonnet обошлось лишь в несколько десятков миллионов долларов, что значительно меньше затрат на GPT-4. Артём Санакоев, ИИ-исследователь в Meta Generative AI и автор канала "эйай ньюз", выделил инновационный подход Anthropic к рассуждениям модели — в отличие от конкурентов, Claude использует единую модель без отдельного reasoning тюна.
@ai_machinelearning_big_data
#AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
📹 DeepMind’s New AIs: The Future is Here!
https://www.youtube.com/watch?v=lgsD_wSZ0hI
@machinelearning_ru
https://www.youtube.com/watch?v=lgsD_wSZ0hI
@machinelearning_ru
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Новая SOTA для апскейлинга изображений, в которой используются нейронные тепловые поля (Neural Heat Fields) для произвольного масштабирования изображений без наложения спектров.
Основная идея заключается в том, что вместо обычного подхода, где каждый пиксель обрабатывается отдельно, этот метод учитывает влияние соседних пикселей. Это позволяет избежать искажений и сохранить плавность изображения при увеличении.
Предложенный метод достигает нового уровня качества в задаче arbitrary-scale super-resolution, оставаясь при этом существенно более параметрически эффективным по сравнению с предыдущими решениями.
@ai_machinelearning_big_data
#upscaling #neuralheatfields #opensource #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ С сожалением сообщаю, что мем-тест Тьюринга пройден.
LLM создают более смешные мемы, чем среднестатистический человек, по мнению людей.
ИМХО пока что лучшие мемы созданные людьми, все равно превосходят ИИ.
Вот отличный пример. Генератор изображений Gemini превратил эту статью в мем( картинка 3).
LLM создают более смешные мемы, чем среднестатистический человек, по мнению людей.
ИМХО пока что лучшие мемы созданные людьми, все равно превосходят ИИ.
Вот отличный пример. Генератор изображений Gemini превратил эту статью в мем( картинка 3).
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
📹 Вышла 2 лекция MIT курса 6.S191: Convolutional Neural Networks
https://www.youtube.com/watch?v=oGpzWAlP5p0
@machinelearning_ru
https://www.youtube.com/watch?v=oGpzWAlP5p0
@machinelearning_ru
Forwarded from Machinelearning
На GTC 2025 NVIDIA представила новую серию «персональных суперкомпьютеров с ИИ», построенных на платформе Grace Blackwell - DGX Spark и DGX Station. На них пользователи смогут создавать прототипы, настраивать и запускать модели ИИ.
DGX Spark использует GB10 Grace Blackwell с вычислительной мощностью до 100 трлн. операций в секунду. DGX Station получила чип GB300 Grace Blackwell и 784 ГБ памяти. Spark уже доступен к предзаказу, а Station, как ожидается, будет выпущена в течение этого года.
nvidianews.nvidia.com
Цена $150 за миллион токенов на вход и $600 на выход. Что примерно в 270 раз дороже DeepSeek-R1.
В приложении Google Gemini появилась новая функция «Холст», которая предоставляет интерактивное пространство для редактирования текста в реальном времени, позволяя создавать черновики и экспортировать их в Google Docs. Он также может генерировать и просматривать код HTML/React для упрощения дизайна веб-сайта.
Помимо "Холста" была запущена функция "текст-в-аудио", которая может обобщать загруженный текст из файлов в аудиоформате и имитировать обсуждение двух ИИ-ведущих так же, как это реализовано в NotebookLM. В настоящее время поддерживается только английский язык, но обещают, что в будущем появится мультиязычность.
9to5google.com
NVIDIA анонсировала выпуск профессиональной серии видеокарт для ИИ, 3D и научных исследований. В линейке RTX PRO 6000 будет 3 версии: Workstation Edition в дизайне RTX 5090, Server Edition с пассивным радиатором охлаждения для ЦОДов и Max-Q Edition с системой воздушного охлаждения турбинного типа для мульти-GPU решений.
Все три версии получат 96 ГБ G7 ECC VRAM, чипы GB202 и 24064 CUDA-ядер. Энергопотребление у Workstation Edition и Server Edition - 600 Вт, а у Max-Q Edition - 300 Вт. Дата начала продаж: апрель-май 2025 года, стоимость в анонсе не раскрывалась.
theverge.com
Компания Илона Маска совершила первую крупную сделку, поглотив стартап Hotshot, известный разработкой text-to-video моделей. Как заявил Маск в соцсети X, вскоре пользователей ждут «крутые ИИ-видео» — вероятно, благодаря интеграции технологий Hotshot в экосистему xAI.
Hotshot был основан в 2017 году и изначально создавал инструменты для редактирования фото на базе ИИ, но позже переключился на генерацию видео. За 2 года команда разработала 3 фундаментальные модели: Hotshot-XL, Hotshot Act One и Hotshot, которые позволяют превращать текстовые описания в реалистичные ролики. Финансовые условия сделки не раскрыты, однако известно, что стартап получит доступ к кластеру Colossus — мощной инфраструктуре xAI с 200 000 GPU NVIDIA H100.
analyticsindiamag.com
Deloitte представила Zora AI — ИИ-платформу, которая объединяет агентов для автоматизации сложных бизнес-процессов. Решение, построенное на моделях Llama Nemotron с функциями анализа и рассуждений, способно автономно выполнять задачи в финансах, HR, логистике и других сферах.
Платформа автоматизирует моделирование сценариев, анализ рынка и управление расходами, что подтверждает внутренний опыт Deloitte: автоматизация процессов снизила затраты на 25%, а продуктивность команды выросла на 40%.
deloitte.com
Обучена на 100 тыс. часов аудио. На выходе получается естественная и эмоциональная речь.
HF
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔊 Компания Kyutai только что выпустила MoshiVis — искусственный интеллект, преобразующий речь в речь в режиме реального времени, который может распознавать и озвучивать содержимое изображения — вашим голосом. 🖼️
> 🗣️ Поддерживает полнодуплексный разговор: говорит и слушает одновременно
> 🔊 Сохраняет заданные тон и эмоции
> ⚡ Задержка всего +7 мс — работа в режиме реального времени
Demo: https://vis.moshi.chat
Preprint: https://arxiv.org/abs/2503.15633
Dataset: https://huggingface.co/datasets/kyutai/Babillage
Weights: https://huggingface.co/kyutai/moshika-vis-pytorch-bf16
> 🗣️ Поддерживает полнодуплексный разговор: говорит и слушает одновременно
> 🔊 Сохраняет заданные тон и эмоции
> ⚡ Задержка всего +7 мс — работа в режиме реального времени
Demo: https://vis.moshi.chat
Preprint: https://arxiv.org/abs/2503.15633
Dataset: https://huggingface.co/datasets/kyutai/Babillage
Weights: https://huggingface.co/kyutai/moshika-vis-pytorch-bf16
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
✨ Киберпанк-стартап Wolf Games представил Public Eye — новую детективную игру, где всё построено на базе ИИ.
🕵️♀️ Сюжет:
В 2028 году мир утопает в преступности, и даже полиция вынуждена обращаться к гражданам (то есть к нам) за помощью в расследованиях.
💡 Особенности игры:
🟢 Ежедневно ИИ генерирует новые истории, вдохновляясь заголовками криминальных новостей 💀
🟢 Нейросети активно используются: они создают диалоги с персонажами, генерируют фото с мест преступлений и помогают нам, порой делая роль игроков практически незначимой 💀
🚀 Релиз Public Eye ожидается в середине этого лета. Готовы сыграть?
🕵️♀️ Сюжет:
В 2028 году мир утопает в преступности, и даже полиция вынуждена обращаться к гражданам (то есть к нам) за помощью в расследованиях.
Please open Telegram to view this post
VIEW IN TELEGRAM