Telegram Web
⚡️ Google выпустил ИИ-фотошоп, который редактирует фотографии с помощью текстовых команд — просто напишите в чате, что нужно изменить на вашей картинке, и нейросеть выполнит задачу.

Модель способна на многое: добавить текст на русском языке, заменить лицо человека или даже убрать Ежова с фотографии со Сталиным.
Как попробовать: зайдите в AI Studio и выберите модель Gemini 2.0 Flash Experimental. Установите формат вывода как «Image and text».
Бесплатный ИИ-фотошоп готов: просто загрузите свою фотографию и укажите нужные правки.
Кнопка «сделать красиво» — здесь.

👉 Попробовать здесь.

@machinelearning_ru
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Новый апдейт Gemini содержит ряд интересных обновлений:

- Расширенные возможности модели: Обновлённая версия 2.0 Flash Thinking Experimental теперь поддерживает загрузку файлов и имеет увеличенное контекстное окно до 1 миллиона токенов, что позволяет решать более сложные задачи.
- Deep Research: Функция Deep Research стала доступна для всех пользователей. Теперь Gemini может быстро анализировать информацию из интернета и формировать подробные отчёты, показывая свой процесс рассуждения в реальном времени.
- Персонализация: Введена экспериментальная функция персонализации, которая связывает Gemini с Google-сервисами (например, Поиск, Календарь, Заметки). Это позволяет получать более индивидуальные и релевантные рекомендации на основе ваших предыдущих запросов.
- Появилась возможность создавать собственных виртуальных экспертов (Gems), что позволяет настраивать Gemini под конкретные задачи – будь то перевод, планирование питания или помощь в программировании.

Эти обновления доступны бесплатно в приложении Gemini.

https://blog.google/products/gemini/new-gemini-app-features-march-2025/

@machinelearning_ru
📖 В этой статье представлена новая архитектура модели под названием Inner Thinking Transformer (ITT), направленная на улучшение способности языковых моделей к адаптивному внутреннему мышлению без увеличения количества параметров!

💡 Авторы выявили, что сложные токены вызывают резкие всплески градиентов в стандартных трансформерах, что указывает на архитектурные ограничения при обработке таких токенов. В ответ на это ITT динамически распределяет вычислительные ресурсы через адаптивную маршрутизацию токенов, итеративно улучшает представления с помощью остаточных связей мышления и различает этапы рассуждений посредством кодирования шагов мышления. Это позволяет более глубоко обрабатывать критические токены без увеличения параметров модели.​

🌟 Экспериментальные результаты показывают, что ITT достигает 96,5% производительности модели с 466 миллионами параметров, используя всего 162 миллиона параметров, сокращает объем необходимых обучающих данных на 43,2% и превосходит варианты Transformer/Loop в 11 различных тестах. Таким образом, ITT эффективно балансирует между производительностью и эффективностью, оптимизируя внутренние процессы мышления модели.​

🔗 Ссылка: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
ML-комьюнити о крупнейших запусках LLM начала 2025 года:

✔️ DeepSeek — революция или переоцененный запуск?

Запуск китайской модели всколыхнул всю индустрию, вызвав неоднозначную реакцию экспертов. CEO Anthropic Дарио Амодей отмечает, что Claude 3.5 Sonnet, обученный за несколько десятков миллионов долларов, значительно опережает DeepSeek по многим показателям, плюс у модели нет никаких барьеров против генерации чувствительной информации. Демис Хассабис, генеральный директор Google DeepMind, считает DeepSeek лучшей работой китайских исследователей, но не видит в ней новых научных достижений.

✔️ Grok 3 — Маск не дотянул

ИИ-исследователь и профессор Пенсильванского университета Итан Моллик признал, что xAI очень быстро растёт, но Grok 3 пока точно не является лучшей моделью на рынке. Она превосходит некоторые модели OpenAI, но не o3. CTO Caylent Рэнделл Хант обнаружил ряд проблем с Grok 3: уязвимость к джейлбрейкам, неуместную саркастичность, медлительность и частые ошибки в ответах. По его словам, даже простые логические тесты оказались ей не под силу, что делает модель практически бесполезной для бизнес-задач. При этом CEO Replit Амджад Масад назвал Grok 3 передовой моделью и огромным достижением.

✔️ GPT-4.5 — не оправдал ожиданий экспертов

Релиз GPT-4.5 от OpenAI получил смешанные отзывы в профессиональном сообществе. Соучредитель OpenAI и бывший глава Tesla AI Андрей Карпатый отметил, что GPT-4.5 напомнил ему GPT-4 на момент релиза — он увидел потенциал этой модели. В посте на X он сказал, что при использовании GPT-4.5 «всё стало немного лучше, и это здорово, но не совсем так, как можно было бы ожидать». В более резких выражениях высказался известный критик Гэри Маркус, назвавший модель «пустышкой». Генеральный директор Hugging Face Клемент Деланж также остался недоволен, охарактеризовав GPT-4.5 как «так себе» и раскритиковав закрытость исходного кода.

✔️ YandexGPT 5 — что в России?

Виктор Тарнавский, директор по ИИ Т-Банка, отметил, что в Яндексе выложили Lite-версию модели в опенсорс, а пайплайн Pro-версии инициализировали весами от Qwen 2.5. По его мнению, это правильное решение, позволяющее избежать бессмысленной траты ресурсов. При этом, пишет Тарнавский, разработчики делают не файнтюн, а полный цикл обучения модели — просто стартуют претрейн не с нулевых весов. По опубликованным бенчмаркам, модели показывают хорошие результаты. В СМИ также писали, что Яндекс работает над ризонингом. Максим Болотских, директор ИИ в Яков и Партнёры (ex-McKinsey), прокомментировал, что ежегодные совокупные затраты на разработку подобного функционала могут составлять 10 млрд рублей и более, и такого рода модели могут монетизироваться не только классическими подписками B2C пользователей, но и значимо лучше решать задачи В2В-сегмента.

✔️ Gemini 2.0 Flash — лучшее соотношение цена/качество

Релиз Gemini 2.0 Flash от Google получил восторженные отклики экспертов. Тим Брукс, ИИ-исследователь в Google DeepMind, высоко оценил встроенную функцию генерации изображений с возможностью визуальной цепочки рассуждений. Соучредитель и бывший глава Intel AI Райан Карсон назвал модель "умной, быстрой и дешёвой", отметив отличную производительность при тестировании через API. Мэтт Шумер, соучредитель и генеральный директор компании OthersideAI, подчеркнул, что по большинству бенчмарков Gemini 2.0 Flash приближается к Claude 3.5 Sonnet и даже превосходит его в бенчмарке MATH, сохраняя при этом значительное ценовое преимущество.

✔️ Claude 3.7 — достойный шаг вперёд при умеренных затратах

Релиз Claude 3.7 от Anthropic получил преимущественно положительные отзывы экспертов. Сэм Альтман и Дарио Амодей подчеркнули экономическую эффективность разработки — обучение Claude 3.7 Sonnet обошлось лишь в несколько десятков миллионов долларов, что значительно меньше затрат на GPT-4. Артём Санакоев, ИИ-исследователь в Meta Generative AI и автор канала "эйай ньюз", выделил инновационный подход Anthropic к рассуждениям модели — в отличие от конкурентов, Claude использует единую модель без отдельного reasoning тюна.

@ai_machinelearning_big_data

#AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 В этой статье проводится иследование, как улучшить работу больших языковых моделей при обработке длинных контекстов!

🌟 Авторы анализируют распределение внимания на разных слоях модели и выявляют его связь с качеством генерируемых ответов. На основе этих наблюдений они предлагают метод InfiniRetri, который использует информацию о внимании самой модели для точного извлечения данных из входных последовательностей произвольной длины.

🔗 Ссылка: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ Thera: Aliasing-Free Arbitrary-Scale Super-Resolution with Neural Heat Fields

Новая SOTA для апскейлинга изображений, в которой используются нейронные тепловые поля (Neural Heat Fields) для произвольного масштабирования изображений без наложения спектров.

Основная идея заключается в том, что вместо обычного подхода, где каждый пиксель обрабатывается отдельно, этот метод учитывает влияние соседних пикселей. Это позволяет избежать искажений и сохранить плавность изображения при увеличении.

Предложенный метод достигает нового уровня качества в задаче arbitrary-scale super-resolution, оставаясь при этом существенно более параметрически эффективным по сравнению с предыдущими решениями.

🟢 Универсальность: Возможность масштабирования с практически любым разрешением делает инструмент гибким для различных задач в компьютерном зрении и обработке изображений.
🟢Простота интеграции: Доступны чекпоинты, понятная документация и готовые скрипты для суперразрешения позволяют легко внедрить инструмент в проекты.

🟡Проект: therasr.github.io
🟡Статья: arxiv.org/abs/2311.17643
🟡Github: github.com/prs-eth/thera
🟡Demo: https://huggingface.co/spaces/prs-eth/thera

@ai_machinelearning_big_data


#upscaling #neuralheatfields #opensource #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ С сожалением сообщаю, что мем-тест Тьюринга пройден.

LLM создают более смешные мемы, чем среднестатистический человек, по мнению людей.

ИМХО пока что лучшие мемы созданные людьми, все равно превосходят ИИ.


Вот отличный пример. Генератор изображений Gemini превратил эту статью в мем( картинка 3).
🔥 NarratoAI — инструмент, который использует LLM для генерации сценариев, автоматического редактирования видео, озвучивания и создания субтитров!

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
✔️ Nvidia выпускает 2 персональных суперкомпьютера.

На GTC 2025 NVIDIA представила новую серию «персональных суперкомпьютеров с ИИ», построенных на платформе Grace Blackwell - DGX Spark и DGX Station. На них пользователи смогут создавать прототипы, настраивать и запускать модели ИИ.

DGX Spark использует GB10 Grace Blackwell с вычислительной мощностью до 100 трлн. операций в секунду. DGX Station получила чип GB300 Grace Blackwell и 784 ГБ памяти. Spark уже доступен к предзаказу, а Station, как ожидается, будет выпущена в течение этого года.
nvidianews.nvidia.com

✔️ OpenAI выпустили o1-pro и сейчас это самая дорогая модель.

Цена $150 за миллион токенов на вход и $600 на выход. Что примерно в 270 раз дороже DeepSeek-R1.

✔️ В Gemini добавили новые инструменты.

В приложении Google Gemini появилась новая функция «Холст», которая предоставляет интерактивное пространство для редактирования текста в реальном времени, позволяя создавать черновики и экспортировать их в Google Docs. Он также может генерировать и просматривать код HTML/React для упрощения дизайна веб-сайта.

Помимо "Холста" была запущена функция "текст-в-аудио", которая может обобщать загруженный текст из файлов в аудиоформате и имитировать обсуждение двух ИИ-ведущих так же, как это реализовано в NotebookLM. В настоящее время поддерживается только английский язык, но обещают, что в будущем появится мультиязычность.
9to5google.com

✔️ RTX PRO 6000 от NVIDIA

NVIDIA анонсировала выпуск профессиональной серии видеокарт для ИИ, 3D и научных исследований. В линейке RTX PRO 6000 будет 3 версии: Workstation Edition в дизайне RTX 5090, Server Edition с пассивным радиатором охлаждения для ЦОДов и Max-Q Edition с системой воздушного охлаждения турбинного типа для мульти-GPU решений.

Все три версии получат 96 ГБ G7 ECC VRAM, чипы GB202 и 24064 CUDA-ядер. Энергопотребление у Workstation Edition и Server Edition - 600 Вт, а у Max-Q Edition - 300 Вт. Дата начала продаж: апрель-май 2025 года, стоимость в анонсе не раскрывалась.
theverge.com

✔️ xAI приобрела стартап Hotshot для развития генерации видео из текста.

Компания Илона Маска совершила первую крупную сделку, поглотив стартап Hotshot, известный разработкой text-to-video моделей. Как заявил Маск в соцсети X, вскоре пользователей ждут «крутые ИИ-видео» — вероятно, благодаря интеграции технологий Hotshot в экосистему xAI.

Hotshot был основан в 2017 году и изначально создавал инструменты для редактирования фото на базе ИИ, но позже переключился на генерацию видео. За 2 года команда разработала 3 фундаментальные модели: Hotshot-XL, Hotshot Act One и Hotshot, которые позволяют превращать текстовые описания в реалистичные ролики. Финансовые условия сделки не раскрыты, однако известно, что стартап получит доступ к кластеру Colossus — мощной инфраструктуре xAI с 200 000 GPU NVIDIA H100.
analyticsindiamag.com

✔️ Deloitte запускает Zora AI: автономные агенты для бизнеса.

Deloitte представила Zora AI — ИИ-платформу, которая объединяет агентов для автоматизации сложных бизнес-процессов. Решение, построенное на моделях Llama Nemotron с функциями анализа и рассуждений, способно автономно выполнять задачи в финансах, HR, логистике и других сферах.

Платформа автоматизирует моделирование сценариев, анализ рынка и управление расходами, что подтверждает внутренний опыт Deloitte: автоматизация процессов снизила затраты на 25%, а продуктивность команды выросла на 40%.
deloitte.com

✔️Orpheus 3B - новый высококачественный, генератор эмоциональной речи - лицензия Apache 2.0! 🔥

Обучена на 100 тыс. часов аудио. На выходе получается естественная и эмоциональная речь.
HF

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 apple-mcp — это коллекция нативных инструментов, разработанных для интеграции с приложениями Apple посредством Model Context Protocol (MCP)!

🌟 Этот набор позволяет отправлять и получать сообщения из приложения "Сообщения", а также искать и открывать заметки и контакты в соответствующих приложениях. В планах разработчиков — добавить поддержку календарных событий, напоминаний, фотографий и музыки.

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔊 Компания Kyutai только что выпустила MoshiVis — искусственный интеллект, преобразующий речь в речь в режиме реального времени, который может распознавать и озвучивать содержимое изображения — вашим голосом. 🖼️

> 🗣️ Поддерживает полнодуплексный разговор: говорит и слушает одновременно
> 🔊 Сохраняет заданные тон и эмоции
> Задержка всего +7 мс — работа в режиме реального времени

Demo: https://vis.moshi.chat
Preprint: https://arxiv.org/abs/2503.15633
Dataset: https://huggingface.co/datasets/kyutai/Babillage
Weights: https://huggingface.co/kyutai/moshika-vis-pytorch-bf16
🔥 ScreenPipe — это платформа с открытым исходным кодом для создания, распространения и монетизации AI-приложений с полным контекстом (например, аналогов Rewind или Granola)!

🌟 Она позволяет 24/7 записывать экран, микрофон и нажатия клавиш локально, без передачи данных в облако. Проект разработан с упором на удобство для разработчиков и совместим с различными интеграциями, включая Stripe для монетизации.

🔐 Лицензия: MIT

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Киберпанк-стартап Wolf Games представил Public Eye — новую детективную игру, где всё построено на базе ИИ.

🕵️‍♀️ Сюжет:

В 2028 году мир утопает в преступности, и даже полиция вынуждена обращаться к гражданам (то есть к нам) за помощью в расследованиях.


💡 Особенности игры:
🟢 Ежедневно ИИ генерирует новые истории, вдохновляясь заголовками криминальных новостей 💀
🟢 Нейросети активно используются: они создают диалоги с персонажами, генерируют фото с мест преступлений и помогают нам, порой делая роль игроков практически незначимой 💀

🚀 Релиз Public Eye ожидается в середине этого лета. Готовы сыграть?
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/06/19 05:08:57
Back to Top
HTML Embed Code: