Forwarded from ODS Events
Всем привет!
Встречайте шестнадцатый выпуск подкаста "Капитанский мостик". В этот раз подкаст проводился вживую, как часть программы Data Fest Siberia 6, обсуждение самых актуальных новостей из мира ИИ прошло в формате открытого диалога с аудиторией Феста 🎉
Ведущие выпуска - Валентин Малых и Дмитрий Колодезев.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
Встречайте шестнадцатый выпуск подкаста "Капитанский мостик". В этот раз подкаст проводился вживую, как часть программы Data Fest Siberia 6, обсуждение самых актуальных новостей из мира ИИ прошло в формате открытого диалога с аудиторией Феста 🎉
Ведущие выпуска - Валентин Малых и Дмитрий Колодезев.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
😢2❤1🔥1
Forwarded from Machinelearning
OmniVinci - модель, способная одновременно понимать и обрабатывать разные типы информации: текст, изображения, видео и звук.
Модель крайне эффективна, несмотря на то, что была обучена всего на 200 млрд. токенов (что в 6 раз меньше, чем у Qwen2.5-Omni - 1.2 трлн.). Это стало возможным благодаря архитектурным фишкам и тщательному подходу к подготовке данных.
В основе OmniVinci 3 компонента:
Абляция показала, что вклад каждого элемента играет свою важную роль: базовая модель с простой конкатенацией токенов набирает в среднем 45.51 балла. Добавление TEG поднимает результат до 47.72 (+2.21), CRTE — до 50.25 (+4.74 от базовой), а финальный слой в виде OmniAlignNet доводит средний балл до 52.59, что в сумме дает прирост в 7.08 пункта.
Данные для обучения - 24 млн. диалогов, которые пропустили через систему, где отдельная LLM анализирует и объединяет описания из нескольких модальностей, создавая единую и корректную аннотацю.
Итоговый датасет на 36% состоял из изображений, на 21% из звуков, на 17% из речи, 15% - из смешанных данных и на 11% из видео.
В бенчах OmniVinci обошла всех конкурентов. На Worldsense модель набрала 48.23 балла против 45.40 у Qwen2.5-Omni. На Dailyomni - 66.50 против 47.45. В аудио-задачах OmniVinci тоже молодец: 58.40 в MMAR и 71.60 в MMAU.
В распознавании речи модель показала WER 1.7% на датасете LibriSpeech-clean.
Применение модели протестили на практике. В задаче классификации дефектов полупроводниковых пластин, OmniVinci достигла точности 98.1%, что лучше, чем у специализированной NVILA (97.6%), и у более крупную 40-миллиардную VILA (90.8%).
@ai_machinelearning_big_data
#AI #ML #NVIDIA #OmniVinci
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍3🔥1🤯1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
🌐 OpenAI представила Atlas - свой новый AI-браузер с памятью и режимом агента.
Atlas полностью интегрирован с ChatGPT и работает на базе ChatGPT Search.
Главная фишка - Agent Mode, который может самостоятельно перемещаться по сайтам, открывать страницы и выполнять задачи прямо в браузере.
Можно запускать несколько вкладок с агентами одновременно.
🧠 Браузер также имеет постоянную память (Memory Recall), он запоминает контекст, прошлые действия и может продолжить с того места, где вы остановились.
Atlas уже доступен для всех пользователей: Free, Plus, Pro, Go и Business.
Для Enterprise и Education доступна бета-версия по разрешению администратора.
📱 Доступен для MacOs. Версии для Windows, iOS и Android - в разработке.
Скоро поделюсь результатами тестов и первыми впечатлениями от Agent Mode.
@ai_machinelearning_big_data
https://chatgpt.com/atlas
#OpenAI #Atlas #ChatGPT #AIbrowser #AgentMode
Atlas полностью интегрирован с ChatGPT и работает на базе ChatGPT Search.
Главная фишка - Agent Mode, который может самостоятельно перемещаться по сайтам, открывать страницы и выполнять задачи прямо в браузере.
Можно запускать несколько вкладок с агентами одновременно.
🧠 Браузер также имеет постоянную память (Memory Recall), он запоминает контекст, прошлые действия и может продолжить с того места, где вы остановились.
Atlas уже доступен для всех пользователей: Free, Plus, Pro, Go и Business.
Для Enterprise и Education доступна бета-версия по разрешению администратора.
📱 Доступен для MacOs. Версии для Windows, iOS и Android - в разработке.
Скоро поделюсь результатами тестов и первыми впечатлениями от Agent Mode.
@ai_machinelearning_big_data
https://chatgpt.com/atlas
#OpenAI #Atlas #ChatGPT #AIbrowser #AgentMode
👍5🔥3🤯3❤1