1. Что представляют из себя роботы с точки зрения программного обеспечения
Начать наше путешествие стоит с базового представления о том, как устроено ПО, которое оперирует роботами. Да, вопросы механики и электроники рассматривать мы не будем - это было бы слишком для DL-блога) Привести строгую иерархию и/или классификацию решаемых задач довольно сложно, т.к. у разных типов роботов (колесные/гусеничные мобильные роботы, манипуляторы, четвероногие роботы) есть свои особенности. Однако, следующие задачи так или иначе актуальны для большинства роботов:
• Управление (control)
• Восприятие (perception)
• Планирование (planning)
Управление (control), пожалуй, находится наиболее близко к границе между софтом и железом. Как бы очевидно это не звучало, но задача управления - привести робота в движение в соответствии с входным управляющим воздействием при наличии различного рода отклонений и внешних воздействий (например, изменяющиеся параметры трения, массы робота, и многое другое). Все это дело строится по большей части на основе теории автоматического управления (ТАУ), в англоязычных источниках её также называют Control Theory или просто Controls.
К восприятию (perception) относят все, что помогает роботу понимать, что происходит в окружающем его мире. В первую очередь, к этому относится обработка показаний всевозможных сенсоров и извлечение полезных данных из их показаний. Одними из самых сложных и самых важных направлений здесь являются задачи, связанные с "пониманием" роботом своего положения и движения в пространстве, а именно:
• Картирования (mapping) - построение карт пространства;
• Локализации (localization) - определения положения по построенной карте;
• Одометрии (odometry) - оценка перемещения робота относительно начальной позиции.
Первые две задачи часто объединяют в одну под названием simultaneous localization and mapping (SLAM).
• Планирование (planning) часто относят к высокоуровневым компонентам роботехнического стэка, т.е. максимально отдаленных от железа и, во многих случаях, универсальных в пределах "типажей" роботов. Здесь хотелось бы привести субъективную классификацию направлений:
• Планирование пути (path planning) - поиск маршрута к заданной точке на карте (либо без нее);
• Планирование движения (motion planning) - в какой-то степени более обобщенное видение предыдущего пункта - планирование последовательности промежуточных состояний робота для достижения целевого состояния (актуально, например, для манипуляторов и гуманоидных роботов);
• Планирование поведения (behaviour planning) - планирование некой высокоуровневой последовательности действий, или миссии для робота
Стоит отметить, что данная схема направлений не является строгой - так, например, многие методы находятся на стыке или инкапсулируют в себе сразу несколько направлений, чаще всего - планирование и управление, либо планирование и восприятие.
Начать наше путешествие стоит с базового представления о том, как устроено ПО, которое оперирует роботами. Да, вопросы механики и электроники рассматривать мы не будем - это было бы слишком для DL-блога) Привести строгую иерархию и/или классификацию решаемых задач довольно сложно, т.к. у разных типов роботов (колесные/гусеничные мобильные роботы, манипуляторы, четвероногие роботы) есть свои особенности. Однако, следующие задачи так или иначе актуальны для большинства роботов:
• Управление (control)
• Восприятие (perception)
• Планирование (planning)
Управление (control), пожалуй, находится наиболее близко к границе между софтом и железом. Как бы очевидно это не звучало, но задача управления - привести робота в движение в соответствии с входным управляющим воздействием при наличии различного рода отклонений и внешних воздействий (например, изменяющиеся параметры трения, массы робота, и многое другое). Все это дело строится по большей части на основе теории автоматического управления (ТАУ), в англоязычных источниках её также называют Control Theory или просто Controls.
К восприятию (perception) относят все, что помогает роботу понимать, что происходит в окружающем его мире. В первую очередь, к этому относится обработка показаний всевозможных сенсоров и извлечение полезных данных из их показаний. Одними из самых сложных и самых важных направлений здесь являются задачи, связанные с "пониманием" роботом своего положения и движения в пространстве, а именно:
• Картирования (mapping) - построение карт пространства;
• Локализации (localization) - определения положения по построенной карте;
• Одометрии (odometry) - оценка перемещения робота относительно начальной позиции.
Первые две задачи часто объединяют в одну под названием simultaneous localization and mapping (SLAM).
• Планирование (planning) часто относят к высокоуровневым компонентам роботехнического стэка, т.е. максимально отдаленных от железа и, во многих случаях, универсальных в пределах "типажей" роботов. Здесь хотелось бы привести субъективную классификацию направлений:
• Планирование пути (path planning) - поиск маршрута к заданной точке на карте (либо без нее);
• Планирование движения (motion planning) - в какой-то степени более обобщенное видение предыдущего пункта - планирование последовательности промежуточных состояний робота для достижения целевого состояния (актуально, например, для манипуляторов и гуманоидных роботов);
• Планирование поведения (behaviour planning) - планирование некой высокоуровневой последовательности действий, или миссии для робота
Стоит отметить, что данная схема направлений не является строгой - так, например, многие методы находятся на стыке или инкапсулируют в себе сразу несколько направлений, чаще всего - планирование и управление, либо планирование и восприятие.
2. Как и зачем мы можем применить машинное обучение
Для всех направлений, безусловно, существует множество классических, устоявшихся подходов. Однако, накопленный индустрией опыт выделяет следующие проблемы, которые может помогает решить ML:
• Сложность построения и тюнинга математических моделей (актуально в первую очередь для управления и планирования), а также проблема их устойчивости - для решения этой проблемы активно развивается применение методов Reinforcement, Supervised и Self-supervised Learning;
• Область восприятия во многом строится на методах 2D и 3D компьютерного зрения. Для задач детекции объектов, очевидно, у нас есть SOTA-нейронные детекторы. Для решения задач локализации и картирования классические методы сами по себе являются довольно сильными бейзлайнами, и одно из направлений применения ML - это глубокие методы 2D и 3D Feature Extraction и Feature Matching;
• Работа с "неформальными" входными данными и целями. Пример подобных задач - движение робота с соблюдением каких-либо правил (например, социальных норм), или, например, поиск объекта и последующая манипуляция на основе только лишь изображения или текстового описания объекта. В подобных примерах очень тяжело составить математические модели и постановку задачи, и здесь на помощь приходят те же RL, Self-supervised Learning, а также LLM-ки.
Однако, вместе с применением ML возникают и дополнительные сложности:
• Проблема "переноса из симуляции в реальный мир" (Sim2Real gap) - актуально в первую очередь для RL-политик и ряда vision-моделей, обученных в симуляторах;
• Проблема generalization, в общем-то ставшая классикой для ML;
• Проблема безопасности и сертификации - для ряда классических подходов к управлению и планированию были разработаны методы, позволяющие получить некоторые формальные гарантии к безопасности системы, в подходах на основе ML с этим все обстоит намного сложнее.
Эти, а также многие другие области применения и вызовы мы рассмотрим в следующих постах на примере различных публикаций, как свежайших, так и уже ставших "классикой"!
Для всех направлений, безусловно, существует множество классических, устоявшихся подходов. Однако, накопленный индустрией опыт выделяет следующие проблемы, которые может помогает решить ML:
• Сложность построения и тюнинга математических моделей (актуально в первую очередь для управления и планирования), а также проблема их устойчивости - для решения этой проблемы активно развивается применение методов Reinforcement, Supervised и Self-supervised Learning;
• Область восприятия во многом строится на методах 2D и 3D компьютерного зрения. Для задач детекции объектов, очевидно, у нас есть SOTA-нейронные детекторы. Для решения задач локализации и картирования классические методы сами по себе являются довольно сильными бейзлайнами, и одно из направлений применения ML - это глубокие методы 2D и 3D Feature Extraction и Feature Matching;
• Работа с "неформальными" входными данными и целями. Пример подобных задач - движение робота с соблюдением каких-либо правил (например, социальных норм), или, например, поиск объекта и последующая манипуляция на основе только лишь изображения или текстового описания объекта. В подобных примерах очень тяжело составить математические модели и постановку задачи, и здесь на помощь приходят те же RL, Self-supervised Learning, а также LLM-ки.
Однако, вместе с применением ML возникают и дополнительные сложности:
• Проблема "переноса из симуляции в реальный мир" (Sim2Real gap) - актуально в первую очередь для RL-политик и ряда vision-моделей, обученных в симуляторах;
• Проблема generalization, в общем-то ставшая классикой для ML;
• Проблема безопасности и сертификации - для ряда классических подходов к управлению и планированию были разработаны методы, позволяющие получить некоторые формальные гарантии к безопасности системы, в подходах на основе ML с этим все обстоит намного сложнее.
Эти, а также многие другие области применения и вызовы мы рассмотрим в следующих постах на примере различных публикаций, как свежайших, так и уже ставших "классикой"!
3. Ссылки для ознакомления по применению ML в робототехнике
Хороших вводных материалов по всем областям найти сложно (либо я плохо гуглил), но вот что пожалуй прикреплю, по крайней мере часть из них могу настоятельно рекомендовать:
● Репозиторий PythonRobotics -крутой образовательный репозиторий с реализациями методов локализации, картирования и планирования. Можно позалипать на анимации и погуглить подробнее про интересующие методы.
● Overview of Robot Perception - нагуглил презу с вводной лекции курса по perception, можно как минимум посмотреть на постановки задач и разные сенсоры
● Introduction to SLAM -вводный пост про SLAM от ведущего производителя лидаров
● SLAM for Dummies - несмотря на название, имхо очень хорошая вводная "методичка" для тех, кто хочет углубиться в SLAM
● Motion Planning and Control for Mobile Robot Navigation Using Machine Learning: a Survey
- большой, но хороший обзор по соответствующей теме.
● The Theory of Control: A Brief Overview - очень сжатый пересказ базы из теории управления, скорее подойдет тем, кто уже изучал её и хочет освежить в памяти основы.
● Скину пожалуй пару ссылок на awesome-подобные репозитории: первый, второй, Awesome-embodied-vision и Awesome-LLM-Robotics.
Хороших вводных материалов по всем областям найти сложно (либо я плохо гуглил), но вот что пожалуй прикреплю, по крайней мере часть из них могу настоятельно рекомендовать:
● Репозиторий PythonRobotics -крутой образовательный репозиторий с реализациями методов локализации, картирования и планирования. Можно позалипать на анимации и погуглить подробнее про интересующие методы.
● Overview of Robot Perception - нагуглил презу с вводной лекции курса по perception, можно как минимум посмотреть на постановки задач и разные сенсоры
● Introduction to SLAM -вводный пост про SLAM от ведущего производителя лидаров
● SLAM for Dummies - несмотря на название, имхо очень хорошая вводная "методичка" для тех, кто хочет углубиться в SLAM
● Motion Planning and Control for Mobile Robot Navigation Using Machine Learning: a Survey
- большой, но хороший обзор по соответствующей теме.
● The Theory of Control: A Brief Overview - очень сжатый пересказ базы из теории управления, скорее подойдет тем, кто уже изучал её и хочет освежить в памяти основы.
● Скину пожалуй пару ссылок на awesome-подобные репозитории: первый, второй, Awesome-embodied-vision и Awesome-LLM-Robotics.
GitHub
GitHub - AtsushiSakai/PythonRobotics: Python sample codes and textbook for robotics algorithms.
Python sample codes and textbook for robotics algorithms. - AtsushiSakai/PythonRobotics
🔥4👍1
Всем привет 👋
Продолжаем серию постов под авторством @TimeEscaper, посвященную применению ML в Robotics. В данном рассказе мы осветили вопрос того, как научиться управлять четвероногими роботами:
- Какие знания полученные в симуляции перенести в реальный мир?
- Как научить роботов читерить?
- Как добавить роботам знания о внешнем мире?
Приятного чтения🔥
P.S. Рекомендую посмотреть прикрепленные видео - они очень прикольные)
https://teletype.in/@awesome_dl/rl2robots
Продолжаем серию постов под авторством @TimeEscaper, посвященную применению ML в Robotics. В данном рассказе мы осветили вопрос того, как научиться управлять четвероногими роботами:
- Какие знания полученные в симуляции перенести в реальный мир?
- Как научить роботов читерить?
- Как добавить роботам знания о внешнем мире?
Приятного чтения
P.S. Рекомендую посмотреть прикрепленные видео - они очень прикольные)
https://teletype.in/@awesome_dl/rl2robots
Please open Telegram to view this post
VIEW IN TELEGRAM
Teletype
Reinforcement Learning для управления четвероногими роботами
TLDR: Обзор трех работ от одной из ведущих лабораторий ETH Zürich, посвященных управлению четвероногими роботами с помощью RL-я.
🔥3
Forwarded from Data Blog
Друзья! Кто открывал чудесный шевелящийся текст пару постов назад, тот видел, что готовится серия постов про LLM.
Так вот, мы дописали! И нет, "мы" — это не я и мои кошки =)
Сегодня я закончила допрос Андрея (а Андрей — допрос меня), и мы сделали целых два поста про LLM и интерпретацию этих моделей.
В первой части рассмотрены вопросы теории:
- Какие выделяются виды LLM моделей и откуда различия между ними?
- Почему мне и вам полезно знать про LLM и где они могут пригодиться?
Практики:
- Какие библиотеки будут полезны для работы с LLM, и какие используют наиболее?
- Где можно ли обойтись базовыми моделями типа W2V или BoW?
И момент мечтаний:
- Какой тренд в развитии LLM на базе последних исследований?
Мы мучили друг друга две недели и надеемся, что получилось awesome. Ждем вашего прочтения и если будут еще вопросы – ждем ещё вопросов!
А читать...читать здесь 🐤
Кооперация с @awesome_dl
Так вот, мы дописали! И нет, "мы" — это не я и мои кошки =)
Сегодня я закончила допрос Андрея (а Андрей — допрос меня), и мы сделали целых два поста про LLM и интерпретацию этих моделей.
В первой части рассмотрены вопросы теории:
- Какие выделяются виды LLM моделей и откуда различия между ними?
- Почему мне и вам полезно знать про LLM и где они могут пригодиться?
Практики:
- Какие библиотеки будут полезны для работы с LLM, и какие используют наиболее?
- Где можно ли обойтись базовыми моделями типа W2V или BoW?
И момент мечтаний:
- Какой тренд в развитии LLM на базе последних исследований?
Мы мучили друг друга две недели и надеемся, что получилось awesome. Ждем вашего прочтения и если будут еще вопросы – ждем ещё вопросов!
А читать...читать здесь 🐤
Кооперация с @awesome_dl
Teletype
Языковые модели (Large Language models)
Они очень старались сделать кратко и интересно, но вышло просто интересно. В кооперации @awesome_dl x @data blog мы решили...
🔥11
Всем привет 👋
Вот и вторая часть нашей совместной работы с Сабриной.
В первой части были рассмотрены вопросы теории языковых моделей, различные вариации архитектур и фреймворки по работе с языковыми моделями.
В этой же части мы рассмотрим интригующий вопрос - что находится внутри языковых моделей или интерпретируемость языковых моделей:
1️⃣ Зачем нужна интерпретируемость?
2️⃣ Какие подходы и методы созданы для того, чтобы вытащить внутренность языковых моделей наружу?
P.S. Если вы знаете про еще один интересный метод по интерпретации языковых моделей или у вас есть вопросы, то пишите их в комментарии, где я и Сабрина ответят вам)
➡️ Читать тут ⬅️
Кооперация @jdata_blog и @awesome_dl
Вот и вторая часть нашей совместной работы с Сабриной.
В первой части были рассмотрены вопросы теории языковых моделей, различные вариации архитектур и фреймворки по работе с языковыми моделями.
В этой же части мы рассмотрим интригующий вопрос - что находится внутри языковых моделей или интерпретируемость языковых моделей:
P.S. Если вы знаете про еще один интересный метод по интерпретации языковых моделей или у вас есть вопросы, то пишите их в комментарии, где я и Сабрина ответят вам)
➡️ Читать тут ⬅️
Кооперация @jdata_blog и @awesome_dl
Please open Telegram to view this post
VIEW IN TELEGRAM
Teletype
Методы интерпретации Large Language Models
Вторая часть кооперации двух лучистых пирогов: @data blog x @awesome_dl. В первой части у нас получилось не кратко, но интересно...
🔥8
Всем привет 👋
Продолжаем серию постов под авторством @TimeEscaper, посвященную применению ML в Robotics. В данном рассказе мы осветили вопрос того, как применять языковые модели для обучения роботов:
- Как использовать LLM для генерации reward?
- Как переводить языковые команды в действия робота?
- Как использовать LLM для генерации алгоритмов роботов?
Приятного чтения🔥
Продолжаем серию постов под авторством @TimeEscaper, посвященную применению ML в Robotics. В данном рассказе мы осветили вопрос того, как применять языковые модели для обучения роботов:
- Как использовать LLM для генерации reward?
- Как переводить языковые команды в действия робота?
- Как использовать LLM для генерации алгоритмов роботов?
Приятного чтения
Please open Telegram to view this post
VIEW IN TELEGRAM
Teletype
Применение LLM для синтеза и стилизации поведений агентов
TLDR: Рассмотрим, как можно использовать LLM-ки для управления роботами и какие от этого можно получить преимущества.
🔥4❤1
Forwarded from Нина Коновалова
This media is not supported in your browser
VIEW IN TELEGRAM
#10 Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models
It is time to talk about video generation! I prepared a post, that explains, how we can turn the usual Latent Diffusion model, that can generation images, to the video-diffusion model, that shows quite good results for temporal consistency in HR!
It is time to talk about video generation! I prepared a post, that explains, how we can turn the usual Latent Diffusion model, that can generation images, to the video-diffusion model, that shows quite good results for temporal consistency in HR!
Milk dripping into a cup of coffee, high definition, 4k
#diffusion #video #t2i #t2v #SDForwarded from Нина Коновалова
Translating Thoughts Into Words: Advances In Brain-Machine Communication 🧠
I have already made post about decoding fMRI to images. But recently I found very interesting post about constructing continuous language using only MRI brain scans.
fMRI scans were taken while people were reading and later thinking and then the decoder was trained to map each individual’s speech and thought patterns, enabling it to recognize brain signals and translate them into words or phrases.
The map included three subsets of the activated brain:
- speech,
- association,
- prefrontal.
The main difficulty is that the decoder produce a different word sequence from different brain part.
For example:
The phrase was promted to decoder:
The left prefrontal cortex:
The right prefrontal cortex:
Even though the phrases are different - they all discuss similar ideas. The possible explanation is that there are many more words than possible brain images, leading to the decoder giving its best estimation from the 16-hour reading dataset.
More about this research: here
Thanks to the post
#news #brain #AI
I have already made post about decoding fMRI to images. But recently I found very interesting post about constructing continuous language using only MRI brain scans.
fMRI scans were taken while people were reading and later thinking and then the decoder was trained to map each individual’s speech and thought patterns, enabling it to recognize brain signals and translate them into words or phrases.
The map included three subsets of the activated brain:
- speech,
- association,
- prefrontal.
The main difficulty is that the decoder produce a different word sequence from different brain part.
For example:
The phrase was promted to decoder:
I drew out this map for you and you’re really you’re like a mile and a half from home.
The left prefrontal cortex:
the number on a map and find out how far they had to drive to reach the address
The right prefrontal cortex:
just to see how long it takes so I drove down the hill and over to the bank
Even though the phrases are different - they all discuss similar ideas. The possible explanation is that there are many more words than possible brain images, leading to the decoder giving its best estimation from the 16-hour reading dataset.
More about this research: here
Thanks to the post
#news #brain #AI
🔥2
- Определение следующего действия клиента.
- Прогноз дефолта клиента.
- Предсказание покупки конкретного товара клиентом.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9🤩3👍1👏1
Forwarded from КПД
В Pytorch 2.1 завезли 2:4 semi-structured sparsity!
Напомню, что произвольный паттерн неструтурированного прунинга не поддерживается на GPU, но начиная с поколения Ampere реализована аппаратная и программная поддержка 2:4 паттерна, где на 2 позициях из 4 стоят ненулевые веса. В общем случае N:M sparsity N ненулевых весов из M.
До недавних пор, чтобы воспользоваться 2:4 sparsity нужно было напрямую использовать ядра из cuSparse или CUTLASS или пользоваться скомпилированной с
Примечание 😐.
2:4 sparsity работает только на Ampere / Hopper. Не ожидайте ускорения на колабовской T4.
Теоретическое ускорение и сжатие, которое дает такой паттерн, 16/9 для half precision и 16/10 для int8. Но на практике, увы не все так радужно. Реальное ускорение инференса в районе 10-30% (в хорошем сценарии).
Сжатие в 2:4 без дообучения обычно заметно просаживает качество (за исключением совсем больших моделей). Но его можно быстро восстановить, дообучая на целевой задаче.
В приведенном примере c BERT качество сжатой модели такое же как у и исходной после дообучения. При маленьких батчах инференс BERT c 2:4 sparsity работает медленее, чем dense матричные операции, но с ростом батча выигрыш от разреженности становится заметным и стабилизируется в районе 20-30%. Заметим, что в BERT сравнительно небольшие матрицы, и на условной Llama выигрыш будет наблюдаться уже на батче с 1-2 последовательностями.
Документация в торче
Туториал с прунингом BERT
Статья Nvidia про 2:4
Напомню, что произвольный паттерн неструтурированного прунинга не поддерживается на GPU, но начиная с поколения Ampere реализована аппаратная и программная поддержка 2:4 паттерна, где на 2 позициях из 4 стоят ненулевые веса. В общем случае N:M sparsity N ненулевых весов из M.
До недавних пор, чтобы воспользоваться 2:4 sparsity нужно было напрямую использовать ядра из cuSparse или CUTLASS или пользоваться скомпилированной с
--sparsity
моделью в TensorRT. Но теперь semi-structured sparsity доступна почти всем желающим.Примечание 😐.
2:4 sparsity работает только на Ampere / Hopper. Не ожидайте ускорения на колабовской T4.
Теоретическое ускорение и сжатие, которое дает такой паттерн, 16/9 для half precision и 16/10 для int8. Но на практике, увы не все так радужно. Реальное ускорение инференса в районе 10-30% (в хорошем сценарии).
Сжатие в 2:4 без дообучения обычно заметно просаживает качество (за исключением совсем больших моделей). Но его можно быстро восстановить, дообучая на целевой задаче.
В приведенном примере c BERT качество сжатой модели такое же как у и исходной после дообучения. При маленьких батчах инференс BERT c 2:4 sparsity работает медленее, чем dense матричные операции, но с ростом батча выигрыш от разреженности становится заметным и стабилизируется в районе 20-30%. Заметим, что в BERT сравнительно небольшие матрицы, и на условной Llama выигрыш будет наблюдаться уже на батче с 1-2 последовательностями.
Документация в торче
Туториал с прунингом BERT
Статья Nvidia про 2:4
🔥5
Forwarded from Агенты ИИ | AGI_and_RL
У 🤗 месяц назад вышел пост по оптимизации LLMов.
Квантизация, FlashAttention, KV-cache, Multi-Query-Attention, Grouped-Query Attention.
Это мы читаем/сохраняем.
https://huggingface.co/blog/optimize-llm
Квантизация, FlashAttention, KV-cache, Multi-Query-Attention, Grouped-Query Attention.
Это мы читаем/сохраняем.
https://huggingface.co/blog/optimize-llm
huggingface.co
Optimizing your LLM in production
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍3🔥2
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥4
📄 A Picture is Worth a Thousand Words: Principled Recaptioning Improves Image Generation
🏷 Tags: #text2image
🔗 Link: https://arxiv.org/pdf/2310.16656.pdf
Проблема обучения больших Text-to-image моделей в том, что соответствие между картинкой и её описанием на собранных из Интернета данных часто очень плохое
Авторы предложили очень простую систему для генерации качественной разметки:
1️⃣ Берем предобученную Image-to-text модель и поддатасет тех данных, на которых хотим учится
2️⃣ Делаем качественную разметку поддатасет и дообучаем Image-to-text разметчик
3️⃣ Используем разметчик для получения новой разметки и учим text-to-image модель
Число успешных промптов (промпт соответствует изображению) увеличилось на 50+% процентов на human evaluation
FID упал с 16 -> 11 на ImageNet
🤔 Мысли автора
Это уже не первая идея за последнее время по генерации синтетических данных для обучения генеративных моделей (в текстах и на картинках). Похоже, что мы всё ближе к тому моменту, когда модели будут создавать данные для моделей 🤖
📄 In-Context Learning Creates Task Vectors
🏷 Tags: #llm
🔗 Link: https://arxiv.org/pdf/2310.15916.pdf
На больших языковых моделях хорошо работает подход In-Context Learning (ICL) - модели на вход подают несколько примеров с их решение, а затем просят дать ответ на задачу такого же виде (1+1=2; 2+2=4; 3+3=?). Авторы статьи обнаружили, что в ICL модель за счет примеров подаваемых на вход модель выучивает некоторый аналог task vector, который вместе с поданным запросом решает предложенную через демонстрации задачу. Таким образом, если подать на вход ваш запрос и task-vector, то получите +- такое же качестве, что и при полноценном ICL!
Протестировали на простых алгоритмических задачах и простых языковых задачах (переведи слово в прошедшее время) и увидели, что такие вектора задач четко можно отделить друг от друга!
🤔 Мысли автора:
1️⃣ Создание некоторых банка решений задач выглядит очень перспективно. Не нужно писать огромный подробный промпт для ChatGPT при каждом запросе. Можно использовать заготовки из банка, решение будет практически мгновенным по времени 😱
2️⃣ Интересная параллель с работой TabFPN, где авторы напрямую учили модель делать предсказания, демонстрируя весь датасет. Однако у такого подхода есть очевидный недостаток - большие датасеты не засунуть в модель. Соответственно, если эффективно находить вектора под нужный датасет, то можно решать задачи с минимальным обучением на любом домене!
🏷 Tags: #text2image
🔗 Link: https://arxiv.org/pdf/2310.16656.pdf
Проблема обучения больших Text-to-image моделей в том, что соответствие между картинкой и её описанием на собранных из Интернета данных часто очень плохое
Авторы предложили очень простую систему для генерации качественной разметки:
Число успешных промптов (промпт соответствует изображению) увеличилось на 50+% процентов на human evaluation
FID упал с 16 -> 11 на ImageNet
🤔 Мысли автора
Это уже не первая идея за последнее время по генерации синтетических данных для обучения генеративных моделей (в текстах и на картинках). Похоже, что мы всё ближе к тому моменту, когда модели будут создавать данные для моделей 🤖
📄 In-Context Learning Creates Task Vectors
🏷 Tags: #llm
🔗 Link: https://arxiv.org/pdf/2310.15916.pdf
На больших языковых моделях хорошо работает подход In-Context Learning (ICL) - модели на вход подают несколько примеров с их решение, а затем просят дать ответ на задачу такого же виде (1+1=2; 2+2=4; 3+3=?). Авторы статьи обнаружили, что в ICL модель за счет примеров подаваемых на вход модель выучивает некоторый аналог task vector, который вместе с поданным запросом решает предложенную через демонстрации задачу. Таким образом, если подать на вход ваш запрос и task-vector, то получите +- такое же качестве, что и при полноценном ICL!
Протестировали на простых алгоритмических задачах и простых языковых задачах (переведи слово в прошедшее время) и увидели, что такие вектора задач четко можно отделить друг от друга!
🤔 Мысли автора:
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
InstructDiffusion: A Generalist Modeling Interface for Vision Tasks
🥱 TLDR: Авторы обучили диффузионную модель решать задачи компьютерного зрения: segmentation/object detection и т.д.
🤯 Мотивация
Существует класс моделей Image Editing, которые по инструкции меняют изображение. Например, по запросу "Смени время года на зиму" можно получить точно такое же изображение, но появится снег на изображении. Таким образом можно очень естественно выстроить работу с изображением — говоришь, что сделать, и модель выполняет. Авторы озадачали себя следующим вопросом:
😎 Реализация
Обучение происходит следующим образом:
1. Берем предобученную модель text2image диффузии.
2. Модифицируем архитектуру модели, чтобы она могла принимать изображения на вход.
3. Дообучаем диффузии на датасете триплетов (исходное изображение, инструкция и финальное изображение)
Создание датасета триплетов происходит следующим образом:
- Для задач сегментации/детекции отрисовываем полупрозрачные маски сегментации bbox и пишем инструкции ("Обведи кота синей маской"). Полученную картинку используем как финальную в триплете.
- Для задач редактирования изображения они создали свой датасет + использовали готовые датасеты по редактированию изображений.
📈Результаты:
Модель не сравнивали на классических бенчмарках, поэтому непонятно насколько она близка к SOTА, но авторы отмечают способность обученной модели к обобщению — модель хорошо показывает себя на новых доменах и при решении open vocаbulаry segmentаtion.
🤓 Выводы
- Сложность работы в сборе хорошего датасета, что подчеркивают авторы. У них вышло собрать только 1M картинок на все задачи, что очень мало и честного сравнения с SOTА не получится.
- Создание универсальной модели для изображениями звучит как далекое будущее, но теперь можем ожидать появления модели, способной решать множество задач как в текстовой, так и визуальной доменах.
🔗 Link
💻 Code
🌐 Page
Существует класс моделей Image Editing, которые по инструкции меняют изображение. Например, по запросу "Смени время года на зиму" можно получить точно такое же изображение, но появится снег на изображении. Таким образом можно очень естественно выстроить работу с изображением — говоришь, что сделать, и модель выполняет. Авторы озадачали себя следующим вопросом:
Можем ли мы применять диффузионные модели для решения задач компьютерного зрения, подобно редактированию изображений?
Обучение происходит следующим образом:
1. Берем предобученную модель text2image диффузии.
2. Модифицируем архитектуру модели, чтобы она могла принимать изображения на вход.
3. Дообучаем диффузии на датасете триплетов (исходное изображение, инструкция и финальное изображение)
Создание датасета триплетов происходит следующим образом:
- Для задач сегментации/детекции отрисовываем полупрозрачные маски сегментации bbox и пишем инструкции ("Обведи кота синей маской"). Полученную картинку используем как финальную в триплете.
- Для задач редактирования изображения они создали свой датасет + использовали готовые датасеты по редактированию изображений.
📈Результаты:
Модель не сравнивали на классических бенчмарках, поэтому непонятно насколько она близка к SOTА, но авторы отмечают способность обученной модели к обобщению — модель хорошо показывает себя на новых доменах и при решении open vocаbulаry segmentаtion.
- Сложность работы в сборе хорошего датасета, что подчеркивают авторы. У них вышло собрать только 1M картинок на все задачи, что очень мало и честного сравнения с SOTА не получится.
- Создание универсальной модели для изображениями звучит как далекое будущее, но теперь можем ожидать появления модели, способной решать множество задач как в текстовой, так и визуальной доменах.
🔗 Link
💻 Code
🌐 Page
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Forwarded from Градиент обреченный (Sergei Averkiev)
Сейчас идёт конференция AIJ. Интересна она тем, что многие коллеги приурочивают к ней релизы своих наработок, над которыми работали в течение года. Сегодня и завтра расскажу вкратце про наиболее понравившиеся.
Kandinsky 3
Да, ребята доучили третью версию модели для генерации изображений. Помимо архитектуры заморочились с данными, чтобы лучше рисовались мелкие детали и сеть улавливала больше культурных нюансов из промта, типа Чебурашки и балалаек.
Промпт: Чебурашка ломает небоскребы как Годзилла, photo, artstation.
👉 Хабр | tg-бот
Kandinsky 3
Да, ребята доучили третью версию модели для генерации изображений. Помимо архитектуры заморочились с данными, чтобы лучше рисовались мелкие детали и сеть улавливала больше культурных нюансов из промта, типа Чебурашки и балалаек.
Промпт: Чебурашка ломает небоскребы как Годзилла, photo, artstation.
👉 Хабр | tg-бот
🔥6🤗1
В далеком 2019 году после завершения стажировки в Тинькофф в качестве риск-аналитика, я решил начать свой путь в области глубокого обучения. Тогда я ничего не знал о глубоком обучении - фреймворки, модели, задачи - все было для меня в новинку. Поэтому я совершил прыжок в неизвестность, начав проходить стажировку в лаборатории МФТИ. Мне пришлось освоить TensorFlow (к счастью, уже был TF2.0, с меньшим числом проблем), изучить GAN (для их сходимости приходилось носить шаманский бубен) и все это для того, чтобы научиться решать задачу восстановления замаскированных изображений (Image Inpainting). В результате за 3 месяца мы разработали небольшое решение, которое было более легковесным и эффективным восстановлению изображений зданий по сравнению с конкурентами. После этого я продолжил изучение других аспектов глубокого обучения в течение двух лет, пока не стал студентом Виктора Лемпицкого, где вернулся к исходной задаче восстановления изображений (inpainting). Нам не удалось поработать долго вместе и мой путь продолжился уже на других задачах.
Полгода назад я столкнулся с экзистенциальным кризисом на проекте - понял, что проблемы мультимодальности оказались не такими простыми, как я думал, и решил попробовать другой проект. И, я вернулся к задаче восстановления изображений (Image Inpainting), к которой всегда испытывал особый интерес. За эти 6 месяцев я приобрел богатый опыт работы с обучением больших моделей, подготовкой данных и погружением в одну из моих любимых тем. Во многом мне пришлось разбираться самостоятельно, но я получил отличную поддержку от коллег. Результат моей работы — модель Kandinsky 3.0 Inpainting. Это была увлекательная задача, в которую я вложил много сил и энергии (чего стоил созвон на Арбате в 11 часов вечера с авторами Adobe Inpainting). Я доволен результатам и предлагаю вам самим опробовать мою модель на сайте fusionbrain.ai.
P.S. Подробнее со всеми нововведениями модели Kandinsky 3.0 вы можете ознакомиться в посте
Желаю всем удачи🤗
Полгода назад я столкнулся с экзистенциальным кризисом на проекте - понял, что проблемы мультимодальности оказались не такими простыми, как я думал, и решил попробовать другой проект. И, я вернулся к задаче восстановления изображений (Image Inpainting), к которой всегда испытывал особый интерес. За эти 6 месяцев я приобрел богатый опыт работы с обучением больших моделей, подготовкой данных и погружением в одну из моих любимых тем. Во многом мне пришлось разбираться самостоятельно, но я получил отличную поддержку от коллег. Результат моей работы — модель Kandinsky 3.0 Inpainting. Это была увлекательная задача, в которую я вложил много сил и энергии (чего стоил созвон на Арбате в 11 часов вечера с авторами Adobe Inpainting). Я доволен результатам и предлагаю вам самим опробовать мою модель на сайте fusionbrain.ai.
P.S. Подробнее со всеми нововведениями модели Kandinsky 3.0 вы можете ознакомиться в посте
Желаю всем удачи
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥34❤4🏆3👍1
Forwarded from A$TEX
huggingface.co
Daily Papers - Hugging Face
Your daily dose of AI research from AK
🔥10👍1
Forwarded from КПД
Не проплаченной рекламы пост)
Год близится к концу и я захотел поделиться подборкой ТГ каналов по машинке и глубокому обучению. С многими из них многие из вас уже, полагаю, знакомы, но некоторые среди них могут стать для кого-то открытием. Список не имеет четкого порядка и элементы ниже в том порядке, в каком доставались из сознания автора:
1) gonzo-обзоры ML статей
Классный канал с детальными и подробными разборами, во многом вдохновивший меня на создание собственного канала. Кроме того там публикуются новости из мира AI, математики, философии и всякая сборная солянка.
2) Abstract DL
Короткие разборы и анонсы разных вкусностей из мира CV, NLP.
3) Concise Research
Краткий, но исчерпывающий рисерч в области компьютерного зрения и не только. Если хотите в компактной форме, но при этом в достаточном содержании понять суть статьи - вам сюда.
4) Сиолошная
Новости из мира NLP, где иногда разьясняют всякие прикольные штуки и фишки в современном NLP. Новости из мира AI и еще про космос.
5) Что-то на DL-ском
Классный блог с аннотациями статей по NLP, CV, находками автора и обзором полезных инструментов и хаков.
6) Love, Death, Transformers
Классная подборка всякой всячины из мира AI, от образовательных статей до социальных и житейских моментов. Культура, мемы, веселье.
7) Voronkov_AI_RU_public: ChatGPT, langchain, LLM
Анонсы и новости из мира глубокого обучения и AI. Преимущественно про NLP, но не только. Сборник новостей, образовательных и обучающих материалов с разных источников.
8 ) grokaem себя
Милый и уютный канал, где время от времени появляются хорошие статьи, проясняющие тот или иной концепт из области NLP. Саморазвитие, опросы, разьяснение и разбор распостраненных и не очень ошибок. Классные истории из жизни с счастливым концом.
9) Machine Learning
Краткие анонсы и ссылки на разные новинки в области машинного обучения. Преимущественно прикладного толка и с ориентацией на репозитории, где есть разные красивые демки.
10) Awesome DL
Отличный канал с разборами статей из разных областей DL разной длины, в том числе и с видеоразборами.
11) Kali Novskaya
Преимущественно про NLP, но и не только. Подборка новостей из разных областей. Мемы, культура, искусство.
12) эйай ньюз
Просто самый лучший канал.
Год близится к концу и я захотел поделиться подборкой ТГ каналов по машинке и глубокому обучению. С многими из них многие из вас уже, полагаю, знакомы, но некоторые среди них могут стать для кого-то открытием. Список не имеет четкого порядка и элементы ниже в том порядке, в каком доставались из сознания автора:
1) gonzo-обзоры ML статей
Классный канал с детальными и подробными разборами, во многом вдохновивший меня на создание собственного канала. Кроме того там публикуются новости из мира AI, математики, философии и всякая сборная солянка.
2) Abstract DL
Короткие разборы и анонсы разных вкусностей из мира CV, NLP.
3) Concise Research
Краткий, но исчерпывающий рисерч в области компьютерного зрения и не только. Если хотите в компактной форме, но при этом в достаточном содержании понять суть статьи - вам сюда.
4) Сиолошная
Новости из мира NLP, где иногда разьясняют всякие прикольные штуки и фишки в современном NLP. Новости из мира AI и еще про космос.
5) Что-то на DL-ском
Классный блог с аннотациями статей по NLP, CV, находками автора и обзором полезных инструментов и хаков.
6) Love, Death, Transformers
Классная подборка всякой всячины из мира AI, от образовательных статей до социальных и житейских моментов. Культура, мемы, веселье.
7) Voronkov_AI_RU_public: ChatGPT, langchain, LLM
Анонсы и новости из мира глубокого обучения и AI. Преимущественно про NLP, но не только. Сборник новостей, образовательных и обучающих материалов с разных источников.
8 ) grokaem себя
Милый и уютный канал, где время от времени появляются хорошие статьи, проясняющие тот или иной концепт из области NLP. Саморазвитие, опросы, разьяснение и разбор распостраненных и не очень ошибок. Классные истории из жизни с счастливым концом.
9) Machine Learning
Краткие анонсы и ссылки на разные новинки в области машинного обучения. Преимущественно прикладного толка и с ориентацией на репозитории, где есть разные красивые демки.
10) Awesome DL
Отличный канал с разборами статей из разных областей DL разной длины, в том числе и с видеоразборами.
11) Kali Novskaya
Преимущественно про NLP, но и не только. Подборка новостей из разных областей. Мемы, культура, искусство.
12) эйай ньюз
Просто самый лучший канал.
❤5👍1