Тут улучшенный CLIP подъехал - Jina CLIP
Говорят, что обычный CLIP плохо умеет в сравнение текста с текстом (особенно плохо с длинными текстами, так как подписи к картинкам короткие), потому что он учился алайнить картинки к текстам. Собственно добавили в обучение контрастирвание текст на текст
Учат в три стадии:
1. Текст-текст + короткие текст-картинка
2. Текст-текст (только позитивные пары) + длинные текст-картинка
3. Текст-текст-текст (триплет - позитив + негатив) + длинные текст-картинка
Выложили модели, но не код обучения. Лицензия Apache2.0 (можно в коммерческое использование)
Теперь можно одной моделькой делать zero-shot сравнение текста и картинок (multi-model RAG, как они говорят)
Ждем следующей статьи, когда они добавят еще и image2image контрастирование и замнут этот цикл
Говорят, что обычный CLIP плохо умеет в сравнение текста с текстом (особенно плохо с длинными текстами, так как подписи к картинкам короткие), потому что он учился алайнить картинки к текстам. Собственно добавили в обучение контрастирвание текст на текст
Учат в три стадии:
1. Текст-текст + короткие текст-картинка
2. Текст-текст (только позитивные пары) + длинные текст-картинка
3. Текст-текст-текст (триплет - позитив + негатив) + длинные текст-картинка
Выложили модели, но не код обучения. Лицензия Apache2.0 (можно в коммерческое использование)
Теперь можно одной моделькой делать zero-shot сравнение текста и картинок (multi-model RAG, как они говорят)
Ждем следующей статьи, когда они добавят еще и image2image контрастирование и замнут этот цикл
Пользователям VS Code посвящается
Сколько нервов было потрачено, потому что по умолчанию VS Code позволяет менять исходники внешних библиотек (в моем случае либы python, которые я установил в env). Мб со мной что-то не так, но я то и дело случайно удалял символ или приписывал в них по паре букв.
Долго не мог найти ту самую настройку, но в конечном итоге осилил. Если бы вы знали, как теперь я кафую, вы бы расплакались 😅
Итак, просто укажите в
Когда возникнет необходимость редактировать защищенные файлы - просто закомментируйте нужный путь
#tool
Сколько нервов было потрачено, потому что по умолчанию VS Code позволяет менять исходники внешних библиотек (в моем случае либы python, которые я установил в env). Мб со мной что-то не так, но я то и дело случайно удалял символ или приписывал в них по паре букв.
Долго не мог найти ту самую настройку, но в конечном итоге осилил. Если бы вы знали, как теперь я кафую, вы бы расплакались 😅
Итак, просто укажите в
settings.json
это
{
"files.readonlyInclude": {
"/some/path/to/your/env/lib/python3.8/site-packages/**/*.py": true
}
}
Когда возникнет необходимость редактировать защищенные файлы - просто закомментируйте нужный путь
#tool
Майки выпустили Flourence-2
Это grounding модель, которая умеет решать тучу задач на картинках. Загибаем пальцы:
- Captioning (причем с тремя степенями детализации)
- Object detection
- Dense region caption (как предыдущий, но с более подробным названием класса не car, а Volkswagen Beetle)
- Region proposal
- Phrase Grounding (приземлить куски предложения на картинку)
- Segmentation (по фразе)
- Segmentation (по ббоксу)
- OCR
При этом это seq-to-seq (текст на вход - текст на выход) модель 🌝 Просто пишем '<CAPTION>' и получаем описание картинки, '<OD>' - и детекшн всего, что увидела. И все это естественно, zero-shot работает на наших задачах.
Что удивляет - это относительно малый размер 0.23B и 0.77B (в сравнении c llm-подобными)
Попробовал на рабочей задачке, и реально клево понимает картинки. При этом нет галлюцинаций. Конечно, бывают ошибки, но это не бесстыжее выдумывание
Тот самый случай, когда зарешали данные. Ребята собрали огромный датасет и GO BRHAAA
Ноутбук авторов с демонстрацией
Это grounding модель, которая умеет решать тучу задач на картинках. Загибаем пальцы:
- Captioning (причем с тремя степенями детализации)
- Object detection
- Dense region caption (как предыдущий, но с более подробным названием класса не car, а Volkswagen Beetle)
- Region proposal
- Phrase Grounding (приземлить куски предложения на картинку)
- Segmentation (по фразе)
- Segmentation (по ббоксу)
- OCR
При этом это seq-to-seq (текст на вход - текст на выход) модель 🌝 Просто пишем '<CAPTION>' и получаем описание картинки, '<OD>' - и детекшн всего, что увидела. И все это естественно, zero-shot работает на наших задачах.
Что удивляет - это относительно малый размер 0.23B и 0.77B (в сравнении c llm-подобными)
Попробовал на рабочей задачке, и реально клево понимает картинки. При этом нет галлюцинаций. Конечно, бывают ошибки, но это не бесстыжее выдумывание
Тот самый случай, когда зарешали данные. Ребята собрали огромный датасет и GO BRHAAA
Ноутбук авторов с демонстрацией
Forwarded from Ilya Vinogradov
📢 ДатаФест2024: Встречайте новые нарезанные доклады!
Друзья, начали публиковаться треки с ДатаФест2024! 📊✨ Это ваш шанс погрузиться в самые актуальные темы и получить море полезной информации. Посмотреть всё во время проведения феста просто физически было не возможно…
Поэтому сморим сейчас в спокойном режиме с попкорном или кофеёчком ))
🔥 Уже доступны треки:
Data Governance
Career
ML in Marketplace
Data Strategy
Practical ML
👀 Выбирайте интересующие вас доклады и обязательно ставте реакции! Именно ваши лайки помогут определить лучшие выступления для ДатаЁлки. 🌟
🎬 Остальные треки будут выкладываться постепенно в течение месяца, так что следите за обновлениями на ods.ai !
Друзья, начали публиковаться треки с ДатаФест2024! 📊✨ Это ваш шанс погрузиться в самые актуальные темы и получить море полезной информации. Посмотреть всё во время проведения феста просто физически было не возможно…
Поэтому сморим сейчас в спокойном режиме с попкорном или кофеёчком ))
🔥 Уже доступны треки:
Data Governance
Career
ML in Marketplace
Data Strategy
Practical ML
👀 Выбирайте интересующие вас доклады и обязательно ставте реакции! Именно ваши лайки помогут определить лучшие выступления для ДатаЁлки. 🌟
🎬 Остальные треки будут выкладываться постепенно в течение месяца, так что следите за обновлениями на ods.ai !
Наткнулся на аккаунт с пачкой интересных space-ов в huggingface
- RT-DETR (рилтайм детектор на трансформере)
- BLIP-2 (captioning и VQA)
- Сразу несколько VLM (KOSMOS-2, Fuyu-8B, LLaVA-NeXT)
- OWLv2 vs Grounding DINO
- и другие
Интересно поглядеть, чего нового есть
- RT-DETR (рилтайм детектор на трансформере)
- BLIP-2 (captioning и VQA)
- Сразу несколько VLM (KOSMOS-2, Fuyu-8B, LLaVA-NeXT)
- OWLv2 vs Grounding DINO
- и другие
Интересно поглядеть, чего нового есть
Сегодня отодвигаем в стороне ML и вспоминаем истоки 🌝
Не первый раз сталкиваюсь ловлю себя на мысли, что в разных библиотеках встречаю похожий концепт - объект, который соединяет другие в цепочку. Например, Compose из albumentations, nn.Sequential из torch, Chain из langchain. Стало интересно, а как оно называется.
Так вот, это паттерн Цепочка обязанностей (Chain of responsibility)
Когда полезен:
1. Когда программа должна обрабатывать разнообразные запросы несколькими способами, но заранее неизвестно, какие конкретно запросы будут приходить и какие обработчики для них понадобятся.
2. Когда важно, чтобы обработчики выполнялись один за другим в строгом
3. Когда набор объектов, способных обработать запрос, должен задаваться динамически
Иногда полезно посмотреть теорию за вещами, которыми давно пользуешься
P.S. тут кайфовое объяснение, но из РФ открывается только с VPN
Не первый раз сталкиваюсь ловлю себя на мысли, что в разных библиотеках встречаю похожий концепт - объект, который соединяет другие в цепочку. Например, Compose из albumentations, nn.Sequential из torch, Chain из langchain. Стало интересно, а как оно называется.
Так вот, это паттерн Цепочка обязанностей (Chain of responsibility)
Когда полезен:
1. Когда программа должна обрабатывать разнообразные запросы несколькими способами, но заранее неизвестно, какие конкретно запросы будут приходить и какие обработчики для них понадобятся.
2. Когда важно, чтобы обработчики выполнялись один за другим в строгом
3. Когда набор объектов, способных обработать запрос, должен задаваться динамически
Иногда полезно посмотреть теорию за вещами, которыми давно пользуешься
P.S. тут кайфовое объяснение, но из РФ открывается только с VPN
Офтоп
Приложение rectangle позволяет "приклеивать" окошки в макос, как это делается на винде или линукс
Простите, просто личная боль 🌚
Приложение rectangle позволяет "приклеивать" окошки в макос, как это делается на винде или линукс
Простите, просто личная боль 🌚
На одс выложили видео с CV трека Датафеста этого года
- Как мы боролись со спамом в отзывах
- Как мы считаем людей на улице с помощью YOLO
- Open Vocabulary Segmentation: Unlocking Flexible Robotic Perception
- Наш метод "HAHA" и краткий экскурс в аватаростроение
- Портретная гармонизация изображений
- Как ускорить разметку сегментации CV для сотен ассесоров?
- Генерация видео по тексту с помощью диффузионных моделей
- Оценка степени загрязнения лидара
- Обнаружение неклассифицируемых препятствий по данным лидара
- Доклад про призовое решение на Kaggle. 2 место в соревновании по распознаванию жестового языка
- Запуск автомодерации видео
- Depth Estimation in Robotics
- Генерация псевдоаномалий
- Лошадиное здоровье или action recognition в сфере животноводства
- ML в Агро: с какими данными мы работаем, с какими проблемами мы сталкиваемся
- Цвет, это, блин, фича!
- Распознавание данных по фото СТС
- Генеративные аугментации в задачах компьютерного зрения
- Как мы боролись со спамом в отзывах
- Как мы считаем людей на улице с помощью YOLO
- Open Vocabulary Segmentation: Unlocking Flexible Robotic Perception
- Наш метод "HAHA" и краткий экскурс в аватаростроение
- Портретная гармонизация изображений
- Как ускорить разметку сегментации CV для сотен ассесоров?
- Генерация видео по тексту с помощью диффузионных моделей
- Оценка степени загрязнения лидара
- Обнаружение неклассифицируемых препятствий по данным лидара
- Доклад про призовое решение на Kaggle. 2 место в соревновании по распознаванию жестового языка
- Запуск автомодерации видео
- Depth Estimation in Robotics
- Генерация псевдоаномалий
- Лошадиное здоровье или action recognition в сфере животноводства
- ML в Агро: с какими данными мы работаем, с какими проблемами мы сталкиваемся
- Цвет, это, блин, фича!
- Распознавание данных по фото СТС
- Генеративные аугментации в задачах компьютерного зрения
Почитал про RT-DETR (даже уже вышла вторая версия)
Концептуально энкодер похож на YOLO (CNN + два пути агрегации фичей). Декодер взяли из DETR.
Из плюсов:
- можно удалять слои из трансформера, чтобы делать сетку более худой, если вам нужно ее ускорить FPS
- не требует NMS, что положительно скажется на инференсе
Из минусов - как и все DETR-like на мелких объектах уступает текущим традиционным детекторам
Есть ultralytics
Потыкать тут
Концептуально энкодер похож на YOLO (CNN + два пути агрегации фичей). Декодер взяли из DETR.
Из плюсов:
- можно удалять слои из трансформера, чтобы делать сетку более худой, если вам нужно ее ускорить FPS
- не требует NMS, что положительно скажется на инференсе
Из минусов - как и все DETR-like на мелких объектах уступает текущим традиционным детекторам
Есть ultralytics
Потыкать тут
Выложили видосы с конфы Т-банка с трека CV + Speech
- Как развитие LLM влияет на будущее голосовых технологий
- Визуально-текстовая мультимодальность
- Ускорение создания моделей синтеза речи — от обработки данных до production
- От непризнанного научного бенчмарка до основной метрики качества голоса в VK Звонках
- Тренды в современном CV
- Генерация речи с помощью LLM
- OCR в Т-Банке
- Диффузионные модели как внутренний инструмент создания контента
- Как развитие LLM влияет на будущее голосовых технологий
- Визуально-текстовая мультимодальность
- Ускорение создания моделей синтеза речи — от обработки данных до production
- От непризнанного научного бенчмарка до основной метрики качества голоса в VK Звонках
- Тренды в современном CV
- Генерация речи с помощью LLM
- OCR в Т-Банке
- Диффузионные модели как внутренний инструмент создания контента
Нашел отличные короткие уроки по линукс на русском.
Будет полезно, если хочется точечно (а может и вообще в целом) подтянуть какие-то моменты по линукс. Я, например, посмотрел про сеть 🙂
Будет полезно, если хочется точечно (а может и вообще в целом) подтянуть какие-то моменты по линукс. Я, например, посмотрел про сеть 🙂
Интересная библиотечка от Джереми Ховарда fastHTML, с которой можно делать простые сайтики на чистом python (js вообще не нужен)
Работает это поверх технологии htmx
Можно попробовать для написания демок, когда не хватает streamlit или gradio
Два коротких видео, чтобы понять функционал - преза от Джереми и hello world
Работает это поверх технологии htmx
Можно попробовать для написания демок, когда не хватает streamlit или gradio
Два коротких видео, чтобы понять функционал - преза от Джереми и hello world
Вы видели, что вытворяют VLM-ки?
Попробуйте сами InvernVL, VILA, MiniCPM
Они очень умные (VILA вообще в видео умеет). Можно использовать для разметки, например, на классификацию. Более того, они могут отдавать результат в указанном формате.
Например:
1. Is it an image of a car?
2. How many cars are in the photo?
3. Is it day or night?
И они ответят прямо по пунктам. Скоро zero-shot будет вообще везде 😅
P.S. проверяйте лицензию. Код обычно открыт, а веса только для рисеча (VILA и InternVL вроде как раз такие)
Попробуйте сами InvernVL, VILA, MiniCPM
Они очень умные (VILA вообще в видео умеет). Можно использовать для разметки, например, на классификацию. Более того, они могут отдавать результат в указанном формате.
Например:
1. Is it an image of a car?
2. How many cars are in the photo?
3. Is it day or night?
И они ответят прямо по пунктам. Скоро zero-shot будет вообще везде 😅
P.S. проверяйте лицензию. Код обычно открыт, а веса только для рисеча (VILA и InternVL вроде как раз такие)
Замечали ли вы в опенсорсе трекеры/сбор данных?
А они бывают ☠️
Пруфы - ragas (для оценки рагов, 6к звезд), crewai (для написания команды агентов, 18к звезд)
Конечно, я понимаю, что ребята зарабатывают на опенсорсе, и хотят быстрее улучшаться, но чет сгорел
Мораль - знайте, что такое бывает, и если вас это парит - выключайте
А они бывают ☠️
Пруфы - ragas (для оценки рагов, 6к звезд), crewai (для написания команды агентов, 18к звезд)
Конечно, я понимаю, что ребята зарабатывают на опенсорсе, и хотят быстрее улучшаться, но чет сгорел
Мораль - знайте, что такое бывает, и если вас это парит - выключайте
Foundation модели добрались и до time-series. Вот видео с датафеста
Того и гляди, в будущем будем писать пару промптов и дистилировать большую модельку в маленькую
Кроме обучения можно еще и аугментировать данные, например, заполнять пропуски
Из практического - в докладе есть слайд с перечислением моделек. Бери и пробуй
P.S. слайд с модельками в комментах
Того и гляди, в будущем будем писать пару промптов и дистилировать большую модельку в маленькую
Кроме обучения можно еще и аугментировать данные, например, заполнять пропуски
Из практического - в докладе есть слайд с перечислением моделек. Бери и пробуй
P.S. слайд с модельками в комментах
спустя почти год, выложили мой доклад про сравнение фреймворков для инференса 🥲
вдруг, кому будет интересно (пока окончательно не устарел доклад)
вдруг, кому будет интересно (пока окончательно не устарел доклад)
YouTube
Егор Шестопалов — Model serving. Какой фреймворк выбрать?
Ближайшая конференция — PiterPy 2025, 16—17 мая, Санкт-Петербург + online.
Подробности и билеты: https://jrg.su/QZ6wK1
— —
Скачать презентацию с сайта PiterPy — https://jrg.su/cOCojy
Машинное обучение все больше проникает в энтерпрайз. Вместе с этим взрослеют…
Подробности и билеты: https://jrg.su/QZ6wK1
— —
Скачать презентацию с сайта PiterPy — https://jrg.su/cOCojy
Машинное обучение все больше проникает в энтерпрайз. Вместе с этим взрослеют…
Не про мл, конечно, но наткнулся на иишный парсер информации с сайтов - ScrapeGraphAI
Рокетсаенса тут нет - мы парсим сайт, а потом скармливаем ллмке, чтобы она достала нужную нам информацию в структурированном формате
Однако порадовало следующее:
1. Парсинг умеет в джаваскриптовые сайты и пробивает, например, Амазон (правда вот, Авито у меня не спрарсил из коробки). Там под капотом playwrite (как понял - аналог Selenium), который прямо открывает сайт.
2. Умеет гуглить. В примере у них спрашивают рецепты китайских блюд. Кажется полезным, когда такое из коробки
TLDR: оно может пробить что-то серьезное + есть прикольная фишка с гуглингом
#tool
Рокетсаенса тут нет - мы парсим сайт, а потом скармливаем ллмке, чтобы она достала нужную нам информацию в структурированном формате
Однако порадовало следующее:
1. Парсинг умеет в джаваскриптовые сайты и пробивает, например, Амазон (правда вот, Авито у меня не спрарсил из коробки). Там под капотом playwrite (как понял - аналог Selenium), который прямо открывает сайт.
2. Умеет гуглить. В примере у них спрашивают рецепты китайских блюд. Кажется полезным, когда такое из коробки
TLDR: оно может пробить что-то серьезное + есть прикольная фишка с гуглингом
#tool
Forwarded from Градиент обреченный (Sergei Averkiev)
Please open Telegram to view this post
VIEW IN TELEGRAM
Fun fact
Я совсем недавно узнал, что оказывается, для numpy массивов в тайпингах можно указать и тип значения
Всегда делал
хотя можно
Второе выглядит страшно, поэтому пользуемся альясами из самого numpy
Я совсем недавно узнал, что оказывается, для numpy массивов в тайпингах можно указать и тип значения
Всегда делал
arr: np.ndarray
, хотя можно
arr: numpy.ndarray[typing.Any, numpy.dtype[numpy.float64]]
(куда понятнее, да? 🤡)Второе выглядит страшно, поэтому пользуемся альясами из самого numpy
import numpy.typing as npt
def func(a: npt.ArrayLike) -> npt.NDArray[np.int32]:
return np.array(a)
Хороший пост от ребят из яндекса, об обучении VLM в целом и том, как они затащили их к себе
Также они недавно создали канал @timeforcv с разбором статей по CV. Выглядит интересно
Также они недавно создали канал @timeforcv с разбором статей по CV. Выглядит интересно