Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
101 - Telegram Web
Telegram Web
Тут улучшенный CLIP подъехал - Jina CLIP

Говорят, что обычный CLIP плохо умеет в сравнение текста с текстом (особенно плохо с длинными текстами, так как подписи к картинкам короткие), потому что он учился алайнить картинки к текстам. Собственно добавили в обучение контрастирвание текст на текст

Учат в три стадии:
1. Текст-текст + короткие текст-картинка
2. Текст-текст (только позитивные пары) + длинные текст-картинка
3. Текст-текст-текст (триплет - позитив + негатив) + длинные текст-картинка

Выложили модели, но не код обучения. Лицензия Apache2.0 (можно в коммерческое использование)

Теперь можно одной моделькой делать zero-shot сравнение текста и картинок (multi-model RAG, как они говорят)

Ждем следующей статьи, когда они добавят еще и image2image контрастирование и замнут этот цикл
Пользователям VS Code посвящается

Сколько нервов было потрачено, потому что по умолчанию VS Code позволяет менять исходники внешних библиотек (в моем случае либы python, которые я установил в env). Мб со мной что-то не так, но я то и дело случайно удалял символ или приписывал в них по паре букв.

Долго не мог найти ту самую настройку, но в конечном итоге осилил. Если бы вы знали, как теперь я кафую, вы бы расплакались 😅

Итак, просто укажите в settings.json это


{
"files.readonlyInclude": {
"/some/path/to/your/env/lib/python3.8/site-packages/**/*.py": true
}
}


Когда возникнет необходимость редактировать защищенные файлы - просто закомментируйте нужный путь

#tool
Майки выпустили Flourence-2

Это grounding модель, которая умеет решать тучу задач на картинках. Загибаем пальцы:
- Captioning (причем с тремя степенями детализации)
- Object detection
- Dense region caption (как предыдущий, но с более подробным названием класса не car, а Volkswagen Beetle)
- Region proposal
- Phrase Grounding (приземлить куски предложения на картинку)
- Segmentation (по фразе)
- Segmentation (по ббоксу)
- OCR

При этом это seq-to-seq (текст на вход - текст на выход) модель 🌝 Просто пишем '<CAPTION>' и получаем описание картинки, '<OD>' - и детекшн всего, что увидела. И все это естественно, zero-shot работает на наших задачах.

Что удивляет - это относительно малый размер 0.23B и 0.77B (в сравнении c llm-подобными)

Попробовал на рабочей задачке, и реально клево понимает картинки. При этом нет галлюцинаций. Конечно, бывают ошибки, но это не бесстыжее выдумывание

Тот самый случай, когда зарешали данные. Ребята собрали огромный датасет и GO BRHAAA

Ноутбук авторов с демонстрацией
Forwarded from Ilya Vinogradov
📢 ДатаФест2024: Встречайте новые нарезанные доклады!

Друзья, начали публиковаться треки с ДатаФест2024! 📊 Это ваш шанс погрузиться в самые актуальные темы и получить море полезной информации. Посмотреть всё во время проведения феста просто физически было не возможно…
Поэтому сморим сейчас в спокойном режиме с попкорном или кофеёчком ))

🔥 Уже доступны треки:

Data Governance
Career
ML in Marketplace
Data Strategy
Practical ML

👀 Выбирайте интересующие вас доклады и обязательно ставте реакции! Именно ваши лайки помогут определить лучшие выступления для ДатаЁлки. 🌟

🎬 Остальные треки будут выкладываться постепенно в течение месяца, так что следите за обновлениями на ods.ai !
Наткнулся на аккаунт с пачкой интересных space-ов в huggingface

- RT-DETR (рилтайм детектор на трансформере)
- BLIP-2 (captioning и VQA)
- Сразу несколько VLM (KOSMOS-2, Fuyu-8B, LLaVA-NeXT)
- OWLv2 vs Grounding DINO
- и другие

Интересно поглядеть, чего нового есть
Сегодня отодвигаем в стороне ML и вспоминаем истоки 🌝

Не первый раз сталкиваюсь ловлю себя на мысли, что в разных библиотеках встречаю похожий концепт - объект, который соединяет другие в цепочку. Например, Compose из albumentations, nn.Sequential из torch, Chain из langchain. Стало интересно, а как оно называется.

Так вот, это паттерн Цепочка обязанностей (Chain of responsibility)

Когда полезен:
1. Когда программа должна обрабатывать разнообразные запросы несколькими способами, но заранее неизвестно, какие конкретно запросы будут приходить и какие обработчики для них понадобятся.
2. Когда важно, чтобы обработчики выполнялись один за другим в строгом
3. Когда набор объектов, способных обработать запрос, должен задаваться динамически

Иногда полезно посмотреть теорию за вещами, которыми давно пользуешься

P.S. тут кайфовое объяснение, но из РФ открывается только с VPN
Офтоп

Приложение rectangle позволяет "приклеивать" окошки в макос, как это делается на винде или линукс

Простите, просто личная боль 🌚
На одс выложили видео с CV трека Датафеста этого года

- Как мы боролись со спамом в отзывах
- Как мы считаем людей на улице с помощью YOLO
- Open Vocabulary Segmentation: Unlocking Flexible Robotic Perception
- Наш метод "HAHA" и краткий экскурс в аватаростроение
- Портретная гармонизация изображений
- Как ускорить разметку сегментации CV для сотен ассесоров?
- Генерация видео по тексту с помощью диффузионных моделей
- Оценка степени загрязнения лидара
- Обнаружение неклассифицируемых препятствий по данным лидара
- Доклад про призовое решение на Kaggle. 2 место в соревновании по распознаванию жестового языка
- Запуск автомодерации видео
- Depth Estimation in Robotics
- Генерация псевдоаномалий
- Лошадиное здоровье или action recognition в сфере животноводства
- ML в Агро: с какими данными мы работаем, с какими проблемами мы сталкиваемся
- Цвет, это, блин, фича!
- Распознавание данных по фото СТС
- Генеративные аугментации в задачах компьютерного зрения
Почитал про RT-DETR (даже уже вышла вторая версия)

Концептуально энкодер похож на YOLO (CNN + два пути агрегации фичей). Декодер взяли из DETR.

Из плюсов:
- можно удалять слои из трансформера, чтобы делать сетку более худой, если вам нужно ее ускорить FPS
- не требует NMS, что положительно скажется на инференсе

Из минусов - как и все DETR-like на мелких объектах уступает текущим традиционным детекторам

Есть ultralytics
Потыкать тут
Нашел отличные короткие уроки по линукс на русском.

Будет полезно, если хочется точечно (а может и вообще в целом) подтянуть какие-то моменты по линукс. Я, например, посмотрел про сеть 🙂
Интересная библиотечка от Джереми Ховарда fastHTML, с которой можно делать простые сайтики на чистом python (js вообще не нужен)

Работает это поверх технологии htmx

Можно попробовать для написания демок, когда не хватает streamlit или gradio

Два коротких видео, чтобы понять функционал - преза от Джереми и hello world
Вы видели, что вытворяют VLM-ки?

Попробуйте сами InvernVL, VILA, MiniCPM

Они очень умные (VILA вообще в видео умеет). Можно использовать для разметки, например, на классификацию. Более того, они могут отдавать результат в указанном формате.

Например:
1. Is it an image of a car?
2. How many cars are in the photo?
3. Is it day or night?

И они ответят прямо по пунктам. Скоро zero-shot будет вообще везде 😅

P.S. проверяйте лицензию. Код обычно открыт, а веса только для рисеча (VILA и InternVL вроде как раз такие)
Замечали ли вы в опенсорсе трекеры/сбор данных?

А они бывают ☠️

Пруфы - ragas (для оценки рагов, 6к звезд), crewai (для написания команды агентов, 18к звезд)

Конечно, я понимаю, что ребята зарабатывают на опенсорсе, и хотят быстрее улучшаться, но чет сгорел

Мораль - знайте, что такое бывает, и если вас это парит - выключайте
Foundation модели добрались и до time-series. Вот видео с датафеста

Того и гляди, в будущем будем писать пару промптов и дистилировать большую модельку в маленькую

Кроме обучения можно еще и аугментировать данные, например, заполнять пропуски

Из практического - в докладе есть слайд с перечислением моделек. Бери и пробуй

P.S. слайд с модельками в комментах
Не про мл, конечно, но наткнулся на иишный парсер информации с сайтов - ScrapeGraphAI

Рокетсаенса тут нет - мы парсим сайт, а потом скармливаем ллмке, чтобы она достала нужную нам информацию в структурированном формате

Однако порадовало следующее:
1. Парсинг умеет в джаваскриптовые сайты и пробивает, например, Амазон (правда вот, Авито у меня не спрарсил из коробки). Там под капотом playwrite (как понял - аналог Selenium), который прямо открывает сайт.
2. Умеет гуглить. В примере у них спрашивают рецепты китайских блюд. Кажется полезным, когда такое из коробки

TLDR: оно может пробить что-то серьезное + есть прикольная фишка с гуглингом

#tool
Forwarded from Градиент обреченный (Sergei Averkiev)
Please open Telegram to view this post
VIEW IN TELEGRAM
Fun fact

Я совсем недавно узнал, что оказывается, для numpy массивов в тайпингах можно указать и тип значения

Всегда делал
arr: np.ndarray,
хотя можно
arr: numpy.ndarray[typing.Any, numpy.dtype[numpy.float64]] (куда понятнее, да? 🤡)

Второе выглядит страшно, поэтому пользуемся альясами из самого numpy

import numpy.typing as npt

def func(a: npt.ArrayLike) -> npt.NDArray[np.int32]:
return np.array(a)
Хороший пост от ребят из яндекса, об обучении VLM в целом и том, как они затащили их к себе

Также они недавно создали канал @timeforcv с разбором статей по CV. Выглядит интересно
2025/06/12 17:39:07
Back to Top
HTML Embed Code: