101 - Telegram Web

Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
101 - Telegram Web

Записки MLEшника

Тут улучшенный CLIP подъехал - Jina CLIP

Говорят, что обычный CLIP плохо умеет в сравнение текста с текстом (особенно плохо с длинными текстами, так как подписи к картинкам короткие), потому что он учился алайнить картинки к текстам. Собственно добавили в обучение контрастирвание текст на текст

Учат в три стадии:
1. Текст-текст + короткие текст-картинка
2. Текст-текст (только позитивные пары) + длинные текст-картинка
3. Текст-текст-текст (триплет - позитив + негатив) + длинные текст-картинка

Выложили модели, но не код обучения. Лицензия Apache2.0 (можно в коммерческое использование)

Теперь можно одной моделькой делать zero-shot сравнение текста и картинок (multi-model RAG, как они говорят)

Ждем следующей статьи, когда они добавят еще и image2image контрастирование и замнут этот цикл

1.0K viewsEgor, edited 19:09

Записки MLEшника

Пользователям VS Code посвящается

Сколько нервов было потрачено, потому что по умолчанию VS Code позволяет менять исходники внешних библиотек (в моем случае либы python, которые я установил в env). Мб со мной что-то не так, но я то и дело случайно удалял символ или приписывал в них по паре букв.

Долго не мог найти ту самую настройку, но в конечном итоге осилил. Если бы вы знали, как теперь я кафую, вы бы расплакались 😅

Итак, просто укажите в settings.json это


{
    "files.readonlyInclude": {
        "/some/path/to/your/env/lib/python3.8/site-packages/**/*.py": true
    }
}

Когда возникнет необходимость редактировать защищенные файлы - просто закомментируйте нужный путь

#tool

1.1K viewsEgor, 06:21

Записки MLEшника

Майки выпустили Flourence-2

Это grounding модель, которая умеет решать тучу задач на картинках. Загибаем пальцы:
- Captioning (причем с тремя степенями детализации)
- Object detection
- Dense region caption (как предыдущий, но с более подробным названием класса не car, а Volkswagen Beetle)
- Region proposal
- Phrase Grounding (приземлить куски предложения на картинку)
- Segmentation (по фразе)
- Segmentation (по ббоксу)
- OCR

При этом это seq-to-seq (текст на вход - текст на выход) модель 🌝 Просто пишем '<CAPTION>' и получаем описание картинки, '<OD>' - и детекшн всего, что увидела. И все это естественно, zero-shot работает на наших задачах.

Что удивляет - это относительно малый размер 0.23B и 0.77B (в сравнении c llm-подобными)

Попробовал на рабочей задачке, и реально клево понимает картинки. При этом нет галлюцинаций. Конечно, бывают ошибки, но это не бесстыжее выдумывание

Тот самый случай, когда зарешали данные. Ребята собрали огромный датасет и GO BRHAAA

Ноутбук авторов с демонстрацией

1.1K viewsEgor, 06:24

Записки MLEшника

Forwarded from Ilya Vinogradov

📢 ДатаФест2024: Встречайте новые нарезанные доклады!

Друзья, начали публиковаться треки с ДатаФест2024! 📊✨ Это ваш шанс погрузиться в самые актуальные темы и получить море полезной информации. Посмотреть всё во время проведения феста просто физически было не возможно…
Поэтому сморим сейчас в спокойном режиме с попкорном или кофеёчком ))

🔥 Уже доступны треки:

Data Governance
Career
ML in Marketplace
Data Strategy
Practical ML

👀 Выбирайте интересующие вас доклады и обязательно ставте реакции! Именно ваши лайки помогут определить лучшие выступления для ДатаЁлки. 🌟

🎬 Остальные треки будут выкладываться постепенно в течение месяца, так что следите за обновлениями на ods.ai !

1.3K viewsEgor, 10:16

Записки MLEшника

Наткнулся на аккаунт с пачкой интересных space-ов в huggingface

- RT-DETR (рилтайм детектор на трансформере)
- BLIP-2 (captioning и VQA)
- Сразу несколько VLM (KOSMOS-2, Fuyu-8B, LLaVA-NeXT)
- OWLv2 vs Grounding DINO
- и другие

Интересно поглядеть, чего нового есть

1.2K viewsEgor, 18:02

Записки MLEшника

Сегодня отодвигаем в стороне ML и вспоминаем истоки 🌝

Не первый раз сталкиваюсь ловлю себя на мысли, что в разных библиотеках встречаю похожий концепт - объект, который соединяет другие в цепочку. Например, Compose из albumentations, nn.Sequential из torch, Chain из langchain. Стало интересно, а как оно называется.

Так вот, это паттерн Цепочка обязанностей (Chain of responsibility)

Когда полезен:
1. Когда программа должна обрабатывать разнообразные запросы несколькими способами, но заранее неизвестно, какие конкретно запросы будут приходить и какие обработчики для них понадобятся.
2. Когда важно, чтобы обработчики выполнялись один за другим в строгом
3. Когда набор объектов, способных обработать запрос, должен задаваться динамически

Иногда полезно посмотреть теорию за вещами, которыми давно пользуешься

P.S. тут кайфовое объяснение, но из РФ открывается только с VPN

1.3K viewsEgor, 18:55

Записки MLEшника

Офтоп

Приложение rectangle позволяет "приклеивать" окошки в макос, как это делается на винде или линукс

Простите, просто личная боль 🌚

995 viewsEgor, edited 07:49

Записки MLEшника

На одс выложили видео с CV трека Датафеста этого года

- Как мы боролись со спамом в отзывах
- Как мы считаем людей на улице с помощью YOLO
- Open Vocabulary Segmentation: Unlocking Flexible Robotic Perception
- Наш метод "HAHA" и краткий экскурс в аватаростроение
- Портретная гармонизация изображений
- Как ускорить разметку сегментации CV для сотен ассесоров?
- Генерация видео по тексту с помощью диффузионных моделей
- Оценка степени загрязнения лидара
- Обнаружение неклассифицируемых препятствий по данным лидара
- Доклад про призовое решение на Kaggle. 2 место в соревновании по распознаванию жестового языка
- Запуск автомодерации видео
- Depth Estimation in Robotics
- Генерация псевдоаномалий
- Лошадиное здоровье или action recognition в сфере животноводства
- ML в Агро: с какими данными мы работаем, с какими проблемами мы сталкиваемся
- Цвет, это, блин, фича!
- Распознавание данных по фото СТС
- Генеративные аугментации в задачах компьютерного зрения

1.4K viewsEgor, 14:59

Записки MLEшника

Почитал про RT-DETR (даже уже вышла вторая версия)

Концептуально энкодер похож на YOLO (CNN + два пути агрегации фичей). Декодер взяли из DETR.

Из плюсов:
- можно удалять слои из трансформера, чтобы делать сетку более худой, если вам нужно ее ускорить FPS
- не требует NMS, что положительно скажется на инференсе

Из минусов - как и все DETR-like на мелких объектах уступает текущим традиционным детекторам

Есть ultralytics
Потыкать тут

1.1K viewsEgor, edited 15:32

Записки MLEшника

Выложили видосы с конфы Т-банка с трека CV + Speech

- Как развитие LLM влияет на будущее голосовых технологий
- Визуально-текстовая мультимодальность
- Ускорение создания моделей синтеза речи — от обработки данных до production
- От непризнанного научного бенчмарка до основной метрики качества голоса в VK Звонках
- Тренды в современном CV
- Генерация речи с помощью LLM
- OCR в Т-Банке
- Диффузионные модели как внутренний инструмент создания контента

1.9K viewsEgor, 06:20

Записки MLEшника

Нашел отличные короткие уроки по линукс на русском.

Будет полезно, если хочется точечно (а может и вообще в целом) подтянуть какие-то моменты по линукс. Я, например, посмотрел про сеть 🙂

1.2K viewsEgor, edited 06:08

Записки MLEшника

Интересная библиотечка от Джереми Ховарда fastHTML, с которой можно делать простые сайтики на чистом python (js вообще не нужен)

Работает это поверх технологии htmx

Можно попробовать для написания демок, когда не хватает streamlit или gradio

Два коротких видео, чтобы понять функционал - преза от Джереми и hello world

1.2K viewsEgor, 06:01

Записки MLEшника

Вы видели, что вытворяют VLM-ки?

Попробуйте сами InvernVL, VILA, MiniCPM

Они очень умные (VILA вообще в видео умеет). Можно использовать для разметки, например, на классификацию. Более того, они могут отдавать результат в указанном формате.

Например:
1. Is it an image of a car?
2. How many cars are in the photo?
3. Is it day or night?

И они ответят прямо по пунктам. Скоро zero-shot будет вообще везде 😅

P.S. проверяйте лицензию. Код обычно открыт, а веса только для рисеча (VILA и InternVL вроде как раз такие)

1.3K viewsEgor, edited 15:37

Записки MLEшника

Замечали ли вы в опенсорсе трекеры/сбор данных?

А они бывают ☠️

Пруфы - ragas (для оценки рагов, 6к звезд), crewai (для написания команды агентов, 18к звезд)

Конечно, я понимаю, что ребята зарабатывают на опенсорсе, и хотят быстрее улучшаться, но чет сгорел

Мораль - знайте, что такое бывает, и если вас это парит - выключайте

1.4K viewsEgor, 19:11

Записки MLEшника

Foundation модели добрались и до time-series. Вот видео с датафеста

Того и гляди, в будущем будем писать пару промптов и дистилировать большую модельку в маленькую

Кроме обучения можно еще и аугментировать данные, например, заполнять пропуски

Из практического - в докладе есть слайд с перечислением моделек. Бери и пробуй

P.S. слайд с модельками в комментах

1.2K viewsEgor, 06:34

Записки MLEшника

спустя почти год, выложили мой доклад про сравнение фреймворков для инференса 🥲

вдруг, кому будет интересно (пока окончательно не устарел доклад)

Егор Шестопалов — Model serving. Какой фреймворк выбрать?

Ближайшая конференция — PiterPy 2025, 16—17 мая, Санкт-Петербург + online.
Подробности и билеты: https://jrg.su/QZ6wK1
— —
Скачать презентацию с сайта PiterPy — https://jrg.su/cOCojy

Машинное обучение все больше проникает в энтерпрайз. Вместе с этим взрослеют…

1.3K viewsEgor, 15:08

Записки MLEшника

Не про мл, конечно, но наткнулся на иишный парсер информации с сайтов - ScrapeGraphAI

Рокетсаенса тут нет - мы парсим сайт, а потом скармливаем ллмке, чтобы она достала нужную нам информацию в структурированном формате

Однако порадовало следующее:
1. Парсинг умеет в джаваскриптовые сайты и пробивает, например, Амазон (правда вот, Авито у меня не спрарсил из коробки). Там под капотом playwrite (как понял - аналог Selenium), который прямо открывает сайт.
2. Умеет гуглить. В примере у них спрашивают рецепты китайских блюд. Кажется полезным, когда такое из коробки

TLDR: оно может пробить что-то серьезное + есть прикольная фишка с гуглингом

#tool

1.3K viewsEgor, edited 09:21

Записки MLEшника

Forwarded from Градиент обреченный (Sergei Averkiev)

Please open Telegram to view this post

VIEW IN TELEGRAM

1.3K viewsEgor, 11:49

Записки MLEшника

Fun fact

Я совсем недавно узнал, что оказывается, для numpy массивов в тайпингах можно указать и тип значения

Всегда делал
arr: np.ndarray,
хотя можно
arr: numpy.ndarray[typing.Any, numpy.dtype[numpy.float64]] (куда понятнее, да? 🤡)

Второе выглядит страшно, поэтому пользуемся альясами из самого numpy

import numpy.typing as npt

def func(a: npt.ArrayLike) -> npt.NDArray[np.int32]:
    return np.array(a)

1.5K viewsEgor, edited 15:53

Записки MLEшника

Хороший пост от ребят из яндекса, об обучении VLM в целом и том, как они затащили их к себе

Также они недавно создали канал @timeforcv с разбором статей по CV. Выглядит интересно

1.2K viewsEgor, 14:39

2025/06/12 17:39:07
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>