Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
- Telegram Web
Telegram Web
👥 Бесплатные мини-курсы про AI Агентов, LLM и трансформеры на платформе DeepLearning.AI

Ссылка

Платформа от создатея курсеры Andrew Ng. Почти каждые 2-3 недели выходят мини-курсы по разным AI темам: про векторные базы данных, про RAG-и, ризонинг, память моделей, etc.

Сегодня запустили курс от Антропиков про устройство MCP. Ссылка. От кого еще узнавать про MCP, если не от тех, кто разработал этот стандарт. Не от скам ютуберов же, правильно?

Каждый курс устроен примерно одинаково: 1) видео с очень простенькой теоретической частью, 2) видео с запуском кода и какими-то комментариями лектора. В среднем курсы по 1-2 часа. Курсы выпускаются от лица довольно именитых компаний (OpenAI, HF, Meta, ...) и затрагивают актуальные практичесские темы.

Но есть нюанс.

На мой взгляд, ценность большинства таких курсов стремится к нулю (я сужу по ~13 курсам, которые просмотрел сам). Во-первых, почти все курсы лишены какой-либо интересной теоретической базы и просо заавязаны на прокликавание клеток и вызов методов в том или ином фреймворке. Во-вторых, лекторы далеко не самые лучшие, иногда ощущение что пишутся с одного дубля. Наконец, во многих курсах сквозит реклама. Чувство, что курс записан только чтобы пропиарить фреймворк / стартап / компанию, а не интересно рассказать на заданную тему. Короче говоря, анонсы всегда цепляют, но содержание страдает.

Жаль, что ушла эпоха продуманных длинных курсов по типу специализаций с курсеры про Deep Learning построенных не на рассказе о фреймворках, а фокусе на устройстве технологий. 😐

Но иногда попадаются прям классные мини-курсы. Например, про эффективный сервинг LLM в проде, или методы retrieval-а из векторых баз, или генерацию structured outputs моделей.

Так что да, учитывая что все выкладывается в открытый доступ совершенно бесплатно, грех жаловаться. А периодические так и вообще очень годные курсы появляются.

Happy Learning !

#образование

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
Рецепты обучения Reasoning моделей от💻

Сразу 2 публикации:

Phi-4-reasoning (14B) - основная модель - статья.
Phi-4-mini-reasoning (3.8B) - маленькая модель - статья.

Веса моделей доступны по хорошей лицензии. За пределами английского ризонинг сильно хуже (об этом пишут и авторы), и скорее всего из коробки бесполезен (сужу сам по работе просто с Phi-4 instruct).

📌 Почему стоит прочитать? Рабочих робастных рецептов обучения ризонинг моделей все еще не очень много, поэтому любая работа с подробным описанием сетапа, удачными и неудачными экспериментами, рассказом о сборе данных и любыми другими практическими lessons learned несет большую ценность для всех, кто пытается завести ризонинг на практике. По метрикам модель не обгоняет проприетарные модели, уступая o3-мини почти везде, но уверенно тягается с опенсоурсными решениями, которые в разы больше. Вся ценность в подробном hands-on репорте, а не самой модели как таковой.

Картинка 1 для саммри перформанса на ключевых бенчмарках.

📌Как устроена Phi-4-reasoning. Берут предобученную instruct tuned 14B Phi-4 (тык ). Ризонинг способности внедряются в нее через SFT на датасете длинных цепочек из разных доменов.

Датасет собирался аккуратно. В основном путем скрэпинга и валидации разных ресурсов из сети с фокусом на математику и код. Отдельно отбирали с помощью прокси моделей только сложные задачи. Сами же цепочки рассуждений генерировали с помощью o3-mini в “medium” / “hard” рассуждающих режимах.

Во время обучения авторы столкнулись с тем, что гиперпараметры рецепта Phi-4 не работают для ризонинг модели.

Поэтому ввели стадию коротких экспериментов на сабсете данных. Назвали это Exploration Stage, чтобы подобрать оптимальные настройки:

🔘 Выбрали оптимальный LR как 1e-5
🔘 Нашли оптимальную композицию микса обучающих данных. Для начала кластеризовали данные по доменам (математика, код, …). Дальше подобрали веса к датасетам внутри конкретного домена в зависимости от качества / источника данных. То есть, отдельно учили на данных по математике, оптимизируя микс данных чисто под данные математики; отдельно для кода; А потом просто все объединили в один общий пул, переиспользуя ранее подобранные веса.
🔘Добавили синтетических данных в строгом формате CoT -> summary -> final response. Обнаружили, что это дает буст, на AIME до 10%.

Далее, во второй фазе, Scaling Stage, запустили обучение на всех данных, 16B токенов. У модели так же расширили размер контекста с 16K до 32K.

Таким образом, получился Phi-4-reasoning.

📌Еще больше reasoning способностей через RL. Далее бустят способности модели к размышлению еще больше. Делают GRPO RL, но только на задачах математики. Собрали свою reward функцию. Довольно инженерная и интуитивная. Если ответ правильный, но очень длинный - понижаем награду; если неправильный и короткий - еще сильнее штрафуем. Таким образом, побуждаем генерировать модель разумно длинные цепочки. После такого RL тюна получают Phi-4-reasoning-plus, которая в среднем показывает себя еще лучше на различных бенчмарках (не математических тоже).

📌RL-reasoning маленьких моделей. Очень круто, что авторы пробуют ризонинг способности на маленьких моделях тоже. При RL обучении модели на 3.8B сталкиваются с большим количеством сложностей, предполагая, что все дело в размере модели:
🔘Во время обучения сгенерированные ответы сильно различаются по длине на одном и том же промпте.
🔘Батчи могут целиком состоять из отрицательных наград
🔘SFT на ризонинг данных (типа S1K) ухудшает итоговое качество

По итогу все равно подбирают рабочий рецепт для мини версии модели для математики, получая улучшения относительно аналогов похожего размера (7B, 8B). Но с гигантами тягаться все равно сложно.

📎Итого. Полезное чтение для практикующих обучение ризонигу. Мы в команде сталикались с очень похожими сложностями при RL стадии маленьких моделей. До закрытых моделей далеко, но зон для надстроек над базовым рецептом много.

#статья

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
🔷Лекции от топовых лаб про агентные мультимодальные системы

Все видео и слайды в свободном доступе, можно найти здесь.

У университета Берлки недавно завершилась лекционная часть весеннего MOOC курса про LLM агентов (сейчас в самом разгаре онлайн хакатон с разными треками).

Назвать это полноценным курсом сложно. Скорее набор независимых лекций от разных исследовательских групп (как университетов, так и больших компаний типа DeepMind, Meta) про рисерч, которым они занимаются. Контент адаптирован под более-менее широкую аудиторию с крутыми слайдами и интересными спикерами. Лучше всего воспринимать каждую лекцию, как литературный обзор одной конкретной темы.

Сам посмотрел несколько лекций на интересные для себя темы и остался доволен:

⚫️Multimodal Autonomous AI Agents от CMU, по большом счету экскурс в последние работы про веб-агентов

⚫️Abstraction and Discovery with Large Language Model Agents от UT Austin, тут про AlphaProof и системы для построения формальных математических доказательств - может быть полезно тем, кто копается в AlphaEvolve


У курса, кстати, две части. Прошлогодний запуск можно найти тут.

Happy Learning!

#образование

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
🧑‍💻 Devstral - модель для кодинга от Mistral

Блогпост

Веса доступны на HF с лицензией Apache 2.0, что супер для коммерческого использования.

Относительно компактная, 24B, можно поднять у себя локально.

На SWE-Bench Verfified (бенчмарк для оценки кодинговых агентов на GitHub issues) модель заметно обходит многих проприетарных конкурентов (haiku, gpt 4.1 mini), а так же модели большего размера (DeepSeek-R1, Qwen3). Но эти модели, к слову, и не были оптимизированы специаильно для coding-assitance.

Важное уточнение: Devstral показывает такие результаты через scaffolding OpenHands от компании All Hands AI 🙌.

Скаффолдинг в контексте кодинговых агентов - это среда, которая предоставляет утилиты, тулзы, другие полезные инструменты, которые упрощают жизнь агенту. Например, тул поиска по классам в проекте, доступ к grep команде, web search - короче говоря все, чтобы использует реальный разработчик, но только в удобном формате для AI агента. Eсли поднимаете у себя Devstral локально, то чтобы максимизировать пользу от агента, нужна еще и подобная среда.

Поэтому такие метрики могут быть в целом, из-за того что Devstral был натюнен под работу с OpenHands средой (скорее всего именно это), или потому что набор доступных инструментов в этой среде лучше, чем у других подобных сред.

А вообще All Hands AI 🙌 классные. Двигают опенсоурс, выкладывают своих агентов, опенсоурсят код скаффолд среды.

А кому интересно как работают такие агенты в приницпе, как их дизайнить, оценивать и куда двигается прогресс дальше - можете посмотерть лекцию тут.

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
Research Engineer в 🌐 DeepMind, London. Отзыв на Интервью.

Пополняем копилку свежей историей. Буду рад видеть новые от читателей, гугл форма тут.

➡️ Ник автора в тг - N/A
➡️ Название комании, можете указать ссылку или коротко описать что за место - DeepMind

➡️Расскажите про свой бэкграунд - Amazon AWS, Senior ML SDE
➡️ Как подались на вакансию - рекрутер написал в LI

➡️ Субъективно Сложность процесса по 10 бальной шкале - 6


➡️Когда начали процесс - начало марта
➡️Когда закончили процесс - апрель


➡️Позиция, на которую собеседовались - Research Engineer в Gemini research
➡️Грейд на который собеседовались (если известно) N/A
➡️Локация вакансии - Лондон

🔥 Расскажите про этапы собеседований

Подавался в DeepMind каждый год с 2020. Вообще ни разу никто не ответил. Абсолютный ноль. И тут вдруг, в марте, HR сам стучится — мол, привет, давай поболтаем, профиль крутой. Ну, думаю, понеслась.

На звонке рассказал про свой опыт. HR сонно кивает, все вопросы по скрипту на автопилоте. Может таких кадров как я просматривает каждый день десятки и уже утомился слышать +- одно и то же. Спрашивает: почему хочешь к нам? Говорю: блять, каждый год к вам подаю. Смотерл документалку AlphaGo как кино, хочу тоже делать крутые штуки.

Через пару дней прислал описание вакансии в Gemini research команду. Сейчас конкретно одной команде интересен мой опыт. Работают над проектом, который покажут на Google I/O. Сейчас это уже не секрет, так что могу сказать. Речь шла про работу над text diffusion. Ее представили недавно на гугловсокй конференции. Команде срочно нужно нанять несколько инженеров поэтому активно собеседуют. Времени на подготовку не давали, просили двигаться в плотном темпе по 1-2 раунда в неделю, чтобы закрыть весь процесс. Поставили первый собес через неделю.

Раунд 1. Две задачи на код. Одна — про two pointers, вторая — на hash set. Времени не было, пришлось срочно реанимировать скиллы: 7–10 задач в день, купил premium подписку. Интервью ок, обе решил.

Раунд 2. LeetCode. 2 задачи, но у каждой был еще follow-up на подумать. Попался душный интервьюер, доматывался до каждого момента. Одна задача про K ближайших точек к заданной точке (примечание автора: вероятно речь про следующую задачу c литкода). Я ему все объясняю, знаю, что решение самое эффективное, знаю что все верно говорю за сложность, за логику и за идею. Но нет, все спрашивает и спрашивает. Мне то ок, а время тикает, нужно еще вторую задачу решать, из-за этого нервничаю. Думал, могут не позовать дальше, хотя обе задачи решил. Проскочил.

Раунд 3. Тут у меня и времени не было и я еще болел, а переносить не хотелось. Пошел как есть. Все вопросы на математику или базовый МЛ. Меня сразу предупреждали, что будет такой формат, поэтому сам виноват. Первая часть — формула Байеса, задача на условные вероятности. С трудом довёл до конца, с подсказками. Потом еще серия вопросов. Можно ли преобразовать случайную величину из произвольного распределения в нормальное и как? Еще одна задачка на биномиальное распределение. Все время чувствовал, как моя жопа тонет в невнятных воспоминаниях из далекого прошлого в универе. Интервьюер, к слову, норм — не душнил, помогал. Но общее ощущение: тонем, капитан. Дальше пошли вопросы по МЛ — тут уже хоть чуть-чуть всплыл. Про активации, зачем регуляризация, что не так с сигмоидой — тут уже говорил увереннее. Мелькнула надежда, но слабая.

Через пару дней от рекрутера письмо про формат следующего раунда — надо будет рассказать про свой опыт и заодно поболтать на тему “а как ты вообще делаешь ресёрч”. Подумал, вот тут-то и отыграюсь. Но спустя ещё несколько дней фидбэк: не прошёл МЛ секцию, спасибо, удачи, до свидания.

Если по делу — процесс несложный. Литкодишь, освежаешь в памяти универские знания. При норм подготовке можно пройти. Я вот времени не нашёл на важный собес.

Написал напоследок рекрутеру — может, есть что-то поближе к SWE. Если появится, будут рады пособесить.

➡️ Итоги собеседования, например оффер или отказ, или что-то другое: Отказ
➡️ Информация про Total Compensation: N/A

#интервью

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
⌨️ Text Diffusion от DeepMind

По горячим следам поста выше с отзывом на интервью в команду, которая занималась текстовой диффузией, короткий новостной обзор модели.

DeepMind как раз пару часов назад обновил лэндинг c анонсом модели. Ссылка

📌Что такое текстовая диффузия? Авторегрессионные модели генерируют поcледовательно по одному токену (Speculative Decoding опускаем). Это медленно (и это главная причина), плюс может потеряться согласованность (coherence). Диффузионные модели устроены иначе: они не предсказывают токены напрямую, а постепенно превращают шум в осмысленный текст. Это позволяет быстро находить решения и потенциально исправлять ошибки на ходу (а не генерировать много токенов рассуждений, как это делается сейчас в авторегрессионных моделях) — особенно эффективно при редактировании, в том числе кода и математики. Сама по себе идея не супер новая, одна такая работа с работающим прототипом была уже 23 году (ссылка).

📌Преимущества модели. В первую очередь скорость. ДипМайнд репортит 1479 tokens / sec. Второй потенциальный плюс - это более высокая согласованность сгенерированного текста. Происходит за счет того, что модель генерирует сразу блоки токенов, а не токен за токеном.

📌Бенчмарки. На сайте приводят сравнение текстовой диффузии, модель называют Gemini Diffusion, против Gemini 2.0 Flash-Lite. Про последнюю говорят, что она сильно больше в размерах (так ли это?). На бенчах диффузионка в среднем либо хуже, либо на уровне Gemini 2.0 Flash-Lite. На том же SWE-Bench Verified 22.9% против 28.5% в пользу Gemini 2.0 Flash-Lite (это к слову про тезис, что дифуззионной моделью удобнее редактировать код).

Можно объяснить такие метрики тем, что модель очень ранняя, экспериментальная и дальше будет точно лучше. Звучит очень правдоподобно. Сам факт того, что есть первый сопоставимый результат - это очень круто.

👥 Записаться в waitlist ожидания доступа к модели можно тут

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Сегодня в бразовательном карьерном посте поделюсь каналом faang_me.

Канал ведет Вика Бородина. Рекомендую, потому что сам давно слежу за ее контентом. У Вики довольно большой Ютуб Канал, где она берет интервью у разных интересных людей, работающих над интересными вещами в очень интересных местах. Здесь и истории стаффоф, и принципалов, и сеньоров, и мидлов, и их путь в разных зарубежных компаниях. Когда был студентом второго курса баклавриата, то рассказы ребят из Lyft, Нетфликса, Амазона и других мест хорошо мотивировали. Забавно, что недавно вышло интервью с одним из моих коллег про запуск Alexa+ (удалось поучаствовать в разработке лично, писал здесь)

Сейчас Вика запускает сообщество с общим чатом участников, вебинарами с экспертами, групповыми практиками, English speaking клубом и многими другими активностями, которые могут помочь вырасти в карьере, деньгах, опыте и нетворке IT-специалистам.

Поэтому если хочется покачать софт-скилы, побороть сииндром самозванца, посмотреть, какие есть стратегии при переговорах об офферах, найти ментора/рефера/ко-фаундера для будущего стартапа, то рекомендую.

#карьера #образование
🔊 Chatterbox TTS —Yet Another Opensource TTS SoTA

Компания resemble.ai выложили в опенсоурс Chatterbox TTS. 0.5B модель на основе LLama3 backbone, обучена на 0.5M часов чистых данных. Данные высокого качества и разной природы. Модель поддерживает контроль экспрессивности синтеза через гипер-параметры (выкручивание exaggeration приводит к ускорению речи, понижение — к большей драме).

Репортят latency в 200ms, что делает модель довольно удобной для интерактивных голосовых приложений, real time ассистентов.

Наконец, пишут, что модель - SoTA. За бейзлайн берут решение от 11Labs и сообщают, что в side-by-side Chatterbox TTS strongly preffered. К слову, впервые вижу, что честно выкладывают все детали evaluation репорта и дают на него ссылку. A/B Тест слишком скромный (больше выглядит как черри пик честно), по 8 сэмплов на систему. В тесте просят асессоров оценить zero-shot сэмплы длиной от 7 до 20 секунд на предмет Naturalness и общего качества.

Попробовал в Gradio на HF. Нравится, что хорошо берет дыхание и паузы. Клонирование тембра с дефолтными настройками на моем голосе не очень. Скорее сказал бы, что это плохой voice clone. У Llasa-3B из опенсоурсных гораздо лучше. На реддите пишут, что при некоторых значениях параметров модель сходит с ума.

Cводка:

🔘Лицензия - MIT
🔘GitHub - тут
🔘Веса - тут
🔘Онлайн Демо поиграться самому - тут
🔘Реддит тред с мнениями по модели - тут
🔘Языки - пока только английский, обещают добавить файн-тюн для других языков в скором времени

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🏝 Автор в отпуске

Исследую Национальный парк Brecon Beacons — недалеко от Кардиффа, Уэльс.

Катаюсь на велосипеде по проселочным дорогам (а иногда еду сковзь лес) среди овечек, лошадей и тишины — в поисках запрятанных в горы водопадов

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🧑‍💻 Mistral Code - AI-powered coding assistant

Блогпост

Пару недель назад Mistral выложили в опенсоурс модель Devstral адаптированную под кодинг агентов (писал тут), а сегодня анонсируют ассистента.

Выглядит это как расширение, которое можно добавить в VSCode или JetBrains IDE. Пока что private beta, поэтому самим потрогать нельзя.

Само расширение разработано на основе опен-соурсного проекта Continue и представляет собой UI, в котором можно общаться с AI агентом и просить его что-то закодить за вас. Поддерживается чат, поиск по коду, и много других полезных tools для агентов.

В общем-то ничего нового. Тот же Cursor или Windsurf.

Но. Выпуск Mistral Code является финальным кусочком в мозаике инструментов для coding ассисентов от Мистраля. Теперь у них есть вся линейка — и свой copilot для автокомплита Сodestral, и эмбеддинг модель для rag-ов и семантических поисков Codestral Embed, и модель для кодинга Devstral, ну и наконец UI, чтобы все это подружить и сделать самого ассистента — Mistral Code.

Все инструменты от одного провайдера, да еще и опенсуорсные, так, что можно развернуть у себя в облаке, оn-prem, полностью на своем железе, без риска утечки чувствительных данных третьим лицам — то, как Mistral продает и позиционирует свои инструменты на рынке AI помощников для кода. И это действительно веский аргумент для крупных компаний, потому что они могут развернуть у себя всю необходимую инфру.

Mistral в анонсе пишут, что уже договорились с одним из Испанских банков, что те развернут в своем облаке всю инфраструктуру и позволят применять решение на приватных репозиториях своим разрабам.

Выглядит сильно. Подождем официального релиза. И больше новостей про кастомеров.

___

Если хочется разобраться как именно работают такие кодинг-ассистенты, то советую глянуть бесплатный мини-курс тут. Он про Windsurf, но ребята делятся и тем, какие сложности решали, как учили свою эмбеддинг модель, как делали кастомный RAG. Познавательно.


@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Как работает Cursor ?

В блоге Programmatic Engineer вышел классный технический разбор про начинку Курсора. Автора блога, вроде как, пообщался лично с техническим кофаундером стартапа Anysphere (оценка $10B) и расписал по частям интересные детали: от стека до скейла. Почитать тут.

В бесплатной версии доступна только половина статьи (а за фулл платить 10$ в месяц на подписку 🥲), но и в таком варианте полно интересных моментов. Читается легко, как будто старая добрая книга Alex Xu по System Design. Самое то, если у вас вдруг собес в подобную компанию AI кодогенерации.

Работает примерно так.

1️⃣Проект пользователя сначала индексируется. Это значит следующее.

🔘Во-первых, каждый файл разбивается на кусочки (чанки) кода небольшого размера. Чанки улетают на сервер, где запускается эмбеддер модель компании. Модель эмбеддит чанки в вектора для последующего векторного поиска. Курсор говорит, что не хранит код на своих серверах, только эмбеддинги (но кто знает, что там происходит, код то вы свой все равно уже отправили им свой код 🙂). Извлечение эмбеддингов - довольно ресурснозатратный процесс, поэтому компания держит кластер GPU для инференса (думаю, что это капля в море по сравнению с стоимостью инференса LLM-ов).

Чтобы не просрать слить свои ключи и другую чувстивтельную инфу, обязательно заполняйте .gitignore и .cursorignore, чтобы исключить какие-то ресурсы из индексации


🔘Во-вторых, курсор так же хранит структуру проекта пользователя в виде дерева. Конкретно используется Merkle Tree - дерево, где каждый лист - это хэш файла, а узлы - комбинация хэшей узлов-детей. Такое дерево хранится как локально, так и на серверах Курсора, и каждый раз, когда делается изменение в коде пользователя, локальные хэши сверяются с теми, что на сервере, и если есть различие, то они пересчитываются, а следовательно и обновляются некоторые эмбеддинги чанков.


2️⃣Теперь, когда индекс построен, можно пользоваться всеми фичами. Например, становится доступным чат с Курсором, где вы можете попросить курсор объяснить, как работает какая-то функция в вашем коде или попросить Курсор что-нибудь реализовать. В этом случае Курсор просканирует индекс, найдет релевантные ID чанков кода с помощью векторного поиска, заберет исходнй код чанков с вашего проекта, и пойдет в LLM просить рассуждать и генерировать план действий. Ну а дальше все это интерактивно будет отображаться в IDE. Курсор может ваш код и не хранит, а вот LLM-провайдеры – может быть.

3️⃣ Автокомплит, или tab-подсказки (это когда вы пишите комментарий или сигнатуру функции, а Курсор предлагает ее реализацию), работает чуть проще из-за чувствительности к latency. Здесь просто локальный контекст уходит в LLM и та генерирует автокомплит.

4️⃣ По стеку используется Turbopuffer для векторного хранилища эмбеддингов чанков и дерева файловой системы. Rust для высоконагруженной части на сервере, TypeScript для клиента IDE.

Другие цифры и детали можно найти в самом блоге. У автора еще выходит регулярно подкаст с техническими людьми так же на тему систем дизайна – рекомендую.

Happy Learning!

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
Senior ML Engineer в Waymo, Perception Team, California

Сегодня в отзывах на собесы опыт ML инженера в стартап Waymo – команда делает self-driving cars. Главное не спутать их с дургим стартапом про беспилотные автомобили Wayve.

Авторская орфография сохранена

➡️Ник автора в тг - Анонимно
➡️ Название компании - Waymo, команда Perception

➡️Расскажите про свой бэкграунд - МЛ инженер в стартапе, занимаюсь анализом и разметкой видео
➡️Как подались на вакансию - рекрутер через LinkedIn

🔥 Субъективно Сложность процесса по 10 бальной шкале - 8

➡️Когда начали процесс - 01/25
➡️Когда закончили процесс - 03/25

➡️ Позиция, на которую собеседовались - Senior Machine Learning Engineer
➡️Грейд на который собеседовались (если известно) -Senior
➡️Локация вакансии - Mountain View, California (гибридный формат, я уже в штатах, можно работать в целом удаленно по Америке)

🔥 Расскажите про этапы собеседований

Процесс довольно стандартный, но с рядом своих фишек.

1) Recruiter screen (30 мин): типичный созвон с рекрутером. Обсудили мой бэкграунд, что делаю, какие направления интересны. Немного рассказали про Perception команду и чем она занимается (обработка данных с сенсоров, 3D object detection, motion forecasting). Также сразу обозначили, что важно уметь работать с продовыми пайплайнами, не только с ресерчем. Сразу обговорили зарплатные вилки (отписал ниже)

2) Technical Phone Screen (45 мин): дали довольно нетривиальную задачу на динамическое программирование. Нужно было шейрить экран и писать в своем блокноте / IDE. Я писал в колабе. Интервьюер никак не помогал, сложилось ощущение, что сам не знает как решить задачу.

3) Домашнее задание: дали задачу по object tracking видео и статью для реализаии. Нужно было:
- придумать baseline трекер (например, с использованием IoU)
- оценить качество (precision, recall, ID switches и т.д.)
- реализовать пейпер
- все это задокументировать и прислать jupyter ноутбук

Onsite (4 секции по 45 мин):

4) System Design: дизайн пайплайна для inference perception модели на автономной машине в реал-тайме. Вопросы про latency, batching, fault tolerance, A/B тестирование моделей. Местами уводили в детали вплоть до GRPC, protobufs и интеграции с hardware.

5) ML-focused coding: нужно было реализовать модуль для обработки lidar-точек и агрегации по временным фреймам. Часть кода была дана, часть — нужно писать с нуля. Плюс надо было оптимизировать память, потому что lidar-данные могут быть большими. Явный уклон в прототипирование, и это понравилось.

6) ML knowledge & debugging: дали лог модели, обученной на object detection. Нужно было по логам и распределениям метрик понять, что “пошло не так”. Также обсуждали выбор лосса, augmentations, data imbalance.

7) Behavioural: классическое интервью по фреймворку STAR. Много спрашивали про конфликты, работу с DS и PM, принятие решений в условиях неопределенности. Спрашивали кейсы, когда я был не согласен с командой.

Через пару дней после онсайта пришел отказ с объяснением, что команда ищет инженера с другим профилем. Что за профиль никто не объяснил. HR-ы после отказа слились с переписки.

Что понравилось:
- Команда, судя по вопросам, делает интересные вещи в области 3D perception.

Что не понравилось:
- Домашка слишком объемная
- В некоторых секциях было ощущение, что интервьюерам все равно


➡️Итоги собеседования: отказ после онсайта

➡️Информация про Total Compensation: base $200-220k + target bonus ~15% + $250k в RSU (vesting 4 года, по 25% в год).

#интервью

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/06/14 05:20:03
Back to Top
HTML Embed Code: