Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
- Telegram Web
Telegram Web
Могут ли аналитики-разработчики закрывать все DS задачи?

Если вы помните мой недавний пост про analytics-first или development-first датасаентистов, то я там упоминал достаточно полярные роли - либо мы сильно упарываемся в аналитику и общение с бизнесом, либо мы сильно погружаемся в сторону разработки и выкатки моделей в прод.

На самом деле, в командах это выглядит более размыто - то есть скорее относится к нотации T-shaped специалистов. Если команда работает в своих проектах end-to-end, то скорее вы не увидите там аналитика, который даже там регулярный расчет SQL-скриптов в прод выкатить не сможет, так же как и нет только разработчиков, которые не смогут провести легкую аналитику или не поговорят с бизнесом. Все это скорее подразумевает такой подход, где у всех есть определенная база и пара очень сильно вкачанных веток развития скиллов.

Почему это работает именно в таком виде?

Потому что направление работы сильно зависит от зрелости продукта:

1️⃣Идея

Бизнес только задачу. И продукт-менеджер (Product Owner) вместе с аналитиком-разработчиком формулируют гипотезу и определяют метрики. Здесь важно понять, какую проблему будет решать продукт/фича или моделька и сразу понять что и зачем делать

2️⃣Рисеч

Допустим, аналитик-разработчик проводит EDA, собирает MVP модели в ноутбуке, чекает гипотезу. Самое главное - это быстрые итерации и вообще похер какой код (главное, чтобы работало и воспроизводилось). Нам нужно быстро доказать или опровергнуть ценность идеи с минимальными затратами

3️⃣Прод

Если наш MVP показал необходимый результат, то его надо выводить в прод - короче сделать решение автоматизируемым. И здесь уже нужна другая вкачанная ветка нашего аналитика-разработчика, чтобы этот самый код переписать нормально, с пониманием архитектуры, масштабируемости. Приправить это логированием, тестированием и при необходимости интегрировать с другими сервисами. Самое простое - обернуть модель в API, поднять несколько под или Docker-контейнер, ну и настроить CI/CD, просто чтобы решение работало надежно, стабильно и эффективно

4️⃣Мониторинг и поддержка

После выкатки аналитик-разработчик (в дэшах, сделанных им же) следит не только за бизнес-метриками и считает эффекты от модели и влияние на бизнес, а также чекает технические моменты: время ответа, нагрузка. Дополнительно к этому проводятся итеративные улучшения от обратной связи коллег или работы с краевыми кейсами

Сколько ролей мы здесь насчитали?

Как минимум аналитик, разработчик, mlops

Распределив роли, мы можем не заставлять аналитика писать идеальный код, а разработчика часами копаться в сырых данных. Каждый занимается тем, в чем он наиболее силен. Но аналитик-разработчик занимается всем 😂

Достаточно ли аналитика-разработчика для решения всех DS проблем?

Нет

Потому что есть тот, кто не строит ML-модели и не пишет бэкенд. Но этот специалист и пишет много кода, и работает с данными. Вы наверно уже догадались, что это Data Engineer - и его суть превращать сырые данные из хранилищ в чистые и понятные витрины, на которых уже будут работать аналитики. По сути, аналитик-разработчик без этого не сможет делать свою работу. И кстати вкачать эту ветку развития будет довольно не быстро (попробуйте например заботать HDFS и Spark).

К чему я веду

К тому, что узкие специализации в больших командах позволяют каждому работать в своей области более эффективно, чем несколько многоруких-многоногов над разными проектами. И вместо споров о важности аналитиков-разработчиков или разработчиков-аналитиков можно подумать в сторону кросс-функциональных команд для создания постоянной ценности.

Проблема не в том, чтобы найти "многорукого многонога" или заплатить две ставки. Проблема в том, чтобы выстроить процесс и собрать команду, где каждый специалист максимально эффективен на своем этапе. И тогда вы платите не "за две ставки", а за десять, а инвестируете в целостный процесс создания data-driven продуктов.

👍Лайки - за аналитиков-разработчиков
❤‍🔥Сердечки - за разработчиков-аналитиков
🔥Огонечки - за дата-инженеров (ну и mlops пусть будет сюда же)

#career
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥14❤‍🔥132
Интересное что-то от ребят, кого я читаю v0.33

Предыдущий пост тут
Интересное что-то тут

Всех с кайфовым теплым денечком, надеюсь вы не провели его за компом, как я 😈

1. Женя сделал небольшой гайд с применяемыми им AI-инструментами. Ребята в коментах справедливо докинули про Copilot, но в целом больше придраться не к чему - хорошая емкая информация, на крайняк свериться со своими инструментами (на самом деле я хотел пилить примерно похожий пост, но уже сомневаюсь)

2. Влад в двух частях 1, 2 приготовил обзор дельта-метода для прикладных задач в A/B-тестировании. Это не значит, что нужно уходить от бутстрапа, но автор настоятельно рекомендует.

3. Просто мощнейшая база от Толи про тестирование собственных финансовых стратегий на эффективность. Суть какая: если на оптимизатор находит профит в случайных алгориитмах - возможно что-то не так с оптимизатором и надо искать лики.

4. Сергей рассказал про e-value. Это короче как p-value, но отвечает на немного другой вопрос: "Насколько сильным должен быть некоторый неучтённый фактор, а не тритмент, чтобы полностью объяснить результат?"

5. Никогда бы не поверил, что сюда попадут Поступашки, хотя у ребят хороший контент с точки зрения ботки. Но рекомендую ознакомиться с роадмапом в аналитику от ребят. Не совсем согласен с очередностью ботки от ребят, но очень рад, что с точки зрения упора на SQL в первую очередь мы свопали во мнениях. Мой роадмап если что тут

По классике надеюсь, что вам зашли посты, если есть что-то реально топовое - делитесь в каментах!

#interesting
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤‍🔥32🔥2
Саморазвивающее хобби

С появлением блога мне кажется я успел перепробовать себя в куче новых ролей и скажем так, что это хобби как-то научило меня развиваться не только с хардовой стороны.

Типа как обычно бывает - завел блог, чтобы писать про свое развитие в DS, а в итоге начал писать обо всем, что интересно, завел к этому дополнительный канал, и даже успел записать с ребятами несколько подкастов. Максимум, что я предполагал, это просто делиться экспертизой и хаками. Реальность оказалась куда шире и интереснее.

По сути хобби стало саморазвитием

Мне казалось, я буду качать только мл-часть, иногда писать про софты, возможно писать обзоры статей как все делают. В реальности я:

🌟Научился формулировать мысли и структурно их подавать
🌟Слегка погрузился в продающие тексты и даже записывал пару видео
🌟Поборол стеснение показать самого себя на канале
🌟Узнал и познакомился с большим количеством коллег и по работе, и по блогингу
🌟До сих пор не особо понял, интересны вам длиннопосты или нет

Мне кажется, что самый основной вывод отсюда, что блог - это в первоую очередь не про обучение и развитие других. Оно может в себя это включать. Но кажется, что главная идея здесь - это про то, чтобы учиться самому и подавать пример. Пример дисциплины, пример обучаемости, пример стратегического мышления. Сразу оговорюсь, что на 100% с меня пример брать не стоит, но хотя бы берите пример с развития в своем направлении!

Короче, знаете, интересный такой win-win. Вот на скрине например я монтирую подкаст, хотя месяц назад я даже не понимал, где это можно делать.

#life
Please open Telegram to view this post
VIEW IN TELEGRAM
25👍13🔥8❤‍🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
🔥15🍓5🤡4❤‍🔥3
Курсы по агентам

Тут снова захотелось поговорить про горячие темы. Пока мультиагентные системы катаются на хайп трейне, давайте я быстренько накидаю интересных курсов, ну а вы сами решите, изучать вам это или нет (потом только не говорите, что вам не рекомендовали это изучить):

1️⃣Hugging Face AI Agents Course

2️⃣CS294/194-196 Large Language Model Agents от UC Berkeley (сейчас у них новая итерация, инфа тут)

3️⃣Learn AI Agents Handbook (там же есть очень крутой роадмап) (сюда же курс от ребят на Степике) (ну и третья скобка - кажется, что я подписан на 2 блога в телеге из перечисленных авторов на сайте. UPD. Оказалось, что на 3)

4️⃣Интересный довольно неструктурированный плейлист по AI агентам

5️⃣10-часовое видео AI Agents Full Course 2025

Для тех, кому мало ссылочек - дополнительно гитхаб с собранной дополнительной инфой по курсам и фреймворкам. Го ботать, пока за нас и это не стали делать агенты

@asisakov_channel

#llm #agents #courses
🔥9❤‍🔥8👍52
Список чисел с делимостью

Давайте простенькую задачу на вечер пятницы

Существуют ли восемь натуральных чисел, среди которых ровно одно делится на 8, ровно два делятся на 7, ровно три — на 6, . . . , ровно семь — на 2?

#problem
🔥5👍42
Forwarded from Liubomyr
Что-то как-то легко, предлагаю решить такую задачу:
Существует ли нечётное натуральное число, равное сумме всех своих собственных делителей)
🔥5👍3🥰1
Minority drift

Мы все наверно сталкивались с явлением датадрифта после выкатки в прод модельки без частого преобучения. По сути, попадая в ситуацию, когда статистические свойства данных, поступающих на вход модели на инференсе в реальном времени, начинают отличаться от данных, на которых модель обучалась.

Один из способов этого избежать - это заранее убрать признаки, которые будут разлетаться в проде, например я про это писал в посте про PSI

Коллеги по цеху пошли дальше в этом плане и решили провести вебинар на 2 часа вместе с Team Lead из Yandex на практике учиться распознавать виды Minority Drift, делать модели устойчивыми к дрейфу и оценивать деградацию и финансовые риски.

Когда:

▫️6 октября, ПН
▫️19:00 по мск
▫️2 часа

Что будет на уроке:

1️⃣Виды Minority Drift в продакшен данных: Class-wise, Conditional, Subpopulation, Hidden Drift

2️⃣Оценка деградации моделей и финансовых потерь на практике

3️⃣Методы стабилизации признаков и моделей: PSI и KL-дивергенция

4️⃣Контроль качества — построение Fairness Metrics

Преподает Дмитрий Сафонов, Data Science Team Lead в Яндексе.

Урок для Data Scientists, Classic ML и NLP-инженеров. Нужны базовые знания основ машинного обучения, математики и программирования.

➡️ Записаться на урок
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍65💩2👎1
Интересное что-то от ребят, кого я читаю v0.34

Предыдущий пост тут
Интересное что-то тут

Всех с новой неделей и поздним выпуском интересных постов, а меня с отпуском!

1. Нашел старый пост от Димы, где он вместе собрал гибрид SGR + Tools. Здесь я напишу только вывод: Получается стабильный и интерпретируемый паттерн: чат-темплейт согласован с историей, вызовы инструментов не идут «против шерсти», а модель ведёт себя предсказуемо. Саму фишечку можно подсмотреть в посте

2. Наш Макс написал огромную статью про Наивный Байес и даже выложил на Хабр Телеграфе. Код есть, пояснения есть, выкладки с формулами есть, ссылки на источники есть.

3. Ринат собрал серию постов про спасение одного проекта с LLM в одном посте. Рекомендую это чтиво хотя бы перенять классный опыт и способ мышления (schema-guided reasoning получается). Мне кажется, если в комьюнити станет больше таких практических постов с решенными болями, то и LLM проекты будут приносить больше пользы.

4. Алексей наконец-то собрал в одном посте двенадцать единственных и очевидных способов записать строку в файл в Python. Вообще на самом деле достаточно знать только один способ, но если вам вдруг будет не о чем спросить на собесе, то вот.

5. Квант Рисерчер поделился большим списочком ноутбуков по квантовым темам. От обработки данных и классических стратегий до риск-менеджмента (тут я подчеркну, что если вам хочется что-то посложнее, то стоит почитать современные статьи) и применения NLP + LLM. Я не тыкал, но надеюсь инфа достойная.

По классике ставьте лайки, отправляйте в сохраненки и чатики с друзьями, ну и конечно же применяйте информацию во благо!

@asisakov_channel

#interesting
👍5❤‍🔥3🔥21
Ребят, произошел долгожданный дроп.

И кстати не DROP DATABASE, а что-то поинтереснее - мы с Андреем @awesome_dl записали небольшое интервью про его путь в DS, а именно в диффузионные модели. На самом деле путь очень потный и сложный, но достойный нашего внимания. Поэтому го смотреть и получать удовольствие от рассказов Андрея, как он учился в физмат лицее, затем писал крутые статьи на Физтехе и что успел насуетить в Сколтехе.

Короче, вот ссылка:

https://youtu.be/_c3NM5Bb9PU

По классике - жду лайки и репосты, ну а там будем дальше пилить контент по возможности!

@asisakov_channel

#podcasts
7🔥6🌚3🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
Хотел выложить это видео еще в понедельник, но все никак не удавалось нормально сделать без интернета. Так что ловите приветы в середине недели.

Если вдруг кто не слышит, что я говорю на видео - то я передаю привет тем, кто работает, а остальным соболезную напоминаю, что я в отпуске.

Кстати, вопрос знатокам - попробуйте угадать, где я нахожусь на видео. Пожалуйста, только неправильные ответы.

Будет интернет, прочитаю - вдруг кто-то угадает😹

#life
🔥15🥰6❤‍🔥31😁1💅1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥5👍4❤‍🔥2
Если вдруг не поняли, подсказка будет ниже и непростая
🔥2😁1🤝1
Небольшой отчет с PML conf от 📱.

Даже мне, как человеку достаточно далекому от LLM и мультимодальности, конференция показалась одной из самых занятных и сильных за год.

На мероприятии было много интересных спикеров, включая лауреата премии Филдса и профессора Колумбийского университета Андрея Окунькова, CTO Yandex R&D Алексей Колесов и руководителя Sber AI Павла Гуляева, чей доклад о памяти в языковых моделях, по моему мнению, оказался лучшим, тем более в свете недавно вышедшей TernFS от XTX Markets.

Конечно же, конференции — это всегда нетворкинг, мне удалось пообщаться с бывшими квантами из RBI и встретился со многими прикольными ребятами.

Хочу отметить достаточно любопытные стенды, я посидел внутри беспилотного китайского собрата Камаза, кроме того, за мной погонялся аналог робопса Boston Dynamics от Яндекса

Несколько полезных ссылок по темам докладов:
1. Память в LLM: LoCoMo benchmark; LongMemEval benchmark; Графы знаний в LLM
2. Online RL: GRPO; online-RL

Все доклады можно посмотреть на официальном сайте конференции

#мероприятия
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥53👍2
Быстрый принт для контестов

Я думаю каждый из нас горел в моменты, когда надо быстро решить контест с ограничением и написать типа оптимальный код, который типа пройдёт тесты и не только влезет в память, но еще и за 2 секунды отработает.

Часто бывало такое, что вроде уже наоптимизировал код, а он ну совсем не проходит по времени и надо еще 50-100 мс откуда-то достать

Оказалось, что привычный для нас print() - это функция поверх sys.stdout.write()

Пока она отработает до вывода в аутпут инфы, может пройти достаточно много времени. И вот почему - исполняя print(), интерпретатор Python выполняет несколько шагов:

1️⃣Принимает аргументы (*args). То есть мы можем написать print(a, b, c).
2️⃣Преобразует каждый аргумент в строку. Если мы передадим число i, print(i) вызовет str(i).
3️⃣Джойнит аргументы, используя разделитель (по умолчанию пробел).
4️⃣Добавляет в конец строки символ (по умолчанию \n).
5️⃣Вызывает sys.stdout.write()

Ну вот сами посчитайте количество дополнительной логики

Я спросил у гпт в чем отличие, и вот что он выдал:

print() — это как заказать в ресторане "комплексный обед". Вы просто говорите название, а повар сам готовит салат, суп и второе, а затем подает все вместе. Это удобно, но требует от кухни больше действий

sys.stdout.write() — это как напрямую сказать повару: "Дай мне кусок хлеба", "Теперь положи на него сыр". Вы даете точные, низкоуровневые команды. Это быстрее для повара, но требует от вас больше указаний

В цикле, где эти операции повторяются миллионы раз, накладные расходы на дополнительную логику print() становятся заметными.


Звучит немного кринжовенько, но думаю основной смысл понятен. Кстати, в цикле на 10М вызовов функции записи, sys.stdout.write() почти в 2 раза быстрее обычного принта

Надеюсь, инфа была полезной и сэкономит вам драгоценные милисекунды на контестах.

P.S. Этой инфой поделились ребята с моей команды, так что в первую очередь спасибо им💪🏿

#python #code
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1443
2025/10/04 01:12:37
Back to Top
HTML Embed Code: