asisakov

Forwarded from БАШНЯ

HARD SKILLS ❗️

Продолжаем разбирать hard skills 🔥

Сегодня поговорим про то, что необходимо знать аналитику перед собеседованиями

👨‍💻

Также прикрепляем полезные ссылки по теме:

🟣

Роадмап для вкатывания в DataScience с нуля
🟣Большая подборка постов про собеседования и подготовку к ним

Делитесь этим постом с друзьями и пишите свои вопросы в комментарии ✍️

Автор поста: Александр Исаков

#hardskills

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥4👍4🔥3⚡1

1.3K views11:18

asisakov

Результаты исследования дс специалистов

Помните, я вам говорил про исследование от коллег из DevCrowd. Так вот недавно коллеги пришли с результатами исследования и вот знаете что?

❗️ИССЛЕДОВАНИЯ БУКВАЛЬНО ТОЧНО ОТРАЖАЮТ ТО, ЧТО Я ВАМ ПИСАЛ В РОАДМАПЕ

Чтобы вкатиться в аналитику, необязательно ботать ML, DL, Python, Causal inference, Uplift, Market Mix Modeling и еще там миллиард прикладных вещей. Просто SQL и аналитический склад работы (затрагивает понимание статистики). По желанию можно подтянуть A/B.

🔠

Дальше просто пройти собес. Серию постов про собеседования я писал тут.

Что делать, вы знаете - материалы уже все я подготовил и ознакомиться можно вот тут: 1, 2, 3, 4, (серия еще не закончена, скоро выложу пост про A/B).

#career #analytics #interview

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9🔥7❤‍🔥3🥰1

1.26K views13:56

asisakov

Интересное что-то от ребят, кого я читаю v0.28

Предыдущий пост тут
Интересное что-то тут

Новая неделя, новая подборка!

1. Наш Андрей нашел и любезно приложил ссылочку на хэндбук по поиску фродовых транзакций в финтехе. Если вам актуально погрузиться в проблематику, метрики и применямые модели, то точно стоит пробежаться по материалу. Кстати, докину сюда еще, что в антифроде очень важно работать с хорошими и чистыми данными, потому что даже после разметки мы не можем до конца быть уверены в наших таргетах.

2. Александр поделился ресурсом, где собраны разные MCP сервера. Там и GPT ресерчеры и ~~Dungeon~~ Task мастеры, и даже вроде есть звездочки для каждого сервера. На крайняк там можно даже поглядеть серверы по категориям.

3. Сева рассказал про рабочий пример архитектуры мультиагентной системы. Базово там есть один центральный агент (judge), который раздает таски субагентам и далее потом на основе полученной информации делает выводы, а потом либо раздает таски, либо агрегирует информацию в отчет.

4. Рефат немного копнул про LangExtract в исходниках и рассказал суть. Если коротко, то LangExtract = Few-shot Information Extraction + Structured Outputs + Automatic Source Grounding. На выходе отдает точное местоположение типа {"startpos": 41, "endpos": 57}. Есть интересная штука extraction_passes - это типа несколько проходов по документу для повышения recall (полноты).

5. Сергей порадовал базой в менеджерских историях про хозяйственных и эгоистичных лидов. Одни делают так, чтобы команда работала эффективно, другие руководители гонятся за своими KPI. Интересно отмечено, что это не особенность психики или типа управления, а скорее среда сама способствует появлению таких моментов.

Все посты от коллег к сожалению я читать не успеваю, видимо пора уже делегировать 😂

#interesting

Please open Telegram to view this post

VIEW IN TELEGRAM

asisakov

Интересное что-то от ребят, кого я читаю v0.27

Предыдущий пост тут
Интересное что-то тут

Двигаемся в том же темпе, давайте смотреть интересные посты!

1. Макс поделился подборкой интересных статей на Хабре про A/B-тестирование. Не сказал бы, что выборка…

❤6🔥4🥰1

1.18K views16:37

asisakov

Йоу! Присаживайся, брат. Если ты пришел с вопросом как повайбкодить с нуля, значит, ты на верном пути. Я ~~10 лет в этой теме, и я~~ тебе скажу одно: сейчас кодить - это не про страдания и поиск багов ночью с перечитыванием документации. Сейчас кодинг - это про вайб, про состояние потока, когда ты мчишь по строчкам кода как на машине со скоростью мысли.

Твой сетап - это твой экзоскелет. Он должен быть незаметным, быстрым и угадывать твои желания. Забей на типа трушных разрабов, которые гордятся тем, что пишут в голом Vim и компилируют ядро на завтрак. Наш путь самураев - путь максимальной эффективности и кайфа.

Пора подняться из грязи в князи и кодить в браузере. Это точка входа. Ты еще не кодер, ты всего лишь энтузиаст. Ты разговариваешь с машиной, и она выдает артефакты. Берешь и открываешь вкладку с AI-чатом и пишешь промпт: "Напиши мне скрипт на Python, который берет CSV файл, находит всех юзеров из Москвы и сохраняет их в новый файл".

Инструменты:
▫️claude.ai
▫️chat.openai.com
▫️aistudio.google.com
▫️chat.deepseek.com

ВСЕ!

Тебе. Вообще. Не. Нужен. Комп. Нужен только браузер. Придумал промпт за 30 секунд, получил в ответ какой-то код. Если что-то непонятно, берешь и пишешь в чатик: "Объясни мне эту строчку". Если думаешь, что работает так себе, пиши: "А как сделать то же самое, но эффективнее?". ИИ, как твой бесконечно терпеливый синьор, вернется с ответом, как подумает. Заботы о том, работает оно или нет, оставь на потом. Сейчась главное ловить кайф.

Скоро вернусь с еще одним бесполезным советом!

#meme #llm

Please open Telegram to view this post

VIEW IN TELEGRAM

😁24🔥5❤3💯1

1.37K viewsedited 16:24

asisakov

Корни уравнения

Докажите, что уравнение

x^2 + (2^2018)*x + 2^2019 = 0

не имеет целых
корней

#problem

⚡5👍3🤔3

1.18K views18:27

asisakov

Что заботать от ШАДа Тут недавно закончились вступительные в Школу Анализа Данных. Слава богу, что мне не надо поступать, а можно просто посмотреть лекции😹 хотя например в одно время я подумывал влететь в обучение, но решил не рисковать нагрузкой, хотя любллю…

SHAD AB week

Помните, недавно я писал пост про материалы для ботки из ШАДа, и оказывается от них же еще недавно проходил AB week. Оригинальный пост с материалами я обновил, но чтобы вы были в курсе и сразу получили несвежую информацию из первых рук.

Там рассказали о современных методах анализа, включая бутстрап, линеаризацию и CUPED. Ну и соотвественно лекции про правильный дизайн и проведения А/В‑тестов, их анализ и формулировку бизнес‑решений.

Конкретно по лекциям:

1️⃣Статистика для A/B‑тестов: важные на практике распределения, параметры и оценки, гипотезы и статистические критерии, t‑критерий Стьюдента (YT, VK)

2️⃣Ошибки I и II рода, MDE (минимальный детектируемый эффект). Одновыборочный критерий Колмогорова — Смирнова. Тест Шапиро — Уилка. Синтетические АА‑тесты для проверки валидности статистического критерия (YT, VK)

3️⃣Сравнение распределения двух выборок: двухвыборочный критерий Колмогорова — Смирнова, тест Манна — Уитни. Метрики отношения. Мощность теста и сравнение критериев между собой (синтетические А/B‑тесты) (YT, VK)

4️⃣Доверительные интервалы для метрик отношения, процентных изменений (uplift), персентилей. Методы повышения чувствительности метрик: работа с выбросами, CUPED (YT, VK)

5️⃣Методы повышения чувствительности метрик: стратификация, постстратификация. Проблема множественного тестирования. Проблема подглядывания и групповой последовательный тест (GST). Альтернативный метод работы с данными — Байес. Флоу анализа A/B‑тестов (YT, VK)

Я вот быстренько пробежался по 4 и 5 лекции, кажется годно.

#ab #analytics #courses

Please open Telegram to view this post

VIEW IN TELEGRAM

asisakov

Что заботать от ШАДа

Тут недавно закончились вступительные в Школу Анализа Данных. Слава богу, что мне не надо поступать, а можно просто посмотреть лекции😹 хотя например в одно время я подумывал влететь в обучение, но решил не рисковать нагрузкой, хотя любллю…

🔥14👍5❤‍🔥3

1.59K views16:47

asisakov

Ну что, как ваши выходные прошли?

Делитесь фотками/видео

#life

❤‍🔥11🥰3

999 viewsedited 18:03

asisakov

Интересное что-то от ребят, кого я читаю v0.29

Предыдущий пост тут
Интересное что-то тут

И снова мои любимые ссылочки!

1. Георгий провел расследование по поводу предполагаемых результатов LLMок на SWE бенче и там ого-го какие приколы. Спойлерить я очень не хочу, но намекну, что каждые новые растущие метрики на бенчах могут быть на самом деле целой постановой, например потому что тестирование идет не на всех примерах. Короче, там серия постов, вот еще продолжение: 2, 3.

2. Витя собрал большое количество ссылочек про кейсы применения GenAI в проектах и в целом привел достаточное количество ссылочек. Очевидно, что там есть evidentlyai.com, но при этом рекомендую обратить внимание на российские кейсошные от Яндекса и Сбера.

3. Классный обзорчик от ребят из Gonzo ML про разные типы эффективных ~~трансформеров~~ архитектур в ллмках. Кстати, в названии статьи ("Speed Always Wins") скрыт основной посыл. Там дальше продолжение идет в следующих постах, прикладывать долго, если кто-то сделает, приложу.

4. Александр из ЛовДэсТрансформеров поделился интересной ссылочкой про симулятор TPU. Интересная штука потыкаться и накидать архитектуру и софт

5. Наш Валера рассказал про три уровня управления командой: директивный, создание регламентов и процессов, создание культуры. Про культуру круто и важно, но все же кажется, что пока без регламента и процессов никуда! Хотя хотелось бы чисто гибкую культуру и больше ничего.

6*. Раф сделал ребрендинг канала

Что у вас по интересным материалам?

#interesting

asisakov

Интересное что-то от ребят, кого я читаю v0.28

Предыдущий пост тут
Интересное что-то тут

Новая неделя, новая подборка!

1. Наш Андрей нашел и любезно приложил ссылочку на хэндбук по поиску фродовых транзакций в финтехе. Если вам актуально погрузиться в…

❤5🔥5👍2

1.13K viewsedited 16:53

asisakov

Наши слоняры🐘
Денчик кстати тот самый парень из Иркутска

🔥4❤‍🔥3👍1

919 views08:04

asisakov

Forwarded from Den4ik Research

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

0:17

This media is not supported in your browser

VIEW IN TELEGRAM

Наш русскоязычный датасет для TTS опубликован!

Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1

Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам:

Многоголосые:
ESpeech-podcasts - 3200 часов
ESpeech-webinars - 850 часов

Одноголосые:
ESpeech-igm - 220 часов
ESpeech-buldjat - 54 часа
ESpeech-upvote - 296 часов
ESpeech-tuchniyzhab - 306 часов

Данные лежат вот тут: https://huggingface.co/ESpeech

Техрепорт датасета доступен тут: https://github.com/Den4ikAI/ESpeech/blob/main/ESpeech_techreport.pdf

Также, мы решили провести некоторые эксперименты с TTS. Получилось обучить F5-TTS на 10000 часов речи и сделать одну из лучших по нашим замерам моделей в опенсурсе для русского языка.

Какие модели доступны?
ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)

Лайкайте модель которая больше понравится чтобы мы понимали есть ли смысл запускать RL.

Послушать модели без скачивания можно вот здесь:

https://huggingface.co/spaces/Den4ikAI/ESpeech-TTS

Совместно с @speech_recognition_ru ещё сделали лидерборд русского ТТС, где можно глянуть метрики:

https://huggingface.co/spaces/ESpeech/open_tts_leaderboard_ru
Задать вопросы по поводу данных и модели можно в наших телеграм каналах:
https://www.tgoop.com/den4ikresearch
https://www.tgoop.com/voice_stuff_chat

Вы можете мне задонатить, чтобы у меня были ресурсы делать более крутые модели и датасеты:

USDT (TRC20): TEpEM4VVmGmqKHn4Xz1FxM7qZiXjWtUEUB
BTC: bc1qw5lq7fc455e47hggax6zp8txw4ru7yvsxvawv3
https://www.tbank.ru/cf/7WKnNMqWtOx

🔥10👍4❤3🤝2⚡1

842 views08:04

asisakov

Та самая либка для AI на коленке

Как вы поняли, здесь речь идет про NumPy. Когда я спросил Клода, что это за библиотека, он ответил, что это что-то типа «эффективного кода, который еще может и в математику».

Я думаю вам не надо объяснять, что любая нейросеть - это перемножение матриц с применением функций активации на результат, а это по сути некоторые операции линейной алгебры: умножение матриц, векторизация, градиенты. Короче, наш нампай хранит уже эти математические функции в виде быстрого и рабочего кода.

Когда я проходил dlcourse.ai с Семеном Козловым, для меня особенной болью была как раз работа с нампаем. Сидишь слушаешь, и чел такой: «нахер циклы, смотрите как неэффективно, давайте напишем это через тензоры».

А что, так можно было?

Ну или тот же броадкастинг - типа взяли и сложили массивы разных размеров для операций. Просто разрыв башки, когда складываешь матрицу 1000×784 с вектором из 784 элементов.

Как вы поняли, numpy я так и не заботал на том курсе, хотя знатно прифигел

Поэтому решил с вами поделиться интересной ссылочкой на бесплатный numpy crash course. Надеюсь, вы все поймете с первого раза💪🏿

#math #ml #dl #courses

The Data Frog

Numpy Crash Course for Machine Learning

Learn the minimum numpy needed to get started with machine learning (1h course)

❤‍🔥12👍9🔥8⚡1

1.26K views16:18

asisakov

Датка + жизнь = блог

В самом начале моего пути в ML не было нормальной собранной информации в виде роадмапов и вообще нормальных подборок по ботке. Из уст в уста мы передавали легенды о том, кто и как проходил разные курсы или собесы, связанные с работой и уже после пытались построить свои планы схожим образом. Я буквально сутками пропадал в чатиках и форумах, жадно поглощая каждый пост, в каждом комментарии искал крупицу дополнительной информации. Коллеги всегда находили чем удивить: прорывными решениями, эпичными фейлами, нестандартными подходами или просто безумными экспериментами. Сейчас мои источники вдохновения тоже остались в мессенджерах и телеграм-каналах. По моим постам и подборкам вы наверняка 💯 понимаете, что я постоянно мониторю огромное количество DS-каналов.

Для меня это в первую очередь - живые знания, боевой опыт, который можно сразу применить, и просто крутанские фишечки и с личного опыта, и с работы, и с софтскиллов. Уверен, что вы тоже подписаны не только на мой канал, и также черпаете крупицы опыта у коллег, которые делятся своей жизнью в АйТи - кто-то ныряет в академические статьи, кто-то экспериментирует с нуля, а кто-то вообще переворачивает задачу с ног на голову.

Огромная сила кроется в многообразии и фокусе

Читая материалы разных авторов, мы расширям свои рамки, впитываем свежие идеи и подходы, которые могут стать изюминкой для наших собственных проектов и рисерча, мы учимся смотреть на челленджи под разными углами и находить неочевидные решени.

Нет одной волшебной формулы, а есть целая вселенная возможностей и траекторий к своей цели

Это не про пассивное чтение ленты. Это прокачка, прокачка и еще раз прокачка. Мы можем задавать жесткие вопросы, холиварить в комментариях, обсуждать свои идеи и гипотезы. И это круто, что мы можем учиться на чужих граблях и внедрять добытые знания в свои рабочие и личные проекты. А прикиньте еще как круто загореться идеей самим начать делиться опытом и знаниями.

Го использовать эту мощнейшую возможность. Специально для вас мы с командой сколотили убойную папку с DS-авторами: ссылка тут

Если нужны конкретные рекомендации, то по классике ловите:

▫️Наши слоны Никита с базой на LLM собесах и Дима с разваливанием собесов
▫️Даня, который сделал крутой аналитический сайт по картам Чебоксар
▫️Арина и ее путь в датасаенс с нуля
▫️И одновременно сюда же Ваня с его роадмапом с нуля до полноценного джуна
▫️Татьяна, которая идет к 300к в наносек, про ИИ и с чем его есть
▫️Легендарный Юра с применением AI в производстве
▫️В то же время Макс, который пишет о том, как навайбкодить с этим самым эйай
▫️Виталя с его историей про неудачный x3 к зп (та самая важная крупица информации)
▫️Конечно же Захар с его легендарным стартапом
▫️Андрей из Лавки пишет про то, где искать работу студенту
▫️Второй Андрей из финтеха с его тимлидскими заметками
▫️Ну и третий Андрей с его топовым роадмапом по диффузионкам
▫️Все разборы про TDA во временных рядах от Кирилла: 1, 2, 3
▫️Наш Паша, который тоже Техник, но живой про то, как устроена работа в Valve

Папка вот тут

#collaboration

Please open Telegram to view this post

VIEW IN TELEGRAM

DS/DA

Nikita Boyandin invites you to add the folder “DS/DA”, which includes 17 chats.

🔥23❤‍🔥14🤝7👍3❤2🤗1

2.39K views15:01

asisakov

Код с контекстом

Что, если весь код проекта скормить сеточке в промпт?

Во время работы с проектом мы можем передать много неструктурированной информации. В любом проекте полно файлов, которые к сути дела могут не относиться: логи, зависимости, тесты, или по классике старые закомментированные куски кода. Для нас это что-то типичное и не требующее внимания, причем мы уже на автомате это фильтруем за счет подсветки синтаксиса. А для модели - это некоторый шум, который при этом обрабатывается в памяти и занимает токены.

При этом, условный FastAPI занимает более 2M токенов, что естественно выше обычной длины контекстного окна для LLMок, при этом не забываем про размер эффективного контекстного окна. Запихнул туда большой проект целиком, и давай спрашивать сеточку, а что там да как там. Очень похоже на подготовку к экзаменам за пару дней, когда впихиваешь в гудящую голову все эти теоремы и доказательства, а потом на экзамене препод спрашивает базовую базу и ругается на то, что у тебя в голове опять все перемешалось.

На что учил, то и получил. Кстати, именно поэтому например сейчас в условных Курсорах и инструментах для вайбкодинга кодовая база прокидывается в виде RAGа над чанками текста

В структурном проекте обычно есть папки data, models, tests, src. Быстро пробежался по ним, и кажется вроде что-то понял. Для модели без описания структуры это может быть довольно проблематичным понять, что и с чем соотносится - особенно с файлами с одинаковым неймингом. Недостаточно просто кода, надо понимать, что один файл отвечает за конфиг для тренировки, а другой за конфиг для инференса.

К счастью, все сделано за нас. Заходим на Gitingest, вставляем ссылочку на наш гитхаб-репозиторий и получаем файлик с описанием структуры проекта и файлов в одном текстовом файлике. И дальше эту штуку можно закинуть как промпт, предварительно выкинув не нужные для нас файлы. Это конечно не RAG, но потыкаться с небольшими проектами самое то.

По сути мы закидываем не только код, но и автоматизируем подачу контекста. Ну кайф же чисто закинуть в условный google colab или aistudio потыкать код и попросить AI-стажера отрефакторить весь код проекта 😂

P.S. Кстати, у челов уже 12к звезд на гитхабе.

#llm #code

Please open Telegram to view this post

VIEW IN TELEGRAM

Gitingest

Replace 'hub' with 'ingest' in any GitHub URL for a prompt-friendly text.

❤12🔥4🥰2⚡1

1.55K views16:47

Лето под конец решило порадовать солнечными днями

Благостно

Как у вас?

#life

❤‍🔥4🍓4🥰3👍2❤1

1.5K views10:55

2025/10/12 00:17:58
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>