Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
983 - Telegram Web
Telegram Web
Forwarded from БАШНЯ
HARD SKILLS ❗️

Продолжаем разбирать hard skills 🔥

Сегодня поговорим про то, что необходимо знать аналитику перед собеседованиями 👨‍💻

Также прикрепляем полезные ссылки по теме:

🟣Роадмап для вкатывания в DataScience с нуля
🟣Большая подборка постов про собеседования и подготовку к ним

Делитесь этим постом с друзьями и пишите свои вопросы в комментарии ✍️

Автор поста: Александр Исаков

#hardskills
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥4👍4🔥31
Результаты исследования дс специалистов

Помните, я вам говорил про исследование от коллег из DevCrowd. Так вот недавно коллеги пришли с результатами исследования и вот знаете что?

❗️ИССЛЕДОВАНИЯ БУКВАЛЬНО ТОЧНО ОТРАЖАЮТ ТО, ЧТО Я ВАМ ПИСАЛ В РОАДМАПЕ

Чтобы вкатиться в аналитику, необязательно ботать ML, DL, Python, Causal inference, Uplift, Market Mix Modeling и еще там миллиард прикладных вещей. Просто SQL и аналитический склад работы (затрагивает понимание статистики). По желанию можно подтянуть A/B.

🔠🔠🔠

Дальше просто пройти собес. Серию постов про собеседования я писал тут.

Что делать, вы знаете - материалы уже все я подготовил и ознакомиться можно вот тут: 1, 2, 3, 4, (серия еще не закончена, скоро выложу пост про A/B).

#career #analytics #interview
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥7❤‍🔥3🥰1
Интересное что-то от ребят, кого я читаю v0.28

Предыдущий пост тут
Интересное что-то тут

Новая неделя, новая подборка!

1. Наш Андрей нашел и любезно приложил ссылочку на хэндбук по поиску фродовых транзакций в финтехе. Если вам актуально погрузиться в проблематику, метрики и применямые модели, то точно стоит пробежаться по материалу. Кстати, докину сюда еще, что в антифроде очень важно работать с хорошими и чистыми данными, потому что даже после разметки мы не можем до конца быть уверены в наших таргетах.

2. Александр поделился ресурсом, где собраны разные MCP сервера. Там и GPT ресерчеры и Dungeon Task мастеры, и даже вроде есть звездочки для каждого сервера. На крайняк там можно даже поглядеть серверы по категориям.

3. Сева рассказал про рабочий пример архитектуры мультиагентной системы. Базово там есть один центральный агент (judge), который раздает таски субагентам и далее потом на основе полученной информации делает выводы, а потом либо раздает таски, либо агрегирует информацию в отчет.

4. Рефат немного копнул про LangExtract в исходниках и рассказал суть. Если коротко, то LangExtract = Few-shot Information Extraction + Structured Outputs + Automatic Source Grounding. На выходе отдает точное местоположение типа {"startpos": 41, "endpos": 57}. Есть интересная штука extraction_passes - это типа несколько проходов по документу для повышения recall (полноты).

5. Сергей порадовал базой в менеджерских историях про хозяйственных и эгоистичных лидов. Одни делают так, чтобы команда работала эффективно, другие руководители гонятся за своими KPI. Интересно отмечено, что это не особенность психики или типа управления, а скорее среда сама способствует появлению таких моментов.

Все посты от коллег к сожалению я читать не успеваю, видимо пора уже делегировать 😂

#interesting
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥4🥰1
Йоу! Присаживайся, брат. Если ты пришел с вопросом как повайбкодить с нуля, значит, ты на верном пути. Я 10 лет в этой теме, и я тебе скажу одно: сейчас кодить - это не про страдания и поиск багов ночью с перечитыванием документации. Сейчас кодинг - это про вайб, про состояние потока, когда ты мчишь по строчкам кода как на машине со скоростью мысли.

Твой сетап - это твой экзоскелет. Он должен быть незаметным, быстрым и угадывать твои желания. Забей на типа трушных разрабов, которые гордятся тем, что пишут в голом Vim и компилируют ядро на завтрак. Наш путь самураев - путь максимальной эффективности и кайфа.

Пора подняться из грязи в князи и кодить в браузере. Это точка входа. Ты еще не кодер, ты всего лишь энтузиаст. Ты разговариваешь с машиной, и она выдает артефакты. Берешь и открываешь вкладку с AI-чатом и пишешь промпт: "Напиши мне скрипт на Python, который берет CSV файл, находит всех юзеров из Москвы и сохраняет их в новый файл".

Инструменты:
▫️claude.ai
▫️chat.openai.com
▫️aistudio.google.com
▫️chat.deepseek.com

ВСЕ!

Тебе. Вообще. Не. Нужен. Комп. Нужен только браузер. Придумал промпт за 30 секунд, получил в ответ какой-то код. Если что-то непонятно, берешь и пишешь в чатик: "Объясни мне эту строчку". Если думаешь, что работает так себе, пиши: "А как сделать то же самое, но эффективнее?". ИИ, как твой бесконечно терпеливый синьор, вернется с ответом, как подумает. Заботы о том, работает оно или нет, оставь на потом. Сейчась главное ловить кайф.

Скоро вернусь с еще одним бесполезным советом!

#meme #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
😁24🔥53💯1
Корни уравнения

Докажите, что уравнение
x^2 + (2^2018)*x + 2^2019 = 0

не имеет целых
корней

#problem
5👍3🤔3
asisakov
Что заботать от ШАДа Тут недавно закончились вступительные в Школу Анализа Данных. Слава богу, что мне не надо поступать, а можно просто посмотреть лекции😹 хотя например в одно время я подумывал влететь в обучение, но решил не рисковать нагрузкой, хотя любллю…
SHAD AB week

Помните, недавно я писал пост про материалы для ботки из ШАДа, и оказывается от них же еще недавно проходил AB week. Оригинальный пост с материалами я обновил, но чтобы вы были в курсе и сразу получили несвежую информацию из первых рук.

Там рассказали о современных методах анализа, включая бутстрап, линеаризацию и CUPED. Ну и соотвественно лекции про правильный дизайн и проведения А/В‑тестов, их анализ и формулировку бизнес‑решений.

Конкретно по лекциям:

1️⃣Статистика для A/B‑тестов: важные на практике распределения, параметры и оценки, гипотезы и статистические критерии, t‑критерий Стьюдента (YT, VK)

2️⃣Ошибки I и II рода, MDE (минимальный детектируемый эффект). Одновыборочный критерий Колмогорова — Смирнова. Тест Шапиро — Уилка. Синтетические АА‑тесты для проверки валидности статистического критерия (YT, VK)

3️⃣Сравнение распределения двух выборок: двухвыборочный критерий Колмогорова — Смирнова, тест Манна — Уитни. Метрики отношения. Мощность теста и сравнение критериев между собой (синтетические А/B‑тесты) (YT, VK)

4️⃣Доверительные интервалы для метрик отношения, процентных изменений (uplift), персентилей. Методы повышения чувствительности метрик: работа с выбросами, CUPED (YT, VK)

5️⃣Методы повышения чувствительности метрик: стратификация, постстратификация. Проблема множественного тестирования. Проблема подглядывания и групповой последовательный тест (GST). Альтернативный метод работы с данными — Байес. Флоу анализа A/B‑тестов (YT, VK)

Я вот быстренько пробежался по 4 и 5 лекции, кажется годно.

#ab #analytics #courses
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍5❤‍🔥3
Ну что, как ваши выходные прошли?

Делитесь фотками/видео

#life
❤‍🔥11🥰3
Интересное что-то от ребят, кого я читаю v0.29

Предыдущий пост тут
Интересное что-то тут

И снова мои любимые ссылочки!

1. Георгий провел расследование по поводу предполагаемых результатов LLMок на SWE бенче и там ого-го какие приколы. Спойлерить я очень не хочу, но намекну, что каждые новые растущие метрики на бенчах могут быть на самом деле целой постановой, например потому что тестирование идет не на всех примерах. Короче, там серия постов, вот еще продолжение: 2, 3.

2. Витя собрал большое количество ссылочек про кейсы применения GenAI в проектах и в целом привел достаточное количество ссылочек. Очевидно, что там есть evidentlyai.com, но при этом рекомендую обратить внимание на российские кейсошные от Яндекса и Сбера.

3. Классный обзорчик от ребят из Gonzo ML про разные типы эффективных трансформеров архитектур в ллмках. Кстати, в названии статьи ("Speed Always Wins") скрыт основной посыл. Там дальше продолжение идет в следующих постах, прикладывать долго, если кто-то сделает, приложу.

4. Александр из ЛовДэсТрансформеров поделился интересной ссылочкой про симулятор TPU. Интересная штука потыкаться и накидать архитектуру и софт

5. Наш Валера рассказал про три уровня управления командой: директивный, создание регламентов и процессов, создание культуры. Про культуру круто и важно, но все же кажется, что пока без регламента и процессов никуда! Хотя хотелось бы чисто гибкую культуру и больше ничего.

6*. Раф сделал ребрендинг канала

Что у вас по интересным материалам?

#interesting
5🔥5👍2
Наши слоняры🐘
Денчик кстати тот самый парень из Иркутска
🔥4❤‍🔥3👍1
Forwarded from Den4ik Research
Наш русскоязычный датасет для TTS опубликован!

Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1

Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам:

Многоголосые:
ESpeech-podcasts - 3200 часов
ESpeech-webinars - 850 часов

Одноголосые:
ESpeech-igm - 220 часов
ESpeech-buldjat - 54 часа
ESpeech-upvote - 296 часов
ESpeech-tuchniyzhab - 306 часов

Данные лежат вот тут: https://huggingface.co/ESpeech

Техрепорт датасета доступен тут: https://github.com/Den4ikAI/ESpeech/blob/main/ESpeech_techreport.pdf


Также, мы решили провести некоторые эксперименты с TTS. Получилось обучить F5-TTS на 10000 часов речи и сделать одну из лучших по нашим замерам моделей в опенсурсе для русского языка.

Какие модели доступны?
ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)

Лайкайте модель которая больше понравится чтобы мы понимали есть ли смысл запускать RL.

Послушать модели без скачивания можно вот здесь:

https://huggingface.co/spaces/Den4ikAI/ESpeech-TTS

Совместно с @speech_recognition_ru ещё сделали лидерборд русского ТТС, где можно глянуть метрики:

https://huggingface.co/spaces/ESpeech/open_tts_leaderboard_ru
Задать вопросы по поводу данных и модели можно в наших телеграм каналах:
https://www.tgoop.com/den4ikresearch
https://www.tgoop.com/voice_stuff_chat

Вы можете мне задонатить, чтобы у меня были ресурсы делать более крутые модели и датасеты:

USDT (TRC20): TEpEM4VVmGmqKHn4Xz1FxM7qZiXjWtUEUB
BTC: bc1qw5lq7fc455e47hggax6zp8txw4ru7yvsxvawv3
https://www.tbank.ru/cf/7WKnNMqWtOx
🔥10👍43🤝21
Та самая либка для AI на коленке

Как вы поняли, здесь речь идет про NumPy. Когда я спросил Клода, что это за библиотека, он ответил, что это что-то типа «эффективного кода, который еще может и в математику».

Я думаю вам не надо объяснять, что любая нейросеть - это перемножение матриц с применением функций активации на результат, а это по сути некоторые операции линейной алгебры: умножение матриц, векторизация, градиенты. Короче, наш нампай хранит уже эти математические функции в виде быстрого и рабочего кода.

Когда я проходил dlcourse.ai с Семеном Козловым, для меня особенной болью была как раз работа с нампаем. Сидишь слушаешь, и чел такой: «нахер циклы, смотрите как неэффективно, давайте напишем это через тензоры».

А что, так можно было?

Ну или тот же броадкастинг - типа взяли и сложили массивы разных размеров для операций. Просто разрыв башки, когда складываешь матрицу 1000×784 с вектором из 784 элементов.

Как вы поняли, numpy я так и не заботал на том курсе, хотя знатно прифигел

Поэтому решил с вами поделиться интересной ссылочкой на бесплатный numpy crash course. Надеюсь, вы все поймете с первого раза💪🏿

#math #ml #dl #courses
❤‍🔥12👍9🔥81
Датка + жизнь = блог

В самом начале моего пути в ML не было нормальной собранной информации в виде роадмапов и вообще нормальных подборок по ботке. Из уст в уста мы передавали легенды о том, кто и как проходил разные курсы или собесы, связанные с работой и уже после пытались построить свои планы схожим образом. Я буквально сутками пропадал в чатиках и форумах, жадно поглощая каждый пост, в каждом комментарии искал крупицу дополнительной информации. Коллеги всегда находили чем удивить: прорывными решениями, эпичными фейлами, нестандартными подходами или просто безумными экспериментами. Сейчас мои источники вдохновения тоже остались в мессенджерах и телеграм-каналах. По моим постам и подборкам вы наверняка 💯 понимаете, что я постоянно мониторю огромное количество DS-каналов.

Для меня это в первую очередь - живые знания, боевой опыт, который можно сразу применить, и просто крутанские фишечки и с личного опыта, и с работы, и с софтскиллов. Уверен, что вы тоже подписаны не только на мой канал, и также черпаете крупицы опыта у коллег, которые делятся своей жизнью в АйТи - кто-то ныряет в академические статьи, кто-то экспериментирует с нуля, а кто-то вообще переворачивает задачу с ног на голову.

Огромная сила кроется в многообразии и фокусе

Читая материалы разных авторов, мы расширям свои рамки, впитываем свежие идеи и подходы, которые могут стать изюминкой для наших собственных проектов и рисерча, мы учимся смотреть на челленджи под разными углами и находить неочевидные решени.

Нет одной волшебной формулы, а есть целая вселенная возможностей и траекторий к своей цели

Это не про пассивное чтение ленты. Это прокачка, прокачка и еще раз прокачка. Мы можем задавать жесткие вопросы, холиварить в комментариях, обсуждать свои идеи и гипотезы. И это круто, что мы можем учиться на чужих граблях и внедрять добытые знания в свои рабочие и личные проекты. А прикиньте еще как круто загореться идеей самим начать делиться опытом и знаниями.

Го использовать эту мощнейшую возможность. Специально для вас мы с командой сколотили убойную папку с DS-авторами: ссылка тут

Если нужны конкретные рекомендации, то по классике ловите:

▫️Наши слоны Никита с базой на LLM собесах и Дима с разваливанием собесов
▫️Даня, который сделал крутой аналитический сайт по картам Чебоксар
▫️Арина и ее путь в датасаенс с нуля
▫️И одновременно сюда же Ваня с его роадмапом с нуля до полноценного джуна
▫️Татьяна, которая идет к 300к в наносек, про ИИ и с чем его есть
▫️Легендарный Юра с применением AI в производстве
▫️В то же время Макс, который пишет о том, как навайбкодить с этим самым эйай
▫️Виталя с его историей про неудачный x3 к зп (та самая важная крупица информации)
▫️Конечно же Захар с его легендарным стартапом
▫️Андрей из Лавки пишет про то, где искать работу студенту
▫️Второй Андрей из финтеха с его тимлидскими заметками
▫️Ну и третий Андрей с его топовым роадмапом по диффузионкам
▫️Все разборы про TDA во временных рядах от Кирилла: 1, 2, 3
▫️Наш Паша, который тоже Техник, но живой про то, как устроена работа в Valve

Папка вот тут

#collaboration
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23❤‍🔥14🤝7👍32🤗1
Код с контекстом

Что, если весь код проекта скормить сеточке в промпт?

Во время работы с проектом мы можем передать много неструктурированной информации. В любом проекте полно файлов, которые к сути дела могут не относиться: логи, зависимости, тесты, или по классике старые закомментированные куски кода. Для нас это что-то типичное и не требующее внимания, причем мы уже на автомате это фильтруем за счет подсветки синтаксиса. А для модели - это некоторый шум, который при этом обрабатывается в памяти и занимает токены.

При этом, условный FastAPI занимает более 2M токенов, что естественно выше обычной длины контекстного окна для LLMок, при этом не забываем про размер эффективного контекстного окна. Запихнул туда большой проект целиком, и давай спрашивать сеточку, а что там да как там. Очень похоже на подготовку к экзаменам за пару дней, когда впихиваешь в гудящую голову все эти теоремы и доказательства, а потом на экзамене препод спрашивает базовую базу и ругается на то, что у тебя в голове опять все перемешалось.

На что учил, то и получил. Кстати, именно поэтому например сейчас в условных Курсорах и инструментах для вайбкодинга кодовая база прокидывается в виде RAGа над чанками текста

В структурном проекте обычно есть папки data, models, tests, src. Быстро пробежался по ним, и кажется вроде что-то понял. Для модели без описания структуры это может быть довольно проблематичным понять, что и с чем соотносится - особенно с файлами с одинаковым неймингом. Недостаточно просто кода, надо понимать, что один файл отвечает за конфиг для тренировки, а другой за конфиг для инференса.

К счастью, все сделано за нас. Заходим на Gitingest, вставляем ссылочку на наш гитхаб-репозиторий и получаем файлик с описанием структуры проекта и файлов в одном текстовом файлике. И дальше эту штуку можно закинуть как промпт, предварительно выкинув не нужные для нас файлы. Это конечно не RAG, но потыкаться с небольшими проектами самое то.

По сути мы закидываем не только код, но и автоматизируем подачу контекста. Ну кайф же чисто закинуть в условный google colab или aistudio потыкать код и попросить AI-стажера отрефакторить весь код проекта 😂

P.S. Кстати, у челов уже 12к звезд на гитхабе.

#llm #code
Please open Telegram to view this post
VIEW IN TELEGRAM
12🔥4🥰21
Media is too big
VIEW IN TELEGRAM
Лето под конец решило порадовать солнечными днями

Благостно

Как у вас?

#life
❤‍🔥4🍓4🥰3👍21
2025/10/12 00:17:58
Back to Top
HTML Embed Code: