Start Career in DS

🐍 Где практиковать написание кода на Python

Ну, раз уж писали про SQL, хорошо бы и про Python написать 🙂
Итак, сборник ресурсов, на которых можно пописать код для тренировки перед собесами и не только:

1. Хэнбук Яндекса - повторить/узнать базу
Отлично хорошо структурированный вводный курс. Тут по каждой основной теме есть блок теории + блок практических заданий.
Покрываются как базовые темы (например условные операторы, циклы) так и data-библиотеки (numpy, pandas)

2. py.Checkio - глубоко поковыряться в особенностях синтаксиса и пописать всё на свете
Очень много заданий, можно залипнуть буквально на несколько месяцев

3. Leetcode, куда же без него. Классика по натаскиванию на алго-задачки
Однако, там ОЧЕНЬ много задач. Если начать решать всё подряд - будет очень больно. Но есть вот такая схемка, которая позволит пройтись по всем основным блокам, от простого к сложному

4. Точечное повторение Numpy и Pandas
Конечно, работу с этими библиотеками лучше тренировать на практике, но вспомнить основной функционал можно с помощью этих тренажеров

Ничего не забыли?
Если хотите больше подобных подборок - накидывайте 🔥 под постом!

education.yandex.ru

Основы Python — Хендбук от Яндекс Образования

Хендбук по Python поможет овладеть основным синтаксисом и принципами языка. Кроме основных конструкций в учебнике рассмотрены разные подходы к программированию, реализованные на Python.

👍46🔥43❤‍🔥9

16.6K views08:23

Start Career in DS

💙 Weekend оффер в аналитику Лавки и Еды

В прошлый раз по ровно такой же программе к нам пришло несколько очень крутых ребят.
На этой неделе повторим!
Если вы давно хотели податься в аналитику Яндекса, но сомневались - это шанс для вас 🙂

Буквально до завтра можно решить тестовое (базовый тервер+python), а в выходные - пройти секции и получить оффер. Кстати, вот здесь я подробно рассказывал про секции и про то, как к ним готовиться

Регистрироваться тут

Офер за 2 дня в команду Фудтеха Яндекса.

Ищем дата-аналитиков со знанием SQL и Python. 13 и 14 апреля, онлайн.

❤‍🔥10❤2🔥2👍1

12.3K viewsedited 07:14

Start Career in DS

🖥 База знаний SCiDS

Вы просили - мы сделали!
Пересобрали базу знаний по всем материалам, которые собирали в этом канале. Более 300 постов теперь доступны в максимально системном формате. Новые посты тоже обязательно будем доливать, поэтому если вы еще не подписаны - подписывайтесь! 🙂

Наша база знаний лежит здесь: [Ссылка на Notion]

Основные блоки:
🎬 Наш канал на YouTube
🆕 Для новичков (чтобы понять, что такое DA/DS)
💼 Подготовка к собеседованию, составление резюме и поиск работы
📝 Математика и статистика
⌨️ Языки программирования
🧠 Машинное обучение
📊 Аналитика
⚙️ Инструменты
🔍 Специфика задач в разных областях
🗒️ Полезная информация и шпаргалки

---

💡 Создатель нашего канала, Рома Васильев, также ведёт персональный блог, в котором делится идеями касательно образования, обучения и развития в анализе данных.
Если готовы нырнуть в это всё глубже - приходите читать: @ravasiliev_ch

Start Career in DS

Тут публикуются материалы для прокачки скиллов в DS и подготовки к собеседованиям.

Пишем про технические тулзы, визуализацию данных, бизнесовые задачи, разбираем ML-алгоритмы и обсуждаем смежные темы :)

Автор: @RAVasiliev

№ 5141779667

🔥83👍32❤12

14.8K viewsedited 07:01

Start Career in DS

🧑‍🏫 Записи лекций по курсу МФТИ "Теория вероятностей" от А.М.Райгородского

Один из самых крутых базовых курсов по Теории вероятностей!
Позволяет быстро понять все основные темы. А Андрей Михайлович - мега-крутой преподаватель, который умеет вовлечь в тему и объяснить всё на примерах.

Собрали для вас все лекции с их коротким описанием, чтобы можно было выбрать и посмотреть интересную/нужную вам:
1. Геометрическая вероятность. Условная вероятность и независимость событий
2. Формула полной вероятности и формула Байеса. Схема испытаний Бернулли
3. Случайные графы. Полиномиальная схема. Конечное вероятностное пространство. Аксиоматика Колмогорова
4. Предельные теоремы схемы испытаний Бернулли. Случайные величины и функции распределения (начало)
5. Случайные величины и функции распределения (продолжение)
6. Математические ожидания случайной величины. Независимость случайных величин, корреляция
7. Неравенства Маркова и Чебышёва. Свойства дисперсии случайной величины
8. Закон больших чисел. Неравенства уклонения в случайном блуждании
9. Формула обращения. Многомерные функции распределения
10. Распределения случайных векторов. Вероятностная сходимость
11. Сходимость по распределению. Усиленный закон больших чисел
12. Характеристические функции. Центральная предельная теорема
13. Центральная предельная теорема (продолжение)

Накидайте 🔥 это посту если хотите больше материалов по базе 🙂

YouTube

Теория вероятностей, Райгородский А. М. 09.09.2021г.

Плейлист: https://www.youtube.com/playlist?list=PLthfp5exSWEqYroMZVPIOPd5Dz3ARAXzN
Описание занятия: Геометрическая вероятность. Условная вероятность и независимость событий

Предмет: Теория вероятностей
Тип занятия: Лекция
Преподаватель: Райгородский Андрей…

🔥171❤15❤‍🔥4👍4

15.3K views08:24

Start Career in DS

📐 Задачи на геометрическую вероятность из экзаменов в ШАД

Задачи на геометрическую вероятность позволяют отлично понять суть вероятности, вспомнить геометрию и размять мозги.
А ещё их очень любят периодически давать на собеседованиях!

Вашему вниманию предлагаются три задачки. Попробуйте решить их сами:
1. Внутри правильного треугольника единичной площади случайным образом выбирается точка и соединяется с двумя вершинами. Какого математическое ожидание площади полученного треугольника?
2. На окружности выбираются три случайных точки - вершины треугольника. Какова вероятность того, что центр треугольника будет находиться внутри треугольника?
3. Плоскость разбита на прямоугольники 10x20. Выбирается окружность диаметра 4 с центром в случайном месте плоскости. Какова вероятность того, что окружность пересечет три прямугольника (будет иметь хотя бы одну общую точку с каждым из них)?

Здесь все они разбираются с очень красивыми визуализациями и примерами

Накидывайте 🔥 этому посту, если хотите больше подобных задачек!

YouTube

Что если соединить геометрию и вероятность?

Поступление в Школу анализа данных Яндекса: https://clc.to/XGTfqQ
— здесь вы также найдете примеры вступительных испытаний с решениями (вкладка «Поступление»). А в этом ролике разобрали три красивых сюжета на геометрическую вероятность

СОДЕРЖАНИЕ
0:00 —…

🔥43🤩3❤‍🔥2😁2

11.3K viewsedited 17:17

Start Career in DS

💻 Топовое видео про архитектуру бэкенда

Как мы рассказывали в этом посте, отличный способ погрузиться в data science – начать свой проект. Вот [ENG] классная мотивирующая статья от Пола Грэма, в которой он рассказывает, как создать Гугл (спойлер: делать проекты)

Но каждый проект, помимо аналитических и ml-ных штук, требует грамотной бэкенд архитектуры. Часто нет знакомого бэкендера, который готов за бесплатно написать всю оболочку для вашего pet-проекта, и приходится самим погружаться во все это (но это на самом деле хорошо, потому что так вы получаете знания, благодаря которым, например, в соло сможете быстро развернуть mvp своего стартапа)

Недавно в рекомендациях встретил видео, в котором чувак очень просто рассказывает про современную архитектуру бэкенда:
– базы данных
– http, rest
– кэш
– микросервисы
– репликации
– балансеры
– брокеры сообщений
и т. д.

Если вы хотите делать свои проекты – обязательно посмотрите этот видос, даже если вы новичок.

Ставьте огоньки под этот пост🔥, если он вам понравился, и сердечки ❤️, если вы хотите больше постов про pet-проекты/стартапы

YouTube

Как Сделать Лучший Пет-Проект | Архитектура Бекенда за 1 час

Станьте Java разработчиком за 4 месяца! За время интенсивного обучения в формате командной работы на Java Буткемп вы создадите 9 микросервисов, которые продемонстрируют ваши знания, навыки и опыт.

Успейте залететь на следующий поток по ссылке: https://w…

🔥51❤20❤‍🔥4👍3

12.7K views16:03

Start Career in DS

🪙 Как понять честная ли монетка/случайно ли работает алгоритм?

Классическая задачка, которую в разных вариациях часто спрашивают на собеседованиях.

Вот в этом видео можно подробно на экспериментах понять как оно работает: видео
Вот здесь можно проверить свою интуицию и самостоятельно попробовать половить обманщиков на монетках: тык

Если коротко, алгоритм такой (и он очень похож на процесс проведения АВ тестов!):
1. Фиксируем ошибку 1 и 2 рода.
Ошибка 1 рода = как часто мы будем ошибочно говорить что монетка нечестная, когда она честная. Обычно берут за 0.05
Ошибка 2 рода = как часто мы будем ошибочно говорить что монетка честная, когда она нечестная. Обычно берут за 0.2

2. Считаем требуемый объём выборки. Это хорошо бы уметь делать руками, но для тренировки есть калькуляторы, например этот
В нашем случае он зависит от трех факторов: ошибки 1 и 2 рода (которую мы выбрали на шаге 1) и MDE (минимального эффекта, который мы хотим наблюдать). К примеру, если мы видеть отклонение монетки на 20% (если вероятность орла 0.6 место 0.5), то нам нужно 93 подбарсывания, а если хотим видеть отклонение монетки на 10% (вероятность орла 0.55 место 0.5), то нужно уже 388 подбрасываний

3. Проводим эксперимент - ряд подбрасываний монетки согласно рассчитанному в пункте 2 числу

4. Считаем с какой вероятностью мы могли получить такое или более критическое значение (долю орлов/решки) при условии, что монетка честная. Если это значение получается больше 0.05, то говорим, что монетка нечестная, а если меньше 0.05 - говорим, что в условиях нашго теста мы не можем сказать, что монетка нечестная
Это значение называется p-value. А как его считать - вы можете как раз подробно посмотреть в видео

YouTube

How To Catch A Cheater With Math

Try catching cheaters yourself: https://primerlearning.org/

Support these videos on Patreon: https://www.patreon.com/primerlearning
Plush blobs and other stuff: https://store.dftba.com/collections/primer

Binomial probability example (the whole section on…

👍30❤8❤‍🔥2😁1

10.3K views14:05

Start Career in DS

🧑‍🏫 Открытый курс по прикладной статистике от Академии Аналитиков Авито (часть первая)

Ребята из Авито сделали крутой курс по прикладной статистике.
А мы специально для вас разбили его на блоки! Можете выбрать то, что интересно именно вам и пойти освежить знания по теме 🙂

1. Статистический критерий
1.1 Статистический критерий
1.2 Создание статистических критериев в Python
1.3 Cтатистический критерий уровня статзначимости α
1.4. Двусторонние критерии

2. Статистическая мощность
2.1. Статистическая мощность
2.2. Мощность для задачи про доставку
2.3. Minimum Detectable Effect - MDE
2.4. Доверительный интервал
2.4/1. Доверительный интервал. Продолжение
2.4/2. Доверительный интервал Уилсона
2.5. Алгоритм проверки гипотез

3. Z-test
3.1. Критерии сравнения средних
3.2. Z-test
3.3. Занятие со звездочкой, Z-test

4. T-test
4.1. Критерии сравнения средних. T-критерий Стьюдента
4.2. T-test
4.3. Доверительный интервал
4.4. АБ-тесты. Двувыборочный Т-test
4.5. MDE для T-test

5. Метод Монте-Карло
5.1. Метод Монте-Карло
5.2. Метод Монте-Карло (на исторических данных)
5.3. Метод Монте-Карло (определение мощности на исторических данных)

Вот здесь можно найти ноутбуки по курсу

Накидайте 🔥 это посту если хотите больше материалов по прикладной статистике 🙂

YouTube

1.1. Статистический критерий

00:00 Пример и постановка задачи прикладной статистики
06:14 Нулевая и альтернативная гипотезы, статистика критерия
10:29 Формулировка статистического критерия
14:26 Статистическая значимость критерия: определение и расчет
19:00 Итоги занятия

🔥206❤13👍12

16.8K viewsedited 05:02

Start Career in DS

📊 Задачи на теорему Байеса от ведущих компаний

Байесовская статистика – это мощный инструмент для анализа данных и принятия решений в условиях неопределенности. Ее активно используют в различных областях, от медицинской диагностики до машинного обучения. А еще задачи на теорему Байса часто задают на собеседованиях в топовые компании!

Мы подготовили для вас три интересные задачи на байесовскую статистику. Попробуйте решить их самостоятельно:
1. В компании работают 80% программистов и 20% аналитиков данных. Программисты в среднем реже допускают ошибки в коде. Какова вероятность, что случайно выбранное исправление бага сделано аналитиком данных, если известно, что эта ошибка повторялась 3 раза до полного устранения?
2. В медицинском тесте на редкое заболевание вероятность ложноположительного результата составляет 5%, а истинного положительного – 99%. Если у человека положительный тест, какова вероятность, что у него действительно есть заболевание?
3. В конвейере по производству деталей 95% продукции соответствует стандартам качества. На линии контроля отобрали партию из 10 деталей, в которой обнаружили 3 бракованных. Какова вероятность, что конвейер работает неправильно?

Вот здесь можно поразбираться с теорией и нарешать задачки 🙂

Ставьте лайки 👍, если хотите больше таких задач и поделитесь своими решениями в комментариях!

Теорема Байеса для Data Science: формула, задачи, примеры

Расскажем подробнее о том, что такое Теорема Байеса. Применение Теоремы Байеса в Data Science, формула, задачи, примеры.

👍47🔥7❤2😁1

8.9K viewsedited 06:02

Start Career in DS

💻 Пост легендарных вакансий!

Интересуетесь Data Science? Хотите сделать вклад в развитие канала, лучше познать область и подзаработать?

Всем привет, на связи Рома Васильев, создатель этого канала 🙂
Я сейчас активно думаю над развитием концепции канала - какой контент делать и какую ценность давать.
Однако, очень хочется не останавливаться в производстве контента. А на это нужно время, много времени.

В связи с этим, ищу помощника! В первую очередь - искать полезный контент и писать статьи

Что хочется от кандидата:
- Высшее (возможно, неоконченное) техническое образование
- Опыт с написанием каких угодно текстов (от постов в личный канал до технических текстов)
- Активность и наличие свободного времени (от 5 часов в неделю)

Что предлагаю кандидату:
- Большие объёмы новой информации, которую можно будет использовать для личного развития
- Инсайты из своего личного опыта
- Сдельную оплату (суммы обсуждаемы)

Что стало с предыдущем помощником: он пошёл работать аналитиком данных в Яндекс и теперь ему не до этого 🙂

Если предложение заинтересовало - заполните короткую форму

❤24🔥13❤‍🔥5

8.18K viewsedited 15:02

Start Career in DS

🎯 Множественное тестирование в A/B экспериментах

На различных курсах часто рассказывают про то, как проводить A/B-тесты. Чаще всего групп в академических задачах собственно две: А и В. Что тут может пойти не так? То, что на практике очень часто хочется проводить кучу экспериментов одновременно. В этом случае вы, скорее всего, столкнетесь с ситуацией, когда будете непроизвольно завышать вероятность ошибки I рода.

🧠 Почему так:
Когда вы проводите несколько тестов одновременно, суммарная вероятность получить ложноположительный результат увеличивается. Если в каждой отдельной проверке вероятность ошибки I рода составляет 5%, то с ростом числа проверок вероятность ложноположительных результатов значительно возрастает, что может привести к ошибочным выводам.

❗ Как можно бороться:
- Метод Бонферрони: Деление уровня значимости альфа на количество проведенных тестов (α / n). Это простой и консервативный метод, который уменьшает вероятность ошибки I рода, но делает критерии для обнаружения значимых эффектов более строгими.
- Метод Холма: Менее консервативный метод, чем Бонферрони. Он поэтапно корректирует уровень значимости для каждого теста, ранжируя p-значения от наименьшего к наибольшему и применяя корректировку на каждом этапе.
- И другие методы, контролирующие FWER (Family-wise error rate): Например, процедура Бенджамини-Хохберга для контроля ложных открытий (FDR), которая позволяет более гибко подходить к множественным проверкам и лучше сохраняет мощность тестов.

Эти методы помогут вам уменьшить вероятность ложноположительных результатов при множественных тестированиях и обеспечить более достоверные выводы.

📚 Подробности и примеры кода для реализации различных методов можно найти в этой статье

Если хотите больше постов про A/B-тесты - накидывайте 🔥 этому посту!

Хабр

Проблема множественного тестирования на практике

Нередко случаются ситуации, когда в A/B экспериментах ну очень хочется нужно проверять сразу несколько гипотез на одном и том же наборе данных, то есть в качестве тестового варианта использовать не...

🔥65👍9❤5

10K views06:21

Start Career in DS

🦸 Рома Васильев про данные, аналитику и жизнь

Готовы ли вы погрузиться в мысли про аналитику, образование и повседневную жизнь глубже?)
Если да - рекомендуем подписаться на канал Ромы, автора Start Career in DS

В нём вы найдёте кучу интеренсых материалов, например:
- Про ключевые навыки в современном мире
- Цикл Колба или как мы учимся
- Роль аналитики в компании
- Про использование ChatGPT в повседневной жизни

Подписывайтесь: @ravasiliev_ch!

я так понимаю, Роман Васильев

Мысли про жизнь, карьеру, развитие в аналитике данных и не только :)

❤12👍8🔥4

10.2K viewsedited 10:52

Start Career in DS

🎯 Про Unit-экономику

От аналитиков и смежных профессий очень часто просят не только понимание своего домена, но и понимание того, как работает "цифровая экономика" в целом.
Это про то, сколько стоит привлечение пользователя, как он живёт в нашем продукте, сколько оставляет денег и тд.

Основные метрики, которые точно нужно знать:

- LTV - сколько дохода нам приносит пользователь за всё время жизни в продукте
- CAC - сколько нам стоит привлечение пользователя в продукт
- Retention - "переток" пользователей из одного периода в другой
- ARPU - средние траты юзера за период
- DAU, MAU - число юзеров за день/месяц

Нашёл на просторах интернета два крутых видео, которые рассказывают про юнитку от и до:
1. Выступление Ильи Красинского в рамках ШМЯ
Илья рассказывают про юнин-экономику с точки зрения корпорации: на какие метрики стоит смотреть, в каких разрезах и тд.
Кроме того, тут много примеров, на которых можно понять логику расчёта метрик

2. Вебинар Богдана Печенкина
Здесь тоже рассматриваются ключевые метрики юнит-экономики, но уже больше со стороны стартапа.
У Богдана есть свой цифровой продукт и он на примере этого продукта рассказывает про особенности сведения метрик 🙂

Ставьте 🔥 если хотите больше материалов про метрики!

YouTube

014. Школа менеджмента — Юнит-экономика или поиск точек кратного роста. Илья Красинский

Расскажу о самых основах: как выстроить модель монетизации для бизнеса, найти точки кратного роста и как работать с когортами при расчёте экономики.

🔥40❤8❤‍🔥5

12.6K viewsedited 17:22

Start Career in DS

➕ Предлагаем вспомнить базовую математику.

Подборка ресурсов по математике для тех, кто забыл что было в школе. Заполнить пробелы или повторить всё сразу можно с помощью этих ресурсов:

🧑‍🏫 Курсы

1. Stepik Клуб любителей математики. Бесплатные курс по базовой математике и подготовка к вступительным в МФТИ. Создатели курса победители Stepik Awards 2023 в номинации "Лучший бесплатный курс года".

2. Линейная алгебра от Khan Academy [ENG] Linear algebra. Можно пройти курс по алгебре, а дальше углубиться в статистику и теорвер [ENG] Statistics and probability, AP College Statistics. Все курсы бесплатные.

3. Spacemath. Рускоязычный бесплатный ресурс. Сайт для самостоятельного изучения математики с нуля. Если в школе вы совсем не изучали математику - этот ресурс вам точно пригодится.

4. Не забываем про Сoursera, популярная платформа, c множеством курсов по разным темам, в том числе и по математике. Рекомендую [ENG] курс по алгебре для новичков и [ENG ]введение в статистику.

📚 Книги

Что такое математика? Р. Курант, Г. Роббинс — легко и понятно о базовых понятиях в математике и о сложных областях этой науки.
Алгебра И. М. Гельфанд , А. Шень — начинается с арифметики и заканчивается p-адическими числами, в книге есть объяснения и много задач для практики

Дополнительно

📦 [ENG] edX. Платформа предлагает пройти курсы по математике от ведущих университетов мира. Здесь есть как платные, так и бесплатные курсы. По ссылке отсортированы курсы относящиеся к теме DS.

📜 Математика для взрослых, статья на Хабре с дорожной картой для изучения математики.

Делитесь в комментариях своими рекомендациями и ставьте ❤️, далее расскажем про ресурсы для продвинутого уровня)

Stepik: online education

Клуб любителей математики

📣 Подписывайтесь, вас ждёт масса всего интересного!

❤55🔥10👍7😁1

11.1K views16:42

Start Career in DS

🎯 Задача многоклассовой классификация: способы построения ML-моделей [1/2]

Задачи такого рода строятся на двух основных подходах: мультиклассовая классификация и многозадачная классификация. В рамках этого поста остановимся на первом и разберем несколько подходов к реализации ML-алгоритмов мультиклассовой классификации.

❗️Важно отметить, что подходы ниже актуальны для линейных моделей, «деревянные» алгоритмы и KNN и так умеют работать с мультиклассами.

1. One-vs-Rest (OvR), известный как One-vs-All (OvA).
Для каждого класса обучается один бинарный классификатор, который учится отделять целевой класс от всех остальных.

При классификации нового объекта все модели предсказывают вероятность принадлежности этого объекта к своему классу, затем выбирается класс с наибольшей уверенностью.

2. One-vs-One (OvO).
Отбираются все возможные пары классов, затем обучается бинарный классификатор для каждой такой пары. Всего создается N(N-1)/2 классификаторов, где N - число классов.

При классификации нового объекта все классификаторы голосуют, и выбирается класс, получивший наибольшее число голосов.

3. Логистическая Softmax-регрессия.
Обобщение бинарной логистической регрессии на случай множества классов.

Модель оценивает вероятности принадлежности объекта ко всем классам одновременно.
Использует функцию активации Softmax вместо сигмоиды, отсюда и появляется возможность выдавать вероятности объекту для всех классов. Обучение обычно производится методом максимального правдоподобия.

📚Также дополнительный материал по данной теме можно найти тут и на Хабре.
💯 Мультиклассовая и многозадачная классификация в sklearn.

Тем, кто дочитал этот пост до конца, небольшой бонус - репозиторий с kaggle-соревнованиями по задаче "классификации".

В следующем посте данной серии разберем ключевые метрики для оценки моделей в задачах многоклассовой классификации.
Ставьте ❤️ или 🔥 и не забывайте писать свои комментарии и вопросы!
До встречи👋🏻

❤24👍8🔥5

7.9K viewsedited 08:52

Start Career in DS

➕ Продолжаем вспоминать математику

На прошлой неделе рассказывали вам про освоение базовой математики. Сегодня продолжаем тему и делимся ресурсами более продвинутого уровня про разделы математики необходимые для работы в сфере DS. Что ещё можно изучить, кроме курсов Карпова по статистике, про которые мы уже рассказывали в канале:

📜 Статья про базовые понятия статистики для науки о данных. Краткое перечисление часто встречающихся понятий в DS. Можно читать и по порядку углубленно изучать каждую тему.

📚 Теория вероятностей. Книга + видео. Тут всё просто, никаких предварительных знаний не требуется, можно начинать изучать хоть сейчас.

📚 Сборник задач по теории вероятностей (с решениями). Если уже знакомы с темой, то можно приступать к задачам.

📹 [ENG] Линейная алгебра. Простые объяснения базовых понятий, очень коротко, наглядно и доступно. Достаточно для первичного погружения в тему.

📹 [ENG] Линейная алгебра от MIT в связке с ML. Если разобрались с основами линейной алгебры в предыдущих видео, то тут можно продолжить изучение темы именно в направлении ML.

📹 Математическая статистика. Запись курса лекций по математической статистике от МФТИ (Лектор — доц. И.В. Родионов), подробно и основательно разберётесь в теме, если вам комфортен формат много часового видео.

🧑‍🏫 Курс по математическому анализу от МГЛУ.
Первая часть и Вторая часть. Глубокое погружение в тему, для старта не обязательно, но в будущем можно освоить.

🧑‍🏫 Платформы где можно попрактиковаться в решении задач: линейная алгебра + ML/DL и статистика и теория вероятности. Теория дело хорошее, но без практики никуда.

Использовали что-то из этой подборки?) Делитесь в комментариях своими рекомендациями и ставьте ❤️

❤28❤‍🔥9🔥7👍2

8.66K viewsedited 14:53

Start Career in DS

🤖Модели перевернувшие NLP: как устроен Transformer

Transformer - тип нейронной сети, который был представлен в 2017 году в работе Attention Is All You Need.

До появления Трансформеров в работе с текстом в основном использовали рекуррентные нейросети (RNN, LSTM и GRU). Трансформер же позволяет избавиться от ключевых недостатков рекуррентных сетей: отсутствие распараллеливания обучения и потеря контекста в длинных последовательностях.

Трансформеры используют головы механизма внимания (Multi-Head Self-Attention), которые позволяют таким моделям понимать естественный язык и решать ключевые проблемы RNN.

❗️Например: в предложении "Кошка сидит на ковре" механизм внимания позволяет модели оценить каждое слово и понять его важность в контексте других слов: Кошка (текущее слово): "сидит" (0.8), "на ковре" (0.6); сидит (текущее слово): "Кошка" (0.8), "на ковре" (0.7), на ковре (текущее слово): "Кошка" (0.6), "сидит" (0.7). Каждый слой механизма внимания может находить свои такие зависимости в предложении.

🧠Transformer имеет три основные части:
1. Кодировщик (Encoder) - преобразует исходное предложение в некий набор чисел (векторное представление - emdedding).
2. Механизм самовнимания (Self-Attention) - в процессе моделирования текста обращает «внимание» на все слова в предложении одновременно, чтобы понять, какие из них наиболее важны.
3. Декодировщик (Decoder) - использует информацию от блока кодировщика и слоёв внимания, чтобы пошагово генерировать текст.

🦾Модели на базе Трансформера:
- GPT (Generative Pre-trained Transformer) - обучен на большом количестве текста и может генерировать осмысленные ответы на вопросы. Хороший пример - ChatGPT.
- BERT (Bidirectional Encoder Representations from Transformers) - может строить векторное представление слов, используя контекст предложения с обеих сторон.

🔥 Дополнительно:
▫️Подробное объяснение работы трансформеров от Игоря Котенкова на ютуб - первое, что нужно посмотреть, если вы не в теме.
▫️Очень простой обзор статьи Attention Is All You Need на Хабре, подойдет новичку.
▫️Крутой гайд с полным обзором разработки языковых моделей на Хабре, много дополнительных ресурсов и доступные объяснения, будет полезно любому уровню.
▫️[ENG] Интерактивное объяснение работы трансформера на картинках, для визуалов.
▫️[ENG] Google Sheets, где вы сможете воспроизвести слой внимания своими руками.
▫️[ENG] Репозиторий с качественными ресурсами и гайдами для работы с большими языковыми моделями (LLM) для людей с продвинутым пониманием концепций NLP.

Пишите свои вопросы и комментарии!
Ставьте лайки❤️ и огоньки🔥 для следующих постов про NLP!
До встречи👋🏻

"Transforming the Future: The Power of NLP Transformers in Language Processing"

Hello LinkedIn community! 🚀✨ In the ever-evolving landscape of artificial intelligence, one innovation stands out as a game-changer in natural language processing (NLP) - the remarkable NLP Transformers. Let's delve into the transformative power of these…

🔥46❤8👍7

7.89K views07:17

Start Career in DS

🪧 Про рекламу в SCiDS

Привет! На связи создатель канала Рома Васильев и команда канала Start Career in DS

Вы уже заметили, что в последнее время в канале появились рекламные посты, поэтому сегодня хотим поговорить про рекламу.

🧑‍💻 Чтобы продолжать создавать качественный контент, мы собрали команду энтузиастов для поиска материалов и контента. Реклама в канале помогает нам поддерживать нашу команду, продолжать развиваться и делится с вами полезной информацией

🌟 Мы считаем, что реклама должна быть полезной для вас, поэтому тщательно фильтруем рекламные материалы и не публикуем всё подряд. Наша цель рассказать вам про интересные, доступные и актуальные для вас вещи.

Мы планируем рекомендовать в первую очередь хакатоны (которые полезны для вашего резюма) и места, в которые потенциально можно попасть бесплатно (есть бюджетные места), например, наш пост про магистратуру от ИТМО и Napoleon IT. Мы с ответственностью подходим к качеству контента и сами редактируем все рекламные тексты под стиль канала, чтобы вам было комфортно нас читать. Кроме того, будем стараться ограничиваться максимум 2-3 рекламными постами в месяц.

С заботой о вас, команда канала Start Career in DS ❤️

❤41😁1

6.69K viewsedited 16:42

Start Career in DS

💬 Карьерные консультации: что это и для чего оно может быть нужно?

Мы предлагаем делить карьерные консультации на 2 типа:

1️⃣ Карьерные консультации от HR, например, можно найти в Careerspace, Ancor, HRTime. HR сможет:

▫️ Разработать карьерную стратегию: план действий, который поможет найти/сменить работу или сферу.
▫️ Написать резюме так, чтобы оно прошло первичный скрининг hr.
▫️ Предоставить актуальные данные о рынке труда и трендах — какой процесс поиска работы, на какую зарплату можно расчитывать, в каких компаниях больше перспектив и тд.

2️⃣ Карьерные консультации от специалиста в сфере DS. Найти можно в сервисах Эйч, Хабр Карьера или HeadHunter. В последнем сервисе можно также найти HR консультанта.
Сразу отметим, что это не менторство или наставничество, а именно разовая консультация. Специалист из индустрии сможет:

▫️ Провести мок-интерьвью, рассказать что в данный момент спрашивают чаще всего.
▫️ Дать специализированные советы. Пример, вам интересен FinTech. Вы можете найти соответствующего специалиста, он расскажет про DL в финтехе, оценит ваши навыки и подскажет точки роста.
▫️ Нетворкинг. Есть вероятность получить полезные контакты и рекомендации, что может ускорить процесс поиска работы.

Возможные минусы:

- Примерная стоимость консультаций от 7к до 50к и выше. Нужно внимательно выбирать компанию или частного консультанта, если бюджет на поиск работы ограничен.

- Консультации не помогут, если у вас недостаточно внутренней мотивации и дисциплины. Консультант не найдет работу за вас, нужно самостоятельно откликаться на вакансии и ходить на собесы 😉

А что вы думаете про карьерные консультации?
Ставьте ❤️, если было интересно и нужны ещё посты на эту тему)

❤23👍4❤‍🔥2

7.05K views16:38

Start Career in DS

🚀 (1/2) Transformer в задачах НЕ текстовой модальности

В прошлом посте мы разбирали архитектуру Transformer в рамках работы с текстом. Сегодня поговорим про то, как Transformer может работать с другими модальностями.

📝О терминологии: мультимодальность - способность модели работать с несколькими модальностями одновременно: текст, аудио, видео, изображение.

🎨Изображение:
Трансформер изначально создавался для работы с текстом. Однако, в статье Vision Transformer (ViT) данная архитектура была успешно адаптирована к работе с изображениями.
Особенности: изображение разбивается на маленькие куски (патчи), которые затем обрабатываются как последовательность. Ключевой слой Self-Attention помогает модели учитывать отношения между различными патчами изображения.

Затем появились мультимодальные модели LLaVA и CLIP, способные принимать на вход изображение и текстовый промпт. Такой подход позволил моделям решать задачу image captioning (описание изображения) и классифицировать изображения без дообучения. Более подробно про это тут.

🎶Аудио:
Ключевой моделью на базе Transformer в работе с аудио является Whisper от OpenAI.
Особенности: аудиосигнал преобразуется в спектрограмму или векторные представления, которые затем обрабатываются трансформером. Self-Attention позволяет модели выделять важные фрагменты звука.

Модель решает задачи распознавания речи (ASR), анализа звуковых сигналов и преобразование аудио в текст (Speech to Text).

🎥Видео:
В работе с видео трансформеры строятся на архитектурах ViViT и TimeSFormer.
Особенности: видео разбивается на последовательности кадров, которые обрабатываются как патчи изображений с учетом времени. Self-Attention учитывает как пространственные, так и временные связи между кадрами.

Модели подобных архитектур могут решать задачи анализа и классификации видео и генерации описаний к ним.

📚Дополнительное чтиво:
- Статья на Хабре про первую настоящую мультимодальную модель gpt-4o
- Про ViT для новичков читайте тут
- Подробные обзоры про ViT-like архитектуры для более продвинутых
- Распознавание речи, генерация субтитров и изучение языков при помощи Whisper на Хабре для практиков
- Подробный разбор, про ViViT и TimeSFormer, чтобы въехать
- Gitbook про трансформеры для более продвинутых (много дополнительного материала и кода)

Ставьте лайки❤️ и огоньки🔥 для следующих крутых постов!
Пишите свои комментарии! До встречи👋🏻

❤16🔥11❤‍🔥2👍1

7.99K viewsedited 16:32

2025/10/12 11:39:37
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>