Telegram Web
🔥 Материалы для подготовки к собеседованиям от Start Career in DS и Alfa Advanced Analytics
Добавляем в избранное!

Вместе с Telegram-каналом Центра продвинутой аналитики Альфа-Банка подготовили для вас гайд по собеседованиям для Data Scientist’ов 🔥

В подборке — советы и инсайты от экспертов, а также примеры реальных заданий, которые могут встретиться вам на интервью в Альфа-Банк и не только. Будут полезны как новичкам в DS, так и опытным специалистам!

Сохраняйте подборку и заглядывайте в канал Alfa Advanced Analytics 🙂
А в канале Start Career in DS вы сможете найти много полезных материалов для развития в Data Sceince, а также регулярные квизы с призами!

Материалы для подготовки. Сохраняйте, чтобы не потерять:

🔗 Как вспоминать базовую математику - часть 1, часть 2
🔗 Пет-проекты для начинающего Data Scientist'а - ссылка
🔗 Открытый курс по прикладной статистике от Академии Аналитиков Авито - ссылка
🔗 Deep Learning: теоретический справочник по базовым концепциям - ссылка
🔗 Классический ML – база: справочник основных алгоритмов - ссылка
🔗 Учебник Школы анализа данных — смотреть  
🔗 Семестровый курс DLS — смотреть
🔗 Искусственный интеллект в финтехе — смотреть
🔗 Kaggle — смотреть
🔗 GitHub курса ML-1 в ВШЭ — смотреть
❤‍🔥35🔥126👍4
Привет! На связи создатель канала Рома Васильев и команда канала Start Career in DS 🙂

Мы хотим узнать о вас больше и понять какие материалы вам действительно будет интересно читать, поэтому мы подготовили для вас небольшой опрос. Опрос займет не более минуты, ждем ваших голосов и комментриев👇
8
ℹ️ Всё про токенизацию и токенизаторы в языковых моделях

Токен -
это минимальная единица текста, с которой работают современные языковые модели. В качестве токена могут выступать как полноценные слова, так и части слов, слоги или отдельные символы.
✂️ Например, в некоторых моделях слово «привет» может разбиваться на токены: [«при», «вет»].

Токенизация — процесс предобработки входного текста в список токенов. Обычно далее каждый токен векторизуется и весь этот массив векторов подаётся модели на вход, с чем она начинает работать.

🤯 В моделях Transformer токенизаторы обучаемы. Обучение токенизаторов не схоже с тем, как обучаются ML-модели, наоборот, это статистический процесс, который определяет, какие сочетания символов (подслов, слов) лучше всего выбрать для корпуса текста, с которым мы работаем.

🔝Современные токенизаторы можно разделить по следующим видам:

1. Byte-Pair Encoding (используется в GPT-like моделях, обучается слиянием символов из основного корпуса, выбирая пары по наибольшей частоте встречаемости, подробно про алгоритм и реализацию кода обучения читайте тут)
2. WordPiece (используется преимущественно в BERT-like моделях, также обучается слиянием, но используется не частота встречаемости, а более универсальная формула, также подробно читайте про реализацию и формулу тут)
3. Unigram (не так применим, однако, для полноты картины читайте о нем тут)

❗️Почему это важно:

1️⃣ Фертильность
(мера, показывающая среднее количество токенов на одно слово после токенизации предложения):
Напрямую влияет на стоимость использования любой модели: больше токенов после токенизации предложения -> больше входная последовательность в LLM -> больше стоимость.

2️⃣ Качество работы
:
Правильно токенизированная последовательность также сильно влияет на качество модели из-за появления символов, которых модель не видела или из-за особенностей некоторых языков, где нет, например, пробелов.
Очень грамотно и подробно этот нюанс описан тут.

3️⃣ Скорость работы:
Следствие из первого пункта: чем больше последовательность токенов, тем больше вычислений стоит делать, что также влияет на скорость ответа модели.

🔥 Дополнительная информация по теме:

-
Краткий обзор токенизаторов на Хабре
-
О токенизаторах с NLP-курса на Hugging Face
-
«Насколько хорош Ваш Токенайзер» - статья на arxiv [ENG]
- Статья на английском для начинающих о токенах в LLM [ENG]

Теперь вы знаете, как работают токенизаторы🔥
Ждём ваших лайков и обратной связи❤️
До встречи👋🏻
🔥329❤‍🔥7👍4
▶️ Продолжение серии видео от 3Blue1Brown про нейронные сети!

Ранее мы уже писали про серию их постов, переведённую на русский язык, там были видео про работу нейронных сетей в целом, градиентный спуск и обратное распространение ошибки.

Ребята в комментариях дополнили, что у 3B1B на английском есть ещё 3 видео!
Дополняем свою подборку ими. Кроме того, у этих видео есть весьма качественный русский дубляж 🙂

[ENG + RUS] Transformers (how LLMs work) explained visually | DL5
Объясняет что происходит внутри трансформера в начале и в конце обучения. Показывает геометрическое представаление эмбеддинга слов в многомерном пространстве

[ENG + RUS] Attention in transformers, visually explained | DL6
Иллюстрация работы механизмов внимания на примере простого предложения. Показывает взаимодействие эмбеддингов слов в предложении между собой и разницу между self-attention и cross-attention

[ENG + RUS] How might LLMs store facts | DL7
Как устроены многослойные перцептроны. Понятная иллюстрация того, как модель сохраняет факты

Ждём ваших ❤️ и 🔥!
24🔥10👍1
🥷🏻 ML-System Design: справочник материалов для подготовки

❗️ML System Design - один из важнейших этапов на собеседовании в топовую компанию. Строить грамотные ML-решения хочет каждый, и поэтому мы подготовили для вас общий справочник со всей актуальной информацией по данной теме.

🔥Погнали:

- Пошаговая методичка на GitHub, как правильно дизайнить ML-решения
- Ещё один репозиторий с интересным фреймворком и примерами решений ML System Design кейсов
- Огромная база знаний с описанием +500 реальных ML и LLM кейсов из мировых BigTech компаний, сможете прокачать экспертизу и набраться новых подходов
- Большой набор ТГ-постов от Саши Исакова по каждому этапу DS-собеседований, включая ML System Design
- Курс видеолекций на ODS по ML System Design с нуля
- Научиться писать ML System Design Docs можете тут, а познакомиться с тем, что вообще такое дизайн-документ тут
- Статья на Хабре «Как деплоить и тестировать модели в продакшне» - важный этап в процессе MLSD
- Серия постов для подготовки к DS-собеседованиям, с отдельной частью про System Design, включая большое количество дополнительных материалов и книг
- Статья для новичков «Чтобы я хотел знать про ML System Design раньше»
- Большой плейлист на YouTube с собеседованиями от karpov.courses, включая мок-собеседования по ML System Design с Валерием Бабушкиным

👇🏻Также призываем в комментариях делиться актуальными материалами по данной теме!
Ставьте ❤️ и 🔥 за крутой пост!
До встречи👋
41🔥18👍6
Собрали для вас подборку исследований связанных DS и ключевые инсайты из них👇

💻 Условия работы:
- Исследование рынка аналитиков 2023 года от NEW HR:
▪️ топ компаний для трудоустройства: Яндекс, Авито, Авиасейлс
▪️ всего 3% хотят сменить сферу, большинство хочет развиваться внутри аналитики: расти по грейду, стать экспертом, сменить работодателя и т. д.

- Исследование релокации IT-специалистов 2022-2024 всех, не только аналитиков, тоже от NEW HR:
▪️ каждый 3-й релокант работает в отчасти российских компаниях (связаны с РФ, но работают за рубежом)
▪️ «релокацию оплачиает работодатель» - миф: 2/3 опрошенных, уезжавших из России, перемещались за свой счёт

🎓 Обучение:
- Независимое исследование онлйна курсов по аналитике от Left Join: сравнение популярных и не очень курсов по аналитике
▪️ топ платформы для обучения - Яндекс Практикум и Karpov.Courses

- Портрет специалистов, работающих в DS/ML/AI-направлении от DevCrowd, в исследовании есть большая подборка полезных книг, курсов, подкастов и Telegram-каналов по теме DS
▪️ 47% респондентов хотят улучшить свои знания фундаментальной математики
▪️ каждый третий обучился своей профессии самостоятельно

💭Ещё интересные исследования:
- За кем следят продуктовые и дата-аналитики от NEW HR: список самых часто упоминаемых экспертов. Весь список тут
▪️ топ-3 экспертов: Карпов Анатолий, Бунин Роман, Бабушкин Валерий

- ИТМО провел исследование ML/Data Open Source решений в России: какие компании лидируют, какие проблемы и перспективы есть у инструментов
▪️ лидеры в разработке собственных открытых решений: Яндекс, Сбер, Т-Банк
▪️ почти все компании-разработчики открытых решений в Data/ML находят пользователей не только на внутреннем, но и на международном рынке

Ждем ваших 🔥 и ❤️!
🔥2219
🤖 Собрали для вас несколько роадмэпов по разным областям: Data Analyst, AI and Data Scientist, A/B Testing RoadMap, SQL, Python

Каждый из них содерджит последовательность областей, которые стоит изучить, что начать разбираться в соответствующей профессии

Python Developer - Step by step guide to becoming a Python developer in 2024
SQL Roadmap - Step by step guide to learning SQL in 2024
AI and Data Scientist - Step by step guide to becoming an AI and Data Scientist in 2024
Data Analyst Roadmap - Step by step guide to becoming an Data Analyst in 2024
A/B Testing RoadMap - Пошаговое руководство по проведению А/Б-тестов

Ставьте 🔥 если хотите общий roadmap по Data Science от нашего канала!
🔥6713👍6❤‍🔥2
Всем привет! Хотим посоветовать вам канал Макса @zasql_python - продуктового аналитика в Яндекс Лавке. В своем блоге он пишет про различные интересные вещи, связанные с ML, A/B тестами + старается актуализировать трек обучения для вкатышей в аналитику / DS. Вот, например, его пост с роадмапом в продуктовой аналитике 🥰

Также выходила достаточно интересная серия постов с A/B и различными методами оценки результатов:
1. Хэш с солью
2. Выбросы в A/B тестах
3. Causal Inference, Propensity Score Matching...
4. Как доверительные интервалы могут решать задачи бизнеса

Относительно недавно он запустил формат, в котором каждую неделю подписчики могут сами выбирать какой пост будет на следующей неделе. Если вам это откликнулось, подписывайтесь, здесь много всего интересного
Please open Telegram to view this post
VIEW IN TELEGRAM
👍96🔥1🤩1
2025/10/10 12:18:18
Back to Top
HTML Embed Code: