Telegram Web
Почему Polars быстрее, чем Pandas

Polars: ооткрытая библиотека для работы с данными, написанная на языке RUST. Предоставляет функционал для выполнения задач аналогичный Pandas, но с более высокой производительностью.

▫️Polars использует все ядра компьютера на системном уровне, в отличие от однопоточного Pandas

▫️В Polars поддерживаются два вида API: eager и lazy. Eager (как в Pandas) — код выполняется сразу, lazy — код выполняется только когда это требуется. Это позволяет снизить нагрузку на память и cpu, что как следствие повышает производительность

▫️В Polars создали собственную реализацию Apache Arrow (формат памяти независимый от языка). В Arrow все столбцы хранятся в непрерывном блоке памяти независимо от типа данных. Это ускоряет поиск данных

▫️Практически любая операция в Polars, может быть выражена в виде метода Polars. Сложные операции в pandas нужно передавать в метод apply в виде лямбда-выражения, который последовательно выполняет операцию на строках. Возможность использовать встроенные методы позволяет работать на уровне столбцов

🐻‍❄️ Приятный бонус — синтаксис практически идентичен Pandas.

У Polars есть очевидные плюсы в скорости, однако главное преимущество Pandas — это уже выстроенная экосистема. Гораздо большее количество библиотек для DS совместимо с Pandas.

Что почитать:
Статья на Хабр — подробный обзор библиотеки Polars
[ENG] Статья от JetBrains — Polars vs. pandas: What’s the Difference?
[ENG]Polars_cheat_sheet.pdf — сборник команд на Polars

Ставьте ❤️, если уже пробовали Polars)
35🔥18👍10
⚔️🤖 Эволюция Трансформеров: отличие GPT-моделей от BERT-моделей

Продолжая линейку статей по Трансформерам, сегодня поговорим про GPT-like и BERT-like модели и погрузимся в детали их работы, чтобы понять ключевые отличия и способы применения.

❗️BERT и GPT созданы на основе архитектуры Transformer, который мы описывали тут.

BERT (Bidirectional Encoder Representations from Transformers) - это модель, построенная лишь на Encoder-блоках базового Трансформера.
Базовая модель BERT обучалась на двух задачах: Masked Language Modeling (предсказание замаксированных слов в предложении, учитывая контекст с двух сторон) и Next Sentence Prediction (предсказание является ли последовательность B продолжением последовательности А).

Именно благодаря подходу с обучением на MLM, BERT научилcя справляться с задачами, требующими глубокого семантического анализа текста, например, определение тональности текста, извлечение именованных сущностей (названий городов, имен людей и т.д.) и понимание связей между предложениями.

GPT (Generative Pre-trained Transformer) - это модель, разработанная компанией OpenAI. Архитектура строится только на Decoder-блоках, взятых из базового Трансформера, основная цель которых - решать задачу языкового моделирования, то есть предсказывать следующий кусок текста на основе предыдущего контекста. Это может быть генерация диалогов, написание статей, создание творческих текстов и даже программирование.

🔝Современные аналоги:

Для BERT-моделей существуют следующие ключевые аналоги:

- RoBERTa: Улучшенная версия BERT, обученная только на задаче MLM (Masked Language Modeling) на больших объемах данных.
- DistilBERT: Уменьшенная (дистилированная) и более быстрая версия BERT, сохраняющая 97% качества на разных задачах при меньших размерах на 40%.
- XLM, ALBERT и т.д.

Для GPT-моделей первая версия была представлена в 2018 году, а затем последовали её улучшенные версии, такие как:

- GPT-2, GPT-3, InstructGPT
- GPT-3.5: Версия GPT от OpenAI, способная выполнять огромное количество задач благодаря 175 миллиардам параметров.
- GPT-4: Следующее поколение моделей, с еще большими языковыми и мультимодальными возможностями.

📚 Чтение - мать учения:

- BERT - в двух словах, подойдет для новичков.
- Ещё немного про BERT.
- GPT для чайников на Хабре.
- Простое руководство по дистиляции BERT.
- Простенький список с основными Pre-train задачами в NLP.
- BERT и его вариации на YouTube.
- Репозиторий с картинкой дерева эволюции NLP-моделей.

Не забывайте ставить лайки❤️ и огоньки🔥!
Пишите свои вопросы, комментарии и предложения под постом!
До встречи👋🏻
41👍5🔥5
🚨АНОНС DS-КВИЗА🚨

👉Дорогие подписчики, всей командой SCiDS с радостью готовы сообщить Вам о запуске квиза по Data Science!

Что вас ждёт:
- Возможность бесплатно получить одну из книг по Data Science (см. ниже) и в добавок консультацию от админа-канала - Ромы Васильева
- Каверзные вопросы и задачки, от которых закипит ваш процессор, разделенные на три секции: Python, Machine Learning, Deep Learning
- Возможность понять свой технический уровень по основным темам в Data Science

Формат:
📅 Длительность: 1 неделя (начало завтра)
📚 Темы: Python, Machine Learning, Deep Learning
📝 3 поста по каждой теме (всего 15 вопросов)

Как участвовать:
1️⃣ Следите за постами в течение недели
2️⃣ Для участия достаточно ответить на вопросы хотя бы в рамках одного квиза из трех
3️⃣ Ответы опубликуй в комментариях под постом
4️⃣ Готово! Вы в танцах игре!

Выбор победителей и призы:
🎲 2 счастливчика будут выбраны случайным образом - победить сможет каждый!
🔝И ещё один победитель будет выбран по максимальному количеству набранных очков
📘 Каждый из победителей фиксировано получит одну из книг по Data Science:
1. "Практическая статистика для специалистов Data Science"
2. "Грокаем глубокое обучение"
3. "Математические основы Машинного обучения"

👨‍🏫 А финалист, набравший наибольшее количество очков, также в подарок получит персональную консультацию от админа канала Ромы Васильева

🏆Даже одно решение может принести вам победу, поэтому не упускайте шанс поучаствовать!
Ставьте лайки❤️ и огоньки🔥 если ждете начала!
58🔥26🤩4👍1
🔥Квиз №1 по «Python»🔥

📢Правила следующие:

◽️Квиз содержит 5 каверзных вопросов по Python, которые также часто можно встретить на собеседованиях
◽️Верные ответы будут прикреплены в комментариях под постом через 24 часа после его публикации
◽️Свои ответы оставляйте также под постом
◽️Ответ засчитывается при схожести с нашими заготовленными ответами
◽️Мы также учитываем скорость ответа: более ранний ответ будет иметь больший вес, если мы столкнёмся с одинаковым количеством верных ответов нескольких участников
◽️В комментариях также будут добавлены ссылки на материалы, с которыми можно будет ознакомиться, чтобы лучше разобраться в вопросах

🐍Начнем!

1. Можно ли извлечь элемент генератора по индексу?

2. Как создать tuple с одним элементом?

3. В чем разница между оператором «is» и оператором равенства «==»?

4. Что лучше «import module» или «from module import»?

5. Как передать в функцию декоратора аргументы?

Ставьте ❤️ и 🔥, если понравились вопросы!

👇Участвуйте в опросе и пишите свои варианты в комментариях!
⌚️Совсем скоро мы опубликуем правильные ответы!
❤‍🔥428🔥7👍1
🔥Квиз №2 по «Data Science и Machine Learning»🔥

💯Рады сообщить, что сегодня запускаем вторую часть нашего квиза с вопросами на понимание ключевых концепций Data Science и Machine Learning!
👆Первую часть квиза вы можете найти тут

☑️Основные правила остаются теми же, а мы приступаем к вопросам!

1. Можно ли использовать accuracy, recall или precision как функцию потерь? И если да/нет, то почему?
2. Каким способом можно любое распределение превратить в нормальное?
3. После обучения Random Forest и Gradient Boosting только на положительных величинах, на тестовом примере модель выдала отрицательный прогноз. Возможно ли это? Если да, то с какой моделью и почему?
4. Существуют ли ситуации, когда cross-validation не будет работать?
5. Возможно ли, что при уменьшении CrossEntropy (функция потерь) accuracy (метрика качества) тоже уменьшится? Приведите пример, если это возможно.

❗️Напоминаем, что у вас есть возможность написать свои ответы в течении ближайших 24 часов под постом в комментариях

🤗А мы ждём ваши решения!
Ставьте обязательно ❤️ и 🔥 за интересные вопросы
21🔥12
🔥 ТОП-10 вопросов из собеседований по NLP

🔎 Знание основ NLP и умение работать с LLM становятся ключевыми навыками для Data Scientistа и ML-Engineerа.
Рынок труда активно требует опытных специалистов в этой области, и чтобы чувствовать себя уверенно на собеседовании, мы подготовили список основных вопросов на подобных секциях и готовы поделиться им с вами!
❗️К каждому вопросу прилагаются полезные ресурсы для углубления знаний по данной теме.

1. Что такое Tf-IDF и как он работает?
2. Как обучается word2vec?
3. Какие виды токенизаторов есть и как они обучаются? Как оценить качество токенизатора?
4. Для чего используется позиционная кодировка, почему мы не можем просто кодировать индексами токенов?
5. Основное отличие BERT и GPT моделей?
6. Как можно решить проблему галлюцинаций в LLM?
7. Можно ли подать модели с входным контекстом 8к токенов последовательность с 32к токенами? Что произойдет?
8. Сравни вычислительную сложность у RNN/LSTM и Attention блоков в трансформерах?
9. Как можно оптимизировать расчет attention-оценок в трансформерах? Какие есть подходы?
10. Какие есть гиперпараметры генерации в GPT моделях?

📚Дополнительные ресурсы для лучшей подготовке к собеседованиям по NLP и LLM:

▫️Русский курс по NLP от Hugging Face с самого нуля.
▫️Также отличный курс от Лены Войты по базовым концепциям NLP.
▫️Онлайн-ресурс с объяснением ключевых терминов и того, что сейчас используется в индустрии, начиная с базовых вещей.
▫️100 вопросов и ответов для интервью по NLP
▫️Топ-50 вопросов из собеседований по NLP
▫️Вопросы по NLP 2024 года

Ставьте лайки❤️ и огоньки🔥
Обязательно пишите комментарии под постом и добавляйте свои варианты вопросов из собеседований!
До встречи👋🏻
🔥5622👍4
💯 Встречайте вопросы третьего квиза по «Deep Learning»

❗️В рамках текущей серии постов квизов больше не будет.
🏆 Воспользуйтесь последним шансом, ответив на вопросы, чтобы получить возможность выиграть призы

⬆️ Посты с вопросами на первый и второй квизы

🪄А мы приступаем к тематическим вопросам, связанные с «Deep Learning»:

1. Чем отличаются виды нормализации в нейронных сетях: BatchNorm, LayerNorm, RMSNorm?
2. Как работает Dropout при инференсе?
3. Какие существуют способы инициализации весов в нейронной сети?
4. Как хитро можно решить задачу multilabels в нейронных сетях?
5. Какие существуют способы решения проблемы затухания градиента?


👇Ждём ваших ответов под постом!
Также награждайте нас ❤️ и 🔥 за интересные вопросы!
18🔥10👍3
🚨ИТОГИ DS-КВИЗА🚨

🔥🏆 Дорогие подписчики, рады сообщить об окончании квиза в нашем канале и поздравить участников и победителей этого небольшого соревнования!

Результаты получились следующие:
*
Мы немного изменили правила, победителей будет больше! Вы молодцы!

🥇 Шесть финалистов:

▫️
По набранным баллам:
1.
@RCinderblock
2.
@LoneD1gger
3.
@IlyaZakharov8
4.
@pilnen

▫️Выбранные рандомайзером:
5. @al_bratkov
6.
@sprflv
Получают в подарок книги!

🏆 Один победитель:
@IlyaZakharov8 получает персональную консультацию от админа-канала - Ромы Васильева!

💬 Ребята, мы придем ко всем в личку в ближайшее время, просьба открыть доступы

🫶 Спасибо всем участникам за активные ответы!
🧠 Надеемся вам было полезно и вы узнали много нового

Ставьте ❤️, если было интересно и 🔥, если нужны ещё подобные активности в канале!
🚀 Победители и все участники принимают поздравления в комментариях
🔥309👍4
✏️ Подборка актуальных стажировок по анализу данных на осень 2024

🔹 Young&Yandex
Сроки подачи заявки: набор идет круглый год
Особые условия: скорее всего не будет удалёнки, стажировку можно пройти в офисах Яндекса в Москве, Санкт-Петербурге, Екатеринбурге, Сочи, Новосибирске и Нижнем Новгороде

🔹 Ozon Camp
Сроки подачи заявки: набор откроется осенью 2024
Особые условия: кроме скрининга и тестового, нужно написать мотивационное письмо, локация - Москва

🔹 WB техношкола, курс-стажировка по направлению Дата Сайенс от Wildberries
Сроки подачи заявки: набор открыт
Особые условия: неоплачиваемая стажировка, 3 месяца. Лучших студентов, которые пройдут все этапы и защитят итоговый проект, пригласят на работу в Wildberries

🔹 Sber Seasons
Сроки подачи заявки: набор откроется в сентябре 2024
Особые условия: нужно быть действующим студентом очной формы обучения

🔹 Т-банк Старт
Сроки подачи заявки: до 16 сентября 2024 включительно
Особые условия: занятость от 20 часов в неделю

Вакансии для стажёров:
МТС Старт
Сбер
AlfaStudents от Альба банка

Ставьте 🔥, если было полезно! Желаем удачи в поисках стажировки 🫶
🔥46❤‍🔥74👍1
Автор нашего канала Рома Васильев дал интервью для новой рубрики канале Карьера в Data | LEFT JOIN — Завтра в Data

В мини-интервью можно узнать про первую работу Романа, подводные камни в профессии и как развиваться в Data новичку 🙂
👍53🤩2
Forwarded from LEFT JOIN Insider
Завтра в Data №1: от анализа данных при продаже кумыса до руководителя международной аналитики

Запускаем новую рубрику, где расскажем об экспертах в сфере Data — об их крутых проектах, пройденном пути и накопленном опыте.

🔜 Гость пилотного выпуска — Роман Васильев, руководитель международной аналитики «Яндекс Поиск».

Автор Telegram-каналов Start Career in DS и я так понимаю, Роман Васильев.

О чем это интервью?
🔵Как развиваться в Data новичку: университет, курсы или самостоятельное обучение.
🔵О факторах, влияющих на успех в сфере.
🔵О подводных камнях в работе.
🔵Что читать и смотреть, чтобы развиваться в Data (ссылки оставили в комментариях).

Все подробности — в карточках 🔥

А задать любые интересующие вопросы Роману можно в комментариях!

🔜 @leftjoin_career
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥19🔥32😁1
🔎 Аналитик данных и data scientist — в чём разница?

Data Science это совокупность различных дисциплин. Термином data scientist работодатели в описании вакансий обозначают большой спектр навыков и задач: работа в Excel, написание скриптов в SQL, визуализация данных, а/б тесты, создание рекомендательных систем, создание систем компьютерного зрения и тд.

Мы предлагаем поделить профессии согласно схеме на картинке по 3 параметрам: domain (сфера бизнеса, экспертные знания), math (метрики, ав-тесты, математизация процессов), dev (разработка, технические инструменты). Разберем три самые распространенные направления:

▪️ ML Engineerсконцентрирован на построении моделей машинного обучения.
Глубоко разбирается в своём направлении с точки зрения техники, изучает статьи по нужной тематике, спокойно может реализовывать новые подходы

▪️ Data Analystработает на стыке бизнеса и данных.
Разбирается в доменной области, проводит исследования на данных, разрабатывает дашборды и сетапит АВ-тесты. Как правило, не погружается глубоко в технические задачи

▪️ Data Engineerуправляет потоками данных.
Эти ребята, как правило, отвечают за потоки данных: настраивают процессы обновления витрин, следят за полнотой доезжающих данных, пишут сложные Data-пайплайны.

Но важно понимать, что от компании к компании роли могут меняться кардинально.
Где-то Data Analyst может строить модели, а где-то ML-инженеров припрягают разбираться в бизнес-проблемах 🙂

Хорошие материалы на поизучать:
- Видео Валерия Бабушкина, в котором он рассказывает про напрввления в Data Science
- Статья Евгения Смирнова на Хабре, в которой он пишет про то, что нужно спросить у работодателя на собеседовании, в том числе про роль дата сайентиста в компании
22👍9
2025/10/12 06:04:37
Back to Top
HTML Embed Code: