tgoop.com »
United States »
Библиотека собеса по Data Science | вопросы с собеседований » Telegram Web
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
🧮 Как избежать ловушки округления в Power BI
Твой отчет показывает разные цифры при одинаковой логике? Не спеши винить систему – это классический кейс с округлением в Power BI.
👊 Разбираемся, как типы данных влияют на точность и почему Currency может стать твоим врагом.
➡️ Подробнее в статье: https://proglib.io/sh/TcGmatdgNV
Библиотека дата-сайентиста
Твой отчет показывает разные цифры при одинаковой логике? Не спеши винить систему – это классический кейс с округлением в Power BI.
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
Подходы вроде Xavier (Glorot) и Ге специально подбирают начальные веса так, чтобы
Идея в том, чтобы избежать
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍1
🚀 Приручи алгоритмы: из формул в код за один воркшоп
Готовы превратить сложную теорию машинного обучения в практические навыки? Тогда приходите на наш воркшоп, который пройдет 21 апреля.
Что вас ждет на воркшопе:
🟢 Работа с реальными данными — никаких учебных датасетов, только то, что встречается в настоящих проектах.
🟢Снижение размерности с PCA — научитесь выделять главное из информационного шума.
🟢Случайный лес vs градиентный бустинг — разберемся, в чём ключевое различие и когда какой алгоритм эффективнее.
🟢Мастерство гиперпараметров — освоите тонкую настройку моделей для максимальной точности.
На нашем воркшопе вы не просто слушаете — вы делаете сами! Вы будете писать код на Python, применять популярные библиотеки и сразу видеть результат своей работы.
А самое ценное: каждый участник получит персональный code review от Марии Горденко — инженера-программиста, старшего преподавателя НИУ ВШЭ, руководителя магистратуры от ГК Самолет и Альфа-Банка.
⏰ Когда: 21 апреля
💸Стоимость: всего 3990₽
Только сегодня, до конца дня: 10 мест по промокоду kulich → 2 990 ₽.
➡️ Записаться на воркшоп: https://proglib.io/w/d295220d
Готовы превратить сложную теорию машинного обучения в практические навыки? Тогда приходите на наш воркшоп, который пройдет 21 апреля.
Что вас ждет на воркшопе:
🟢 Работа с реальными данными — никаких учебных датасетов, только то, что встречается в настоящих проектах.
🟢Снижение размерности с PCA — научитесь выделять главное из информационного шума.
🟢Случайный лес vs градиентный бустинг — разберемся, в чём ключевое различие и когда какой алгоритм эффективнее.
🟢Мастерство гиперпараметров — освоите тонкую настройку моделей для максимальной точности.
На нашем воркшопе вы не просто слушаете — вы делаете сами! Вы будете писать код на Python, применять популярные библиотеки и сразу видеть результат своей работы.
А самое ценное: каждый участник получит персональный code review от Марии Горденко — инженера-программиста, старшего преподавателя НИУ ВШЭ, руководителя магистратуры от ГК Самолет и Альфа-Банка.
⏰ Когда: 21 апреля
💸Стоимость: всего 3990₽
Только сегодня, до конца дня: 10 мест по промокоду kulich → 2 990 ₽.
➡️ Записаться на воркшоп: https://proglib.io/w/d295220d
Если метрики перестают расти, возможны несколько причин:
В таких случаях лучше поработать над
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
❓Как выбрать между filter, wrapper и embedded методами отбора признаков
⏩ Filter-методы — быстрые и простые . Подходят для предварительного отбора признаков, особенно когда нужно быстро уменьшить размерность до дальнейшего анализа .
⏩ Wrapper-методы — более точные , но затратные по вычислениям . Используются, когда важна максимальная производительность модели, и есть ресурсы на перебор комбинаций признаков .
⏩ Embedded-методы — работают вместе с обучением модели . Удобны, если модель поддерживает регуляризацию (например, Lasso, Decision Trees), так как отбор признаков происходит прямо во время обучения .
На практике часто применяюткомбинацию : сначала отфильтровывают явно нерелевантные признаки (filter) , потом wrapper или embedded на отобранных признаках .
Библиотека собеса по Data Science
На практике часто применяют
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
Дисперсия — ключевой статистический показатель, который помогает оценить изменчивость данных. Для дата-сайентистов она критична при:
В этой статье разберём, как правильно использовать дисперсию в Data Science и как она влияет на работу алгоритмов, например, в модели Random Forest.
👉 Читайте, чтобы понять, как измерять и учитывать дисперсию: https://proglib.io/sh/GDKYJQdAI2
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
Сильные колебания валидационной метрики могут ввести алгоритм
Вот несколько подходов:
Важно не
В реальных условиях нужно
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
🔥 Завтра запускаем ML-ракету: последние места на борту
Уже завтра, 21 апреля, состоится наш воркшоп «Математика машинного обучения на практике», где теория ML превращается в практические навыки.
Что вас ждет:
📍 Работа с реальными данными — табличные датасеты и изображения
📍 Снижение размерности через PCA — научитесь отделять важное от второстепенного
📍 Обучение моделей — Random Forest и градиентный бустинг в действии
📍 Разбор метрик и гиперпараметров — как настроить модель на максимальную эффективность
📍 Написание кода на Python — прямо как реальных проектах
📍 Персональный code review от эксперта — бесценный фидбек для вашего роста
📍 Доступ в закрытый чат участников — нетворкинг и обмен опытом
Кто проводит воркшоп:
Мария Горденко — инженер-программист, старший преподаватель НИУ ВШЭ и Proglib Academy, руководитель магистратуры от ГК Самолет и Альфа-Банка.
Стоимость участия: 3990₽
Когда: завтра, 21 апреля
👉 Забронировать место на воркшопе: https://proglib.io/w/d295220d
Уже завтра, 21 апреля, состоится наш воркшоп «Математика машинного обучения на практике», где теория ML превращается в практические навыки.
Что вас ждет:
Кто проводит воркшоп:
Мария Горденко — инженер-программист, старший преподаватель НИУ ВШЭ и Proglib Academy, руководитель магистратуры от ГК Самолет и Альфа-Банка.
Стоимость участия: 3990₽
Когда: завтра, 21 апреля
👉 Забронировать место на воркшопе: https://proglib.io/w/d295220d
Please open Telegram to view this post
VIEW IN TELEGRAM
При использовании слоёв Batch Normalization среднее значение и дисперсия обычно вычисляются
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤4😢1
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤2
Grid Search требует заранее задать набор значений для каждого гиперпараметра, поэтому важно
Обычно значения выбираются на основе:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3
🕵️♂️ Как обнаружить мошеннические транзакции с помощью GMM
В основе — Gaussian Mixture Model: она моделируетраспределение данных как смесь нескольких многомерных нормальных распределений . У каждого — своё среднее значение и ковариационная матрица .
⚙️ Модель обучается с помощью алгоритмаEM (Expectation-Maximization) . После обучения она рассчитывает апостериорные вероятности — насколько транзакция вписывается в каждый из компонентов смеси .
📉 Если транзакция имеет низкуювероятность по всем компонентам , GMM считает её аномальной — потенциально мошеннической .
🎯 Подход особенно полезен в условиях, где труднособрать размеченные данные, но важно ловить аномалии: финтех, страхование, кибербезопасность .
Библиотека собеса по Data Science
В основе — Gaussian Mixture Model: она моделирует
⚙️ Модель обучается с помощью алгоритма
📉 Если транзакция имеет низкую
🎯 Подход особенно полезен в условиях, где трудно
Библиотека собеса по Data Science
👍7
❓ Как объяснить коэффициенты логистической регрессии без технических деталей
💡 Представим так:
У нас есть модель, которая помогает понять — произойдёт ли какое-то событие. Например: купит ли человек товар, кликнет ли на рекламу или подпишется на рассылку.
Каждый признак (фактор) — это как один из аргументов «за» или «против» исхода. У каждого есть своя «весомость» — коэффициент:
➡️ Если коэффициент положительный — этот фактор повышает шанс, что событие произойдёт.
➡️ Если отрицательный — наоборот, снижает вероятность.
⭐ Чем больше по модулю число — тем сильнее влияние этого фактора.
Чтобы понять, насколько фактор влияет, можно посмотреть наэто показывает, во сколько раз увеличиваются шансы.
▶️ Например:
Есликаждый дополнительный «балл» этого признака повышает шансы на 50%.
Библиотека собеса по Data Science
💡 Представим так:
У нас есть модель, которая помогает понять — произойдёт ли какое-то событие. Например: купит ли человек товар, кликнет ли на рекламу или подпишется на рассылку.
Каждый признак (фактор) — это как один из аргументов «за» или «против» исхода. У каждого есть своя «весомость» — коэффициент:
Чтобы понять, насколько фактор влияет, можно посмотреть на
exp(коэффициент)
— ▶️ Например:
Если
exp(коэффициент) = 1.5
, это значит: Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
👌 Как правильно инициализировать центроиды в k-means, чтобы не застрять в плохом локальном минимуме
Простая случайная инициализация (выборк плохому результату, особенно если точки окажутся слишком близко друг к другу или не отражают структуру данных .
🔥 Лучшее решение —использовать алгоритм k-means++
Он работает так:
1. Сначала выбираетсяодна случайная точка из данных.
2. Далее каждыйследующий центр выбирается с вероятностью, пропорциональной квадрату расстояния до ближайшего уже выбранного центра.
Такой подходравномерно распределяет центры и уменьшает риск плохой сходимости. В большинстве случаев он ещё и ускоряет обучение.
💡 В сложных случаях (например, потоковые данные или неустойчивое распределение) можно использовать:
— Инициализацию на основе иерархической кластеризации.
— Несколько прогонов с разными начальными условиями и выбор лучшего результата по ошибке.
Библиотека собеса по Data Science
Простая случайная инициализация (выбор
k
случайных точек из данных) может привести 🔥 Лучшее решение —
Он работает так:
1. Сначала выбирается
2. Далее каждый
Такой подход
💡 В сложных случаях (например, потоковые данные или неустойчивое распределение) можно использовать:
— Инициализацию на основе иерархической кластеризации.
— Несколько прогонов с разными начальными условиями и выбор лучшего результата по ошибке.
Библиотека собеса по Data Science
👍3
Label smoothing — это техника регуляризации, при которой
Это снижает
Главные преимущества:
Техника особенно эффективна, когда есть
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
Интерпретация сложных моделей требует специальных подходов, так как в отличие от простой логистической регрессии у них нет очевидных коэффициентов:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
🔥 IT Breaking Memes — 30 000 ₽ за самую смешную IT-новость
Библиотека программиста запускает конкурс, который взорвет вашу ленту: создайте самую смешную альтернативную версию реальной IT-новости!
👾 Правила просты:
1. Берете настоящую новость из мира технологий.
2. Переписываете ее так, чтобы смеялись все.
3. Получаете деньги и славу.
🏆 Призы:
- 1 место: 30 000 ₽ + статус ведущего нового юмористического IT-канала
- 2 и 3 место: по 5 000 ₽ + вечный почет в IT-сообществе
Пример:
Реальная новость: «Гугл создала модель для общения с дельфинами».
Смешная альтернатива: «Нейросеть от Гугл обрабатывает видеопоток с камеры в свинарнике. ИИ следит, сколько свинья находится возле кормушки, не отталкивают ли ее собратья. Недокормленных докармливают, а переевшие пропускают следующую кормешку».
📅 Сроки: с 29 апреля по 11 мая включительно
Для участия отправьте свою смешную новость в гугл-форму: https://forms.gle/6YShjgfiycfJ53LX8
Ждем ваших новостей!
Библиотека программиста запускает конкурс, который взорвет вашу ленту: создайте самую смешную альтернативную версию реальной IT-новости!
👾 Правила просты:
1. Берете настоящую новость из мира технологий.
2. Переписываете ее так, чтобы смеялись все.
3. Получаете деньги и славу.
🏆 Призы:
- 1 место: 30 000 ₽ + статус ведущего нового юмористического IT-канала
- 2 и 3 место: по 5 000 ₽ + вечный почет в IT-сообществе
Пример:
Реальная новость: «Гугл создала модель для общения с дельфинами».
Смешная альтернатива: «Нейросеть от Гугл обрабатывает видеопоток с камеры в свинарнике. ИИ следит, сколько свинья находится возле кормушки, не отталкивают ли ее собратья. Недокормленных докармливают, а переевшие пропускают следующую кормешку».
📅 Сроки: с 29 апреля по 11 мая включительно
Для участия отправьте свою смешную новость в гугл-форму: https://forms.gle/6YShjgfiycfJ53LX8
Ждем ваших новостей!
Метод главных компонент (PCA) сам по себе
Однако
🔹
🔹
🔹
🔹
⚠️ Важно:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2
Forwarded from Proglib.academy | IT-курсы
🐍✨ Пиши как профи: 10 Python-лайфхаков для новичков
Лайфхаки от разработчиков, обжёгшихся до вас
➡️ Что вас ждет внутри:
— почему if x == True: — это преступление
— как списковые включения экономят часы
— зачем линтер важнее кофе
— и почему def func(start_list=[]) может испортить тебе вечер
— как не сойти с ума от зависимостей (и что делать с виртуальными окружениями)
— секретный power move: dir(), help() и другие встроенные суперсилы
И всё это без занудства и «книг для чайников». Просто, по делу, с примерами и личным опытом от бывалых питонистов
📎 Статья
🔵 Начинайте свой путь в программировании и прокачивайте свои навыки с нашим курсом «Основы программирования на Python»
Proglib Academy #буст
Лайфхаки от разработчиков, обжёгшихся до вас
— почему if x == True: — это преступление
— как списковые включения экономят часы
— зачем линтер важнее кофе
— и почему def func(start_list=[]) может испортить тебе вечер
— как не сойти с ума от зависимостей (и что делать с виртуальными окружениями)
— секретный power move: dir(), help() и другие встроенные суперсилы
И всё это без занудства и «книг для чайников». Просто, по делу, с примерами и личным опытом от бывалых питонистов
Proglib Academy #буст
Please open Telegram to view this post
VIEW IN TELEGRAM