Вопросы

Ebout Data Science | Дима Савелко

Вопросы, которые вам обязательно зададут на типичном собесе по ClassicML ч1

Все вопросы вы можете посмотреть в моём личном сборнике вопросов, там также есть вопросы не только по ClassicML, но и по NLP, CV и вопросы с компаний)

*️⃣

Что такое линейная регрессия ?

Линейная регрессия — это метод прогнозирования, который ищет линейную зависимость между зависимой переменной y и независимыми переменными x. Модель описывается уравнением: y = w*x + b, где w - веса модели, а b - смещение.

*️⃣

Как обучается линейная регрессия?

Обучение заключается в подборе коэффициентов w, b, минимизируя функцию потерь, например, среднеквадратичную ошибку (MSE). Методы оптимизации: градиентный спуск или аналитическое решение через нормальное уравнение.

*️⃣

Какие плюсы и минусы линейной регрессии ?

Плюсы: может в тенденцию, интерпретируемость, быстрое обучение
Минусы: не работает с нелинейными зависимостями, чувствительна к выбросам

*️⃣

Что такое переобучение? Как его обнаружить?

Переобучение — это ситуация, когда модель слишком хорошо подстраивается под обучающие данные, теряя способность обобщать на новые данные. Есть вероятность переобучения, если высокая точность на трейне, и низкая не тесте, а также сильно расходятся кривые обучения.

*️⃣

Что такое регуляризация ? Какие виды её бывают, и чем они отличаются? Можешь ли графически интерпиртировать регуляризацию? Почему она помогает бороться с переобучением?

Картинка 1, 2
Регуляризация — это метод добавления штрафа в функцию потерь для уменьшения сложности модели.
L1-регуляризация (Lasso): добавляет штраф на сумму модулей коэффициентов.
L2-регуляризация (Ridge): добавляет штраф на сумму квадратов коэффициентов.
Графическая интерпретация:
L1-регуляризация (Lasso): штраф создает ромбовидный контур ограничений. Это приводит к тому, что веса некоторых признаков могут становиться равными нулю, делая модель разреженной.
L2-регуляризация (Ridge): штраф формирует круговые контуры ограничений. Это приводит к тому, что веса уменьшаются равномерно, сохраняя все признаки в модели, но снижая их вклад.
Почему помогает: Уменьшает влияние нерелевантных признаков и сложных моделей.

*️⃣

Какие методы борьбы с переобучением?

- Регуляризация (L1, L2).
- Уменьшение сложности модели путём отбора фичей
- Добавление больше чистых данных.
- Кросс-валидация.

*️⃣

Что такое Cross-Validation? TimeSeries-Cross-Validation?

Картинка 3, 4
Кросс-валидация (CV) — метод оценки качества модели через разбиение данных на тренировочные и валидационные наборы (например, K-Fold).
TimeSeries-CV: используется для временных рядов, учитывает временную зависимость. Пример: sliding window или expanding window.

Please open Telegram to view this post

VIEW IN TELEGRAM

🍌13❤‍🔥9👍2🔥2❤1

www.tgoop.com/eboutdatascience/177

1.68K viewsedited Jan 9 at 11:05

tgoop.com/eboutdatascience/177

Create: 2025-01-09
Last Update: 2025-07-28 14:04:00

Вопросы, которые вам обязательно зададут на типичном собесе по ClassicML ч1

Все вопросы вы можете посмотреть в моём личном сборнике вопросов, там также есть вопросы не только по ClassicML, но и по NLP, CV и вопросы с компаний)

*️⃣Что такое линейная регрессия ?