DS_INTERVIEW_LIB Telegram 1148
🦾 Что делать, если датасет очень маленький — как правильно использовать k-fold кросс-валидацию

Кросс-валидация особенно полезна в условиях дефицита данных, так как позволяет максимально использовать выборку. Но при очень маленьком датасете есть нюансы:

1️⃣ Leave-One-Out (LOOCV)
Когда данных меньше ~100, часто используют leave-one-out. В этом случае на каждом шаге модель обучается на всех объектах, кроме одного, а этот единственный объект идёт в тест. Так данные используются максимально, но метрика может иметь высокую дисперсию.

2️⃣ Риск переобучения на фолды
При многократной настройке гиперпараметров под одни и те же фолды легко подстроиться под шум или особенности отдельных примеров. Поэтому, если возможно, держите отдельный hold-out набор.

3️⃣ Высокая чувствительность к отдельным объектам
В малых данных каждый пример сильно влияет на метрику. Один выброс может кардинально исказить результат. Чтобы снизить случайные колебания, иногда повторяют кросс-валидацию с разными сидами и усредняют метрики.

Практические советы:
🚩 По возможности собрать больше данных.
🚩 Использовать осмысленное data augmentation (для картинок, текста, звука).
🚩 Включать знания предметной области (например, ограничения на модель).
🚩 Рассматривать байесовские методы, которые могут учитывать априорные знания.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21



tgoop.com/ds_interview_lib/1148
Create:
Last Update:

🦾 Что делать, если датасет очень маленький — как правильно использовать k-fold кросс-валидацию

Кросс-валидация особенно полезна в условиях дефицита данных, так как позволяет максимально использовать выборку. Но при очень маленьком датасете есть нюансы:

1️⃣ Leave-One-Out (LOOCV)
Когда данных меньше ~100, часто используют leave-one-out. В этом случае на каждом шаге модель обучается на всех объектах, кроме одного, а этот единственный объект идёт в тест. Так данные используются максимально, но метрика может иметь высокую дисперсию.

2️⃣ Риск переобучения на фолды
При многократной настройке гиперпараметров под одни и те же фолды легко подстроиться под шум или особенности отдельных примеров. Поэтому, если возможно, держите отдельный hold-out набор.

3️⃣ Высокая чувствительность к отдельным объектам
В малых данных каждый пример сильно влияет на метрику. Один выброс может кардинально исказить результат. Чтобы снизить случайные колебания, иногда повторяют кросс-валидацию с разными сидами и усредняют метрики.

Практические советы:
🚩 По возможности собрать больше данных.
🚩 Использовать осмысленное data augmentation (для картинок, текста, звука).
🚩 Включать знания предметной области (например, ограничения на модель).
🚩 Рассматривать байесовские методы, которые могут учитывать априорные знания.

🐸 Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Share with your friend now:
tgoop.com/ds_interview_lib/1148

View MORE
Open in Telegram


Telegram News

Date: |

The Standard Channel Healing through screaming therapy To edit your name or bio, click the Menu icon and select “Manage Channel.” The group also hosted discussions on committing arson, Judge Hui said, including setting roadblocks on fire, hurling petrol bombs at police stations and teaching people to make such weapons. The conversation linked to arson went on for two to three months, Hui said. But a Telegram statement also said: "Any requests related to political censorship or limiting human rights such as the rights to free speech or assembly are not and will not be considered."
from us


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM American