DS_INTERVIEW_LIB Telegram 1130
🤓 Если миноритарный класс не только меньше, но и более разнообразный, поможет ли oversampling

Да, но с оговорками. При высокой вариативности миноритарного класса наивный SMOTE может создавать нереалистичные объекты, смешивая разные подгруппы класса. Это искажает распределение и снижает качество модели.

➡️ Что можно сделать:

Использовать кластеризованный oversampling: сначала разбить миноритарные объекты на кластеры (например, k-means), а затем проводить генерацию внутри каждого кластера. Так вы сохраните локальные структуры.

Рассмотреть более продвинутые методы синтетической генерации данных, чтобы адекватно отразить разнообразие миноритарного класса.

😂 P.S. SMOTE, конечно, молодец, но если хочется чуть более осмысленного «синтетического интеллекта»:
AI-агенты для DS-специалистов (тут данные генерить не придётся — агенты сами помогут)
ML для старта в Data Science (для тех, кто ещё путает oversampling с оверсайзом)

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍1



tgoop.com/ds_interview_lib/1130
Create:
Last Update:

🤓 Если миноритарный класс не только меньше, но и более разнообразный, поможет ли oversampling

Да, но с оговорками. При высокой вариативности миноритарного класса наивный SMOTE может создавать нереалистичные объекты, смешивая разные подгруппы класса. Это искажает распределение и снижает качество модели.

➡️ Что можно сделать:

Использовать кластеризованный oversampling: сначала разбить миноритарные объекты на кластеры (например, k-means), а затем проводить генерацию внутри каждого кластера. Так вы сохраните локальные структуры.

Рассмотреть более продвинутые методы синтетической генерации данных, чтобы адекватно отразить разнообразие миноритарного класса.

😂 P.S. SMOTE, конечно, молодец, но если хочется чуть более осмысленного «синтетического интеллекта»:
AI-агенты для DS-специалистов (тут данные генерить не придётся — агенты сами помогут)
ML для старта в Data Science (для тех, кто ещё путает oversampling с оверсайзом)

🐸 Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Share with your friend now:
tgoop.com/ds_interview_lib/1130

View MORE
Open in Telegram


Telegram News

Date: |

Earlier, crypto enthusiasts had created a self-described “meme app” dubbed “gm” app wherein users would greet each other with “gm” or “good morning” messages. However, in September 2021, the gm app was down after a hacker reportedly gained access to the user data. The visual aspect of channels is very critical. In fact, design is the first thing that a potential subscriber pays attention to, even though unconsciously. "Doxxing content is forbidden on Telegram and our moderators routinely remove such content from around the world," said a spokesman for the messaging app, Remi Vaughn. As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.” With the sharp downturn in the crypto market, yelling has become a coping mechanism for many crypto traders. This screaming therapy became popular after the surge of Goblintown Ethereum NFTs at the end of May or early June. Here, holders made incoherent groaning sounds in late-night Twitter spaces. They also role-played as urine-loving Goblin creatures.
from us


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM American