SMALLDATASCIENCE Telegram 875
Комментарий к предыдущему посту...

В принципе, многое прозвучало в комментариях, но не все комментарии были корректны. Давайте для простоты возьмём случайный лес (RFC).

0) это, конечно, не параметры по умолчанию. По умолчанию в лесе 100 деревьев и min_samples_split=2, например.

-) то что min_samples_leaf=1 это нормально - читайте помощь (см. также ответ в комментариях к предыдыущему посту).

+) то что n_estimators=20 - это уже странно, обычно этот параметр даже и не перебирают ("чем больше, тем не хуже"). Хотя... в этой статье в выборке было 350 объектов (обучение) + 150 (тест), причём это же твиты, их можно сколько угодно насобирать... Но зато теперь верится, что при 20 деревьев качество уже вышло на максимум.

+) нет параметра max_features - это главный аргумент! Это, по сути, единственный параметр RFC, который нужно подобрать (причём значение по умолчанию редко бывает оптимальным). И раз уже перечислили всё, включая random_state, забыть самый важный параметр это сверхстранно.

https://scikit-learn.org/stable/modules/ensemble.html#random-forest-parameters

Кстати, раз уж я тут открыл помощь... Представляете, в RF изменили значения по умолчанию для max_features, уже много лет во всех реализациях RF было sqrt(n) - для классификации и 0.3n - для регрессии. Теперь для регрессии просто n (т.е. просматриваются все признаки)!
🔥35👍21😱15



tgoop.com/smalldatascience/875
Create:
Last Update:

Комментарий к предыдущему посту...

В принципе, многое прозвучало в комментариях, но не все комментарии были корректны. Давайте для простоты возьмём случайный лес (RFC).

0) это, конечно, не параметры по умолчанию. По умолчанию в лесе 100 деревьев и min_samples_split=2, например.

-) то что min_samples_leaf=1 это нормально - читайте помощь (см. также ответ в комментариях к предыдыущему посту).

+) то что n_estimators=20 - это уже странно, обычно этот параметр даже и не перебирают ("чем больше, тем не хуже"). Хотя... в этой статье в выборке было 350 объектов (обучение) + 150 (тест), причём это же твиты, их можно сколько угодно насобирать... Но зато теперь верится, что при 20 деревьев качество уже вышло на максимум.

+) нет параметра max_features - это главный аргумент! Это, по сути, единственный параметр RFC, который нужно подобрать (причём значение по умолчанию редко бывает оптимальным). И раз уже перечислили всё, включая random_state, забыть самый важный параметр это сверхстранно.

https://scikit-learn.org/stable/modules/ensemble.html#random-forest-parameters

Кстати, раз уж я тут открыл помощь... Представляете, в RF изменили значения по умолчанию для max_features, уже много лет во всех реализациях RF было sqrt(n) - для классификации и 0.3n - для регрессии. Теперь для регрессии просто n (т.е. просматриваются все признаки)!

BY Small Data Science for Russian Adventurers


Share with your friend now:
tgoop.com/smalldatascience/875

View MORE
Open in Telegram


Telegram News

Date: |

How to create a business channel on Telegram? (Tutorial) Don’t publish new content at nighttime. Since not all users disable notifications for the night, you risk inadvertently disturbing them. SUCK Channel Telegram Telegram Android app: Open the chats list, click the menu icon and select “New Channel.” Members can post their voice notes of themselves screaming. Interestingly, the group doesn’t allow to post anything else which might lead to an instant ban. As of now, there are more than 330 members in the group.
from us


Telegram Small Data Science for Russian Adventurers
FROM American