JDATA_BLOG Telegram 434
Немного мыслей про обучение и изучаемые методы

В октябре буду снова читать пару занятий по XAI на ФКН, и мне очень нравится строить занятия так — одно я посвящаю стареньким подходам, а одно — более новеньким.

Обычно, в рамках старенького я рассказываю про интерпретируемые модели, а в этом году на меняла "упала" идея рассказать в рамках дополнительных глав про GLM, GAM и MoE (потому что поток студентов тот же).

Generalized Linear Models, Generalized Additive Models и Mixture of Experts — методы ровно из 19XXх, когда активно задавались вопросами интерпретируемого решения нелинейных задач.

GLM (Generalized Linear Models) — расширение линейной регрессии, позволяющее целевой переменной быть распределенной как угодно.

GAM (Generalized Additive Models) шаг дальше — берут идеи GAM и вместо линейных зависимостей допускают аддитивные нелинейные функции признаков.

MoEидея ансамбля, где данные сегментируются по кластерам и каждый модель (эксперт) учится на «своём» регионе пространства признаков. Итоговый прогноз — взвешенная функция от каждого локального прогноза.

Сейчас эти методы не слишком популярны — у нас достаточный практический аппарат и ширина методов, чтобы, изучая ML, опустить эти детали.

Но на мой взгляд, такие «древние» методы очень полезно включать в обучение — они очень сильно расширяют концептуальный взгляд на моделирование. Зная их, на мой взгляд, можно:

а) Иметь в арсенале зоопарк всё ещё достаточно контроллируемых решений, а иногда и более быстрых — и это плюс для индустрии;

б) Иметь более расширенный кругозор для сборки новых методов — и это плюс для теоретиков;

Так, при сборке нового, MoE, например, вернулся в трансформерах (Switch, Mixtral) — и оказался эффективной идеей к обучению моделей с большим количеством параметров без взрывного роста Floating Point Operations Per Second. Проще говоря, больше параметров с культурной стоимостью вычислений. А GAM-модели заложили основу для попытки построить интерпретируемые по дизайну сетки — GamiNet.

И вот очень я радуюсь, когда вижу, что старенькие методы — иногда прямо-таки коробка нового. Таким мне это показалось красивым сегодня, что захотелось поделиться. А ещё теоретические блоки по этим методам в начале октября добавлю в бесплатную часть курса на степик, чтобы можно было удобно изучить.
8👍3❤‍🔥1



tgoop.com/jdata_blog/434
Create:
Last Update:

Немного мыслей про обучение и изучаемые методы

В октябре буду снова читать пару занятий по XAI на ФКН, и мне очень нравится строить занятия так — одно я посвящаю стареньким подходам, а одно — более новеньким.

Обычно, в рамках старенького я рассказываю про интерпретируемые модели, а в этом году на меняла "упала" идея рассказать в рамках дополнительных глав про GLM, GAM и MoE (потому что поток студентов тот же).

Generalized Linear Models, Generalized Additive Models и Mixture of Experts — методы ровно из 19XXх, когда активно задавались вопросами интерпретируемого решения нелинейных задач.

GLM (Generalized Linear Models) — расширение линейной регрессии, позволяющее целевой переменной быть распределенной как угодно.

GAM (Generalized Additive Models) шаг дальше — берут идеи GAM и вместо линейных зависимостей допускают аддитивные нелинейные функции признаков.

MoEидея ансамбля, где данные сегментируются по кластерам и каждый модель (эксперт) учится на «своём» регионе пространства признаков. Итоговый прогноз — взвешенная функция от каждого локального прогноза.

Сейчас эти методы не слишком популярны — у нас достаточный практический аппарат и ширина методов, чтобы, изучая ML, опустить эти детали.

Но на мой взгляд, такие «древние» методы очень полезно включать в обучение — они очень сильно расширяют концептуальный взгляд на моделирование. Зная их, на мой взгляд, можно:

а) Иметь в арсенале зоопарк всё ещё достаточно контроллируемых решений, а иногда и более быстрых — и это плюс для индустрии;

б) Иметь более расширенный кругозор для сборки новых методов — и это плюс для теоретиков;

Так, при сборке нового, MoE, например, вернулся в трансформерах (Switch, Mixtral) — и оказался эффективной идеей к обучению моделей с большим количеством параметров без взрывного роста Floating Point Operations Per Second. Проще говоря, больше параметров с культурной стоимостью вычислений. А GAM-модели заложили основу для попытки построить интерпретируемые по дизайну сетки — GamiNet.

И вот очень я радуюсь, когда вижу, что старенькие методы — иногда прямо-таки коробка нового. Таким мне это показалось красивым сегодня, что захотелось поделиться. А ещё теоретические блоки по этим методам в начале октября добавлю в бесплатную часть курса на степик, чтобы можно было удобно изучить.

BY Data Blog


Share with your friend now:
tgoop.com/jdata_blog/434

View MORE
Open in Telegram


Telegram News

Date: |

best-secure-messaging-apps-shutterstock-1892950018.jpg Developing social channels based on exchanging a single message isn’t exactly new, of course. Back in 2014, the “Yo” app was launched with the sole purpose of enabling users to send each other the greeting “Yo.” Hui said the messages, which included urging the disruption of airport operations, were attempts to incite followers to make use of poisonous, corrosive or flammable substances to vandalize police vehicles, and also called on others to make weapons to harm police. bank east asia october 20 kowloon On Tuesday, some local media outlets included Sing Tao Daily cited sources as saying the Hong Kong government was considering restricting access to Telegram. Privacy Commissioner for Personal Data Ada Chung told to the Legislative Council on Monday that government officials, police and lawmakers remain the targets of “doxxing” despite a privacy law amendment last year that criminalised the malicious disclosure of personal information.
from us


Telegram Data Blog
FROM American