SUMMARY
INTERN за 2 недели.
Я стал:
- задумываться о производительности. Мой код стал намного оптимальнее
- обращаться к базам данных. Я писал запросы в БД(ClickHouse, PostgreSQL), причем прикладные к ML: посчитать метрики, собрать свой датасет, сделать визуализацию данных(Redash), строил пробные дэшборды
- писать тесты к коду. Я использую Pytest, это легко и просто, но жесть как полезно
- думать о деньгах, о бизнесе(Assymetric metrics, Quantile loss etc.). У меня ушло ML ради ML. ML должен приносить либо социальную, либо денежную пользу(значимость?). И главное этого достигать.
- писать документацию к функциям(pyment), соблюдать PEP-8 и дружить с pylint. Понял, что дефолтные значение в виде, допустим, словарей - это F. None наше все.
- написал свой первый декоратор(мемоизацию). Я вообще узнал, как оно работает. Крутая вещь. Нужна вещь.
- Я закрыл дыры по деревьям(Desicion Tree, Gradient boosting). Теории явно недостаточно. Нужно самому, ручками, аккуратно это реализовать. Просто было буквально пару моментов, которые разложили все идеально по полочкам.
- Я узнал совершенно новое про json и деревья. Что можно быстро написать удобную вещь. Что можно деревья вообще представить в виде SQL. Я нигде такого не видел/не читал. Нетривиальная вещь.
- Я провел свои первые статистические(Quantile t-test)тесты(A/B практически), основы Bootstrap. Я никогда этого не делал. А знание таких важных вещей - просто круто.
- Я прокачал свою рекурсию. Когда реализуешь деревья, его преобразовая в json, а добьешь все рекурсивной обработкой yaml -> env и env -> yaml, ты познаешь дззззззеееннн.
- У меня был затуп с Recall/Precision. После того, как реализовал Recall@K, Precision@K - ушел затуп. По крайней мере я так почувствовал.
Результат за 2 недели очень неплох. А пока у меня большая нагрузка на работе и учебе(я 2ой курс бакалавриата, сессия)
Я прохожу вот это: https://karpov.courses/simulator-ml.
INTERN за 2 недели.
Я стал:
- задумываться о производительности. Мой код стал намного оптимальнее
- обращаться к базам данных. Я писал запросы в БД(ClickHouse, PostgreSQL), причем прикладные к ML: посчитать метрики, собрать свой датасет, сделать визуализацию данных(Redash), строил пробные дэшборды
- писать тесты к коду. Я использую Pytest, это легко и просто, но жесть как полезно
- думать о деньгах, о бизнесе(Assymetric metrics, Quantile loss etc.). У меня ушло ML ради ML. ML должен приносить либо социальную, либо денежную пользу(значимость?). И главное этого достигать.
- писать документацию к функциям(pyment), соблюдать PEP-8 и дружить с pylint. Понял, что дефолтные значение в виде, допустим, словарей - это F. None наше все.
- написал свой первый декоратор(мемоизацию). Я вообще узнал, как оно работает. Крутая вещь. Нужна вещь.
- Я закрыл дыры по деревьям(Desicion Tree, Gradient boosting). Теории явно недостаточно. Нужно самому, ручками, аккуратно это реализовать. Просто было буквально пару моментов, которые разложили все идеально по полочкам.
- Я узнал совершенно новое про json и деревья. Что можно быстро написать удобную вещь. Что можно деревья вообще представить в виде SQL. Я нигде такого не видел/не читал. Нетривиальная вещь.
- Я провел свои первые статистические(Quantile t-test)тесты(A/B практически), основы Bootstrap. Я никогда этого не делал. А знание таких важных вещей - просто круто.
- Я прокачал свою рекурсию. Когда реализуешь деревья, его преобразовая в json, а добьешь все рекурсивной обработкой yaml -> env и env -> yaml, ты познаешь дззззззеееннн.
- У меня был затуп с Recall/Precision. После того, как реализовал Recall@K, Precision@K - ушел затуп. По крайней мере я так почувствовал.
Результат за 2 недели очень неплох. А пока у меня большая нагрузка на работе и учебе(я 2ой курс бакалавриата, сессия)
Я прохожу вот это: https://karpov.courses/simulator-ml.
karpov.courses
Симулятор Data Science
Задачи для практики по анализу данных, машинному обучению и AI. Школа karpov.courses.
❤10🔥9😈3👌1
Пока я не могу проходить симулятор, я смотрю интервью задним фоном.
По-моему очень сильный импакт дает. Интервью построены так, что есть правильные ответы на вопросы и мнение профессионала.
Я раньше читал статьи, мол самые популярные вопросы и бла-бла-бла. Уже тошно, одно и то же. А здесь живое общение, мышление людей. Можно, в общем, перенимать прекрасные качества :D
Ссылочка на плейлист: https://www.youtube.com/playlist?list=PLBRXq5LaddfzDBjg6soIwJJA2klXXs6ni
P.S. Мне реально не платят, это все от души и сугубо мой личный опыт. К тому же, плейлист действительно фришный.
Давайте 50 реакций и сделаю подборку бесплатных хороших(по моему мнению) по мл...
По-моему очень сильный импакт дает. Интервью построены так, что есть правильные ответы на вопросы и мнение профессионала.
Я раньше читал статьи, мол самые популярные вопросы и бла-бла-бла. Уже тошно, одно и то же. А здесь живое общение, мышление людей. Можно, в общем, перенимать прекрасные качества :D
Ссылочка на плейлист: https://www.youtube.com/playlist?list=PLBRXq5LaddfzDBjg6soIwJJA2klXXs6ni
P.S. Мне реально не платят, это все от души и сугубо мой личный опыт. К тому же, плейлист действительно фришный.
Давайте 50 реакций и сделаю подборку бесплатных хороших(по моему мнению) по мл...
❤31🔥9👍5😈1
Ну что, со следующей недели начинаем следующий модуль?
Здесь есть кружка Тинькофф Образования…
В общем, прошел я отбор в их школу по машинному обучению в сентябре, отучился полгода, топ-2 в рейтинговой таблице, прошел собес.
Сказали, ура, ты молодец, будет мерч!!!
Прошло три месяца. Мне назначают встречу, потом курьер ее срывает. Так длиться на протяжении недели.
А потом курьер наконец приезжает ииии… ДОСТАВЛЯЕТ КРЕДИТКУ МНЕ ПОД ВИДОМ МЕРЧА.
Курьер сказал, что «Тинькофф - он такой один» и уехал от меня.
Вот такая вот история. Зачем она вам - не знаю. Но отношения весьма сомнительное к студентам. Они кстати открывают свои наборы, будьте аккуратны.
P.S. Если нужен отзыв по обучению - обязательно напишу в августе, когда они будут собирать заявки
Здесь есть кружка Тинькофф Образования…
В общем, прошел я отбор в их школу по машинному обучению в сентябре, отучился полгода, топ-2 в рейтинговой таблице, прошел собес.
Сказали, ура, ты молодец, будет мерч!!!
Прошло три месяца. Мне назначают встречу, потом курьер ее срывает. Так длиться на протяжении недели.
А потом курьер наконец приезжает ииии… ДОСТАВЛЯЕТ КРЕДИТКУ МНЕ ПОД ВИДОМ МЕРЧА.
Курьер сказал, что «Тинькофф - он такой один» и уехал от меня.
Вот такая вот история. Зачем она вам - не знаю. Но отношения весьма сомнительное к студентам. Они кстати открывают свои наборы, будьте аккуратны.
P.S. Если нужен отзыв по обучению - обязательно напишу в августе, когда они будут собирать заявки
😈13🔥8😎3❤1🆒1
Первый день нового модуля. Junior.
PAYMENTS DASHBOARD. Сходил в PostgeSQL, сделал уже посложнее запрос, нежели в части Intern. Зато оптимальный и красивый запрос)
COMPETITOR PRICE. Достаточно интересная задача, где основная идея - написать свою кастомную функцию агрегации в pandas. Основная сложность - сделать это оптимально. А я не люблю сдавать задачи на 95-99%. Я люблю только 100%. Пришлось повозиться.
Кто знал, что такое .iat()???
WAU. Никогда не писал подзапросы. Но тут я быстренько пришел и понял. Нужно было сходить в ClickHouse и сделать движущееся окно, чтобы нормально посчитать WAU(Количество активных пользователей в течение недели)
Достаточно сильно прокачиваются прикладные навыки SQL.
А ещё посмотрел и почитал рекомендованную литературу по градиентному бустингу.
В чем различие популярных реализаций, как обрабатывает категориальные фичи CatBoost, как проверять, что наш бустинг неуверенно себя ведет на новых данных, даже когда ответа нет.
А ещё работа, работа и ещё раз работа.
PAYMENTS DASHBOARD. Сходил в PostgeSQL, сделал уже посложнее запрос, нежели в части Intern. Зато оптимальный и красивый запрос)
COMPETITOR PRICE. Достаточно интересная задача, где основная идея - написать свою кастомную функцию агрегации в pandas. Основная сложность - сделать это оптимально. А я не люблю сдавать задачи на 95-99%. Я люблю только 100%. Пришлось повозиться.
Кто знал, что такое .iat()???
WAU. Никогда не писал подзапросы. Но тут я быстренько пришел и понял. Нужно было сходить в ClickHouse и сделать движущееся окно, чтобы нормально посчитать WAU(Количество активных пользователей в течение недели)
Достаточно сильно прокачиваются прикладные навыки SQL.
А ещё посмотрел и почитал рекомендованную литературу по градиентному бустингу.
В чем различие популярных реализаций, как обрабатывает категориальные фичи CatBoost, как проверять, что наш бустинг неуверенно себя ведет на новых данных, даже когда ответа нет.
А ещё работа, работа и ещё раз работа.
🔥11❤5😈2💊1
Второй день нового модуля. Junior.
ELASTICITY FEATURE. Эластичность. Я вообще почти никогда не задумывался об этом, даже когда в 14 лет продавал людям по всему миру муравьев и муравьиные фермы.
Да, я делал свои муравьиные фермы, ловил муравьев(оч умным образом) и продавал. Мои разработки были востребованы в Великобритании, Канаде, Казахстане, Беларуси, Израиле и, конечно, России
Я почитал статьи на эту тему, как она вычисляется и решил задачку. В общем, один балл в Junior != один балл в Intern.
Здесь я пошел в Redash, сделал запрос в PostgreSQL, построил простенький Dashboard. Затем использовал pandas, numpy, scikit-learn для рассчитывания эластичности. Я узнал намного глубже, что такое R^2 и почему это хорошо.
Эластичность - это растяжение, если меняется цена, то поменяется спрос. Например, NFT. Они ограничены, каждая покупка меняет FP(floor price).
Неэластичность - это устойчивость. Товары первой необходимости, например.
--------------------
ARPU & AOV. Метрики. Redash, PostgreSQL, Dashboard, простая аналитика. Сезонность продаж, эффективность акций, работа сотрудников. Это все оно.
ARPU - Average Revenue Per Paying User.
AOV - Average Order Value.
Классно? - Определенно.
Эффективно? - Да. КПД очень внушительный.
Нравится ли мне? - Да.
Устаю я от этого? - Нет.
Приносит удовольствие? - Я теку от скора в симуляторе с 1.0, от созерцания 80/80 зеленых тестов в задаче с полным баллом и пропуска на следующий степ
А ещё работа, работа и ещё раз работа. В июле у меня прекратится пик. По Работе.
В июле у меня начинается SberGraduate, экзамен в ААА(Академия Аналитиков Авито), возьму скорее всего проектик по АнтиСпаму(уже активно дополняю датасет) в Симуляторе.
ELASTICITY FEATURE. Эластичность. Я вообще почти никогда не задумывался об этом, даже когда в 14 лет продавал людям по всему миру муравьев и муравьиные фермы.
Да, я делал свои муравьиные фермы, ловил муравьев(оч умным образом) и продавал. Мои разработки были востребованы в Великобритании, Канаде, Казахстане, Беларуси, Израиле и, конечно, России
Я почитал статьи на эту тему, как она вычисляется и решил задачку. В общем, один балл в Junior != один балл в Intern.
Здесь я пошел в Redash, сделал запрос в PostgreSQL, построил простенький Dashboard. Затем использовал pandas, numpy, scikit-learn для рассчитывания эластичности. Я узнал намного глубже, что такое R^2 и почему это хорошо.
Эластичность - это растяжение, если меняется цена, то поменяется спрос. Например, NFT. Они ограничены, каждая покупка меняет FP(floor price).
Неэластичность - это устойчивость. Товары первой необходимости, например.
--------------------
ARPU & AOV. Метрики. Redash, PostgreSQL, Dashboard, простая аналитика. Сезонность продаж, эффективность акций, работа сотрудников. Это все оно.
ARPU - Average Revenue Per Paying User.
AOV - Average Order Value.
Классно? - Определенно.
Эффективно? - Да. КПД очень внушительный.
Нравится ли мне? - Да.
Устаю я от этого? - Нет.
Приносит удовольствие? - Я теку от скора в симуляторе с 1.0, от созерцания 80/80 зеленых тестов в задаче с полным баллом и пропуска на следующий степ
А ещё работа, работа и ещё раз работа. В июле у меня прекратится пик. По Работе.
В июле у меня начинается SberGraduate, экзамен в ААА(Академия Аналитиков Авито), возьму скорее всего проектик по АнтиСпаму(уже активно дополняю датасет) в Симуляторе.
🔥15❤🔥4❤3😈3👍1🤩1🌭1
Второй день нового модуля. Junior.
Я не решал задачи. Я пробежался по теоретическим модулям, почитал где интересно теоретические статьи, понял, что из себя представляет этот модуль.
Все задачи интересные и глаза разбегаются. Не знаю, хорошо это или плохо
--------------------
BERT. Какие трансформеры классные. Я чет их в последнее время очень сильно боялся, потому что о разных LLM говорят во всех углах телеграма, а я не особо шарю за архитектуру и основную идею.
Я почуял интуицию Attention, я почуял мощь RNN.
Идея: Это очень умный Encoder и Decoder.
Encoder - сжимает информацию
Deocder - восстанавливает сжатую информацию
Подробнее: https://habr.com/ru/articles/486358/
Это очень интересно. Просто поверьте. Читал, размышлял и очень понравилось. Для смешариков(таких, как я) - самое оно.
--------------------
Быстро пробежался про Metric Learning, Metrics, Docker, kmeans. Когда времени и сил не так много, а пассивно информацию хочется получать - статьи, краткие выжимки, повторение материала - идет шикарно. Прикольно, что в каждой задачке есть теоретическая вкладка краткая, по которой ты, словно декодер, восстанавливаешь весь путь самурая.
Пробежался я для того, чтобы мое подсознание приготовилось решать эти задачи. Когда я их прочитаю второй раз - они будут идти гораааздо легче.А еще потому что у меня сегодня не нашлось времени для симулятора :(
Кстати, чатик открыт, можете присоединяться - www.tgoop.com/+HtdD-5jbqLJlMTky
Я не решал задачи. Я пробежался по теоретическим модулям, почитал где интересно теоретические статьи, понял, что из себя представляет этот модуль.
--------------------
BERT. Какие трансформеры классные. Я чет их в последнее время очень сильно боялся, потому что о разных LLM говорят во всех углах телеграма, а я не особо шарю за архитектуру и основную идею.
Я почуял интуицию Attention, я почуял мощь RNN.
Идея: Это очень умный Encoder и Decoder.
Encoder - сжимает информацию
Deocder - восстанавливает сжатую информацию
Подробнее: https://habr.com/ru/articles/486358/
Это очень интересно. Просто поверьте. Читал, размышлял и очень понравилось. Для смешариков(таких, как я) - самое оно.
--------------------
Быстро пробежался про Metric Learning, Metrics, Docker, kmeans. Когда времени и сил не так много, а пассивно информацию хочется получать - статьи, краткие выжимки, повторение материала - идет шикарно. Прикольно, что в каждой задачке есть теоретическая вкладка краткая, по которой ты, словно декодер, восстанавливаешь весь путь самурая.
Пробежался я для того, чтобы мое подсознание приготовилось решать эти задачи. Когда я их прочитаю второй раз - они будут идти гораааздо легче.
Кстати, чатик открыт, можете присоединяться - www.tgoop.com/+HtdD-5jbqLJlMTky
🔥7❤2😈2🥰1
Третий день модуля Junior.
SIMILAR ITEM PRICE. Классная задачка. Поступают эмбеддинги товаров и цены этих товаров. А мы должны на основе схожести сделать прайс товарам.
Embeddings - численное представление чего-либо в виде вектора, причем 'магическим' образом сохраняется семантику(смысл). Возьмем слова. Есть "мужчина" и "Король", а также "женщина" и "Королева". "Мужчина" лежит рядом с "Королем", а "женщина" рядом с "Королевой".
При этом, можно делать такие забавные штуки:
"Король" - "мужчина" + "женщина" = "Королева"
Подробнее - https://habr.com/ru/companies/ods/articles/329410/
(Если что все статейки - максимально дружелюбные, насколько только можно. Поэтому если интересно - читаем-с)
Здесь работа с косинусным расстоянием, работа с весами, нормализацией векторов и всей рутиной. Главное производительно, без лишних циклов и повторений кода.
--------------------
Я перегрелся чутка, а еще до конца не вылечился.
Пришло кстати письмо на почту, 1 июля с 10:00 до 14:30 будет экзамен заключительный в Академию Аналитиков Авито.
Теперь будут проверять решения. Матеша + прога))
Вот и отдохнем. Задания и свои решения скину сюда на оценочку!
SIMILAR ITEM PRICE. Классная задачка. Поступают эмбеддинги товаров и цены этих товаров. А мы должны на основе схожести сделать прайс товарам.
Embeddings - численное представление чего-либо в виде вектора, причем 'магическим' образом сохраняется семантику(смысл). Возьмем слова. Есть "мужчина" и "Король", а также "женщина" и "Королева". "Мужчина" лежит рядом с "Королем", а "женщина" рядом с "Королевой".
При этом, можно делать такие забавные штуки:
"Король" - "мужчина" + "женщина" = "Королева"
Подробнее - https://habr.com/ru/companies/ods/articles/329410/
(Если что все статейки - максимально дружелюбные, насколько только можно. Поэтому если интересно - читаем-с)
Здесь работа с косинусным расстоянием, работа с весами, нормализацией векторов и всей рутиной. Главное производительно, без лишних циклов и повторений кода.
--------------------
Я перегрелся чутка, а еще до конца не вылечился.
Пришло кстати письмо на почту, 1 июля с 10:00 до 14:30 будет экзамен заключительный в Академию Аналитиков Авито.
Теперь будут проверять решения. Матеша + прога))
Вот и отдохнем. Задания и свои решения скину сюда на оценочку!
🔥13❤5🥰3
МАШИННОЕ ОБУЧЕНИЕ И АНАЛИЗ ДАННЫХ С НУЛЯ. БЕСПЛАТНО.
Здесь должен быть longread о том, как это все важно. Как это все круто и продуманно сделано, что автор понимает о чем говорит и постарался правильно выстроить всю логическую цепочку. Что все выбранные курсы, лекторы, литература - лучшее на рынке.
Если вы тоооолько-тооооолько начинаете в этом разбираться, то:
1) 1.1 Математическая статистика Ч.1, Математическая статистика Ч.2 (Karpov.courses)
1.2 Статистика и котики
Данный блок нужен для того, чтобы задать некую базу и понимание того, как всё происходит. Да, пока без программирования, да, простым языком. Но это даст интуицию, которая очень сильно пригодится в будущем. Будь вы аналитиком или ML-специалистом. 1.1 и 1.2 советую проходить параллельно.
2) 2.1 Поколение Python Ч.1, Поколение Python Ч.2
2.2 Основы Python (Karpov.courses)
А это уже программирование, введение в основные возможности языка, знакомство с синтаксисом. База, если вы себя чувствуете неуверенно в этом языке. Или хотите быстро повторить, это нормально. Курсы максимально легкие, приятные, актуальность пояснять не буду). В блоке 2.2 находится курс от karpov.courses. Если прошло уже достаточное кол-во времени с момента выпуска этого поста - значит можно смело его проходить, потому что все модули вышли. Если нет - проходите после поколения Python
3) 3.1 Введение в анализ данных (ВШЭ)
3.2 Прикладной анализ данных (ВШЭ)
3.3 AB тесты (ВШЭ)
Начало-начал. Прикладное, введение в промышленность. Если вы хотите идти в анализ - стоит прям глубоко эти курсы посмотреть, хорошему ML-специалисту, кстати, тоже. Рекомендую проходить их последовательно. Но если вы хотите побыстрее-побыстрее в ML, то можете этот блок скипнуть. Но не советую.
4) 4.1 Введение в Машинное обучение (Karpov.courses)
4.2 Евгений Соколов (ВШЭ).
- записи лекций, семинаров
- конспекты занятий
- домашки
4.3 Учебник. Машинное обучение и Data Science: погружение в тему(Яндекс)
Лютейшная база. Я бы проходил всё параллельно тут. Названия выдает всё за себя. Здесь вы узнаете, что такое метрики, лосс функции и как работают градиентные эти ваши бустинги. 4.1, 4.2 - с практикой, причем достаточно хорошей. А в учебнике только теория, что неудивительно.
5) 5.1. Евгений Соколов (ВШЭ) (Deep Learning, Neural Networks)
5.2 System design (ВШЭ)
5.3 Воронцов (МФТИ).
- Лекции
- Семинары
5.4 Введение в NLP (ВШЭ)
5.5 Введение в AudioML (ВШЭ)
Введение в Нейронные сети, в то, как проектировать системы в целом. Это конец. Дальше уже сами вы в состоянии понять, куда вам идти и что делать.
--------------------
Не знаю, на какой этап отнести SQL. Но он Мастхев(Собрать датасет из БД, посчитать метрики и т.д.) и проходить его можно в любой промежуток времени. Я посоветую только это. Это лучшее. СИМУЛЯТОР SQL. И сложные запросы, и приятный интерфейс, и дэшборды. Мне для счастья малого надо
--------------------
На этом этапе у многих пути уже расходятся. Знаний уже много.
Каждый выбирает то, что ему больше нравится
Я вижу несколько путей:
1) Вы уже спокойно можете идти практиковаться, пытаться идти на INTERN/JUNIOR во многие компаниию. Проходите собесы, выявляете свои слабые стороны и фиксите их. И так по кругу. Плейлист для подготовки к собесам.
2) Когда проходите курсы и почувствовали, что ML течет по вашим жилам - время уйти на курс от компании. Вы просто учитесь, а вас потом к себе забирают. Каждый выбирает то, что ему больше нравится
Многие идут по пути наименьшего сопротивления: когда проходите курсы, открывается набор в школы от компаний.
3) Покупать Симулятор ML Я думаю все понятно. А если непонятно - читаем-с канал Dimension(@dimension_ai)
4) В канале Start Career in DS, есть ультраполезный ноушен для новичков и не только: от того, как правильно составлять резюме до интервью с Валерой Бабушкиным, Толей Карповым и т.д.
Полезные школы:
Академия Аналитиков Авито (Авито)
Школа Анализа Данных (Яндекс)
Deep Learning School (МФТИ)
*Параллельно проходить - это прошли тему на одном ресурсе, идете закреплять на другом.
Здесь должен быть longread о том, как это все важно. Как это все круто и продуманно сделано, что автор понимает о чем говорит и постарался правильно выстроить всю логическую цепочку. Что все выбранные курсы, лекторы, литература - лучшее на рынке.
Если вы тоооолько-тооооолько начинаете в этом разбираться, то:
1) 1.1 Математическая статистика Ч.1, Математическая статистика Ч.2 (Karpov.courses)
1.2 Статистика и котики
Данный блок нужен для того, чтобы задать некую базу и понимание того, как всё происходит. Да, пока без программирования, да, простым языком. Но это даст интуицию, которая очень сильно пригодится в будущем. Будь вы аналитиком или ML-специалистом. 1.1 и 1.2 советую проходить параллельно.
2) 2.1 Поколение Python Ч.1, Поколение Python Ч.2
2.2 Основы Python (Karpov.courses)
А это уже программирование, введение в основные возможности языка, знакомство с синтаксисом. База, если вы себя чувствуете неуверенно в этом языке. Или хотите быстро повторить, это нормально. Курсы максимально легкие, приятные, актуальность пояснять не буду). В блоке 2.2 находится курс от karpov.courses. Если прошло уже достаточное кол-во времени с момента выпуска этого поста - значит можно смело его проходить, потому что все модули вышли. Если нет - проходите после поколения Python
3) 3.1 Введение в анализ данных (ВШЭ)
3.2 Прикладной анализ данных (ВШЭ)
3.3 AB тесты (ВШЭ)
Начало-начал. Прикладное, введение в промышленность. Если вы хотите идти в анализ - стоит прям глубоко эти курсы посмотреть, хорошему ML-специалисту, кстати, тоже. Рекомендую проходить их последовательно. Но если вы хотите побыстрее-побыстрее в ML, то можете этот блок скипнуть. Но не советую.
4) 4.1 Введение в Машинное обучение (Karpov.courses)
4.2 Евгений Соколов (ВШЭ).
- записи лекций, семинаров
- конспекты занятий
- домашки
4.3 Учебник. Машинное обучение и Data Science: погружение в тему(Яндекс)
Лютейшная база. Я бы проходил всё параллельно тут. Названия выдает всё за себя. Здесь вы узнаете, что такое метрики, лосс функции и как работают градиентные эти ваши бустинги. 4.1, 4.2 - с практикой, причем достаточно хорошей. А в учебнике только теория, что неудивительно.
5) 5.1. Евгений Соколов (ВШЭ) (Deep Learning, Neural Networks)
5.2 System design (ВШЭ)
5.3 Воронцов (МФТИ).
- Лекции
- Семинары
5.4 Введение в NLP (ВШЭ)
5.5 Введение в AudioML (ВШЭ)
Введение в Нейронные сети, в то, как проектировать системы в целом. Это конец. Дальше уже сами вы в состоянии понять, куда вам идти и что делать.
--------------------
Не знаю, на какой этап отнести SQL. Но он Мастхев(Собрать датасет из БД, посчитать метрики и т.д.) и проходить его можно в любой промежуток времени. Я посоветую только это. Это лучшее. СИМУЛЯТОР SQL. И сложные запросы, и приятный интерфейс, и дэшборды. Мне для счастья малого надо
--------------------
На этом этапе у многих пути уже расходятся. Знаний уже много.
Каждый выбирает то, что ему больше нравится
Я вижу несколько путей:
1) Вы уже спокойно можете идти практиковаться, пытаться идти на INTERN/JUNIOR во многие компаниию. Проходите собесы, выявляете свои слабые стороны и фиксите их. И так по кругу. Плейлист для подготовки к собесам.
2) Когда проходите курсы и почувствовали, что ML течет по вашим жилам - время уйти на курс от компании. Вы просто учитесь, а вас потом к себе забирают. Каждый выбирает то, что ему больше нравится
Многие идут по пути наименьшего сопротивления: когда проходите курсы, открывается набор в школы от компаний.
3) Покупать Симулятор ML Я думаю все понятно. А если непонятно - читаем-с канал Dimension(@dimension_ai)
4) В канале Start Career in DS, есть ультраполезный ноушен для новичков и не только: от того, как правильно составлять резюме до интервью с Валерой Бабушкиным, Толей Карповым и т.д.
Полезные школы:
Академия Аналитиков Авито (Авито)
Школа Анализа Данных (Яндекс)
Deep Learning School (МФТИ)
*Параллельно проходить - это прошли тему на одном ресурсе, идете закреплять на другом.
❤41🔥18👍8🏆2😈2
Dimension AI | Dmitry Sirakov pinned «МАШИННОЕ ОБУЧЕНИЕ И АНАЛИЗ ДАННЫХ С НУЛЯ. БЕСПЛАТНО. Здесь должен быть longread о том, как это все важно. Как это все круто и продуманно сделано, что автор понимает о чем говорит и постарался правильно выстроить всю логическую цепочку. Что все выбранные курсы…»
Я выбьюсь из симулятора на неделю по причине повышенной нагрузки на работе.
Вернусь я живыи или нет - узнаем попозже. А то я сам не знаю ответа
Чем же я занимаюсь?
- Я сдал экзамен ААА(Академия Аналитиков Авито). Решил 5/5 математику, 4/4 прогу. По моей оценке должны позвать на собес.
- Я сдал контест в Яндекс Лицей(Мы открываем на своей базе Яндекс Лицей в сентябре, нужны преподы. Ну и тут отбор). Там был контестик на 5 простых задачек на банальный питон. На контест давалось 4 часа, сдал за 45 минут и на максимум.
- Нашел прикольного дядьку из ODS, читает про ML System Design. То ли мне он так сильно нравится(всмысле System Design), то ли он так легко и непринужденно идет, будто его можно смотреть с полного нуля. Красивый, лаконичный, на пальцах, без кода, но при этом очень полезный(ОЧЕНЬ)
На данный момент тимлижу(слишком громко, поэтому просто помогаю выполнять) несколько проектов:
- Dashboard. Я заложил базу, а три студента ее разгоняют. Идея основная в том, что там два параллельных парсера, данные обновляются каждые 30 минут, настроено версионирование данных.
- Командообразование. Есть распространенная проблема - объединение людей в команды. Будь то хакатон, будь то другие соревнования, где нужно участвовать команды. На этой платформе мы можем делать набор в свою команду, переходить на другую, выбирать кейсы, приходят уведы, приглашать себе в команду и всё мегаитерактивно.
Вернусь я живыи или нет - узнаем попозже. А то я сам не знаю ответа
Чем же я занимаюсь?
- Я сдал экзамен ААА(Академия Аналитиков Авито). Решил 5/5 математику, 4/4 прогу. По моей оценке должны позвать на собес.
- Я сдал контест в Яндекс Лицей(Мы открываем на своей базе Яндекс Лицей в сентябре, нужны преподы. Ну и тут отбор). Там был контестик на 5 простых задачек на банальный питон. На контест давалось 4 часа, сдал за 45 минут и на максимум.
- Нашел прикольного дядьку из ODS, читает про ML System Design. То ли мне он так сильно нравится(всмысле System Design), то ли он так легко и непринужденно идет, будто его можно смотреть с полного нуля. Красивый, лаконичный, на пальцах, без кода, но при этом очень полезный(ОЧЕНЬ)
На данный момент тимлижу(слишком громко, поэтому просто помогаю выполнять) несколько проектов:
- Dashboard. Я заложил базу, а три студента ее разгоняют. Идея основная в том, что там два параллельных парсера, данные обновляются каждые 30 минут, настроено версионирование данных.
- Командообразование. Есть распространенная проблема - объединение людей в команды. Будь то хакатон, будь то другие соревнования, где нужно участвовать команды. На этой платформе мы можем делать набор в свою команду, переходить на другую, выбирать кейсы, приходят уведы, приглашать себе в команду и всё мегаитерактивно.
Яндекс Лицей
Учим подростков 13–20 лет современным языкам программирования и промышленной разработке
🔥16❤4🏆2😈1
А что вы хотите здесь вообще видеть?
Пишите комменты)
И лайкате понравившиеся)
Пишите комменты)
И лайкате понравившиеся)
❤6
Древнее зло проснулось
Извиняюсь за свое долгое отсутствите, зато я с кучей полезностей и огромным количеством контента.
Начнем с классики(Simulator ML). Времени было ну оооочень мало. И как же я был удивлен, что я приступал к задачке - сдавал ее за 15 минут и переходил дальше.
- nDCG. Красиво, по порядку разобралось, что такое CG(Cumulative Gain), что такое DCG, nDCG. Что такое Industry и Standard.
nDCG (Normalized Discounted Cumulative Gain) – популярная метрика в задаче ранжирования, которая учитывает порядок элементов в выдаче.
Читать подробнее
- MULTIPROCESSING. Joblib - потрясающая библиотека. Вы простым движением можете распараллелить процессы на разных ядрах процессора. Я раньше запускал много Workspace в VS code для параллельности. А вот оно - изящное решение. В задаче мы ускорили процесс очистки данных(в осовном регулярки).
Joblib — одна из библиотек python для параллельных вычислений. Множество библиотека машинного обучения таких как scikit-learn использует joblib для параллельного запуска своих алгоритмов.
Читать подробнее
--------------------
Я прошел собес в это вокресенье. Проходил я собеседование на преподавателя Python, а спрашивали в итоге на Junior Python Developer. Один из следующих постов - вопросы с Yandex. Как я готовился(никак) , что спрашивали и почему я(и не только я) очень удивлены.
Вчера в 21:00 пришел итог.
Прошел. Осталось подписать все документы. Теперь я сертифицрованный преподаватель Yandex по Python разработке.
--------------------
Проекты в SimulatorML... Они не заслуживают такой приписки в конец. Это слишком важная вещь, чтобы освещать ее в конце, но могу предоставить спойлер.
Извиняюсь за свое долгое отсутствите, зато я с кучей полезностей и огромным количеством контента.
Начнем с классики(Simulator ML). Времени было ну оооочень мало. И как же я был удивлен, что я приступал к задачке - сдавал ее за 15 минут и переходил дальше.
- nDCG. Красиво, по порядку разобралось, что такое CG(Cumulative Gain), что такое DCG, nDCG. Что такое Industry и Standard.
nDCG (Normalized Discounted Cumulative Gain) – популярная метрика в задаче ранжирования, которая учитывает порядок элементов в выдаче.
Читать подробнее
- MULTIPROCESSING. Joblib - потрясающая библиотека. Вы простым движением можете распараллелить процессы на разных ядрах процессора. Я раньше запускал много Workspace в VS code для параллельности. А вот оно - изящное решение. В задаче мы ускорили процесс очистки данных(в осовном регулярки).
Joblib — одна из библиотек python для параллельных вычислений. Множество библиотека машинного обучения таких как scikit-learn использует joblib для параллельного запуска своих алгоритмов.
Читать подробнее
--------------------
Я прошел собес в это вокресенье. Проходил я собеседование на преподавателя Python, а спрашивали в итоге на Junior Python Developer. Один из следующих постов - вопросы с Yandex. Как я готовился
Вчера в 21:00 пришел итог.
--------------------
Проекты в SimulatorML... Они не заслуживают такой приписки в конец. Это слишком важная вещь, чтобы освещать ее в конце, но могу предоставить спойлер.
❤13❤🔥3🔥2
Если вы тоже замечаете магию, стоящую за гигантскими объемами данных, встречайте - клуб Whale Data Science! Наш новый современный коллектив состоит всего из восьми избранных участников, которые, несомненно, внесут свой уникальный вклад в область Data Science.
Наша цель - обмен знаниями, идеями и опытом в мире Data Science и Искусственного Интеллекта.
Следите за нашими обновлениями и постами. Вместе мы сможем раскрыть все возможности, которые дает нам Data Science, и открыть для себя новые горизонты знаний! 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Friends Blog
Danil Kartushov invites you to add the folder “Friends Blog”, which includes 7 chats.
❤5🔥5🐳4
СОБЕСЕДОВАНИЕ В ЯНДЕКС
После того, как вы уже прошли курсы (целых 200 шэров на посте, так что если ты не видел пост - бегом сохранять) и получили ценные знания, опыт, приходит пора приходить собеседования.
Я собеседовался на позицию преподаватель Python в ДПО ШАД. Но тем не менее, в ходе собеседования раскрылись стандартные(и не очень) темы про Python.
- Собеседование началось с нестандартного для разработчика вопроса - сделай план на тему "списки".
Здесь я уточнил ЦА, время занятий.
Начал с определения и "интуиции", прошел через полиморфизм и закончил практикой.
Далее вопросы:
- Какая сложность поиска элемента в списке?
- Какие есть типы данных в Python?
- Что такое list comprehension, для чего используется?
- Показали на длинное выражение(на экран ноута не поместилось лол) и сказали объяснить, что происходит
- Чем отличается is от == ?
- Для чего нужна копия?
- Что такое self? Могу ли я заменить его на другое слово? Ошибок не будет?
- Для чего нужен call? Когда он вызывается? Как его вызвать?
- Чем атрибут отличается от методов?
- Устно создай экземпляр класса и сделай обращение к атрибутам
- Что такое метод str и для чего он нужен?
- Для чего нужны *args, **kwargs? Что из себя представляет args, kwargs? Как передаются аргументы в функции?
- Для чего нужен raise?
Я бы сделал обзор вопросов, если бы не наткнулся на один видос(если бы я не был ленивым), где все эти вопросы обозреваются + сверху еще материала много.
Держите ссылочку. Разбор базовых вопросов. Мегаприятно и четко. На х2 залетело спокойно.
Курсы из моего поста, которые я писал ранее + этот видос с разбором вопросов покрывают уровень с очень значительным преимуществом.
Учитывая, что я делаю упор на Data Science, а не на специфики Python разработки...
Дерзайте, друзья!
После того, как вы уже прошли курсы (целых 200 шэров на посте, так что если ты не видел пост - бегом сохранять) и получили ценные знания, опыт, приходит пора приходить собеседования.
Я собеседовался на позицию преподаватель Python в ДПО ШАД. Но тем не менее, в ходе собеседования раскрылись стандартные(и не очень) темы про Python.
- Собеседование началось с нестандартного для разработчика вопроса - сделай план на тему "списки".
Начал с определения и "интуиции", прошел через полиморфизм и закончил практикой.
Далее вопросы:
- Какая сложность поиска элемента в списке?
- Какие есть типы данных в Python?
- Что такое list comprehension, для чего используется?
- Показали на длинное выражение(на экран ноута не поместилось лол) и сказали объяснить, что происходит
- Чем отличается is от == ?
- Для чего нужна копия?
- Что такое self? Могу ли я заменить его на другое слово? Ошибок не будет?
- Для чего нужен call? Когда он вызывается? Как его вызвать?
- Чем атрибут отличается от методов?
- Устно создай экземпляр класса и сделай обращение к атрибутам
- Что такое метод str и для чего он нужен?
- Для чего нужны *args, **kwargs? Что из себя представляет args, kwargs? Как передаются аргументы в функции?
- Для чего нужен raise?
Я бы сделал обзор вопросов, если бы не наткнулся на один видос(
Держите ссылочку. Разбор базовых вопросов. Мегаприятно и четко. На х2 залетело спокойно.
Курсы из моего поста, которые я писал ранее + этот видос с разбором вопросов покрывают уровень с очень значительным преимуществом.
Учитывая, что я делаю упор на Data Science, а не на специфики Python разработки...
Дерзайте, друзья!
❤19🐳12🔥6😈2👍1
Проекты. SimulatorML. SpamKiller.
Новое направление, которое я успел попробовать - проекты в SimulatorML.
Это не типичная задачка, за которую сел - подумал - сдал(Хотя от качественных промышленных задач в Симуляторе - очень много пользы, ну а в проектах - ещё больше) .
Это проект, который нужен и бизнесу, и пользователям.
Это то, что развивается каждый день. То, на что ты напрямую влияешь и видишь свои результаты.
Проект в Симуляторе - это список продуктов от бизнеса, которые нужно реализовать.
Есть на выбор немалое количество проектов -> подаешь заявку -> принимают в команду.
Команда мечты? - это твоя команда в рамках проекта, в котором ты участвуешь.
Умные, замотивированные ребята, умеют писать чистый и производительный код, причем быстро.
Понимающие, быстро берущие задачи и выполняющие их с огнем в глазах.
К счастью, это не мечта, это реальность.
Невероятный опыт от выбора метрик, сбора датасета до вывода MVP в продакшн.
Вы проходите весь полный ML/Бизнес цикл. Принимаете требования заказчика, формулируете его
на языке ML, собираете датасет, разрабатываете модельку.
И сразу видите свой результат! Его можно щупать!
Вам выдается инфраструктура, у вас есть мощнейшие ребята( Богдан[Основатель Симулятора ML]
лично во многих местах давал бесценные советы)
А в резюме появится строка с Пет-проектами, где написано:
SpamKiller:
> Антиспам сервис, основанный на принципах машинного обучения
> Работает 24/7 на виртуальной машине
> Более 10000 пользователей
> Более 3500 обработанных сообщений
> Более 150 выявленных надоедливых, спамных сообщений
> Работает в чате Karpov.courses, Время Валеры.
А что вы знаете про бесценный опыт?
Новое направление, которое я успел попробовать - проекты в SimulatorML.
Это не типичная задачка, за которую сел - подумал - сдал
Это проект, который нужен и бизнесу, и пользователям.
Это то, что развивается каждый день. То, на что ты напрямую влияешь и видишь свои результаты.
Проект в Симуляторе - это список продуктов от бизнеса, которые нужно реализовать.
Есть на выбор немалое количество проектов -> подаешь заявку -> принимают в команду.
Команда мечты? - это твоя команда в рамках проекта, в котором ты участвуешь.
Умные, замотивированные ребята, умеют писать чистый и производительный код, причем быстро.
Понимающие, быстро берущие задачи и выполняющие их с огнем в глазах.
К счастью, это не мечта, это реальность.
Невероятный опыт от выбора метрик, сбора датасета до вывода MVP в продакшн.
Вы проходите весь полный ML/Бизнес цикл. Принимаете требования заказчика, формулируете его
на языке ML, собираете датасет, разрабатываете модельку.
И сразу видите свой результат! Его можно щупать!
Вам выдается инфраструктура, у вас есть мощнейшие ребята( Богдан[Основатель Симулятора ML]
лично во многих местах давал бесценные советы)
А в резюме появится строка с Пет-проектами, где написано:
SpamKiller:
> Антиспам сервис, основанный на принципах машинного обучения
> Работает 24/7 на виртуальной машине
> Более 10000 пользователей
> Более 3500 обработанных сообщений
> Более 150 выявленных надоедливых, спамных сообщений
> Работает в чате Karpov.courses, Время Валеры.
А что вы знаете про бесценный опыт?
👍21🔥9❤4😈1