Forwarded from New Yorko Times (Yury Kashnitsky)
Наконец, английский. Зависит от компании, конечно, у нас, например, полно носителей, а уровень языка не-носителей тоже очень высокий. Хочется не тупить в таких вещах как презентации, если надо убедить в своем взгляде. Да и даже во время 2-3-минутных айсбрейкингов с англичанами не хочется выпадать. Для некоторых ролей (PM, менеджеры любого звена) топ-инглиш на входе – просто обязательное условие.
Можно долго обсуждать стратегии изучения иностранных языков. Прозвучит банально, но важна практика, то есть беседы с носителями. Без этого сложно сдвинуться. Я в свое время прокачался в английском через разговорные клубы, но это может быть и SkyEng, см. статью “Как я осилил английский” на Хабре https://habr.com/ru/post/413633/
Сейчас время непростое, конечно, рыночек мёрзлый. Но всяко паузы можно использовать для прокачки. Если после этого поста хотя бы один человек заменит десяток часов литкода на практику бихейв-интервью и английского, значит, я тут не зря строчил.
Можно долго обсуждать стратегии изучения иностранных языков. Прозвучит банально, но важна практика, то есть беседы с носителями. Без этого сложно сдвинуться. Я в свое время прокачался в английском через разговорные клубы, но это может быть и SkyEng, см. статью “Как я осилил английский” на Хабре https://habr.com/ru/post/413633/
Сейчас время непростое, конечно, рыночек мёрзлый. Но всяко паузы можно использовать для прокачки. Если после этого поста хотя бы один человек заменит десяток часов литкода на практику бихейв-интервью и английского, значит, я тут не зря строчил.
What’s New in Pandas 2.1 | by Patrick Hoefler | Sep, 2023 | Towards Data Science
https://towardsdatascience.com/whats-new-in-pandas-2-1-d26c0b8314a
https://towardsdatascience.com/whats-new-in-pandas-2-1-d26c0b8314a
Medium
What’s New in Pandas 2.1
The most interesting things about the new release
👍1
Forwarded from Data Secrets
Про неочевидные тонкости обучения для несбалансированных классов
В задаче классификации данные называются несбалансированными (Imbalanced Data), если в обучающей выборке доли объектов разных классов существенно различаются, также говорят, что «классы не сбалансированы». Вопрос вот какой: что делать в такой ситуации?
Такой вопрос часто задают на собеседованиях, есть блог-заметки и ютуб-ролики на эту тему, почти все они дают ложное представление о дисбалансе. Обычно рекомендуют давать такой ответ – надо сделать перебалансировку данных. Сейчас поговорим о том, что подобный ответ не учитывает теорию и практику классификации.
😻 #train
В задаче классификации данные называются несбалансированными (Imbalanced Data), если в обучающей выборке доли объектов разных классов существенно различаются, также говорят, что «классы не сбалансированы». Вопрос вот какой: что делать в такой ситуации?
Такой вопрос часто задают на собеседованиях, есть блог-заметки и ютуб-ролики на эту тему, почти все они дают ложное представление о дисбалансе. Обычно рекомендуют давать такой ответ – надо сделать перебалансировку данных. Сейчас поговорим о том, что подобный ответ не учитывает теорию и практику классификации.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Data Secrets
Как использовать многоруких бандитов на практике | Гайд для аналитиков, продуктовых менеджеров и ML-специалистов
Помните, мы рассказывали про многоруких бандитов? Так вот недавно ребята из команды аналитической системы MyTracker показали экспертное руководство для использования многоруких бандитов в продуктах. Подробно разобрали все особенности и отлично рассказали про четыре основных алгоритма: жадный, алгоритм UCB, алгоритм сэмплирования Томпсона и контекстуальные многорукие бандиты.
Мастрид и для ML-специалистов, и для аналитиков, и даже для продактов. Советуем!
Скачивать тут.
😻 #advice
Помните, мы рассказывали про многоруких бандитов? Так вот недавно ребята из команды аналитической системы MyTracker показали экспертное руководство для использования многоруких бандитов в продуктах. Подробно разобрали все особенности и отлично рассказали про четыре основных алгоритма: жадный, алгоритм UCB, алгоритм сэмплирования Томпсона и контекстуальные многорукие бандиты.
Мастрид и для ML-специалистов, и для аналитиков, и даже для продактов. Советуем!
Скачивать тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Data Secrets
Выкатываем лучший на свете гайд по ИИ-расширениям Chromе для датасайентистов
Объяснить и обобщить статью, написать по ней код, потом ускорить его в 20 раз, за секунду спарсить данные и составить умные заметки? Да не вопрос, с нашим авторским гайдом все по плечу. Забирайте!
😻 #advice
Объяснить и обобщить статью, написать по ней код, потом ускорить его в 20 раз, за секунду спарсить данные и составить умные заметки? Да не вопрос, с нашим авторским гайдом все по плечу. Забирайте!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Just post it!
job_boards.xlsx
39.3 KB
#immigration
Where to find the job?
Во вложении файл со списком из 212 job boards, в основном для ИТ, но вероятно не только.
С разделением по странам и регионам.
Если вы ищете работу для релокации - начинать советую с тех ресурсов, что в группе Global. Локальные ресурсы по странам часто содержат меньше вариантов, хотя на них может найтись вакансия, которая не встретилась в стандартных LinkedIn/Glassdoor/Indeed.
Внутри географических групп ссылки отсортированы по алфавиту, а не рейтингу/количеству вакансий/чему-то еще.
Where to find the job?
Во вложении файл со списком из 212 job boards, в основном для ИТ, но вероятно не только.
С разделением по странам и регионам.
Если вы ищете работу для релокации - начинать советую с тех ресурсов, что в группе Global. Локальные ресурсы по странам часто содержат меньше вариантов, хотя на них может найтись вакансия, которая не встретилась в стандартных LinkedIn/Glassdoor/Indeed.
Внутри географических групп ссылки отсортированы по алфавиту, а не рейтингу/количеству вакансий/чему-то еще.
Still hoping to find no-code tool for quick data analysis that can be easy integrated with Jupyter notebook without any bugs, unexpected behavior and other problems that I faced with many of tools with the same purpose
https://www.blog.dailydoseofds.com/p/8-immensely-powerful-no-code-tools?utm_source=post-email-title&publication_id=1119889&post_id=137476579&utm_campaign=email-post-title&isFreemail=true&r=2gfvab&utm_medium=email
https://www.blog.dailydoseofds.com/p/8-immensely-powerful-no-code-tools?utm_source=post-email-title&publication_id=1119889&post_id=137476579&utm_campaign=email-post-title&isFreemail=true&r=2gfvab&utm_medium=email
Dailydoseofds
8 Immensely Powerful No-code Tools to Supercharge Your DS Projects
8 powerful no-code data science tools in a single frame.
3 articles about feature store entity, what it is, what is it for and why you need/don't need it:
✅ https://www.tecton.ai/blog/devops-ml-data/
✅ https://www.tecton.ai/blog/what-is-a-feature-store/
✅https://towardsdatascience.com/do-you-really-need-a-feature-store-e59e3cc666d3
✅ https://www.tecton.ai/blog/devops-ml-data/
✅ https://www.tecton.ai/blog/what-is-a-feature-store/
✅https://towardsdatascience.com/do-you-really-need-a-feature-store-e59e3cc666d3
Tecton
DevOps for ML Data: Putting ML Into Production at Scale | Tecton
Learn the challenges of managing data in machine learning and how an enterprise feature platform and DevOps practices can lead to reliable feature production.
«Буквально научился на своих неудачах»: как я 8 месяцев искал работу в ИТ за границей
https://journal.tinkoff.ru/ml-engineer-in-georgia/
https://journal.tinkoff.ru/ml-engineer-in-georgia/
Т—Ж
Как я 8 месяцев искал работу в ИТ за границей
История читателя, который устроился CV/ML-инженером в Грузии
Forwarded from Artem Ryblov’s Data Science Weekly (Artem Ryblov)
Model Evaluation, Model Selection, and Algorithm Selection in Machine Learning by Sebastian Raschka
The correct use of model evaluation, model selection, and algorithm selection techniques is vital in academic machine learning research as well as in many industrial settings.
This article reviews different techniques that can be used for each of these three subtasks and discusses the main advantages and disadvantages of each technique with references to theoretical and empirical studies. Further, recommendations are given to encourage best yet feasible practices in research and applications of machine learning.
Link
https://arxiv.org/abs/1811.12808
Navigational hashtags: #armknowledgesharing #armarticles
General hashtags: #machinelearning #ml #modelevaluation #evaluation #selection #cv #crossvalidation
@accelerated_learning
The correct use of model evaluation, model selection, and algorithm selection techniques is vital in academic machine learning research as well as in many industrial settings.
This article reviews different techniques that can be used for each of these three subtasks and discusses the main advantages and disadvantages of each technique with references to theoretical and empirical studies. Further, recommendations are given to encourage best yet feasible practices in research and applications of machine learning.
Link
https://arxiv.org/abs/1811.12808
Navigational hashtags: #armknowledgesharing #armarticles
General hashtags: #machinelearning #ml #modelevaluation #evaluation #selection #cv #crossvalidation
@accelerated_learning
Forwarded from Aspiring Data Science (Anatoly Alekseev)
YouTube
Top 7 Ways to 10x Your API Performance
Get a Free System Design PDF with 158 pages by subscribing to our weekly newsletter: https://bytebytego.ck.page/subscribe
Animation tools: Adobe Illustrator and After Effects.
Checkout our bestselling System Design Interview books:
Volume 1: https://amzn.to/3Ou7gkd…
Animation tools: Adobe Illustrator and After Effects.
Checkout our bestselling System Design Interview books:
Volume 1: https://amzn.to/3Ou7gkd…
Forwarded from Data Secrets
DeepLearning.AI порадовали новым бесплатным курсом на Coursera за 0 рублей
Курс посвящен LLM. Рассказывают про жизненный цикл LLM, про то, как адаптировать их к конкретным задачам, как развернуть такую модель в проде, про возможные проблемы и конечно про то, как LLM устроены внутри. Затрагивают файнтюнинг и даже RLHF (это алгоритм, который сделал Chat-GPT таким крутым, про него мы рассказывали вот тут). Обещают глубокое понимание LLM на выходе и, судя по программе, действительно рассказывают подробно и понятно.
Приблизительно 16 часов, 3 модуля, 48 видео, преподаватели из Amazon с хорошим опытом, а еще на курсе дают сертификат. В общем, отличная возможность прокачаться. Регистрироваться тут.
😻 #advice #news
Курс посвящен LLM. Рассказывают про жизненный цикл LLM, про то, как адаптировать их к конкретным задачам, как развернуть такую модель в проде, про возможные проблемы и конечно про то, как LLM устроены внутри. Затрагивают файнтюнинг и даже RLHF (это алгоритм, который сделал Chat-GPT таким крутым, про него мы рассказывали вот тут). Обещают глубокое понимание LLM на выходе и, судя по программе, действительно рассказывают подробно и понятно.
Приблизительно 16 часов, 3 модуля, 48 видео, преподаватели из Amazon с хорошим опытом, а еще на курсе дают сертификат. В общем, отличная возможность прокачаться. Регистрироваться тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Data Secrets
PandasAI
С появлением ChatGPT многие задачи были автоматизированы в удобных утилитах. Для датасайентистов тоже появился такой лакомый кусочек: PandasAI. Эта библиотека-расширение pandas, в которую добавлена возможность выполнять задачи обработки данных без явного написания кода. Пишешь промпт – и поехали. Можно даже рисовать графики и работать с файлами.
😻 #python
С появлением ChatGPT многие задачи были автоматизированы в удобных утилитах. Для датасайентистов тоже появился такой лакомый кусочек: PandasAI. Эта библиотека-расширение pandas, в которую добавлена возможность выполнять задачи обработки данных без явного написания кода. Пишешь промпт – и поехали. Можно даже рисовать графики и работать с файлами.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Idea about how to make Random Forest model smaller, faster without performance loss. But can we make sure that it won't lead to overfit?
Dailydoseofds
Your Random Forest Model is Never the Best Random Forest Model You Can Build
The coolest trick to improve random forest models.
😱1
Today I failed a job interview due to lack of knowledge about PSI and data drifts for ML models. This article helped me to close this gap pretty well :)
Arize AI
Population Stability Index (PSI): What You Need To Know
Population stability index (PSI) is a statistical measure with a basis in information theory that quantifies the difference between one probability distribution from a reference probability distribution. The advantage of...
👍1
A couple weeks ago I started using a new Jupyter notebook 7 that seems much more convenient compared to the previous “classic” version that we all used to. Out of the box it provides
ToC
and finally a really good dark theme. Besides all exterior changes I noticed less memory and CPU consumption compared to old versions: it doesn’t slow down my Chrome even if ipynb
file opened is really long with hundreds of cells. It’s already integrated in Data Science Docker image (for Python 3.11+) and you can set it up and run it as I described in my post earlier.