Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение 6272

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐛 Истории подписчиков: вспоминаем наши ошибки в Data Science

Все мы когда-то начинали, и порой самые банальные ошибки могут стать источником самых больших уроков. Давайте вспомним моменты, когда наши модели показывали «идеальные» результаты, но это оказалось далеко не так.

🫠 Вот история админа из студенчества:

Когда я только вкатился в Data Science, мне дали задачу построить модель для предсказания цен на жильё. Я такой весь уверенный, что вот-вот покорю этот мир: минимальная ошибка, красивые графики, да я просто гений! 😎 Но чем дальше я углублялся, тем страннее становились предсказания. Цены на квартиры с метражом в 200 квадратных метров были предсказаны ниже, чем у квартир в 30 м². Оказалось, что в данных были строки вместо чисел в одном из признаков — вместо «100» стояло «сто». Ну конечно, модель же могла понять, что это такое! 🤦‍♂️

Этот баг научил меня важному уроку: всегда проверяй данные. Особенно если твоя модель «непонятно как» даёт отличные результаты! С тех пор я никогда не пренебрегаю даже самой мелкой проверкой.

Теперь ваша очередь! Поделитесь своими первыми ошибками и уроками, которые вы из них извлекли.

🤓

Библиотека дата-сайентиста #междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13😁4❤2

2.05K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

⏰ STUMPY: умный анализ временных рядов

STUMPY — это мощная и масштабируемая библиотека Python для работы с временными рядами. Она эффективно вычисляет матричный профиль, который помогает находить ближайшие соседи для каждого подотрезка временного ряда.

С его помощью можно решать задачи:

✔️ Поиск повторяющихся паттернов.
✔️ Обнаружение аномалий.
✔️ Выделение ключевых подотрезков (shapelets).
✔️ Семантическая сегментация.
✔️ Анализ потоковых данных.
✔️ Быстрое приближённое вычисление матричных профилей.
✔️ Построение временных цепочек.
✔️ Краткое представление длинных временных рядов.

👉 Подробнее — в документации.

Библиотека дата-сайентиста #буст

👍11❤2🔥1

2.16K views07:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 SGLang теперь в PyTorch: быстрое и гибкое развертывание LLM

SGLang — это мощный движок для обслуживания больших языковых моделей (LLM) и мультимодальных моделей. Он ускоряет взаимодействие с моделями, обеспечивая контроль за их работой. Ключевые возможности SGLang:

▪️ Высокопроизводительный бэкенд:
• RadixAttention для кеширования префиксов.
• Нулевая задержка CPU-планировщика.
• Непрерывная пакетная обработка.
• Квантование (FP8/INT4/AWQ/GPTQ).

▪️ Гибкий фронтенд:
• Интуитивный язык для программирования LLM-приложений.
• Цепочечные вызовы генерации.
• Расширенные техники промптинга и управления потоком.
• Поддержка мультимодального ввода.

▪️ Широкая поддержка моделей:
• Llama, Gemma, Mistral, Qwen, DeepSeek, LLaVA.
• Встраиваемые модели (e5-mistral, gte, mcdse).
• Reward-модели (Skywork).

▪️ Активное сообщество

🔗 Подробнее об экосистеме PyTorch и SGLang: https://clc.to/FfEGWQ

Библиотека дата-сайентиста #свежак

❤4👍1

1.99K views09:30

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 IT-выживание 2025: как не вылететь с рынка труда в эпоху LLM

В 2025-м айтишникам приходится несладко: старые скиллы уже не в цене, LLM наступают на пятки, а работодатели хотят все и сразу.

👍 Делимся инсайдами, как выжить в новой реальности и не потерять работу в эпоху тотальной оптимизации.

👉 Ссылка на статью: https://proglib.io/sh/zEruLHxYno

Библиотека дата-сайентиста

❤3😁3👾2

23.4K views18:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Когда решил собрать нейросеть «как надо» 😎

Библиотека дата-сайентиста #развлекалово

😁13👍1

1.96K views09:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Самые догадливые, пишите ответ в комментах 👇

Небольшая подсказка — это термин относится к AI или DS.

Прячем ответы под спойлер, чтобы не спалить остальным.

Библиотека дата-сайентиста #междусобойчик

❤2

2.03K views13:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Новости AI

🚀 Сеточки:
— Mistral Small 3.1 — быстрее Gemma 3 и GPT-4o.
— YandexART 2.5 Pro — новая генеративная модель.
— Google открыла исходники AlexNet — нейросеть стала музейным экспонатом.

🔬 Исследования:
— DyT от Yann LeCun — замена нормализации с низкими вычислительными затратами.
— METR — новый метод оценки AI в долгосрочных задачах.

🎙 Выступления:
— NVIDIA GTC 2025 — главные анонсы от CEO Jensen Huang.
— Yann LeCun — о будущем AI и новых архитектурах.

🖥 Для разработчиков:
— Google AI для кода — превью и AI-анализ.
— MongoDB GenAI Showcase — 100+ примеров RAG и AI-агентов.
— Notebook LM — интерактивные майнд-карты от Google.

📚 Что почитать:
— Пишем свой Transformer.
— Разметка данных с LLM.
— Семантическая сегментация (U-Net, LinkNet, PSPNet).
— Кастомные loss-функции.

⚡️ Технологии:
— NVIDIA представила DGX Spark и DGX Station — персональные AI-суперкомпьютеры.

🔒 Кибербезопасность:
— Andrej Karpathy о цифровой гигиене — защита конфиденциальности.

Библиотека дата-сайентиста #свежак

👍5❤‍🔥1❤1

2.05K viewsedited 13:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека собеса по Data Science | вопросы с собеседований

Что такое токен в NLP и какие существуют методы токенизации

🔹 Токен — это наименьшая единица текста, которая может быть словом, подсловом (например, «un-», «friend») или знаком препинания.

🔹 Популярные методы токенизации:

1. Токенизация на уровне слов — делит текст на отдельные слова.

2. Токенизация на уровне подслов — разбивает слова на более мелкие единицы (например, BPE, WordPiece).

3. Токенизация на уровне символов — превращает текст в последовательность отдельных символов.

⚡ Выбор метода зависит от задачи: для морфологически сложных языков часто используют подсловную токенизацию, а для обработки именованных сущностей — посимвольную.

Библиотека собеса по Data Science

👍4❤1

1.84K views07:44

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Библиотека задач по Data Science

1.78K views11:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

15%

[[0, 1, 2, 3, 4, 5, 6, 7, 8]]

26%

[0, 1, 2, 3, 4, 5, 6, 7, 8]

29%

[0, 3, 6, 1, 4, 7, 2, 5, 8]

30%

None of the above

253 voters1.73K views11:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💻

Исследование IT-аудитории Proglib 2025: зарплаты, технологии, профессии

Кем является разработчик в 2025 году? Свежий анализ IT-сферы: зарплаты, востребованные технологии, специализации и демография специалистов.

📊

Полный отчет здесь: https://proglib.io/sh/NbJAHIDRTg

Библиотека дата-сайентиста #Свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2😁1

3.08K viewsedited 18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔄 Изменения в схеме данных: как избежать проблем для дата-команд

Мы рассмотрим четыре стратегии адаптации к изменениям и их возможные комбинации.

1. Встречи — самый простой подход

📌 Только коммуникация: команды источника данных и аналитики заранее обсуждают изменения, согласовывают сроки и схему данных перед внесением изменений в исходные наборы данных.

▪️ Плюсы:
— Самый простой подход
— Документирование в Confluence, Google Docs и т. д.
— Договоренность между командами

▪️ Минусы:
— Подвержен ошибкам
— Встречи замедляют процесс разработки
— Невозможно учесть все нюансы данных

🎯 Как реализовать:
— Фиксируйте договоренности в Confluence или Google Docs
— Включайте конкретные задачи и шаги для реализации изменений

2. Источник просто сбрасывает данные, а дата-команда разбирается

📌 Dump & Forget: команда источника просто выгружает данные, а дата-команда работает с тем, что получает. Этот метод наиболее распространен в индустрии.

▪️Плюсы:
— Самый удобный способ для команды источника
— Позволяет источнику работать быстро
— Достаточно для большинства бизнес-кейсов

▪️Минусы:
— Дата-команда постоянно догоняет изменения
— Плохие данные, сбои конвейеров и технический долг
— Дата-команда теряет концептуальное понимание данных

🎯 Как реализовать:
— Используйте Apache Iceberg и Spark’s mergeSchema
— Для инструментов типа dbt включайте on_schema_change

3. Дата-команда участвует в ревью изменений схемы данных

📌 Upstream Review: дата-команда участвует в моделировании данных источником. Как правило, дата-команды более внимательно относятся к проработке моделей данных.

▪️Плюсы:
— Предотвращает появление плохих данных
— Обеспечивает качественную схему данных
— Улучшает понимание данных между командами

▪️Минусы:
— Замедляет работу команды источника
— Не позволяет предотвратить агрегированные ошибки (например, несоответствие средней выручки за разные дни)

🎯 Как реализовать:
— Ускорьте процесс с помощью data contracts
— Используйте CODEOWNERS в GitHub, чтобы дата-команды участвовали в ревью

4. Валидация входных данных перед обработкой

📌 Input Validation: дата-команда проверяет входные данные перед их использованием. Если обнаруживается проблема, необходимо взаимодействовать с командой источника, чтобы исправить данные и повторно их обработать.

▪️ Плюсы:
— Быстрое обнаружение проблем
— Автоматизация отладки ошибок и уведомление команды источника

▪️ Минусы:
— Необходимо согласовывать проверки данных между командами
— Множественные проверки увеличивают время обработки данных

🎯 Как реализовать:
— Используйте любой инструмент контроля качества данных
— В потоковых системах применяйте DLQ (Dead Letter Queue) и реконсиляционные паттерны

Библиотека дата-сайентиста #буст

👍3❤1

1.84K views07:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧑‍💻

Собес по Data Science: 10 вопросов, которые разделяют джунов от мидлов

Готовишься к интервью? Мы собрали 10 каверзных вопросов, которые любят задавать тимлиды. Здесь нет банальных задач — только те, на которых спотыкаются 80% кандидатов. Проверь себя и узнай, готов ли ты к следующему собесу!

✅

Пройти тест

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

😁2❤1

1.86K viewsedited 11:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Зимний режим OFF. Весна начинается с апгрейда.

Если чувствуешь, что за зиму навыки подзастыли — пора их разморозить.

📦 Включили весеннюю распродажу: скидка –35% на курсы до конца марта.

Выбирай направление и выходи из спячки:

— Алгоритмы и структуры данных — чтобы собеседования в Яндекс, Ozon и другие были как уровень easy

— Математика для Data Science — для тех, кто не хочет просто «жать на кнопки», а понимать, что под капотом

— Архитектуры и шаблоны — если хочется мыслить как senior и прокачать системное мышление

— Python, Frontend, основы IT — для тех, кто стартует путь в разработке

👾 Proglib Academy — это как старая добрая 8-битная игра, но вместо врагов — практические задачи и собеседования.

Мы просто упаковали сложное обучение в пиксельную обёртку, чтобы тебе было чуть веселее прокачиваться.

🧠 Отогревай мозги, прокачивай скиллы и хватай свой power-up до конца марта.

👉 Выбрать курс

1.85K views15:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека шарписта | C#, F#, .NET, ASP.NET

💾 Как выбрать стратегию кэширования: разбор 7 популярных алгоритмов

Кешировать нужно с умом. И нет, LRU — не серебряная пуля.

В статье вас ждёт разбор алгоритмов: LRU, LFU, FIFO и другие
– Примеры, где каждый работает лучше
– Плюсы и минусы подходов
– Практические советы по выбору стратегии

Если проектируете систему с большими нагрузками или оптимизируете производительность — материал будет как раз.

➡️

Читать статью

🐸

Библиотека шарписта

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

1.61K views18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔔

AI-лаборатории договорились за нашей спиной

Иначе как объяснить, что все релизы случились вчера?

1. OpenAI обновили GPT-4o — теперь нейросеть не только распознаёт изображения, но и может редактировать их по любому запросу.

🌳 «Свежие зелёные луга» теперь в каждом районе страны...

2. DeepSeek V3 обновился, обогнав на бенчмарках все нерезонящие модели, включая GPT-4.5.

3. Gemini 2.5 Pro рванул вперёд, взяв лидерство почти во всём.

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1😁1

1.97K viewsedited 07:06

2025/07/09 01:19:27
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>