Forwarded from Machinelearning
🔥 Сенсей Карпаты выложил новый репозиторий - полный пайплайн обучения LLM с нуля
В проекте есть всё, чтобы собрать свой ChatGPT-клон за $100 и 4 часа:
> • токенизатор
> • pretraining
> • SFT (supervised fine-tuning)
> • RL (reinforcement learning)
> • оценка модели (eval)
Всего 8 000 строк кода, без лишних зависимостей - идеальный учебный пример, чтобы понять, как реально устроено обучение больших языковых моделей.
💡 Это проект из его нового курса Карпаты LLM101n, и отличная возможность прокачать свои ML-навыки на практике.
Можно арендовать GPU в облаке и запустить всё самому - код уже готов к запуску.
Если запустить обучение модели nanochat на облачном GPU-сервере (например, 8×H100), то примерно через 12 часов обучения (стоимость ~300–400 $) модель достигает уровня GPT-2 по качеству на тестовых наборах (CORE-score).
А если тренировать около 40 часов (затраты ~1000 $), решает простые задачи по математике и коду, набирая:
- 40+ на MMLU
- 70+ на ARC-Easy
- 20+ на GSM8K
🧠 Это бесплатная практика топ уровня от мастера, которую не стоит упускать.
🟠 GitHub:https://github.com/karpathy/nanochat
🟠 Технические детали: https://github.com/karpathy/nanochat/discussions/1
@ai_machinelearning_big_data
#LLM #nanochat #MachineLearning #DeepLearning #AI #GPT
В проекте есть всё, чтобы собрать свой ChatGPT-клон за $100 и 4 часа:
> • токенизатор
> • pretraining
> • SFT (supervised fine-tuning)
> • RL (reinforcement learning)
> • оценка модели (eval)
Всего 8 000 строк кода, без лишних зависимостей - идеальный учебный пример, чтобы понять, как реально устроено обучение больших языковых моделей.
💡 Это проект из его нового курса Карпаты LLM101n, и отличная возможность прокачать свои ML-навыки на практике.
Можно арендовать GPU в облаке и запустить всё самому - код уже готов к запуску.
Если запустить обучение модели nanochat на облачном GPU-сервере (например, 8×H100), то примерно через 12 часов обучения (стоимость ~300–400 $) модель достигает уровня GPT-2 по качеству на тестовых наборах (CORE-score).
А если тренировать около 40 часов (затраты ~1000 $), решает простые задачи по математике и коду, набирая:
- 40+ на MMLU
- 70+ на ARC-Easy
- 20+ на GSM8K
🧠 Это бесплатная практика топ уровня от мастера, которую не стоит упускать.
@ai_machinelearning_big_data
#LLM #nanochat #MachineLearning #DeepLearning #AI #GPT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Оксфордские учёные подтвердили худшие опасения: Интернет умирает
Исследователи из Оксфорда выяснили: интернет больше не тот, что раньше:
- В 2020 году ИИ создавал всего 5% контента,
- В 2025 - уже 48%, а к следующему году прогнозируют более 90%.
ИИ-текст стоит очень дешево, человеческий труд - от $10 до $100 за статью.
Рынок выбрал скорость и дешевизну.
Но настоящая проблема -**«model collapse»**:
когда нейросети обучаются на тексте, созданном другими нейросетями.
Это как ксерить ксерокопию - каждое поколение теряет детали и оригинальные идеи.
Мир превращается в поток однообразного, усреднённого контента.
ИИ сегодня создаёт “цифровую кашу”, а завтра будет учиться уже на ней. И каждый новый виток делает интернет чуть глупее.
#AI #Oxford #ModelCollapse #Internet #AIGeneratedContent #LLM #AIEthics #DigitalDecay
Исследователи из Оксфорда выяснили: интернет больше не тот, что раньше:
- В 2020 году ИИ создавал всего 5% контента,
- В 2025 - уже 48%, а к следующему году прогнозируют более 90%.
ИИ-текст стоит очень дешево, человеческий труд - от $10 до $100 за статью.
Рынок выбрал скорость и дешевизну.
Но настоящая проблема -**«model collapse»**:
когда нейросети обучаются на тексте, созданном другими нейросетями.
Это как ксерить ксерокопию - каждое поколение теряет детали и оригинальные идеи.
Мир превращается в поток однообразного, усреднённого контента.
ИИ сегодня создаёт “цифровую кашу”, а завтра будет учиться уже на ней. И каждый новый виток делает интернет чуть глупее.
#AI #Oxford #ModelCollapse #Internet #AIGeneratedContent #LLM #AIEthics #DigitalDecay
🔥 10 Python-библиотек, которые должен знать каждый разработчик LLM и GenAI
1️⃣ [LangChain](https://www.langchain.com/)
Фреймворк для создания LLM-приложений, агентов и инструментов.
Позволяет соединять языковые модели с базами данных, API и внешними сервисами.
Идеален для построения RAG-систем, чат-ботов и аналитических ассистентов.
2️⃣ [LangGraph](https://github.com/langchain-ai/langgraph)
Надстройка над LangChain для создания сложных многоагентных систем.
Поддерживает условную логику, ветвления и сохранение состояния.
Используется для разработки автономных агентов, которые сотрудничают и планируют задачи.
3️⃣ [Docling](https://github.com/DS4SD/docling)
Инструмент для анализа и извлечения информации из документов.
Объединяет LLM, LangChain и RAG-подход для “умного” чтения PDF, таблиц и сканов.
Подходит для систем документооборота, юридических и научных данных.
4️⃣ [OpenAI Python SDK](https://github.com/openai/openai-python)
Официальная библиотека для работы с моделями GPT-4o, DALL-E, Whisper и другими API OpenAI.
Позволяет вызывать модели, генерировать текст, изображения и транскрибировать аудио в несколько строк кода.
Главный инструмент для интеграции мощных моделей в свои Python-приложения.
5️⃣ [Markitdown (Microsoft)](https://github.com/microsoft/markitdown)
Библиотека от Microsoft для создания интерфейсов LLM-приложений с использованием Markdown.
Позволяет описывать UI и рабочие процессы прямо в тексте — быстро, удобно и без JavaScript.
Полезна для автоматизации LLM-воркфлоу и простых чат-интерфейсов.
6️⃣ [Streamlit](https://streamlit.io/)
Фреймворк для построения интерактивных AI-дашбордов и веб-приложений.
Позволяет визуализировать результаты модели, строить формы ввода, графики и интерактивные элементы.
Отличный выбор для быстрой демонстрации или внутреннего прототипа GenAI-проекта.
7️⃣ [FastAPI](https://fastapi.tiangolo.com/)
Высокопроизводительный фреймворк для создания REST и WebSocket API.
Идеален для деплоя ML и LLM моделей в продакшене.
Быстрый, типизированный и легко масштабируемый — стандарт де-факто в AI-бэкендах.
8️⃣ [Faiss](https://github.com/facebookresearch/faiss)
Библиотека от Meta для векторного поиска и кластеризации эмбеддингов.
Молниеносно ищет похожие тексты, изображения или документы в огромных наборах данных.
Необходима в RAG-системах, рекомендациях и семантическом поиске.
9️⃣ [SentenceTransformers](https://www.sbert.net/)
Набор моделей для генерации эмбеддингов предложений, текстов и документов.
Даёт качественные векторные представления для поиска, кластеризации и анализа смысловой близости.
Отлично работает вместе с Faiss и LangChain.
🔟 [MLflow](https://mlflow.org/)
Инструмент для трекинга экспериментов, управления моделями и деплоя ML-проектов.
Позволяет отслеживать метрики, сравнивать версии и хранить модели в централизованном реестре.
Незаменим при построении воспроизводимого и управляемого MLOps-процесса.
⚙️ Эти библиотеки формируют единый стек для создания LLM-агентов, RAG-систем, аналитических ассистентов и AI-сервисов — от эксперимента до продакшена.
1️⃣ [LangChain](https://www.langchain.com/)
Фреймворк для создания LLM-приложений, агентов и инструментов.
Позволяет соединять языковые модели с базами данных, API и внешними сервисами.
Идеален для построения RAG-систем, чат-ботов и аналитических ассистентов.
2️⃣ [LangGraph](https://github.com/langchain-ai/langgraph)
Надстройка над LangChain для создания сложных многоагентных систем.
Поддерживает условную логику, ветвления и сохранение состояния.
Используется для разработки автономных агентов, которые сотрудничают и планируют задачи.
3️⃣ [Docling](https://github.com/DS4SD/docling)
Инструмент для анализа и извлечения информации из документов.
Объединяет LLM, LangChain и RAG-подход для “умного” чтения PDF, таблиц и сканов.
Подходит для систем документооборота, юридических и научных данных.
4️⃣ [OpenAI Python SDK](https://github.com/openai/openai-python)
Официальная библиотека для работы с моделями GPT-4o, DALL-E, Whisper и другими API OpenAI.
Позволяет вызывать модели, генерировать текст, изображения и транскрибировать аудио в несколько строк кода.
Главный инструмент для интеграции мощных моделей в свои Python-приложения.
5️⃣ [Markitdown (Microsoft)](https://github.com/microsoft/markitdown)
Библиотека от Microsoft для создания интерфейсов LLM-приложений с использованием Markdown.
Позволяет описывать UI и рабочие процессы прямо в тексте — быстро, удобно и без JavaScript.
Полезна для автоматизации LLM-воркфлоу и простых чат-интерфейсов.
6️⃣ [Streamlit](https://streamlit.io/)
Фреймворк для построения интерактивных AI-дашбордов и веб-приложений.
Позволяет визуализировать результаты модели, строить формы ввода, графики и интерактивные элементы.
Отличный выбор для быстрой демонстрации или внутреннего прототипа GenAI-проекта.
7️⃣ [FastAPI](https://fastapi.tiangolo.com/)
Высокопроизводительный фреймворк для создания REST и WebSocket API.
Идеален для деплоя ML и LLM моделей в продакшене.
Быстрый, типизированный и легко масштабируемый — стандарт де-факто в AI-бэкендах.
8️⃣ [Faiss](https://github.com/facebookresearch/faiss)
Библиотека от Meta для векторного поиска и кластеризации эмбеддингов.
Молниеносно ищет похожие тексты, изображения или документы в огромных наборах данных.
Необходима в RAG-системах, рекомендациях и семантическом поиске.
9️⃣ [SentenceTransformers](https://www.sbert.net/)
Набор моделей для генерации эмбеддингов предложений, текстов и документов.
Даёт качественные векторные представления для поиска, кластеризации и анализа смысловой близости.
Отлично работает вместе с Faiss и LangChain.
🔟 [MLflow](https://mlflow.org/)
Инструмент для трекинга экспериментов, управления моделями и деплоя ML-проектов.
Позволяет отслеживать метрики, сравнивать версии и хранить модели в централизованном реестре.
Незаменим при построении воспроизводимого и управляемого MLOps-процесса.
⚙️ Эти библиотеки формируют единый стек для создания LLM-агентов, RAG-систем, аналитических ассистентов и AI-сервисов — от эксперимента до продакшена.
This media is not supported in your browser
VIEW IN TELEGRAM
Один One Day Offer вам или целых три — всем? 😉
25 октября Сбер проведёт сразу три экспресс-отбора кандидатов в две команды: GigaData и Kandinsky. Чем вам предстоит заниматься 👇
✔️ Развивать GigaData — внутреннюю платформу Сбера, которая обрабатывает петабайты данных и миллиарды запросов в сутки. One Day Offer для Python‑разработчиков.
✔️ Работать над Kandinsky — обучать большие модели с нуля, собирать и подготавливать данные, исследовать самые эффективные методы дообучения моделей.
— One Day Offer для Machine Learning Engineers с опытом в Deep Learning и компьютерном зрении (CV).
— One Day Offer для Research и Deep Learning Engineers.
Выбирайте то, что больше подходит под ваши навыки, и регистрируйтесь на One Day Offer!
25 октября Сбер проведёт сразу три экспресс-отбора кандидатов в две команды: GigaData и Kandinsky. Чем вам предстоит заниматься 👇
✔️ Развивать GigaData — внутреннюю платформу Сбера, которая обрабатывает петабайты данных и миллиарды запросов в сутки. One Day Offer для Python‑разработчиков.
✔️ Работать над Kandinsky — обучать большие модели с нуля, собирать и подготавливать данные, исследовать самые эффективные методы дообучения моделей.
— One Day Offer для Machine Learning Engineers с опытом в Deep Learning и компьютерном зрении (CV).
— One Day Offer для Research и Deep Learning Engineers.
Выбирайте то, что больше подходит под ваши навыки, и регистрируйтесь на One Day Offer!
Please open Telegram to view this post
VIEW IN TELEGRAM
