Telegram Web
Forwarded from Machinelearning
🔥 Сенсей Карпаты выложил новый репозиторий - полный пайплайн обучения LLM с нуля

В проекте есть всё, чтобы собрать свой ChatGPT-клон за $100 и 4 часа:

> • токенизатор
> • pretraining
> • SFT (supervised fine-tuning)
> • RL (reinforcement learning)
> • оценка модели (eval)

Всего 8 000 строк кода, без лишних зависимостей - идеальный учебный пример, чтобы понять, как реально устроено обучение больших языковых моделей.

💡 Это проект из его нового курса Карпаты LLM101n, и отличная возможность прокачать свои ML-навыки на практике.

Можно арендовать GPU в облаке и запустить всё самому - код уже готов к запуску.

Если запустить обучение модели nanochat на облачном GPU-сервере (например, 8×H100), то примерно через 12 часов обучения (стоимость ~300–400 $) модель достигает уровня GPT-2 по качеству на тестовых наборах (CORE-score).

А если тренировать около 40 часов (затраты ~1000 $), решает простые задачи по математике и коду, набирая:
- 40+ на MMLU
- 70+ на ARC-Easy
- 20+ на GSM8K

🧠 Это бесплатная практика топ уровня от мастера, которую не стоит упускать.

🟠GitHub:https://github.com/karpathy/nanochat
🟠Технические детали: https://github.com/karpathy/nanochat/discussions/1

@ai_machinelearning_big_data


#LLM #nanochat #MachineLearning #DeepLearning #AI #GPT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Оксфордские учёные подтвердили худшие опасения: Интернет умирает

Исследователи из Оксфорда выяснили: интернет больше не тот, что раньше:
- В 2020 году ИИ создавал всего 5% контента,
- В 2025 - уже 48%, а к следующему году прогнозируют более 90%.

ИИ-текст стоит очень дешево, человеческий труд - от $10 до $100 за статью.

Рынок выбрал скорость и дешевизну.

Но настоящая проблема -**«model collapse»**:
когда нейросети обучаются на тексте, созданном другими нейросетями.

Это как ксерить ксерокопию - каждое поколение теряет детали и оригинальные идеи.

Мир превращается в поток однообразного, усреднённого контента.

ИИ сегодня создаёт “цифровую кашу”, а завтра будет учиться уже на ней. И каждый новый виток делает интернет чуть глупее.

#AI #Oxford #ModelCollapse #Internet #AIGeneratedContent #LLM #AIEthics #DigitalDecay
🔥 10 Python-библиотек, которые должен знать каждый разработчик LLM и GenAI

1️⃣ [LangChain](https://www.langchain.com/)
Фреймворк для создания LLM-приложений, агентов и инструментов.
Позволяет соединять языковые модели с базами данных, API и внешними сервисами.
Идеален для построения RAG-систем, чат-ботов и аналитических ассистентов.

2️⃣ [LangGraph](https://github.com/langchain-ai/langgraph)
Надстройка над LangChain для создания сложных многоагентных систем.
Поддерживает условную логику, ветвления и сохранение состояния.
Используется для разработки автономных агентов, которые сотрудничают и планируют задачи.

3️⃣ [Docling](https://github.com/DS4SD/docling)
Инструмент для анализа и извлечения информации из документов.
Объединяет LLM, LangChain и RAG-подход для “умного” чтения PDF, таблиц и сканов.
Подходит для систем документооборота, юридических и научных данных.

4️⃣ [OpenAI Python SDK](https://github.com/openai/openai-python)
Официальная библиотека для работы с моделями GPT-4o, DALL-E, Whisper и другими API OpenAI.
Позволяет вызывать модели, генерировать текст, изображения и транскрибировать аудио в несколько строк кода.
Главный инструмент для интеграции мощных моделей в свои Python-приложения.

5️⃣ [Markitdown (Microsoft)](https://github.com/microsoft/markitdown)
Библиотека от Microsoft для создания интерфейсов LLM-приложений с использованием Markdown.
Позволяет описывать UI и рабочие процессы прямо в тексте — быстро, удобно и без JavaScript.
Полезна для автоматизации LLM-воркфлоу и простых чат-интерфейсов.

6️⃣ [Streamlit](https://streamlit.io/)
Фреймворк для построения интерактивных AI-дашбордов и веб-приложений.
Позволяет визуализировать результаты модели, строить формы ввода, графики и интерактивные элементы.
Отличный выбор для быстрой демонстрации или внутреннего прототипа GenAI-проекта.

7️⃣ [FastAPI](https://fastapi.tiangolo.com/)
Высокопроизводительный фреймворк для создания REST и WebSocket API.
Идеален для деплоя ML и LLM моделей в продакшене.
Быстрый, типизированный и легко масштабируемый — стандарт де-факто в AI-бэкендах.

8️⃣ [Faiss](https://github.com/facebookresearch/faiss)
Библиотека от Meta для векторного поиска и кластеризации эмбеддингов.
Молниеносно ищет похожие тексты, изображения или документы в огромных наборах данных.
Необходима в RAG-системах, рекомендациях и семантическом поиске.

9️⃣ [SentenceTransformers](https://www.sbert.net/)
Набор моделей для генерации эмбеддингов предложений, текстов и документов.
Даёт качественные векторные представления для поиска, кластеризации и анализа смысловой близости.
Отлично работает вместе с Faiss и LangChain.

🔟 [MLflow](https://mlflow.org/)
Инструмент для трекинга экспериментов, управления моделями и деплоя ML-проектов.
Позволяет отслеживать метрики, сравнивать версии и хранить модели в централизованном реестре.
Незаменим при построении воспроизводимого и управляемого MLOps-процесса.

⚙️ Эти библиотеки формируют единый стек для создания LLM-агентов, RAG-систем, аналитических ассистентов и AI-сервисов — от эксперимента до продакшена.
This media is not supported in your browser
VIEW IN TELEGRAM
Один One Day Offer вам или целых три — всем? 😉

25 октября Сбер проведёт сразу три экспресс-отбора кандидатов в две команды: GigaData и Kandinsky. Чем вам предстоит заниматься 👇

✔️ Развивать GigaData — внутреннюю платформу Сбера, которая обрабатывает петабайты данных и миллиарды запросов в сутки. One Day Offer для Python‑разработчиков.

✔️ Работать над Kandinsky — обучать большие модели с нуля, собирать и подготавливать данные, исследовать самые эффективные методы дообучения моделей.

One Day Offer для Machine Learning Engineers с опытом в Deep Learning и компьютерном зрении (CV).
One Day Offer для Research и Deep Learning Engineers.

Выбирайте то, что больше подходит под ваши навыки, и регистрируйтесь на One Day Offer!
🔥 llm-scraper — библиотека на языке TypeScript, предназначенная для извлечения структурированных данных с веб-страниц с использованием LLM!

🌟 Библиотека поддерживает различные провайдеры LLM, включая локальные модели (Ollama, GGUF), OpenAI и Vercel AI SDK. Для определения схем данных используется библиотека Zod, обеспечивая полную типизацию в TypeScript. В основе работы llm-scraper лежит фреймворк Playwright, который управляет взаимодействием с веб-страницами.

🔐 Лицензия: MIT

🖥 Github
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/10/25 04:40:37
Back to Top
HTML Embed Code: