tgoop.com/neuraldeep/1514
Last Update:
LLM Data Extraction markup and analysis: анализ канала Data Secrets через локальный qwen2.5-32b-instruct+SO
Самые полезный паттерн для использования LLM на мой взгляд
Решил я помучать свои карточки на 96GB VRAM и вернуться к одному из решений, которое обозревал вот тут на стриме
А именно собрать еще раз все сообщения из канала Data Secrets и получить информацию о структуре контента но уже взять весь свой опыт работы с Structured Output и промптами векторизацией и вот что вышло
Модель: Qwen2.5-32B-Instruct 16FP(T-pro-it-1.0) на 2x RTX 4090 (48GB)
Объем данных: 3,240 сообщений из Telegram канала после очистки и группировки медиа
Задача: Классификация и извлечение метаданных
Что вышло статистически
Категории контента:
- Industry News (33%) - новости индустрии лидируют
- Tools & Frameworks (17%) - обзоры инструментов
- Research Papers (8%) - научные публикации
- Community Discussion (8%) - обсуждения
Сложность материала:
- Intermediate (60%) - основная аудитория
- Beginner (23%) - начальный уровень
- Advanced (17%) - продвинутый контент
🏷 Топ тегов: OpenAI, AI, LLM, neural_networks, machine_learning
После разметки я векторизировал все сообщения и получил вот такую красоту в qdrant по распределению!
На видео по сути вся жизнь канала Data Secret классифицированная через LLM векторизированная и представлена в визуалцизации по методу UMAP
кстати за вектора решил не экспериментировать и взял
text-embedding-3-large
На визуализации отлично видно:
- Кластеризацию по типам контента (цветовые группы)
- Плотность в области ML/AI тематики
- Четкое разделение между техническими и новостными материалами
Дальше выводы от той же LLM
1. News-контент доминирует - канал активно освещает новости
2. Инструменты и фреймворки - второй по популярности тип контента
3. Intermediate-уровень - золотая середина для аудитории
4. Векторное пространство показывает логичную кластеризацию тем
Технические детали:
- Время обработки: ~2 часа на полный пайплайн
- Точность классификации: проверил вручную на sample'е - 90%+
- Embedding модель: использовал для векторизации после разметки
На мой взгляд Qwen2.5-32B-Instruct 16FP(T-pro-it-1.0) показал отличные результаты в структурированной классификации.
Особенно порадовала стабильность JSON-вывода и понимание контекста на русском языке
Планирую на ночь поставить временной анализ трендов и sentiment analysis для полной картины эволюции канала
Вишенкой через курсор по заготовкам накидал сайт (чистый векторный поиск + граф)
https://rag-channel.neuraldeep.tech/
html + скрины в комментариях
BY Neural Deep
Share with your friend now:
tgoop.com/neuraldeep/1514