NEURALDEEP Telegram 1514
Media is too big
VIEW IN TELEGRAM
LLM Data Extraction markup and analysis: анализ канала Data Secrets через локальный qwen2.5-32b-instruct+SO


Самые полезный паттерн для использования LLM на мой взгляд

Решил я помучать свои карточки на 96GB VRAM и вернуться к одному из решений, которое обозревал вот тут на стриме
А именно собрать еще раз все сообщения из канала Data Secrets и получить информацию о структуре контента но уже взять весь свой опыт работы с Structured Output и промптами векторизацией и вот что вышло

Модель: Qwen2.5-32B-Instruct 16FP(T-pro-it-1.0) на 2x RTX 4090 (48GB)

Объем данных: 3,240 сообщений из Telegram канала после очистки и группировки медиа
Задача: Классификация и извлечение метаданных

Что вышло статистически

Категории контента:
- Industry News (33%) - новости индустрии лидируют
- Tools & Frameworks (17%) - обзоры инструментов
- Research Papers (8%) - научные публикации
- Community Discussion (8%) - обсуждения

Сложность материала:
- Intermediate (60%) - основная аудитория
- Beginner (23%) - начальный уровень
- Advanced (17%) - продвинутый контент

🏷 Топ тегов: OpenAI, AI, LLM, neural_networks, machine_learning


После разметки я векторизировал все сообщения и получил вот такую красоту в qdrant по распределению!

На видео по сути вся жизнь канала Data Secret классифицированная через LLM векторизированная и представлена в визуалцизации по методу UMAP

кстати за вектора решил не экспериментировать и взял
text-embedding-3-large

На визуализации отлично видно:
- Кластеризацию по типам контента (цветовые группы)
- Плотность в области ML/AI тематики
- Четкое разделение между техническими и новостными материалами


Дальше выводы от той же LLM

1. News-контент доминирует - канал активно освещает новости
2. Инструменты и фреймворки - второй по популярности тип контента
3. Intermediate-уровень - золотая середина для аудитории
4. Векторное пространство показывает логичную кластеризацию тем

Технические детали:
- Время обработки: ~2 часа на полный пайплайн
- Точность классификации: проверил вручную на sample'е - 90%+
- Embedding модель: использовал для векторизации после разметки

На мой взгляд Qwen2.5-32B-Instruct 16FP(T-pro-it-1.0) показал отличные результаты в структурированной классификации.
Особенно порадовала стабильность JSON-вывода и понимание контекста на русском языке

Планирую на ночь поставить временной анализ трендов и sentiment analysis для полной картины эволюции канала

Вишенкой через курсор по заготовкам накидал сайт (чистый векторный поиск + граф)

https://rag-channel.neuraldeep.tech/

html + скрины в комментариях



tgoop.com/neuraldeep/1514
Create:
Last Update:

LLM Data Extraction markup and analysis: анализ канала Data Secrets через локальный qwen2.5-32b-instruct+SO


Самые полезный паттерн для использования LLM на мой взгляд

Решил я помучать свои карточки на 96GB VRAM и вернуться к одному из решений, которое обозревал вот тут на стриме
А именно собрать еще раз все сообщения из канала Data Secrets и получить информацию о структуре контента но уже взять весь свой опыт работы с Structured Output и промптами векторизацией и вот что вышло

Модель: Qwen2.5-32B-Instruct 16FP(T-pro-it-1.0) на 2x RTX 4090 (48GB)

Объем данных: 3,240 сообщений из Telegram канала после очистки и группировки медиа
Задача: Классификация и извлечение метаданных

Что вышло статистически

Категории контента:
- Industry News (33%) - новости индустрии лидируют
- Tools & Frameworks (17%) - обзоры инструментов
- Research Papers (8%) - научные публикации
- Community Discussion (8%) - обсуждения

Сложность материала:
- Intermediate (60%) - основная аудитория
- Beginner (23%) - начальный уровень
- Advanced (17%) - продвинутый контент

🏷 Топ тегов: OpenAI, AI, LLM, neural_networks, machine_learning


После разметки я векторизировал все сообщения и получил вот такую красоту в qdrant по распределению!

На видео по сути вся жизнь канала Data Secret классифицированная через LLM векторизированная и представлена в визуалцизации по методу UMAP

кстати за вектора решил не экспериментировать и взял
text-embedding-3-large

На визуализации отлично видно:
- Кластеризацию по типам контента (цветовые группы)
- Плотность в области ML/AI тематики
- Четкое разделение между техническими и новостными материалами


Дальше выводы от той же LLM

1. News-контент доминирует - канал активно освещает новости
2. Инструменты и фреймворки - второй по популярности тип контента
3. Intermediate-уровень - золотая середина для аудитории
4. Векторное пространство показывает логичную кластеризацию тем

Технические детали:
- Время обработки: ~2 часа на полный пайплайн
- Точность классификации: проверил вручную на sample'е - 90%+
- Embedding модель: использовал для векторизации после разметки

На мой взгляд Qwen2.5-32B-Instruct 16FP(T-pro-it-1.0) показал отличные результаты в структурированной классификации.
Особенно порадовала стабильность JSON-вывода и понимание контекста на русском языке

Планирую на ночь поставить временной анализ трендов и sentiment analysis для полной картины эволюции канала

Вишенкой через курсор по заготовкам накидал сайт (чистый векторный поиск + граф)

https://rag-channel.neuraldeep.tech/

html + скрины в комментариях

BY Neural Deep


Share with your friend now:
tgoop.com/neuraldeep/1514

View MORE
Open in Telegram


Telegram News

Date: |

A few years ago, you had to use a special bot to run a poll on Telegram. Now you can easily do that yourself in two clicks. Hit the Menu icon and select “Create Poll.” Write your question and add up to 10 options. Running polls is a powerful strategy for getting feedback from your audience. If you’re considering the possibility of modifying your channel in any way, be sure to ask your subscribers’ opinions first. A new window will come up. Enter your channel name and bio. (See the character limits above.) Click “Create.” Clear With the sharp downturn in the crypto market, yelling has become a coping mechanism for many crypto traders. This screaming therapy became popular after the surge of Goblintown Ethereum NFTs at the end of May or early June. Here, holders made incoherent groaning sounds in late-night Twitter spaces. They also role-played as urine-loving Goblin creatures. In 2018, Telegram’s audience reached 200 million people, with 500,000 new users joining the messenger every day. It was launched for iOS on 14 August 2013 and Android on 20 October 2013.
from us


Telegram Neural Deep
FROM American