SGR Deep Research бенчмарк?
В предыдущем посте я рассказал, как мы выкатили наконец стабильную версию sgr deep research системы, что бы начать прогонять разных SGR/non SGR агентов по бенчам и задачам
Времени конечно у команды open-source на это не очень много, но то, что я успеваю руками делать, то делается через "Курсор"😈
Что я себе навайбокдил
1) Логи, очень и очень подробные логи
2) Интерфейс, что бы эти логи не читать в терминале или в IDE
3) Разные виды промптов (для gpt-4o-mini/qwen)
Нашел топ SealQA бенчмарк как я считаю, для Deep Research.
Почему? Я дал вопросы от туда паре человек, так они искали ответ 30 минут (считаю что бенч, отличный)
Далее нашел топ агента ROMA, который выбивает SOTA под этот бенчмарк, и о ужас, что я увидел в промптах, примерно 15к токенов разных оверфитов и трюков для прохождения бенча, бям
Я же решил таким не заниматся и прогнал на 111 вопросов, и глазками просмотрел(больно) что имеем gpt-4o-mini выбила 0.25 точности (не густо?)
Зайдите в бенч сами, увидите, сколько модели выбивают на нем, а выбивают они 0
SealQA is a new challenge benchmark for evaluating SEarch- Augmented Language models on fact-seeking questions where web search yields conflicting, noisy, or unhelpful results
За сим я откланяюсь дальше творить добро и знания в мире LLM, где все покрыто тайной и мистификацией
Кстати поглядеть кусочек логов и трейса можно тут
Репо: https://github.com/vakovalskii/sgr-deep-research
В предыдущем посте я рассказал, как мы выкатили наконец стабильную версию sgr deep research системы, что бы начать прогонять разных SGR/non SGR агентов по бенчам и задачам
Времени конечно у команды open-source на это не очень много, но то, что я успеваю руками делать, то делается через "Курсор"
Что я себе навайбокдил
1) Логи, очень и очень подробные логи
2) Интерфейс, что бы эти логи не читать в терминале или в IDE
3) Разные виды промптов (для gpt-4o-mini/qwen)
Нашел топ SealQA бенчмарк как я считаю, для Deep Research.
Почему? Я дал вопросы от туда паре человек, так они искали ответ 30 минут (считаю что бенч, отличный)
Далее нашел топ агента ROMA, который выбивает SOTA под этот бенчмарк, и о ужас, что я увидел в промптах, примерно 15к токенов разных оверфитов и трюков для прохождения бенча, бям
Я же решил таким не заниматся и прогнал на 111 вопросов, и глазками просмотрел(больно) что имеем gpt-4o-mini выбила 0.25 точности (не густо?)
Зайдите в бенч сами, увидите, сколько модели выбивают на нем, а выбивают они 0
SealQA is a new challenge benchmark for evaluating SEarch- Augmented Language models on fact-seeking questions where web search yields conflicting, noisy, or unhelpful results
За сим я откланяюсь дальше творить добро и знания в мире LLM, где все покрыто тайной и мистификацией
Кстати поглядеть кусочек логов и трейса можно тут
Репо: https://github.com/vakovalskii/sgr-deep-research
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥27👍8❤7
Сегодня с утра был очень интересный звонок, отдельное спасибо Ринату что смог уделить время
Обсудили ERC2-ERC3
Затронули карьеру и историю как попал в LLM
Так же обсудили судьбу SGR, и что сообщество сделает свое дело!
А когда-то канал я начал вести читая @llm_under_hood, когда там было 4к подписчиков
Обсудили ERC2-ERC3
Затронули карьеру и историю как попал в LLM
Так же обсудили судьбу SGR, и что сообщество сделает свое дело!
А когда-то канал я начал вести читая @llm_under_hood, когда там было 4к подписчиков
1🔥63😁8👏6 3
Forwarded from Филиппов Дмитрий - Агент LLM
Вместе с коллегами по цеху взялись за интересный бенчмарк по deep research - SealQA.
Хотим протестировать разные подходы к реализации ReAct-агентов, но с одним важным условием: использовать только небольшие LLM, в идеале до 30B параметров. Сейчас для тестов взяли
🤔 Почему это важно?
Мы сравниваем два подхода:
1. SGR Deep Research от Neural Kovalski. Это архитектура React NextStep на основе гибридного подхода SO. Уже есть зрелая реализация GitHub
2. Мой подход: классический ReAct-агент с одним-единственным инструментом для поиска в интернете. Моя цель создать базовый уровень, чтобы было с чем сравнивать. Пока сырой вариант GitHub (не рекомендую использовать)
📈 Первые результаты (из 111 вопросов):
* SGR Deep Research: 28 правильных ответов.
* Мой ReAct + FC: 12 правильных ответов.
* Официальный бенчмарк для gpt-4o-mini: 0 правильных ответов.
Вывод: простой ReAct-агент даже на небольшой модели уже показывает результат, значительно превосходящий нулевой уровень.
Далее подробнее о результатах, проблемах и их решениях.⬇️
Хотим протестировать разные подходы к реализации ReAct-агентов, но с одним важным условием: использовать только небольшие LLM, в идеале до 30B параметров. Сейчас для тестов взяли
gpt-4o-mini
.🤔 Почему это важно?
Большие LLM, без сомнения, справляются лучше, но они всё ещё дороги. И хотя со временем все модели дешевеют, вопрос выбора оптимальной LLM под конкретную задачу никуда не денется. Такие исследования как раз и помогают понять реальные возможности небольших моделей.
Мы сравниваем два подхода:
1. SGR Deep Research от Neural Kovalski. Это архитектура React NextStep на основе гибридного подхода SO. Уже есть зрелая реализация GitHub
2. Мой подход: классический ReAct-агент с одним-единственным инструментом для поиска в интернете. Моя цель создать базовый уровень, чтобы было с чем сравнивать. Пока сырой вариант GitHub (не рекомендую использовать)
📈 Первые результаты (из 111 вопросов):
* SGR Deep Research: 28 правильных ответов.
* Мой ReAct + FC: 12 правильных ответов.
* Официальный бенчмарк для gpt-4o-mini: 0 правильных ответов.
Вывод: простой ReAct-агент даже на небольшой модели уже показывает результат, значительно превосходящий нулевой уровень.
Далее подробнее о результатах, проблемах и их решениях.
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍29🔥13❤1🤔1
Forwarded from EdTech, AI и HighLoad | Блог AK из Школково
NotEvilAI/gpt-oss-20b-ru-reasoner - full fine-tuning gpt-oss-20b для поддержки генерации ответов с русским ризонингом с двумя дополнительными режимами
reasoning_effort
- auto и none. Спрашиваем на английском - думает на английском, как оригинальная модель. Спрашиваем на русском - думает по-русски. И не надо никаких
reasoning language: Russian
.Модель тренировалась в 2 стадии - SFT и DPO на основе нашего синтетического датасета русского ризонинга.
Мы выложили bf16 версию на 20b.
Ставьте 👍, если хотите аналогичную модель на 120b.
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
NotEvilAI/gpt-oss-20b-ru-reasoner · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍67🔥30❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Все утро играл в миниапп который сделал Леха, пилим лидерборд и выкатываем в маркетплейс?
А как вы боритесь за продуктивность?
А как вы боритесь за продуктивность?
😁60🤣36👍14🔥10
Forwarded from #безвотэтоговотвсего
Дружочки!
Уже послезавтра на площадке Леманы Тех пройдет 20я оффлайн встреча сообщества #безвотэтоговотвсего на тему “AI-компас для управленца: куда смотреть, чтобы не пропустить главное”.
Для опоздаваших мы на чуточек приоткрыли давно закрытую регистрацию, есть прям вот пара десятков мест - успевайте )
В панельной дискуссии попробуем разобраться с тем как:
- AI уже в бизнесе, но не везде — как понять, где его место в вашей стратегии
- От хайпа к пользе — как отличить модные игрушки от реальных инструментов
- Какие решения руководители должны принимать сами, а какие пора делегировать алгоритмам
- Главные ориентиры на ближайшие 12–18 месяцев, чтобы быть впереди, а не догонять
- и многое другое)
В честь такого дела с нами шуршать будут уважаемые эксперты:
⁃ Валерий Ковальский — Head of AI red_mad_robot
⁃ Алексей Миловидов — CTO Ecom.tech
⁃ Александр Айваз — CDO, Лемана Тех
⁃ Тимур Вайсман — Директор центра интеллектуализация МТС
Встречаемся на прекрасной площадке Леманы Тех в их офисе (проспект Лихачева 15), 25го сентября в 18:30. Регистрируемся по ссылке 👀
Приходите, будет огненно!)
Уже послезавтра на площадке Леманы Тех пройдет 20я оффлайн встреча сообщества #безвотэтоговотвсего на тему “AI-компас для управленца: куда смотреть, чтобы не пропустить главное”.
Для опоздаваших мы на чуточек приоткрыли давно закрытую регистрацию, есть прям вот пара десятков мест - успевайте )
В панельной дискуссии попробуем разобраться с тем как:
- AI уже в бизнесе, но не везде — как понять, где его место в вашей стратегии
- От хайпа к пользе — как отличить модные игрушки от реальных инструментов
- Какие решения руководители должны принимать сами, а какие пора делегировать алгоритмам
- Главные ориентиры на ближайшие 12–18 месяцев, чтобы быть впереди, а не догонять
- и многое другое)
В честь такого дела с нами шуршать будут уважаемые эксперты:
⁃ Валерий Ковальский — Head of AI red_mad_robot
⁃ Алексей Миловидов — CTO Ecom.tech
⁃ Александр Айваз — CDO, Лемана Тех
⁃ Тимур Вайсман — Директор центра интеллектуализация МТС
Встречаемся на прекрасной площадке Леманы Тех в их офисе (проспект Лихачева 15), 25го сентября в 18:30. Регистрируемся по ссылке 👀
Приходите, будет огненно!)
🔥8❤1👏1
Экономная экономика on-premise LLM
Итак, когда я начинал работать с локальным инференсом и закрытым контуром, я как и вы искал API, которые мне покажут, как оно работает и что могут такие модели
Но я очень быстро понял, что я не могу проверить что же происходит на бэкенде у API провайдера и есть только карточка модели, в которой информация не всегда совпадает с реальностью
Такой подход для оценки потребности в клиентских решениях мне не подходил
Что я для себя понял за 2 года закупая разного рода оборудование
Да, есть Китай MTT, но очень не стабильна поддержка определённых версий фреймворков
Да, есть NVIDIA A100/H100, дорого богато
Есть игровой сегмент, надежно ли?
Учитывая мой опыт работы с железом на предыдущих местах работы, я принял решение попробовать закупить модификацию 4090(48), для предоставления новых топовых моделей от open-source, в целях повышения продуктивности сотрудников и прикладных тестов
Что я получил за 2.5 млн рублей?
qwen3-32b
qwen2.5-32b-VL-Instruct
qwen2.5-32b-coder
Важно отметить, что платформы(сами сервера) уже были приобретены ранее и сейчас идет замена RTX A4000 на 4090(48)
Данный набор моделей позволил обеспечить часть сотрудников и RND отдел постоянно доступными мощностями для экспериментов и базовых запросов
Сейчас прошел год с момента покупки первой такой карты и за это время в ней были заменены термаха и убрана пыль
Брать ли мой опыт на вооружение решать вам, я лишь транслирую наблюдения и примерную стоимость такого решения
Про скорость генерации на такой карточке можно найти по каналу
Итак, когда я начинал работать с локальным инференсом и закрытым контуром, я как и вы искал API, которые мне покажут, как оно работает и что могут такие модели
Но я очень быстро понял, что я не могу проверить что же происходит на бэкенде у API провайдера и есть только карточка модели, в которой информация не всегда совпадает с реальностью
Такой подход для оценки потребности в клиентских решениях мне не подходил
Что я для себя понял за 2 года закупая разного рода оборудование
Да, есть Китай MTT, но очень не стабильна поддержка определённых версий фреймворков
Да, есть NVIDIA A100/H100, дорого богато
Есть игровой сегмент, надежно ли?
Учитывая мой опыт работы с железом на предыдущих местах работы, я принял решение попробовать закупить модификацию 4090(48), для предоставления новых топовых моделей от open-source, в целях повышения продуктивности сотрудников и прикладных тестов
Что я получил за 2.5 млн рублей?
qwen3-32b
qwen2.5-32b-VL-Instruct
qwen2.5-32b-coder
Важно отметить, что платформы(сами сервера) уже были приобретены ранее и сейчас идет замена RTX A4000 на 4090(48)
Данный набор моделей позволил обеспечить часть сотрудников и RND отдел постоянно доступными мощностями для экспериментов и базовых запросов
Сейчас прошел год с момента покупки первой такой карты и за это время в ней были заменены термаха и убрана пыль
Брать ли мой опыт на вооружение решать вам, я лишь транслирую наблюдения и примерную стоимость такого решения
Про скорость генерации на такой карточке можно найти по каналу
4090(48)
2👍27🔥8👏5💯3
Forwarded from #безвотэтоговотвсего
Друзья, уже через пару часов мы начинаем, а для тех кто будет онлайн вот ссылки на трансляцию (старт в 19-00 мск):
VK Video
Youtube
До встречи )
P.S.:В комментариях добавили картинки с навигацией как попасть в офис к Лемана Тех
VK Video
Youtube
До встречи )
P.S.:В комментариях добавили картинки с навигацией как попасть в офис к Лемана Тех
1🔥15❤3👍1
Forwarded from Ethical Machines
Нужны ли стандарты оценки качества LLM-приложений и моделей?!
Сегодня появляется все больше продуктов, внутри которых используются agentic-сценарии, а RAG есть уже почти у всех. И чем сложнее становится пайплайн, тем сложнее (простите за тавтологию) и важнее контролировать его.
Когда у вас простой пайплайн, можно настроить оценку его качества и безопасности, выполнив список довольно понятных шагов:
🟣 определить критерии оценки и выбрать метрики
🟣 покрыть пайплайн интеграционными (а где-то юнит) тестами
🟣 собрать небольшой бенч и гонять его (если тестов недостаточно)
🟣 и даже настроить проверку детерминированности пайплайна
Если же вам надо оценивать пайплайн, состоящий из множества разных компонент, придется строить что-то типа Сокола Тысячетелия из Lego🦧
И тут хочется поделиться статьей Apollo Research We Need A ‘Science of Evals’, которая содержит интересные размешления об оценке качества и безопасности (и хоть она 2024 года, все еще не потеряла своей актуальности). Ее идеи можно отразить в следующих тезисах:
🟣 сейчас оценка качества больше похожа на искусство, чем на науку. Потому что результаты оценки качества сильно зависят от множества мелких деталей (например, форматирования промптов), порой вызывая колебания точности до 76 пп. Это приводит к тому, что используемые продукты становятся менее безопасными
🟣 разделяют 3 этапа зрелости Eval-ов. Начальный (Nascent) — исследовательский, где отсутствуют стандарты. Промежуточный (Maturation) — появляются соглашения по лучшим практикам, но пока нет единой регуляции. Зрелый (Mature) — действуют формальные стандарты, статистическая обоснованность, результаты интерпретируемы. Мы сейчас в Т-Банке постепенно закрепляемся на этапе 2 (Maturation) и это совсем непросто
🟣 и чтобы сделать свои Eval-ы Mature, вот что потребуется: описать множество четких и интерпретируемых метрик, покрыть тестами как можно больше частей пайплайна, обеспечить надежность и воспроизводимость и не забыть про статистическую значимость
Выглядит не очень тривиально, да? Потому что и так есть вопросы к бенчмаркам и оцениваемым моделям, а тут надо оценивать массивный пайплайн.
И вот буквально неделю назад вышел новый стандарт оценки качества моделей STREAM (A Standard for Transparently
Reporting Evaluations in AI Model Reports). Он предлагает формат для стандартизации тестирований моделей и представления результатов. И хоть в большей степени ориентирован на ChemBio бенчмарки, авторы пишут, что его получится использовать и для бенчмарков из других отраслей.
Скоро расскажу вам о нем подробнее, а пока дочитываю статью
Сегодня появляется все больше продуктов, внутри которых используются agentic-сценарии, а RAG есть уже почти у всех. И чем сложнее становится пайплайн, тем сложнее (простите за тавтологию) и важнее контролировать его.
Когда у вас простой пайплайн, можно настроить оценку его качества и безопасности, выполнив список довольно понятных шагов:
Если же вам надо оценивать пайплайн, состоящий из множества разных компонент, придется строить что-то типа Сокола Тысячетелия из Lego
И тут хочется поделиться статьей Apollo Research We Need A ‘Science of Evals’, которая содержит интересные размешления об оценке качества и безопасности (и хоть она 2024 года, все еще не потеряла своей актуальности). Ее идеи можно отразить в следующих тезисах:
Выглядит не очень тривиально, да? Потому что и так есть вопросы к бенчмаркам и оцениваемым моделям, а тут надо оценивать массивный пайплайн.
И вот буквально неделю назад вышел новый стандарт оценки качества моделей STREAM (A Standard for Transparently
Reporting Evaluations in AI Model Reports). Он предлагает формат для стандартизации тестирований моделей и представления результатов. И хоть в большей степени ориентирован на ChemBio бенчмарки, авторы пишут, что его получится использовать и для бенчмарков из других отраслей.
Скоро расскажу вам о нем подробнее, а пока дочитываю статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥5💯1
Circuit Tracing от Anthropic: как мы в R&D by red_mad_robot решили заглянуть внутрь LLM при использовании в RAG-пайплайнах
Ищем галлюцинации под микроскопом!
29 мая Anthropic выложили в open-source свои инструменты Circuit Tracing методологию механической интерпретируемости, которую мы в R&D подразделении red_mad_robot первыми применили для решения практической задачи детекции галлюцинаций в RAG-системах!
В начале 2025 года, когда я возглавил новое R&D направление, я поставил амбициозную задачу: не просто оценивать качество ответов LLM "снаружи", а заглянуть внутрь процесса генерации и понять, откуда берутся галлюцинации.
Почему именно RAG-пайплайны и Circuit Tracing?
Проблема была очевидна: RAG-системы часто смешивают информацию из контекста с "внутренними знаниями" модели, создавая правдоподобные, но неточные ответы
Существующие методы детекции работают post-factum, а нам нужно было понять механизм принятия решений в реальном времени
Circuit Tracing от Anthropic давал именно это возможность построить атрибуционные графы и проследить, как токены входного контекста влияют на финальный ответ модели
Конкретные результаты нашего исследования
85% точность детекции галлюцинаций вот что мы получили на тестовом датасете с нашей реализацией на базе Qwen2.5-7B.
Как отмечает наш исследователь Ирина Кошкина:
"Основная идея — измерение доли влияния от токенов входа, соответствующих контексту, среди всего влияния от всех активных токенов."
Наша метрика Groundedness включает:
- Контекстную долю влияния (Gctx)
- Replacement Score — качество признаков vs ошибок
- Completeness Score — полнота объяснения через атрибуционный граф
Технические вызовы и решения
Cross-Layer Transcoders (CLT) стали ключевым компонентом системы
Вместо анализа отдельных слоев мы научились отслеживать влияние признаков между несколькими архитектурными уровнями трансформера
Основные проблемы, которые пришлось решать:
1. Вычислительная сложность процедура анализа на порядки медленнее генерации
2. Зависимость от качества обученного транскодера
3. Токен-уровневое сопоставление, приводящее к ложным срабатываниям
Но результат того стоил мы получили рабочий инструмент для анализа внутренних процессов модели во время генерации ответов в RAG-системах
Отдельное спасибо отделу маркетинга red_mad_robot за подготовку детальной статьи оформления и валидации на Хабре
Отдельное спасибо Саше (@dealerAI) за экспертную валидацию нашей гипотезы на старте проекта
Когда предлагаешь исследовать "атрибуционные графы для детекции галлюцинаций в RAG", поддержка опытных друзей по цеху критически важна для получения ресурсов и мотивации команды
Полный технический разбор с кодом, формулами и результатами экспериментов доступен в нашей статье на Хабре закидываем в закладки и ставим +
Ищем галлюцинации под микроскопом!
29 мая Anthropic выложили в open-source свои инструменты Circuit Tracing методологию механической интерпретируемости, которую мы в R&D подразделении red_mad_robot первыми применили для решения практической задачи детекции галлюцинаций в RAG-системах!
В начале 2025 года, когда я возглавил новое R&D направление, я поставил амбициозную задачу: не просто оценивать качество ответов LLM "снаружи", а заглянуть внутрь процесса генерации и понять, откуда берутся галлюцинации.
Почему именно RAG-пайплайны и Circuit Tracing?
Проблема была очевидна: RAG-системы часто смешивают информацию из контекста с "внутренними знаниями" модели, создавая правдоподобные, но неточные ответы
Существующие методы детекции работают post-factum, а нам нужно было понять механизм принятия решений в реальном времени
Circuit Tracing от Anthropic давал именно это возможность построить атрибуционные графы и проследить, как токены входного контекста влияют на финальный ответ модели
Конкретные результаты нашего исследования
85% точность детекции галлюцинаций вот что мы получили на тестовом датасете с нашей реализацией на базе Qwen2.5-7B.
Как отмечает наш исследователь Ирина Кошкина:
"Основная идея — измерение доли влияния от токенов входа, соответствующих контексту, среди всего влияния от всех активных токенов."
Наша метрика Groundedness включает:
- Контекстную долю влияния (Gctx)
- Replacement Score — качество признаков vs ошибок
- Completeness Score — полнота объяснения через атрибуционный граф
Технические вызовы и решения
Cross-Layer Transcoders (CLT) стали ключевым компонентом системы
Вместо анализа отдельных слоев мы научились отслеживать влияние признаков между несколькими архитектурными уровнями трансформера
Основные проблемы, которые пришлось решать:
1. Вычислительная сложность процедура анализа на порядки медленнее генерации
2. Зависимость от качества обученного транскодера
3. Токен-уровневое сопоставление, приводящее к ложным срабатываниям
Но результат того стоил мы получили рабочий инструмент для анализа внутренних процессов модели во время генерации ответов в RAG-системах
Отдельное спасибо отделу маркетинга red_mad_robot за подготовку детальной статьи оформления и валидации на Хабре
Отдельное спасибо Саше (@dealerAI) за экспертную валидацию нашей гипотезы на старте проекта
Когда предлагаешь исследовать "атрибуционные графы для детекции галлюцинаций в RAG", поддержка опытных друзей по цеху критически важна для получения ресурсов и мотивации команды
Полный технический разбор с кодом, формулами и результатами экспериментов доступен в нашей статье на Хабре закидываем в закладки и ставим +
Хабр
Circuit Tracing: как заглянуть в галлюцинации модели и найти там смысл
Всем привет! Меня зовут Ирина, я NLP-инженер в red_mad_robot, занимаюсь научными исследованиями интерпретируемости LLM и анализом механизмов внутренних вычислений моделей, чтобы применять полученные...
🔥44❤16👍13🤔1
Про AI-комьюнити: где ваш код, "эксперты"?
О наболевшем!)
Что мы реально выпустили за полгода
Без Артема ничего бы не получилось https://www.tgoop.com/virrius_tech ты крут!
SGR Deep Research 494 звезд и 87 форков, MIT лицензия
WhisperX с фронтендом 16,437 строк кода, 30 звезд и 8 форков
speechcoreai.com
Продуктовое решение на базе прототипа 800 пользователей сделали 12к транскрибов бесплатно
SearXNG Tavily Adapter бесплатная замена Tavily, 90 звезд и 10 форков
RAG-бот 2к человек задали вопросы, 8к ответов выдано
Итого: ~614, 105форков, 800 активных пользователей, 12к транскрибов, 2к пользователей бота это я еще не беру 2-3 бота в которых я перестал считать метрики изредка слежу
Что бесит лично меня?
Выпускаю SGR
Диванный критик такой:"Манипуляция результатами" "XML методика лучше"
Публикую Circuit Tracing "Думал об этом год назад" "Хайпитесь на Anthropic"
Выпускаем WhisperX фронтенд "Тривиально" "За вечер сделаю"
Факты жестче слов: 87 форков SGR, 85% accuracy у Circuit Tracing (первые в мире!), 800 человек реально пользуются транскрибатором каждый
Мир аббревиатур vs реальный код
Хейтеры оперируют: RAG LLM SGR MCP CoT RLHF, SHMEX
"Я знаю все аббревиатуры значит я эксперт"
Делают презентации со схемами, скрины из IDE с блюром, ведут в личку за платной консультацией
Говорят: "Anthropic туфта OpenAI туфта всё туфта"
Результат: 0⭐️ на GitHub, 0 строк кода, 0 реальных пользователей
Те кто реально пушат vs те кто критикует
Честно говоря, заметил и такой паттерн все хейтеры которые реально что-то делают, пришли и начали пилить SGR вместе с нами!
А те кто сидит в закрытых тусовках (ой их забанили везде) переходят на личности, копипастят ответы из LLM, не могут спорить по существу
У них нет кода есть только апостол в виде LLM с которым они советуются =)
Выбор который делаю каждый раз я
Вариант А: Потратить 2-3 часа на споры в комментах, пойти на поводу, отвечать, думать, крутить результат ноль потраченные нервы
Вариант Б: Те же 2-3 часа потратить на код получить +1⭐️ и +10 пользователей
Всегда выбираю Б
Я лично все больше чувствую что хейт реален борьба с json стетхами реальна
Но код реальнее всего!
Он реальнее любой простыни в корнетах или поста хейта
Вот зачем я занимаюсь open-source!
Мой критерий простой
Цитаты великих из двора
Для тех кто делает и получает хейт и это тоже показатель
Пушите код спите больше
Ваши результаты говорят громче любого хейта
Репо живут здесь:
https://github.com/vamplabAI/sgr-deep-research
https://github.com/vakovalskii/whisperx-fronted-docker-compose
https://github.com/vakovalskii/searxng-docker-tavily-adapter
Продукты работают:
https://speechcoreai.com/ (800 пользователей 12к транскрибов)
@neuraldeepbot (2к пользователей 8к ответов)
Вы на какой стороне вы где коммит звезды пользователи 👍 или из тех кто "я бы лучше" но не сделал?
Объявляю сбор интересный проектов под этим постом ваших, личных GitHub проектов
Обсудим
Изучим
Дадим советов
Соберем подборку выпущу пост!
О наболевшем!)
Что мы реально выпустили за полгода
Без Артема ничего бы не получилось https://www.tgoop.com/virrius_tech ты крут!
SGR Deep Research 494 звезд и 87 форков, MIT лицензия
WhisperX с фронтендом 16,437 строк кода, 30 звезд и 8 форков
speechcoreai.com
Продуктовое решение на базе прототипа 800 пользователей сделали 12к транскрибов бесплатно
SearXNG Tavily Adapter бесплатная замена Tavily, 90 звезд и 10 форков
RAG-бот 2к человек задали вопросы, 8к ответов выдано
Итого: ~614, 105форков, 800 активных пользователей, 12к транскрибов, 2к пользователей бота это я еще не беру 2-3 бота в которых я перестал считать метрики изредка слежу
Что бесит лично меня?
Выпускаю SGR
Диванный критик такой:"Манипуляция результатами" "XML методика лучше"
Публикую Circuit Tracing "Думал об этом год назад" "Хайпитесь на Anthropic"
Выпускаем WhisperX фронтенд "Тривиально" "За вечер сделаю"
Факты жестче слов: 87 форков SGR, 85% accuracy у Circuit Tracing (первые в мире!), 800 человек реально пользуются транскрибатором каждый
Мир аббревиатур vs реальный код
Хейтеры оперируют: RAG LLM SGR MCP CoT RLHF, SHMEX
"Я знаю все аббревиатуры значит я эксперт"
Делают презентации со схемами, скрины из IDE с блюром, ведут в личку за платной консультацией
Говорят: "Anthropic туфта OpenAI туфта всё туфта"
Результат: 0⭐️ на GitHub, 0 строк кода, 0 реальных пользователей
Те кто реально пушат vs те кто критикует
Честно говоря, заметил и такой паттерн все хейтеры которые реально что-то делают, пришли и начали пилить SGR вместе с нами!
А те кто сидит в закрытых тусовках (ой их забанили везде) переходят на личности, копипастят ответы из LLM, не могут спорить по существу
У них нет кода есть только апостол в виде LLM с которым они советуются =)
Выбор который делаю каждый раз я
Вариант А: Потратить 2-3 часа на споры в комментах, пойти на поводу, отвечать, думать, крутить результат ноль потраченные нервы
Вариант Б: Те же 2-3 часа потратить на код получить +1⭐️ и +10 пользователей
Всегда выбираю Б
Я лично все больше чувствую что хейт реален борьба с json стетхами реальна
Но код реальнее всего!
Он реальнее любой простыни в корнетах или поста хейта
Вот зачем я занимаюсь open-source!
Мой критерий простой
Цитаты великих из двора
Говорить легко делать сложно
Для тех кто делает и получает хейт и это тоже показатель
Пушите код спите больше
Ваши результаты говорят громче любого хейта
Репо живут здесь:
https://github.com/vamplabAI/sgr-deep-research
https://github.com/vakovalskii/whisperx-fronted-docker-compose
https://github.com/vakovalskii/searxng-docker-tavily-adapter
Продукты работают:
https://speechcoreai.com/ (800 пользователей 12к транскрибов)
@neuraldeepbot (2к пользователей 8к ответов)
Вы на какой стороне вы где коммит звезды пользователи 👍 или из тех кто "я бы лучше" но не сделал?
Объявляю сбор интересный проектов под этим постом ваших, личных GitHub проектов
Обсудим
Изучим
Дадим советов
Соберем подборку выпущу пост!
11🔥56👍19 7❤5