Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
- Telegram Web
Telegram Web
Почти год назад я ездил на Шри-Ланку 🇱🇰, удалось взять тур по путёвке. Спорные ожидания из-за еды, но понравилось:

Океан. Классные волны и, наверное, самое доступное место для сёрфинга - личный инструктур стоит 1000 рублей в час. Правда, я отбил себе ребро, которое заживало месяц, хах.
Чай. Полюбил цейлонский чай - совсем не горчит.
Еда. Местная кухня действительно спорная (вайбы Индии), но я попробовал акулу, которая на вкус как обычная белая рыба. Зато фрукты очень неплохие, особенно дуриан - ням <3.
Сафари по реке - моё почтение. Там были и крокодилы на чиле. Минут пять я вглядывался в хамелеона, сидевшего в кустах в метре от меня (вокруг всё зелёное, и он тоже зелёный). Лангуры, хоть и дикие, оказались очень дружелюбными и почти ручными, в отличие от многих других азиатских обезьян. Запустили черепашек в океан
13👍5💘3👌1
The State of LLM Reasoning Model Inference

Себастьян Рашка, известный по своей книге о классическом ML, теперь пишет и про LLM. Сейчас (еще в марте) выпустил обзор методов улучшения инференса LLM за счет дополнительного компьюта. Идея - заставить модель дольше размышлять для получения более качественного ответа.

Возможно чем слабее базовая модель, тем заметнее эффект от этих техник. Для сильных LLM прирост качества оказывается ниже (см. картинку). Но это надо не просто дольше думать, но и правильно

Что кажется можно легко проверить и использовать без архитектурного изменения модели:

Wait Injection. Перед генерацией финального ответа просим LLM вывести слово Wait. Это дает модели паузу на переосмысление контекста. На математических задачах точность может вырасти до +50%. Использовать можно добавив соответствующую инструкцию в промпт или сделать повторный запрос с предыдущим контекстом и мыслями модели, добавив Wait

Переход от Chain-of-Thought (CoT) к Chain of Draft (CoD). Базированный CoT часто генерирует избыточные рассуждения, сжигая токены. Новый подход (CoD) предлагает модели размышлять в формате коротких тезисов (можно достичь за счет промтинга). Результат: лучше метрики и дешевле запросы
👍11🔥5🤯3🤔1
ШАД - достойные материалы по llm курсу 🤝
ps будет integer overflow
😁18😈3🤪1🗿1
TabM: Advancing Tabular Deep Learning with Parameter-Efficient Ensembling

Новая Sota (ли ?) от Яндекса в табличных задачах, TabM, — это MLP-архитектура, которая имитирует ансамбль из k (в статье 32) сетей. Она делает несколько предсказаний на один объект, а подмодели обучаются одновременно и разделяют большую часть весов почти как в BatchEnsemble. Это позволило отказаться от attention, ускорить обучение и улучшить метрики за счет ассемблирования. В статье утверждают что метрики лучше чем у бустингов, но кажется метрики стат. значимо не отличаются. Забавно что excel сильнее базового MLP из чего и состоит текущее решение

Протестировал сравнение метрик базового LightGBM и этого решения. Это было, конечно, намного легче, чем с TabR (прошлая Sota от Яндекса), код которого в виде библиотеки не выкладывали, но всё равно из коробки модель не обучалась. Пришлось взять параметры из статьи; на чуть больших датасетах это всё падает по памяти, ошибки cuda ☠️, еще и train loop нужен свой. Так что получил результаты на двух датасетах

Как итог, LightGBM оказался существенно лучше на 2-м датасете, но на 1-м — почти паритет. Но какой же TabM медленный, на CPU время обучения отличается х1000раз и это на 100 эпохах, в статье предлают обучать еще больше! И всё же результат достойный, но статью имеет смысл перепроверить с точки зрения метрик

Average LGB Test AUC: 0.7659
Average TabM Test AUC: 0.7421
Average LGB Time: 0.23s
Average TabM Time (CPU amd 7700): 234.55s
Average TabM Time (gpu T4): 15.68s
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥6🤔2👌21
UPD: Когда под анонсом в канале Яндекса я поделился своими изысканиями, мне прислали ссылку на открытый бенчмарк TabArena (см 2я картинка). Выводы там в целом аналогичны моим: метрики LightGBM статистически значимо не отличаются от TabM.

Но, к удивлению, есть другой лидер — RealMLP (Better by Default: Strong Pre-Tuned MLPs and Boosted Trees on Tabular Data). Как видно из названия, это тоже MLP, но со всеми известными улучшениями: дефолтные параметры модели предварительно подобрали на открытых датасетах, квантильное преобразование признаков, smooth clipping для борьбы с выбросами и scaling layer (перемножение вектора признаков с диагональной матрицей весов) для первичного отбора признаков. И всё это ещё лучше работает в ансамбле с бустингом, с использованием SELU/Mish в качестве функций активации и так далее.

В итоге я обновил свой предыдущий подход (см 1ю табличку), и действительно, результат как будто лучше, чем у бустинга. RealMLP - подтверждаю, работает быстро, сразу из коробки, гиперпараметры тюнить не надо. Можно тестировать на рабочих задачах.
🔥124🤝4🙏1
Интересный обзор архитектур open-source LLM за 2025г The Big LLM Architecture Comparison

Забавно, как каждая из моделей по-своему комбинирует уже известные подходы, придуманные еще в прошлых года, при этом получая разнонаправленное влияние на метрики (Qwen3 почти не отличается по GPT-OSS. Тут детальнее про GPT-OSS). Например:
• Переход от ванильного Multi-Head Attention к Grouped-Query Attention (GQA), который появился ещё в 2023 году
• Attention Bias, который не использовали со времён GPT-2 и Attention Sinks обучаемый параметр для каждого блока внимания, которые применили в gpt-oss, хотя придумали его ещё в 2023 году
• NoPE (No Positional Encoding) — интересная идея, но её пока применили только в одной модели из обзора
• MoE (mixture of experts) - тоже известная больше года история

За деталями рекомендую к статье. Интересно на каких данных и как именно обучали модели. Но этой информацией зачастую делятся очень верхнеуровнево
🔥9👍64
Неплохой курс от Яндекса как делать презентации

Быстрый и емкий курс, полезен тем, кто в последний раз делал презентацию в университете и не только. В нём есть хорошие и показательные примеры того, какой тип графиков выбрать для тех или иных данных (спойлер: диаграммы Ганта, Санки и даже Венна не понадобятся, это вам не эксель и даже не…). Еще рассматривается выбор контрастности и лёгкость восприятия слайдов в зависимости от межстрочного интервала и тд и тд

P.S. Это как на той конференции, когда мне дезигнеры перерисовывали слайд, вроде и не изменилось, но читаться стало легче
👍14🔥42🙏2
Не знал, что bag-of-words это новые технологии 😁

А так конечно коммерсант еще не готов давать ссылки на гитхаб, где бустинги и обучаемые косинусные расстояние
😁20🔥2🫡2
Vibe coding как оно

Как учебный проект для жены @saryuna_na после прохождения ею курса по Правилам коммуникации навайбкодили Telegram-бота. Идея - бот, который после добавления в чат анализирует переписку и стиль общения, давая обратную связь. Код проекта тут

Что протестировали:

1. Начал с бесплатного Replit. Промпт написал другая LLM - сразу готовый прототип, но токены жгет быстро (хватило на 10 запросов, продолжил на новом аккаунте). Плюс: сам деплоит и запускает. Минус: постоянный запуск платный.

2. Jules от Google - долго, нерабочий код, дебажить не стал. Perplexity в чате - не вариант. Бесплатный Claude создал файлы, но скачать нельзя, только копировать - мимо.

3. За вечер базовый функционал готов. Дальше Cursor: сильный прогресс за год, теперь как тру агент модифицирует файлы, запускает тесты, фиксит по логам. Проблемы которые исправляли далее: потеря сообщений при перезапуске (фикс с кэшем в базу), открытый доступ (сделали мини-админку). Добавили тесты и конфиги. Windsurf - не успел протестировать

4. Для работы нужен сервер (использовал OpenAI API, и тут только зарубежный VPS). Понравилась fps.me - бесплатно, но сервер вручную переподнимать каждые 24 ч.

Итог: прототип за 6 часов, для обывателя - только Replit. Проект уже 2 тыс. строк, в Cursor это уже занимало 30% контекста, в лимиты скоро упрется 😒

PS: проект запущен в пилот 🤝
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11😁5👍31
Model Context Protocol (MCP) Course от Hugging Face

Достойный курс, ещё и бесплатный. Когда я читал whitepaper от Anthropic, казалось, что MCP - это просто некий хаб для функций (tools) с целью унификации API (aka function registry), чтобы в будущем упростить интеграцию инструментов друг с другом. Но все не совсем так. Протокол предполагает наличие, помимо самих функций (Tools), ещё и:
Resources (Ресурсы): расширенный контекст о системе, доступный только для чтения, например, структура базы данных или список файлов
Prompts: Готовые, сложные сценарии, использующие Tools и Resources

Кажется, что Tools и Prompts могли бы быть одной сущностью, но они намеренно разделены. Чтобы агент имел выбор: либо просто вызвать конкретный Tool для выполнения 1го действия, либо запустить более сложный Prompt, который под капотом может использовать несколько инструментов и ресурсов для достижения цели.

Понравился пример из курса, когда MCP используется для обеспечения конфиденциальности: например, данные клиента можно обрабатывать локально, на его же стороне, не передавая их на сервер.

P.S. Используя FastMCP, можно поднять такой сервер в несколько строк кода
🔥8👍73🙏1
LLM blending работает но дорого

Если бюджеты позволяют, для улучшения метрик можно комбинировать ответы от разных промптов или LLM, используя агрегацию с помощью другой LLM или majority voting. Как в старых добрых табличных задачках, осталось только до стэкинга дойти.

В статье Are More LLM Calls All You Need на MMLU PHYSICS blending улучшает точность на лёгких вопросах с 88% до 96% при 10 запросах, но на сложных задачах всё не так однозначно. На сложных задачах, где LLM с большей вероятностью выдаёт неверный ответ, при увеличении числа вызовов самый популярный (но ошибочный) ответ чаще побеждает в голосовании, что снижает общую точность. При этом обычный voting работает лучше, чем filter-voting, где итоговый ответ определяет отдельный вызов модели.

А в статье Beyond Majority Voting: LLM Aggregation by Leveraging Higher-Order Information предложены другие методы агрегирования (Optimal Weight, Inverse Surprising Popularity), которые учитывают корреляции и точность между моделями, как итог превосходят простое majority voting. По сути, для ответов моделей просто подбираются оптимальные веса для взвешивания. Это даёт прирост в +0.5% к точности лучшей модели (на датасетах UltraFeedback и ARMMAN, но наблюдается отрицательный эффект на MMLU). И +5% по сравнению с majority voting при 2х запросах и падением эффекта до +1% при 10и моделях. Сильное влияние оказывает некоррелированность ответов - если варианты слишком похожи, прироста почти нет
🔥5❤‍🔥3👍3
2025/10/15 21:02:01
Back to Top
HTML Embed Code: