246 - Telegram Web

EdTech, AI и HighLoad | Блог AK из Школково

Forwarded from ØA - ZeroAgency | Разработка EdTech решений

🎉 Как это было: 3 года роста, драйва и 3 года крутой команде! 🎉

Вот и отгремел наш корпоратив в честь 3-летия компании! 🥳 Три года упорной работы, ярких побед и, конечно, незабываемых моментов с лучшими людьми.

Что же было на ивенте в честь дня рождения ZERO AGENCY?

🍾 Тосты! МНОГО ТОСТОВ! Произнесли искренние слова, вспомнили первые шаги, построили грандиозные планы. И даже сняли смешной ролик 🤭
🎤 Приглашенная рок-группа, которая дала целый концерт, и дикие танцы — кто знал, что среди нас столько талантов? 😄
☝🏽Кстати, про таланты! Наш директор —человек, который может все! Поэтому он вместе с любимой группой сыграл партию на ударных!
📸 Создали альбом для нашего босса, куда записали пожелания и вклеили фотки моментальной печати!
🏆 Наградили всех сотрудников! Ведь каждый вносит свой вклад в общее дело😉
👕 Новые сотрудники получили корпоративные толстовки, чтобы уже сейчас понимали, как их долго искали и ждали!

👉🏻 Куда движемся дальше? К новым вершинам и масштабным целям!

❤18🔥1310

623 views14:53

EdTech, AI и HighLoad | Блог AK из Школково

Forwarded from ØA - ZeroAgency | Разработка EdTech решений

0:29

This media is not supported in your browser

VIEW IN TELEGRAM

Команда Zero Agency + любимая группа + босс ударник = незабываемый ДР компании🔥

Концерт навсегда в наших сердцах ❤️

❤14🔥33

638 views18:56

EdTech, AI и HighLoad | Блог AK из Школково

У меня пока нет времени готовить для вас более полезные посты, поэтому насладитесь ещё раз небольшой вырезкой с концерта на корпорате @ZeroAgency

⬆️

Так-то, DenDerty - крутецкая группа.
Рекомендую послушать и подписаться на их канал @denderty_channel

Please open Telegram to view this post

VIEW IN TELEGRAM

❤14🔥53

713 viewsedited 18:56

EdTech, AI и HighLoad | Блог AK из Школково

Forwarded from Daily AK | Личный блог

Трудовые будни и главный специалист по поднятию офисного настроения

🔥18❤98

579 views10:43

EdTech, AI и HighLoad | Блог AK из Школково

🙃

Что самое ценное в онлайн-бизнесе? Данные!

Ни идея, ни технологии и даже не высокая популярность сервиса не сравнятся с хорошими качественными большими данными.

Идею могут повторить. Новые технологии появляются чуть ли не каждый день. Популярность сегодня есть - завтра появился кто-то более популярный.

Правильный сбор, обработка и грамотное применение данных - то, что зачастую помогает сильно бустануть сервис.

Вот вам пример из жизни. Есть у нас на bobr.video поисковая строка.
Выкатили мы её в тестовом режиме. На стороне бекенда там проходят одновременно минимум 4 A/B теста с разными подходами к поиску и ранжированию кандидатов для выдачи. Это разные embedding и reranking модели + старый-добрый bm25 через elastic.

Цель теста заключается в том, что мы собираем сразу несколько видов данных:
1. Общий список запрашиваемых поисковых запросов;
2. Запрос-выдача + клики;
3. Пост-кликовые поведенческие факторы;
4. Performance-метрики по выдаче(TTFB и прочие).

Затем идёт нехитрый анализ, а на выходе получаем сразу тонну полезной информации:
1. Какой подход к поиску кандидатов лучше удовлетворяет пользователей;
2. Какой реранкер лучше отсеивает кандидатов;
3. Что вообще ищут у нас на платформе и как это меняется со временем;
4. Ценные данные, которые пригодятся для тюнинга ранжирования и поиска кандидатов.

Весь этот процесс не разовый, а регулярный и, по сути, непрерывный.

И да, как уже как-то говорил Максим Олегович, мы с каждым днём на шаг ближе к интеллектуальному поиску контента на платформах БОБР и Школково. Все эти этапы сбора и анализа данных просто необходимы для того, чтобы научить алгоритмы и ИИ лучше понимать предметную область и пользователей с их запросами и предпочтениями.

PS: Предвосхищая вопросы знатоков - да, ручная разметка релевантности у нас тоже есть в процессах. Это жестко, но также необходимо.

Такие дела ^_^
Работаем 💪

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥22❤95👍11

523 viewsedited 15:25

EdTech, AI и HighLoad | Блог AK из Школково

Forwarded from ØA - ZeroAgency | Разработка EdTech решений

0:52

Media is too big

VIEW IN TELEGRAM

Хочешь стартануть правильно? Начни с Zero Agency. Возможно, нам нужен именно ты!🔥

👍5❤2

547 views14:47

EdTech, AI и HighLoad | Блог AK из Школково

Закон Парето в HR-бренде.

Ильяна Левина (@profit_maker) как-то писала, что на пост надо тратить около пяти минут. Не надо его "вымучивать" из себя.

Поэтому буду краток - закон Парето(20% усилий дают 80% результата) в HR-бренде РАБОТАЕТ.
☝️ Выше вы видите ролик, который мы сняли на коленке. Потом также просто смонтировали и выложили.
В результате спустя первые пару часов написал один соискатель на ИИ-инженера и один любопытный стажёр на Go-backend.
Наверняка прямо сейчас кто-то ещё пишет нашей HR Валерии (@Valeria_840) или в наш HR-бот(@NotEvilHR_bot).

Это я к чему:
1. Делайте просто, а не просто не делайте, если не видите острую необходимость
2. Мы всегда ищем хороших людей - в первую очередь заинтересованы в опытных, но готовы взять и стажеров:
- React-фронтендеры
- Go-бекендеры
- AI-инженеры
- Интернет-маркетологи, рилсмейкеры, таргетологи и интернет-рекламщики
- Менеджеры по продажам
- Дизайнеры(веб, графич. диз, иллюстрации и пр.)

На пост потрачено 2 мин. 57 сек. А теперь погнал дальше работать, чего и вам желаю!

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11🔥8❤742

597 viewsedited 14:47

EdTech, AI и HighLoad | Блог AK из Школково

Работник месяца - Хати, главный специалист по улучшению настроения в офисе.

А если ты хочешь тоже работать у нас - вот тут вакансии есть

❤27👍118🔥43

566 views13:02

EdTech, AI и HighLoad | Блог AK из Школково

О кривых хостерах и важности сетевых настроек.

Есть такой хостинг HostKey - дёшево, сердито и не без проблем. Но на то и причины есть:
1. У vGPU инстансов жесткие непонятные ограничения по сети - за быстрое скачивание получаешь blackhole на час. При этом скорость они не режут(не хотят), снимать ограничения тоже не снимают.
2. У dedicated сервера периодически жестко тормозит сеть.

Собственно про последний случай хотелось бы немного детальнее.
Проявляется это так, что при загрузке какого-то файла тебе прилетает несколько мегабайт, а дальше всё - тишина и соединение падает по таймауту.
Причем происходит это в рандомное время, в рандомных направлениях.
Два раза писал в ТП - результата ноль.

Сегодня не выдержал, походил, подумал. Поменял MTU с дефолтных 1500 на 1000 - PROFIT.

Что там на свитчах у хостера происходит - загадка видимо даже для их техподдержки. Но собственно и пофиг. Работает - не трогай.
В общем, учите матчасть - может пригодиться.

Такие дела ¯\_(ツ)_/¯

4🔥3

482 views17:35

EdTech, AI и HighLoad | Блог AK из Школково

Мои впечатления от open-source релиза GPT-OSS

Родственные по теме тг-каналы уже всё написали, но я хочу поделиться личными впечатлениями от этих моделей. Я не буду писать про субъективные оценки генерацией модели и её зацензурированность, напишу о практических моментах.

Как и ожидалось, нормальную поддержку инференса пока что не завезли.
- vLLM часто пятисотит, решения пока что нет.
- Chat template в официальном релизе фиксили, но есть ещё немного другой от unsloth. Но тут работает теорема Эскобара + не забываем, что нужно обновить пакет openai и поставить openai-harmony.
- У vllm Structured output в режиме async scheduling не работает. Если у вас ошибка Failed to advance FSM for request - просто отключите --async-scheduling
- Производительность неплохая, но кажется может быть и лучше. В vllm есть коммит на тритоновские ядра для mxfp4, но в 0.10.1+gptoss его ещё не было.
- vLLM не умеет запускать bf16 версии, т.е. то, что у людей получается после тюна и мержа с основной моделью.
- lora адаптеры, к слову, vllm пока что для gpt-oss тоже не умеет.
- Замерить модель бенчмарками из-за всех этих проблем по-нормальному не выходит. Посчитать точно mera не вышло даже после добавления think_end_token. Ждем патчи в lm-eval и vllm.
- Готового инструмента по квантизации bf16 в mxfp4 пока нет.

Как же тюнить, спросите вы?
Можно воспользоваться гайдом, но 120b так не затюнишь особо. У меня удалось затюнить 120b через axolotl на расквантованной версии модели(пример конфига).
Тюн mxfp4 без dequantize в принципе пока ещё не реализован(а жаль).

В результате у меня получилось 2 модельки на датасете HuggingFaceH4/Multilingual-Thinking с полным файнтюном на 8xH200:
- gpt-oss-20b-multilingual-reasoning
- gpt-oss-120b-multilingual-reasoning

Если в system добавить строчку reasoning language: Русский или reasoning language: Russian - модель начнет выдавать reasoning_content на русском языке(или другом, который укажете).
Этот датасет с маленьким размером - всего 1000 примеров. Он показал хорошие способности модели к пониманию, что от неё хотят - в датасете нет русского языка, но модель выучила принцип, что надо делать ризонинг именно на указанном в system языке. Без файнтюна она это делать отказывается.
Однако не забываем, что датасет является синтетикой от Qwen3-32B, а значит размышления там не похожи на те, которые в оригинале даёт GPT-OSS. Также в датасете нет разницы между размером ризонинга(reasoning effort). Соответственно понимаем, что модель после тюна думает уже несколько иначе.

Что касается инференса bf16 и затюненных версий, то тут есть пока что только один стабильный путь - GGUF:
1. Запускаем конвертацию в bf16:

docker run --gpus all -v /root:/models ghcr.io/ggml-org/llama.cpp:full-cuda-b6115 --convert --outtype bf16 /models/gpt-oss-120b-multilingual-reasoning

2. Запускаем инференс через llama-server:

docker run --gpus all -p8000:8000 -v /root:/models ghcr.io/ggml-org/llama.cpp:full-cuda-b6115 --server --host 0.0.0.0 --port 8000 --api-key EMPTY --jinja -m /models/gpt-oss-120B-multilingual-reasoning-BF16.gguf -ngl 99 --temp 1.0 --top-p 1.0 --top-k 0 --ctx-size 200000 -np 20 -fa --log-timestamps --log-prefix --swa-full -kvu

Но тут же вспоминаем о проблемах с производительностью в многопотоке llama-server и ~~плачем~~ не унываем.

Все эти проблемы, понятное дело, из-за спешного запуска - инструменты готовили к новой MoE архитектуре и поддержке openai-harmony. Допил любимых нами пакетов происходит прямо сейчас на наших глазах по сути.
Ждем пару недель, может месяц - тогда можно будет уже спокойно инференсить в проде и тюнить как душе угодно.

А теперь плюсы:
- Модель неплохо себя показывает в качестве судьи даже на zero-shot. Мне удалось достичь уровня между gpt5 и gpt5-mini на своих задачах.
- Есть мысли, как можно сделать из GPT-OSS хороший русскоязычный ризонер и генератор ризонинг трейсов для синтетики датасетов, которые потом можно будет и на других модельках применять.

Побежал оценивать расширение big-russian-dataset и делать новый датасет для русского ризонинга. О методике и результатах сообщу через несколько дней.

Работаем 💪

🔥15❤95🤔2🤯1

543 viewsedited 09:17

EdTech, AI и HighLoad | Блог AK из Школково

AI - это для терпеливых.

Примерно так выглядит генерация LLM-as-a-Judge для большого датасета.
20 часов прошло, ещё 40 осталось.
Потом следующие стадии ещё на 100+ часов 😂

И только потом экспериментальные трейны и замеры по бенчмаркам.

Please open Telegram to view this post

VIEW IN TELEGRAM

👀9🔥6❤3🤯21

552 views10:20

EdTech, AI и HighLoad | Блог AK из Школково

Мои впечатления от open-source релиза GPT-OSS Родственные по теме тг-каналы уже всё написали, но я хочу поделиться личными впечатлениями от этих моделей. Я не буду писать про субъективные оценки генерацией модели и её зацензурированность, напишу о практических…

В догонку про production inference GPT-OSS

Ребята из baseten написали мини статью, как они инференсят gpt-oss в проде на нормальных скоростях.
Если кратко:
- Запускали на TensorRT. Попытки vllm/sglang безуспешны(кстати у меня sglang на 120b существенно больше VRAM требует по сравнению с vllm, не рекомендую его вообще).
- Для нормальной поддержки им пришлось использовать dev-сборку и немного пропатчить openai-harmony.
- Tensor Parallelism даёт меньшую задержку, а Expert Parallelism большую пропускную способность. В целом ожидаемо.
- Выложили примеры конфигов gpt-oss-120b/20b для TensorRT-LLM. Полезное.
- Ребята работают над созданием draft модели по принципу EAGLE-3, что ещё больше должно ускорить инференс. Будет круто, если модель выложат на hf.

Кстати, потестить их инференс можно на openrouter. Median Throughput у них там ~500 tok/s, что конечно же меньше Cerebras(ещё бы) и Groq, но всё равно шустро.

🔥7❤4👀3

601 views10:50

2025/10/09 21:50:03
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>