Forwarded from ØA - ZeroAgency | Разработка EdTech решений
🎉 Как это было: 3 года роста, драйва и 3 года крутой команде! 🎉
Вот и отгремел наш корпоратив в честь 3-летия компании! 🥳 Три года упорной работы, ярких побед и, конечно, незабываемых моментов с лучшими людьми.
Что же было на ивенте в честь дня рождения ZERO AGENCY?
🍾 Тосты! МНОГО ТОСТОВ! Произнесли искренние слова, вспомнили первые шаги, построили грандиозные планы. И даже сняли смешной ролик 🤭
🎤 Приглашенная рок-группа, которая дала целый концерт, и дикие танцы — кто знал, что среди нас столько талантов? 😄
☝🏽Кстати, про таланты! Наш директор —человек, который может все! Поэтому он вместе с любимой группой сыграл партию на ударных!
📸 Создали альбом для нашего босса, куда записали пожелания и вклеили фотки моментальной печати!
🏆 Наградили всех сотрудников! Ведь каждый вносит свой вклад в общее дело😉
👕 Новые сотрудники получили корпоративные толстовки, чтобы уже сейчас понимали, как их долго искали и ждали!
👉🏻 Куда движемся дальше? К новым вершинам и масштабным целям!
Вот и отгремел наш корпоратив в честь 3-летия компании! 🥳 Три года упорной работы, ярких побед и, конечно, незабываемых моментов с лучшими людьми.
Что же было на ивенте в честь дня рождения ZERO AGENCY?
🍾 Тосты! МНОГО ТОСТОВ! Произнесли искренние слова, вспомнили первые шаги, построили грандиозные планы. И даже сняли смешной ролик 🤭
🎤 Приглашенная рок-группа, которая дала целый концерт, и дикие танцы — кто знал, что среди нас столько талантов? 😄
☝🏽Кстати, про таланты! Наш директор —человек, который может все! Поэтому он вместе с любимой группой сыграл партию на ударных!
📸 Создали альбом для нашего босса, куда записали пожелания и вклеили фотки моментальной печати!
🏆 Наградили всех сотрудников! Ведь каждый вносит свой вклад в общее дело😉
👕 Новые сотрудники получили корпоративные толстовки, чтобы уже сейчас понимали, как их долго искали и ждали!
👉🏻 Куда движемся дальше? К новым вершинам и масштабным целям!
❤18🔥13 10
Forwarded from ØA - ZeroAgency | Разработка EdTech решений
This media is not supported in your browser
VIEW IN TELEGRAM
Команда Zero Agency + любимая группа + босс ударник = незабываемый ДР компании🔥
Концерт навсегда в наших сердцах ❤️
Концерт навсегда в наших сердцах ❤️
❤14🔥3 3
У меня пока нет времени готовить для вас более полезные посты, поэтому насладитесь ещё раз небольшой вырезкой с концерта на корпорате @ZeroAgency ⬆️
Так-то, DenDerty - крутецкая группа.
Рекомендую послушать и подписаться на их канал @denderty_channel
Так-то, DenDerty - крутецкая группа.
Рекомендую послушать и подписаться на их канал @denderty_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14🔥5 3
Forwarded from Daily AK | Личный блог
Трудовые будни и главный специалист по поднятию офисного настроения
🔥18❤9 8
Ни идея, ни технологии и даже не высокая популярность сервиса не сравнятся с хорошими качественными большими данными.
Идею могут повторить. Новые технологии появляются чуть ли не каждый день. Популярность сегодня есть - завтра появился кто-то более популярный.
Правильный сбор, обработка и грамотное применение данных - то, что зачастую помогает сильно бустануть сервис.
Вот вам пример из жизни. Есть у нас на bobr.video поисковая строка.
Выкатили мы её в тестовом режиме. На стороне бекенда там проходят одновременно минимум 4 A/B теста с разными подходами к поиску и ранжированию кандидатов для выдачи. Это разные embedding и reranking модели + старый-добрый bm25 через elastic.
Цель теста заключается в том, что мы собираем сразу несколько видов данных:
1. Общий список запрашиваемых поисковых запросов;
2. Запрос-выдача + клики;
3. Пост-кликовые поведенческие факторы;
4. Performance-метрики по выдаче(TTFB и прочие).
Затем идёт нехитрый анализ, а на выходе получаем сразу тонну полезной информации:
1. Какой подход к поиску кандидатов лучше удовлетворяет пользователей;
2. Какой реранкер лучше отсеивает кандидатов;
3. Что вообще ищут у нас на платформе и как это меняется со временем;
4. Ценные данные, которые пригодятся для тюнинга ранжирования и поиска кандидатов.
Весь этот процесс не разовый, а регулярный и, по сути, непрерывный.
И да, как уже как-то говорил Максим Олегович, мы с каждым днём на шаг ближе к интеллектуальному поиску контента на платформах БОБР и Школково. Все эти этапы сбора и анализа данных просто необходимы для того, чтобы научить алгоритмы и ИИ лучше понимать предметную область и пользователей с их запросами и предпочтениями.
PS: Предвосхищая вопросы знатоков - да, ручная разметка релевантности у нас тоже есть в процессах. Это жестко, но также необходимо.
Такие дела ^_^
Работаем 💪
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥22❤9 5👍1 1
Forwarded from ØA - ZeroAgency | Разработка EdTech решений
Media is too big
VIEW IN TELEGRAM
Хочешь стартануть правильно? Начни с Zero Agency. Возможно, нам нужен именно ты!🔥
👍5❤2
Закон Парето в HR-бренде.
Ильяна Левина (@profit_maker) как-то писала, что на пост надо тратить около пяти минут. Не надо его "вымучивать" из себя.
Поэтому буду краток - закон Парето(20% усилий дают 80% результата) в HR-бренде РАБОТАЕТ.
☝️ Выше вы видите ролик, который мы сняли на коленке. Потом также просто смонтировали и выложили.
В результате спустя первые пару часов написал один соискатель на ИИ-инженера и один любопытный стажёр на Go-backend.
Наверняка прямо сейчас кто-то ещё пишет нашей HR Валерии (@Valeria_840) или в наш HR-бот(@NotEvilHR_bot).
Это я к чему:
1. Делайте просто, а не просто не делайте, если не видите острую необходимость
2. Мы всегда ищем хороших людей - в первую очередь заинтересованы в опытных, но готовы взять и стажеров:
- React-фронтендеры
- Go-бекендеры
- AI-инженеры
- Интернет-маркетологи, рилсмейкеры, таргетологи и интернет-рекламщики
- Менеджеры по продажам
- Дизайнеры(веб, графич. диз, иллюстрации и пр.)
На пост потрачено 2 мин. 57 сек. А теперь погнал дальше работать, чего и вам желаю!
Ильяна Левина (@profit_maker) как-то писала, что на пост надо тратить около пяти минут. Не надо его "вымучивать" из себя.
Поэтому буду краток - закон Парето(20% усилий дают 80% результата) в HR-бренде РАБОТАЕТ.
В результате спустя первые пару часов написал один соискатель на ИИ-инженера и один любопытный стажёр на Go-backend.
Наверняка прямо сейчас кто-то ещё пишет нашей HR Валерии (@Valeria_840) или в наш HR-бот(@NotEvilHR_bot).
Это я к чему:
1. Делайте просто, а не просто не делайте, если не видите острую необходимость
2. Мы всегда ищем хороших людей - в первую очередь заинтересованы в опытных, но готовы взять и стажеров:
- React-фронтендеры
- Go-бекендеры
- AI-инженеры
- Интернет-маркетологи, рилсмейкеры, таргетологи и интернет-рекламщики
- Менеджеры по продажам
- Дизайнеры(веб, графич. диз, иллюстрации и пр.)
На пост потрачено 2 мин. 57 сек. А теперь погнал дальше работать, чего и вам желаю!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥8❤7 4 2
Работник месяца - Хати, главный специалист по улучшению настроения в офисе.
А если ты хочешь тоже работать у нас - вот тут вакансии есть
А если ты хочешь тоже работать у нас - вот тут вакансии есть
❤27👍11 8🔥4 3
О кривых хостерах и важности сетевых настроек.
Есть такой хостинг HostKey - дёшево, сердито и не без проблем. Но на то и причины есть:
1. У vGPU инстансов жесткие непонятные ограничения по сети - за быстрое скачивание получаешь blackhole на час. При этом скорость они не режут(не хотят), снимать ограничения тоже не снимают.
2. У dedicated сервера периодически жестко тормозит сеть.
Собственно про последний случай хотелось бы немного детальнее.
Проявляется это так, что при загрузке какого-то файла тебе прилетает несколько мегабайт, а дальше всё - тишина и соединение падает по таймауту.
Причем происходит это в рандомное время, в рандомных направлениях.
Два раза писал в ТП - результата ноль.
Сегодня не выдержал, походил, подумал. Поменял MTU с дефолтных 1500 на 1000 - PROFIT.
Что там на свитчах у хостера происходит - загадка видимо даже для их техподдержки. Но собственно и пофиг. Работает - не трогай.
В общем, учите матчасть - может пригодиться.
Такие дела ¯\_(ツ)_/¯
Есть такой хостинг HostKey - дёшево, сердито и не без проблем. Но на то и причины есть:
1. У vGPU инстансов жесткие непонятные ограничения по сети - за быстрое скачивание получаешь blackhole на час. При этом скорость они не режут(не хотят), снимать ограничения тоже не снимают.
2. У dedicated сервера периодически жестко тормозит сеть.
Собственно про последний случай хотелось бы немного детальнее.
Проявляется это так, что при загрузке какого-то файла тебе прилетает несколько мегабайт, а дальше всё - тишина и соединение падает по таймауту.
Причем происходит это в рандомное время, в рандомных направлениях.
Два раза писал в ТП - результата ноль.
Сегодня не выдержал, походил, подумал. Поменял MTU с дефолтных 1500 на 1000 - PROFIT.
Что там на свитчах у хостера происходит - загадка видимо даже для их техподдержки. Но собственно и пофиг. Работает - не трогай.
В общем, учите матчасть - может пригодиться.
Такие дела ¯\_(ツ)_/¯
Мои впечатления от open-source релиза GPT-OSS
Родственные по теме тг-каналы уже всё написали, но я хочу поделиться личными впечатлениями от этих моделей. Я не буду писать про субъективные оценки генерацией модели и её зацензурированность, напишу о практических моментах.
Как и ожидалось, нормальную поддержку инференса пока что не завезли.
- vLLM часто пятисотит, решения пока что нет.
- Chat template в официальном релизе фиксили, но есть ещё немного другой от unsloth. Но тут работает теорема Эскобара + не забываем, что нужно обновить пакет openai и поставить openai-harmony.
- У vllm Structured output в режиме async scheduling не работает. Если у вас ошибка
- Производительность неплохая, но кажется может быть и лучше. В vllm есть коммит на тритоновские ядра для mxfp4, но в 0.10.1+gptoss его ещё не было.
- vLLM не умеет запускать bf16 версии, т.е. то, что у людей получается после тюна и мержа с основной моделью.
- lora адаптеры, к слову, vllm пока что для gpt-oss тоже не умеет.
- Замерить модель бенчмарками из-за всех этих проблем по-нормальному не выходит. Посчитать точно mera не вышло даже после добавления think_end_token. Ждем патчи в lm-eval и vllm.
- Готового инструмента по квантизации bf16 в mxfp4 пока нет.
Как же тюнить, спросите вы?
Можно воспользоваться гайдом, но 120b так не затюнишь особо. У меня удалось затюнить 120b через axolotl на расквантованной версии модели(пример конфига).
Тюн mxfp4 без dequantize в принципе пока ещё не реализован(а жаль).
В результате у меня получилось 2 модельки на датасете HuggingFaceH4/Multilingual-Thinking с полным файнтюном на 8xH200:
- gpt-oss-20b-multilingual-reasoning
- gpt-oss-120b-multilingual-reasoning
Если в system добавить строчку
Этот датасет с маленьким размером - всего 1000 примеров. Он показал хорошие способности модели к пониманию, что от неё хотят - в датасете нет русского языка, но модель выучила принцип, что надо делать ризонинг именно на указанном в system языке. Без файнтюна она это делать отказывается.
Однако не забываем, что датасет является синтетикой от Qwen3-32B, а значит размышления там не похожи на те, которые в оригинале даёт GPT-OSS. Также в датасете нет разницы между размером ризонинга(reasoning effort). Соответственно понимаем, что модель после тюна думает уже несколько иначе.
Что касается инференса bf16 и затюненных версий, то тут есть пока что только один стабильный путь - GGUF:
1. Запускаем конвертацию в bf16:
2. Запускаем инференс через llama-server:
Но тут же вспоминаем о проблемах с производительностью в многопотоке llama-server иплачем не унываем.
Все эти проблемы, понятное дело, из-за спешного запуска - инструменты готовили к новой MoE архитектуре и поддержке openai-harmony. Допил любимых нами пакетов происходит прямо сейчас на наших глазах по сути.
Ждем пару недель, может месяц - тогда можно будет уже спокойно инференсить в проде и тюнить как душе угодно.
А теперь плюсы:
- Модель неплохо себя показывает в качестве судьи даже на zero-shot. Мне удалось достичь уровня между gpt5 и gpt5-mini на своих задачах.
- Есть мысли, как можно сделать из GPT-OSS хороший русскоязычный ризонер и генератор ризонинг трейсов для синтетики датасетов, которые потом можно будет и на других модельках применять.
Побежал оценивать расширение big-russian-dataset и делать новый датасет для русского ризонинга. О методике и результатах сообщу через несколько дней.
Работаем 💪
Родственные по теме тг-каналы уже всё написали, но я хочу поделиться личными впечатлениями от этих моделей. Я не буду писать про субъективные оценки генерацией модели и её зацензурированность, напишу о практических моментах.
Как и ожидалось, нормальную поддержку инференса пока что не завезли.
- vLLM часто пятисотит, решения пока что нет.
- Chat template в официальном релизе фиксили, но есть ещё немного другой от unsloth. Но тут работает теорема Эскобара + не забываем, что нужно обновить пакет openai и поставить openai-harmony.
- У vllm Structured output в режиме async scheduling не работает. Если у вас ошибка
Failed to advance FSM for request
- просто отключите --async-scheduling
- Производительность неплохая, но кажется может быть и лучше. В vllm есть коммит на тритоновские ядра для mxfp4, но в 0.10.1+gptoss его ещё не было.
- vLLM не умеет запускать bf16 версии, т.е. то, что у людей получается после тюна и мержа с основной моделью.
- lora адаптеры, к слову, vllm пока что для gpt-oss тоже не умеет.
- Замерить модель бенчмарками из-за всех этих проблем по-нормальному не выходит. Посчитать точно mera не вышло даже после добавления think_end_token. Ждем патчи в lm-eval и vllm.
- Готового инструмента по квантизации bf16 в mxfp4 пока нет.
Как же тюнить, спросите вы?
Можно воспользоваться гайдом, но 120b так не затюнишь особо. У меня удалось затюнить 120b через axolotl на расквантованной версии модели(пример конфига).
Тюн mxfp4 без dequantize в принципе пока ещё не реализован(а жаль).
В результате у меня получилось 2 модельки на датасете HuggingFaceH4/Multilingual-Thinking с полным файнтюном на 8xH200:
- gpt-oss-20b-multilingual-reasoning
- gpt-oss-120b-multilingual-reasoning
Если в system добавить строчку
reasoning language: Русский
или reasoning language: Russian
- модель начнет выдавать reasoning_content на русском языке(или другом, который укажете).Этот датасет с маленьким размером - всего 1000 примеров. Он показал хорошие способности модели к пониманию, что от неё хотят - в датасете нет русского языка, но модель выучила принцип, что надо делать ризонинг именно на указанном в system языке. Без файнтюна она это делать отказывается.
Однако не забываем, что датасет является синтетикой от Qwen3-32B, а значит размышления там не похожи на те, которые в оригинале даёт GPT-OSS. Также в датасете нет разницы между размером ризонинга(reasoning effort). Соответственно понимаем, что модель после тюна думает уже несколько иначе.
Что касается инференса bf16 и затюненных версий, то тут есть пока что только один стабильный путь - GGUF:
1. Запускаем конвертацию в bf16:
docker run --gpus all -v /root:/models ghcr.io/ggml-org/llama.cpp:full-cuda-b6115 --convert --outtype bf16 /models/gpt-oss-120b-multilingual-reasoning
2. Запускаем инференс через llama-server:
docker run --gpus all -p8000:8000 -v /root:/models ghcr.io/ggml-org/llama.cpp:full-cuda-b6115 --server --host 0.0.0.0 --port 8000 --api-key EMPTY --jinja -m /models/gpt-oss-120B-multilingual-reasoning-BF16.gguf -ngl 99 --temp 1.0 --top-p 1.0 --top-k 0 --ctx-size 200000 -np 20 -fa --log-timestamps --log-prefix --swa-full -kvu
Но тут же вспоминаем о проблемах с производительностью в многопотоке llama-server и
Все эти проблемы, понятное дело, из-за спешного запуска - инструменты готовили к новой MoE архитектуре и поддержке openai-harmony. Допил любимых нами пакетов происходит прямо сейчас на наших глазах по сути.
Ждем пару недель, может месяц - тогда можно будет уже спокойно инференсить в проде и тюнить как душе угодно.
А теперь плюсы:
- Модель неплохо себя показывает в качестве судьи даже на zero-shot. Мне удалось достичь уровня между gpt5 и gpt5-mini на своих задачах.
- Есть мысли, как можно сделать из GPT-OSS хороший русскоязычный ризонер и генератор ризонинг трейсов для синтетики датасетов, которые потом можно будет и на других модельках применять.
Побежал оценивать расширение big-russian-dataset и делать новый датасет для русского ризонинга. О методике и результатах сообщу через несколько дней.
Работаем 💪
🔥15❤9 5🤔2🤯1
AI - это для терпеливых.
Примерно так выглядит генерация LLM-as-a-Judge для большого датасета.
20 часов прошло, ещё 40 осталось.
Потом следующие стадии ещё на 100+ часов😂
И только потом экспериментальные трейны и замеры по бенчмаркам.
Примерно так выглядит генерация LLM-as-a-Judge для большого датасета.
20 часов прошло, ещё 40 осталось.
Потом следующие стадии ещё на 100+ часов
И только потом экспериментальные трейны и замеры по бенчмаркам.
Please open Telegram to view this post
VIEW IN TELEGRAM
👀9🔥6❤3🤯2 1
EdTech, AI и HighLoad | Блог AK из Школково
Мои впечатления от open-source релиза GPT-OSS Родственные по теме тг-каналы уже всё написали, но я хочу поделиться личными впечатлениями от этих моделей. Я не буду писать про субъективные оценки генерацией модели и её зацензурированность, напишу о практических…
В догонку про production inference GPT-OSS
Ребята из baseten написали мини статью, как они инференсят gpt-oss в проде на нормальных скоростях.
Если кратко:
- Запускали на TensorRT. Попытки vllm/sglang безуспешны(кстати у меня sglang на 120b существенно больше VRAM требует по сравнению с vllm, не рекомендую его вообще).
- Для нормальной поддержки им пришлось использовать dev-сборку и немного пропатчить openai-harmony.
- Tensor Parallelism даёт меньшую задержку, а Expert Parallelism большую пропускную способность. В целом ожидаемо.
- Выложили примеры конфигов gpt-oss-120b/20b для TensorRT-LLM. Полезное.
- Ребята работают над созданием draft модели по принципу EAGLE-3, что ещё больше должно ускорить инференс. Будет круто, если модель выложат на hf.
Кстати, потестить их инференс можно на openrouter. Median Throughput у них там ~500 tok/s, что конечно же меньше Cerebras(ещё бы) и Groq, но всё равно шустро.
Ребята из baseten написали мини статью, как они инференсят gpt-oss в проде на нормальных скоростях.
Если кратко:
- Запускали на TensorRT. Попытки vllm/sglang безуспешны(кстати у меня sglang на 120b существенно больше VRAM требует по сравнению с vllm, не рекомендую его вообще).
- Для нормальной поддержки им пришлось использовать dev-сборку и немного пропатчить openai-harmony.
- Tensor Parallelism даёт меньшую задержку, а Expert Parallelism большую пропускную способность. В целом ожидаемо.
- Выложили примеры конфигов gpt-oss-120b/20b для TensorRT-LLM. Полезное.
- Ребята работают над созданием draft модели по принципу EAGLE-3, что ещё больше должно ускорить инференс. Будет круто, если модель выложат на hf.
Кстати, потестить их инференс можно на openrouter. Median Throughput у них там ~500 tok/s, что конечно же меньше Cerebras(ещё бы) и Groq, но всё равно шустро.
🔥7❤4👀3