Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
226 - Telegram Web
Telegram Web
🤬Т-Банк 👁👁👁

Я конечно всё понимаю и галочка "хочу получать вакансии на почту" в форме регистрации как-бы намекает, что Т-Банк ищет таким образом потенциальных сотрудников.
Но типа.. кхмм.

Окей. Пофиг, работаем дальше💪

Возможно скоро будут интересный контент на тему дообучения Gemma на tool calling, но это не точно.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯94
🤘 Обучил Gemma-3-12B на tools calling!

SYSTEM: Ты умный AI ассистент. Отвечай на русском языке. Если используешь функции - передавай аргументы без изнменений, как-есть.
USER: Как там в Москве?
The model wants to call a function:
Function: get_weather
Arguments: {"location": "Москва"}
Message content: None
Function result: {'temperature': 72, 'condition': 'sunny', 'humidity': 30, 'feels_like': 'Huge Rave Party', 'rage_factor': 'VERY HUGE RAGE!!111'}

Final response:
Ох, ну, судя по всему, в Москве сейчас... не совсем обычная погода. Похоже, там "солнечно" с температурой 72, влажностью 30 и ощущением "Огромной вечеринки"! И, конечно, "ОЧЕНЬ ОГРОМНЫЙ уровень ярости!!"

Что-то мне подсказывает, что данные немного... нестандартные. Может быть, ошибка в системе? Или ты хочешь пошутить? В любом случае, я бы проверил официальный прогноз погоды для Москвы, чтобы убедиться, что там всё в порядке! 😉
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍43👀1
К слову, Gemma изначально не умела в function call.
Теперь умеет в pythonic формате.

Делаем туториал по файнтюну на тулзы?
В каком формате лучше?
👍62🔥21
😋 В каком формате делать туториал по тюну на тулзы? (МОЖНО НЕСКОЛЬКО ВЫБРАТЬ)
Anonymous Poll
29%
Стрим
71%
Уже записанный ролик
52%
Статья
18%
Краткий пост в телеге
2
Ну и важный факт конечно же - модель Gemma после тюна не потеряла способность разговаривать и понимать картинки, потому что vision_tower мы никак не трогали, а способности к обычному общению не сильно деградировали.
🔥751
Мои старания не прошли даром! Небольшая заметка принесла свои плоды.

Пишет мне сегодня один из моих сильных разработчиков:
Привет, был у тебя пост про советы начинающим айтишникам в котором говорилось про прокачивание хард-скиллов за счёт выполнения "пет-задач".

Хоть я себя и не особо считаю начинающим, но мне очень хочется развиваться в направлении AI и возможно у тебя есть какая-то свободная задача? 🌚


Ну и конечно же я дал ему очень любопытную задачу по self-instruct и разработке бенчмарка.
После завершения задачи - поделимся своим подходом и результатами!

Правильной дорогой идем, товарищи 💪
110👍7🔥53
Сегодня у нас в городе очередной концерт в интересном формате.
На этот раз я решил поддержать ребят в качестве спонсора, к тому же один из организаторов - наш дизайнер.
Всем рекомендую посетить данное мероприятие!
74🔥2
⌚️ Перед вами расписание сегодняшних выступлений.
❗️Имейте ввиду, что из-за нестабильной работы мобильного интернета на территории не всегда есть возможность расплатиться картой/телефоном. Берите с собой наличку!
‼️ Вход для гостей на площадку осуществляется только с Советской, выход — только через шлагбаум на Студенецкую набережную. Столик можно забронировать по номеру телефона +7 (980) 676-72-11.
🔥4
Был сегодня на встрече с Врио заместителя Главы Тамбовской области Николаем Николаевичем Федосеенковым, курирующим Департамент цифрового развития, информационных технологий и связи Правительства Тамбовской области.

Не буду комментировать саму встречу, но поделюсь одним печальным моментом.

На встрече много говорилось про ИИ. Много раз звучали такие всем известные названия, как ChatGPT, Gemini, Deepseek, Perplexity и так далее. Но ни разу не прозвучало название ни одной отечественной нейросети и ИИ-продукта.

Да, у нас их не так много, а открытыми продуктами так и вовсе занимаются только бигтехи и немного мы. Но где тот самый курс государства на обеспечение технологического суверенитета и импортозамещения? Поддержка государством ИИ-разработчиков вроде как есть — недавно опять возобновили некоторые программы. Но на мой взгляд, она по факту несущественная и скорее номинальная, а не практически полезная как для компаний, так и для государства.

Вот и получается, что наши существующие продукты в реальности до сих пор внутри страны не так популярны, как импортные.

Если говорить про LLM, то все мы знаем, что есть облачный YandexGPT и даже опенсорсный с крайне ограничивающей лицензией. Есть облачный GigaChat и даже его свободная диалоговая версия на 20B. Есть любопытные открытые модели ТБанка. Что-то не очень популярное тихо выпустили МТС. ИИшники ещё знают про Vikhr, Ruadapt, работы Ильи Гусева и наш Zero-Mistral-24B.

Но всё равно фактическая доля использования на нашем рынке этих отечественных продуктов настолько мала, что кроме как на специализированных конференциях о них и не услышать нигде.

В общем, грустно это всё. С другой стороны, это вселяет надежду, что то, что мы пытаемся сделать отечественный self-hosted ИИ доступным для малого и среднего бизнеса, — точно не зря.

Спасибо государству за попытку помочь, может не с первого раза, но всё же это получится.
Ну а пока что возвращаемся к работе💪
20🔥1274👍3
🤯 Сегодня случилось то, чего я так боялся - 👁👁👁👁👁👁 bf16!

Собственно тюним тут очередную модель, чтобы использовать её в качестве базовой в своих сервисах.
И тут с самого начала напрягает высокий grad_norm, а потом train_loss улетает в небеса или же наоборот падает в NaN.
На картинке: синим - нормальный график. Зеленым и фиолетовым, очевидно, - плохой.

Это явные признаки переполнения fp16 или bf16.
В данном случае мы слишком сильно увеличили количество семплов в одном батче за счет высокого значения sample_packing_bin_size в axolotl и большого micro_batch_size.
В итоге точности bf16 не хватило и градиенты начали при делении вываливаться за границы. Разница между фиолетовым и зеленым в том, что в одном из них используется CutCrossEntropy, который, как можно заметить, не спасает от таких ситуаций.

Можно было бы перейти на tf32, но провал в скорости достаточно существенный, а гарантий того, что где-то в середине трейна вы опять не вывалитесь - нет.

В общем, следите за своими батчами - это тот самый случай, когда размер имеет значение.
Please open Telegram to view this post
VIEW IN TELEGRAM
2🤔11🔥954🤯2
EdTech, AI и HighLoad | Блог AK из Школково
ТБанк всё же решили пригласить меня. Ок, посмотрим, что там за турбо мл конфа такая.
Кстати зря они не захотели мой доклад в программу добавить.
Но ничего, доложимся здесь как-нибудь.
Как раз скоро закончится дообучение 24B модельки датасетом на 1.8 миллиарда токенов:

total_num_tokens: 1_883_343_244
total_supervised_tokens: 1_030_602_741
136🔥2👀11
В Тамбове внезапно ливень-ураган-апокалипсис.

На районе отключили электричество. Но это конечно же не повод откладывать дела - всё таки файнтюн моделей надо продолжать.

Сегодня попробовал взять в аренду 8x B200.
Это конечно же мощь!
Axolotl правда поломали в последних версиях всё, что только можно. Поэтому пришлось запустить простой народный trl - с ним всё ок тюнится, хоть и не так эффективно упаковывается и нет специальных ядер для lora.
🔥7👍4👀311
Если ваши рабочие совещания не проходят так - даже не зовите меня
25🔥7👍1
Сегодня был на встрече с представителями Фонда «Сколково», а именно с руководителем направления по инновационной инфраструктуре Департамента регионального развития. Организатором выступил ИТ-Технопарк Миэлта.
Для меня эта встреча была особенно любопытна, так как я присутствовал там в интересах разрабатываемого нами сейчас проекта AIChief – систему для легкой комплексной автоматизации бизнеса с помощью ИИ. Обсудили потенциальные возможности для сотрудничества, поддержки и развития инновационных проектов. Было интересно узнать о планах, программах и мерах поддержки со стороны Сколково, которые могут быть полезны для таких стартапов, как наш.
Раньше я скептически относился ко всем фондам, включая Сколково. Но судя по всему лёд тронулся и подходы там начали меняться к лучшему. Есть смысл рассмотреть сотрудничество с ними.

Такие дела ^_^

PS: Пост на 90% написан с помощью Zero-Mistral-beta55
17🔥103👍22
Прибыл на Turbo ML Conf. Пока слушал доклады - досчитал одну из последних итераций Zero-Mistral. Результат радует, но всё ещё не все трюки опробованы.

Продолжаем работать
8🔥832
Между тем, замечен @singularityfm не на сцене.
ТБанк выпустил новый T-Pro-it-2.0 на основе Qwen3-32B.
Пообщался про ризонинг и подходы в обучении с Анатолием Потаповым, который принимал активное участие в разработке этой модели. Оказалось, что наши подходы к трейну во многих моментах совпадают.
Ну и приятно, что Анатолий знает про наш Zero-Mistral 😎
29107🔥5
Media is too big
VIEW IN TELEGRAM
👀Зачем мы обучаем нейросети?

Записал небольшой рилс и тут поясню немного подробнее текстом.
Существуют всем известные "швейцарские ножи" в виде ChatGPT, DeepSeek, Claude, Gemini, Qwen.
Но если рассматривать облачные решения, то тут возникает сразу несколько вопросов:
1. Офлайн-работа и закрытый контур.
2. Конфиденциальность (мало кто захочет отправлять свои данные в недружественные страны).
3. Тонкий файнтюн (да, в некоторых облачных решениях он есть, но речь именно о тонкой донастройке).
4. Конечная стоимость эксплуатации.
5. Зависимость от сторонних решений.

Чтобы решить все эти проблемы - можно взять открытую модель и использовать её. Однако во многих open-source #LLM есть проблемы с пониманием русского языка.
Мы сейчас активно разрабатываем свои AI сервисы, в том числе для платформы Школково.
Логичным решением было взять для основы модели VikhrModels. На момент начала разработки самой "умной" моделью был Vikhr-Nemo-12B. Это действительно хорошая модель, но на некоторых задачах сказывался её размер.
Поскольку Vikhr-Nemo основан на семействе моделей Mistral - наш выбор логично пал на чуть более свежую и вдвое большую модель Mistral-Small-24B.
Далее мы составили большой русский датасет для обучения и так появилась первая версия Zero-Mistral-24B.

Почему 24B? Модель получается достаточно умной, но в то же время помещается в Q8 на 5090 или двух 4090, имея при этом достаточную производительность.

В результате у нас вышла неплохая модель с достаточным для наших задач пониманием русского языка. В своих проектах мы используем её и "как есть", и частенько тюним небольшие LoRa адаптеры под узкие задачи. Стоит отметить, что именно донастроенная на русский язык версия тюнится гораздо лучше оригинального Mistral-Small.

Сейчас же у нас в работе ряд экспериментов, в том числе:
- Новая версия Zero-Mistral на Mistral-Small-3.2 (для нетерпеливых есть beta57 и beta60 с MERA 0.641 и 0.640).
- Эксперименты с гибридным ризонингом на основе Mistral-Small. Мне не очень нравится, как работает Magistral - есть основания полагать, что подход Qwen3 будет успешнее.
- Эксперименты с маленькими немотронами и контекстом в 1M.
- Draft модель для Zero-Mistral, которая в теории должна сильно ускорить инференс, но на практике пока что это ускорение выходит обслуживать дороже, чем просто накинуть дополнительных GPU. Работы ещё ведём, надеюсь получится добиться нужного результата.
- Эксперименты с Qwen3-14b - хочется повторить успех T-Pro-it-2.0 на меньшем размере модели.
- Эксперименты с Gemma-3-12b и Gemma-3n для стабильной поддержки function calling.
- Новые синтетические русскоязычные датасеты для Reasoning, function calling и instruction following.

Большую часть наших моделей и датасетов мы выкладываем в open-source, потому что верим, что это поможет не только нам, но и всему сообществу в целом.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1454👍1
2025/10/11 17:57:06
Back to Top
HTML Embed Code: