Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
8 - Telegram Web
Telegram Web
Релиз GigaChat MAX! (ссылка на Хабр)

Салют! Мы открываем доступ к модели GigaChat MAX. Модель доступна в @gigachat_bot, в веб-версии и через публичное API (в режиме раннего доступа).

- GigaChat MAX занимает 3 место в бенчмарке MERA. Сразу за gpt-4o и Llama-405B.
- GigaChat-Max достигает 92% правильных ответов на GSM-8k, 80% на MMLU и 75% на MMLU-RU.
- По результатам SBS, где учитывается красота ответов, мы выигрываем в 61% случаев у GPT-4 turbo и в 67% случаев у YaGPT-4 Pro.
- В Arena-Hard мы достигаем 51% скора против GPT-4-0314
- В Vkhr Arena-General-RU мы достигаем 90%, в то время как YaGPT-4 Pro достигает 59%.

Чтобы узнать про то, как мы делали модель, переходите на статью в хабре.

Предыдущие посты:
GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов
Please open Telegram to view this post
VIEW IN TELEGRAM
Как устроена современная команда предобучения больших языковых моделей?

Создание современных больших языковых моделей, таких как GigaChat, GPT-4 и других, требует колоссальных вычислительных ресурсов и усилий целых инженерных команд. Например, обучение модели Llama 3 использует кластер из 24 576 GPU H100 (правда учили на 16384). Если вы захотите арендовать такой кластер, это обойдется примерно в $1,5-2 миллиона в день! В этом посте мы расскажем, какие задачи решают команды, занимающиеся предобучением (pretrain) языковых моделей, и почему их работа имеет критическое значение.

Есть набор очевидных задач, которыми занимаются все ML команды: это подготовка данных и настройка гиперпараметров модели. Но помимо этого, команда pretrain-ов работает над:

🔸 Проверкой гипотез по улучшению обучения: от введения новых стадий предобучения до поиска оптимального LR планировщика
🔸 Оптимизацией распределенного обучения
🔸 Профилированием и поиском узких мест
🔸 Тестированием новых архитектур
🔸 Мониторингом и оценкой качества обучения

Отдельное внимание уделяется оптимизации кодовой базы для обучения. На это сейчас нацелены все компании, использующие локальные LLM-модели. Некоторые из них даже продают инструменты для быстрого обучения (например, Unsloth).

Может показаться, что с учетом огромных инвестиций в область больших языковых моделей все уже давно оптимизировано. Однако отличным примером обратного является ускорение командой PyTorch одного из самых известных и используемых методов параллелизма - Tensor Parallel (TP).

Главная особенность ускорения в том, что теперь передача данных между узлами и вычисления на них выполняются одновременно, что существенно ускоряет процесс обучения. Вместо того чтобы ждать загрузки всех весов до начала вычислений, система может начать работу с части данных, параллельно подгружая остальные. Именно за счет этого новый метод получил название Async-TP.

Хотя подобный алгоритм обсуждался еще с 2022 года, его эффективная реализация на CUDA была непростой задачей. Предлагаем вам ознакомиться с полным блог-постом, если интересны технические детали.

PyTorch-реализация асинхронного тензорного параллелизма Async-TP позволила:
• Ускорить прямой проход (forward pass) на 29%
• Повысить общую скорость обучения модели Llama 3 7B на 8%

Async-TP использует CUDA P2P для оптимизации передачи данных. При наличии NVSwitch это позволяет практически полностью скрыть задержки межгрупповых коммуникаций.

Поздравляем коллег из PyTorch с этим замечательным результатом! Такие оптимизации критически важны — без них обучение даже базовых моделей растянулось бы на многие годы и стоило бы кратно дороже, чем сейчас.

Мы в GigaChat уделяем много времени оптимизациям обучения и расскажем о том, где и как их применяем, в следующих постах! 🚀
📢 Обновления в GigaChat: Улучшенная работа с документами!

Разрабатывая взаимодействие GigaСhat с документами, мы:
расширили внутренние пайплайны и наборы инструментов работы с документами. В результате в GigaChat появилась поддержка новых форматов — теперь вы можете работать с файлами формата .txt, .pdf, .doc, .docx и .epub. Скоро будет доступна поддержка .pptx.
изменили и оптимизировали внутреннюю архитектуру работы с документами, благодаря чему увеличили скорость обработки больших документов.
добавили работу с документами во все внешние интерфейсы GigaChat. Обновления уже доступны в наших продуктах для бизнеса, включая GigaChat API, а также в веб версиях и приложениях Telegram и VK.

Об этом и о том, как мы работаем с документами для GigaChat, можно посмотреть в небольшой заметке на telegra.ph.

Попробуйте работу GigaChat с документами прямо сейчас и делитесь своим опытом использования обновленного сервиса! 😊
Салют, GigaChat! Технологии искусственного интеллекта

Приглашаем всех инженеров и разработчиков, которые работают с ML/AI, на нашу конференцию.

📆 17 декабря, 12:30 (МСК, GMT+3)
📍 Офлайн в Москве и онлайн по всей России

В программе 9 докладов о трёх направлениях нашей разработки: Text, Vision и Audio.

Вы узнаете, как настраивать среду разработки и создавать ИИ-агентов, подключаемых к реальному миру. Работать с моделями на этапах pretrain, alignment, fine-tuning. Увидите новые фреймворки и подходы к обучению LLM синтезировать речь, воспринимать звуковую и визуальную информацию. Узнаете о способах лучше фильтровать данные, работать с длинным контекстом, быстро обучать очень большие модели. И всё это на примере новых и самых мощных моделей GigaChat.

Это далеко не весь перечень тем, подробная программа и регистрация уже на сайте.

Количество мест в офлайне ограничено. Для участия нужно зарегистрироваться и дождаться, когда вам придёт письмо-приглашение.

Зарегистрироваться

Ждём ваши заявки и до встречи!
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/06/27 13:55:09
Back to Top
HTML Embed Code: