8 - Telegram Web

Channel created

15:05

Channel photo updated

15:06

Релиз GigaChat MAX! (ссылка на Хабр)

Салют! Мы открываем доступ к модели GigaChat MAX. Модель доступна в @gigachat_bot, в веб-версии и через публичное API (в режиме раннего доступа).

- GigaChat MAX занимает 3 место в бенчмарке MERA. Сразу за gpt-4o и Llama-405B.
- GigaChat-Max достигает 92% правильных ответов на GSM-8k, 80% на MMLU и 75% на MMLU-RU.
- По результатам SBS, где учитывается красота ответов, мы выигрываем в 61% случаев у GPT-4 turbo и в 67% случаев у YaGPT-4 Pro.
- В Arena-Hard мы достигаем 51% скора против GPT-4-0314
- В Vkhr Arena-General-RU мы достигаем 90%, в то время как YaGPT-4 Pro достигает 59%.

Чтобы узнать про то, как мы делали модель, переходите на статью в хабре.

Предыдущие посты:
— GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
— GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов

giga.chat

GigaChat — русскоязычная нейросеть от Сбера

Мультимодальная версия нейросети от Сбера. Она умеет отвечать на вопросы пользователей, поддерживать диалог, создавать тексты и картинки на основе описаний

18.7K views10:29

GigaDev — разработка GigaChat

Please open Telegram to view this post

VIEW IN TELEGRAM

3.0K viewsedited 15:05

GigaDev — разработка GigaChat

Как устроена современная команда предобучения больших языковых моделей?

Создание современных больших языковых моделей, таких как GigaChat, GPT-4 и других, требует колоссальных вычислительных ресурсов и усилий целых инженерных команд. Например, обучение модели Llama 3 использует кластер из 24 576 GPU H100 (правда учили на 16384). Если вы захотите арендовать такой кластер, это обойдется примерно в $1,5-2 миллиона в день! В этом посте мы расскажем, какие задачи решают команды, занимающиеся предобучением (pretrain) языковых моделей, и почему их работа имеет критическое значение.

Есть набор очевидных задач, которыми занимаются все ML команды: это подготовка данных и настройка гиперпараметров модели. Но помимо этого, команда pretrain-ов работает над:

🔸 Проверкой гипотез по улучшению обучения: от введения новых стадий предобучения до поиска оптимального LR планировщика
🔸 Оптимизацией распределенного обучения
🔸 Профилированием и поиском узких мест
🔸 Тестированием новых архитектур
🔸 Мониторингом и оценкой качества обучения

Отдельное внимание уделяется оптимизации кодовой базы для обучения. На это сейчас нацелены все компании, использующие локальные LLM-модели. Некоторые из них даже продают инструменты для быстрого обучения (например, Unsloth).

Может показаться, что с учетом огромных инвестиций в область больших языковых моделей все уже давно оптимизировано. Однако отличным примером обратного является ускорение командой PyTorch одного из самых известных и используемых методов параллелизма - Tensor Parallel (TP).

Главная особенность ускорения в том, что теперь передача данных между узлами и вычисления на них выполняются одновременно, что существенно ускоряет процесс обучения. Вместо того чтобы ждать загрузки всех весов до начала вычислений, система может начать работу с части данных, параллельно подгружая остальные. Именно за счет этого новый метод получил название Async-TP.

Хотя подобный алгоритм обсуждался еще с 2022 года, его эффективная реализация на CUDA была непростой задачей. Предлагаем вам ознакомиться с полным блог-постом, если интересны технические детали.

PyTorch-реализация асинхронного тензорного параллелизма Async-TP позволила:
• Ускорить прямой проход (forward pass) на 29%
• Повысить общую скорость обучения модели Llama 3 7B на 8%

Async-TP использует CUDA P2P для оптимизации передачи данных. При наличии NVSwitch это позволяет практически полностью скрыть задержки межгрупповых коммуникаций.

Поздравляем коллег из PyTorch с этим замечательным результатом! Такие оптимизации критически важны — без них обучение даже базовых моделей растянулось бы на многие годы и стоило бы кратно дороже, чем сейчас.

Мы в GigaChat уделяем много времени оптимизациям обучения и расскажем о том, где и как их применяем, в следующих постах! 🚀

PyTorch Forums

[Distributed w/ TorchTitan] Introducing Async Tensor Parallelism in PyTorch

with Horace He, Less Wright, Luca Wehrstedt, Tianyu Liu, Wanchao Liang TL;DR We implemented experimental async tensor parallelism support in PyTorch. We integrated it in TorchTitan and observed: Up to ~29% forward pass speedup and ~8% E2E speedup in Llama3…

2.9K viewsedited 12:56

GigaDev — разработка GigaChat

📢 Обновления в GigaChat: Улучшенная работа с документами!

Разрабатывая взаимодействие GigaСhat с документами, мы:
✨ расширили внутренние пайплайны и наборы инструментов работы с документами. В результате в GigaChat появилась поддержка новых форматов — теперь вы можете работать с файлами формата .txt, .pdf, .doc, .docx и .epub. Скоро будет доступна поддержка .pptx.
✨ изменили и оптимизировали внутреннюю архитектуру работы с документами, благодаря чему увеличили скорость обработки больших документов.
✨ добавили работу с документами во все внешние интерфейсы GigaChat. Обновления уже доступны в наших продуктах для бизнеса, включая GigaChat API, а также в веб версиях и приложениях Telegram и VK.

Об этом и о том, как мы работаем с документами для GigaChat, можно посмотреть в небольшой заметке на telegra.ph.

Попробуйте работу GigaChat с документами прямо сейчас и делитесь своим опытом использования обновленного сервиса! 😊

Telegraph

📄 GigaChat: Новые возможности и улучшения работы с документами

Мы рады сообщить, что в GigaChat теперь доступны новые функции для работы с документами! 🎉 ✨ Поддержка новых форматов: Теперь вы можете работать с файлами формата .txt, .pdf, .doc, .docx и .epub. Скоро будет доступна поддержка .pptx. 👥 Доступность: Эти обновления…

3.4K views12:08

GigaDev — разработка GigaChat

Салют, GigaChat! Технологии искусственного интеллекта

Приглашаем всех инженеров и разработчиков, которые работают с ML/AI, на нашу конференцию.

📆

17 декабря, 12:30 (МСК, GMT+3)

📍

Офлайн в Москве и онлайн по всей России

В программе 9 докладов о трёх направлениях нашей разработки: Text, Vision и Audio.

Вы узнаете, как настраивать среду разработки и создавать ИИ-агентов, подключаемых к реальному миру. Работать с моделями на этапах pretrain, alignment, fine-tuning. Увидите новые фреймворки и подходы к обучению LLM синтезировать речь, воспринимать звуковую и визуальную информацию. Узнаете о способах лучше фильтровать данные, работать с длинным контекстом, быстро обучать очень большие модели. И всё это на примере новых и самых мощных моделей GigaChat.

Это далеко не весь перечень тем, подробная программа и регистрация уже на сайте.

Количество мест в офлайне ограничено. Для участия нужно зарегистрироваться и дождаться, когда вам придёт письмо-приглашение.

➡

Зарегистрироваться

Ждём ваши заявки и до встречи!

Please open Telegram to view this post

VIEW IN TELEGRAM

5.2K views12:15

2025/06/27 13:55:09
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>