MACHINELEARNING_RU Telegram 2161
Forwarded from Machinelearning
🌟 Athene-V2: диалоговая и агентная модели от Nexusflow с 72 млрд. параметров.

Nexusflow представила семейство Athene-V2 из двух специализированных моделей: Athene-V2-Chat-72B, оптимизированную для чат-диалогов, и Athene-V2-Agent-72B, предназначенную для работы в качестве агента.

Обе модели построены на базе Qwen 2.5-72B-Instruct. Ключевая особенность Athene-V2 - концепция "границы Парето" в постобработке LLM.

По мере обучения модели с помощью RLHF на качественных данных достигается оптимальный баланс между метриками производительности, формируя "границу Парето". Дальнейшее улучшение отдельных характеристик становится возможным только за счет снижения других показателей.

Athene-V2-Chat-72B демонстрирует конкурентоспособные результаты по сравнению с GPT-4o в бенчмарках, превосходя его в задачах чата (Arena-Hard), завершения кода (bigcode-bench-hard) и математических задачах (MATH).

Athene-V2-Agent-72B превосходит GPT-4o в бенчмарках Nexus-V2, ориентированных на сложные сценарии вызова функций в корпоративной среде.

Athene-V2-Chat-72B использует шаблон чата Qwen2.5-72B-Instruct. Пример инференса с помощью библиотеки Transformers.

Athene-V2-Agent-72B можно использовать в любой совместимой с OpenAI API среде с помощью docker-образа VLLM. Примеры запуска погодного и RAG-агента.

⚠️ Athene-V2-Agent использует уникальный стиль промптов, который включен в docker-образ, поскольку исполняемые вызовы извлекаются из сгенерированного планирования модели.
Использование шаблона чата HuggingFace приведет к неоптимальным результатам в случае использования Athene-V2-Agent .

▶️На HF доступны неофициальные квантованные версии в формате GGUF c диапазоном разрядности от 3 до 8 bit:

🟠Athene-V2-Chat-72B

🟠Athene-V2-Agent-72B


📌Лицензирование: Nexusflow Research License


🟡Страница проекта
🟡Набор моделей
🟡Сообщество в Discord


@ai_machinelearning_big_data

#AI #ML #LLM #AtheneV2 #Nexusflow
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥21🥰1



tgoop.com/machinelearning_ru/2161
Create:
Last Update:

🌟 Athene-V2: диалоговая и агентная модели от Nexusflow с 72 млрд. параметров.

Nexusflow представила семейство Athene-V2 из двух специализированных моделей: Athene-V2-Chat-72B, оптимизированную для чат-диалогов, и Athene-V2-Agent-72B, предназначенную для работы в качестве агента.

Обе модели построены на базе Qwen 2.5-72B-Instruct. Ключевая особенность Athene-V2 - концепция "границы Парето" в постобработке LLM.

По мере обучения модели с помощью RLHF на качественных данных достигается оптимальный баланс между метриками производительности, формируя "границу Парето". Дальнейшее улучшение отдельных характеристик становится возможным только за счет снижения других показателей.

Athene-V2-Chat-72B демонстрирует конкурентоспособные результаты по сравнению с GPT-4o в бенчмарках, превосходя его в задачах чата (Arena-Hard), завершения кода (bigcode-bench-hard) и математических задачах (MATH).

Athene-V2-Agent-72B превосходит GPT-4o в бенчмарках Nexus-V2, ориентированных на сложные сценарии вызова функций в корпоративной среде.

Athene-V2-Chat-72B использует шаблон чата Qwen2.5-72B-Instruct. Пример инференса с помощью библиотеки Transformers.

Athene-V2-Agent-72B можно использовать в любой совместимой с OpenAI API среде с помощью docker-образа VLLM. Примеры запуска погодного и RAG-агента.

⚠️ Athene-V2-Agent использует уникальный стиль промптов, который включен в docker-образ, поскольку исполняемые вызовы извлекаются из сгенерированного планирования модели.
Использование шаблона чата HuggingFace приведет к неоптимальным результатам в случае использования Athene-V2-Agent .

▶️На HF доступны неофициальные квантованные версии в формате GGUF c диапазоном разрядности от 3 до 8 bit:

🟠Athene-V2-Chat-72B

🟠Athene-V2-Agent-72B


📌Лицензирование: Nexusflow Research License


🟡Страница проекта
🟡Набор моделей
🟡Сообщество в Discord


@ai_machinelearning_big_data

#AI #ML #LLM #AtheneV2 #Nexusflow

BY Машинное обучение RU






Share with your friend now:
tgoop.com/machinelearning_ru/2161

View MORE
Open in Telegram


Telegram News

Date: |

When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name. With the administration mulling over limiting access to doxxing groups, a prominent Telegram doxxing group apparently went on a "revenge spree." Activate up to 20 bots How to create a business channel on Telegram? (Tutorial) Judge Hui described Ng as inciting others to “commit a massacre” with three posts teaching people to make “toxic chlorine gas bombs,” target police stations, police quarters and the city’s metro stations. This offence was “rather serious,” the court said.
from us


Telegram Машинное обучение RU
FROM American