MACHINELEARNING_RU Telegram 2163
Forwarded from Machinelearning
🌟 Athene-V2: диалоговая и агентная модели от Nexusflow с 72 млрд. параметров.

Nexusflow представила семейство Athene-V2 из двух специализированных моделей: Athene-V2-Chat-72B, оптимизированную для чат-диалогов, и Athene-V2-Agent-72B, предназначенную для работы в качестве агента.

Обе модели построены на базе Qwen 2.5-72B-Instruct. Ключевая особенность Athene-V2 - концепция "границы Парето" в постобработке LLM.

По мере обучения модели с помощью RLHF на качественных данных достигается оптимальный баланс между метриками производительности, формируя "границу Парето". Дальнейшее улучшение отдельных характеристик становится возможным только за счет снижения других показателей.

Athene-V2-Chat-72B демонстрирует конкурентоспособные результаты по сравнению с GPT-4o в бенчмарках, превосходя его в задачах чата (Arena-Hard), завершения кода (bigcode-bench-hard) и математических задачах (MATH).

Athene-V2-Agent-72B превосходит GPT-4o в бенчмарках Nexus-V2, ориентированных на сложные сценарии вызова функций в корпоративной среде.

Athene-V2-Chat-72B использует шаблон чата Qwen2.5-72B-Instruct. Пример инференса с помощью библиотеки Transformers.

Athene-V2-Agent-72B можно использовать в любой совместимой с OpenAI API среде с помощью docker-образа VLLM. Примеры запуска погодного и RAG-агента.

⚠️ Athene-V2-Agent использует уникальный стиль промптов, который включен в docker-образ, поскольку исполняемые вызовы извлекаются из сгенерированного планирования модели.
Использование шаблона чата HuggingFace приведет к неоптимальным результатам в случае использования Athene-V2-Agent .

▶️На HF доступны неофициальные квантованные версии в формате GGUF c диапазоном разрядности от 3 до 8 bit:

🟠Athene-V2-Chat-72B

🟠Athene-V2-Agent-72B


📌Лицензирование: Nexusflow Research License


🟡Страница проекта
🟡Набор моделей
🟡Сообщество в Discord


@ai_machinelearning_big_data

#AI #ML #LLM #AtheneV2 #Nexusflow
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥21🥰1



tgoop.com/machinelearning_ru/2163
Create:
Last Update:

🌟 Athene-V2: диалоговая и агентная модели от Nexusflow с 72 млрд. параметров.

Nexusflow представила семейство Athene-V2 из двух специализированных моделей: Athene-V2-Chat-72B, оптимизированную для чат-диалогов, и Athene-V2-Agent-72B, предназначенную для работы в качестве агента.

Обе модели построены на базе Qwen 2.5-72B-Instruct. Ключевая особенность Athene-V2 - концепция "границы Парето" в постобработке LLM.

По мере обучения модели с помощью RLHF на качественных данных достигается оптимальный баланс между метриками производительности, формируя "границу Парето". Дальнейшее улучшение отдельных характеристик становится возможным только за счет снижения других показателей.

Athene-V2-Chat-72B демонстрирует конкурентоспособные результаты по сравнению с GPT-4o в бенчмарках, превосходя его в задачах чата (Arena-Hard), завершения кода (bigcode-bench-hard) и математических задачах (MATH).

Athene-V2-Agent-72B превосходит GPT-4o в бенчмарках Nexus-V2, ориентированных на сложные сценарии вызова функций в корпоративной среде.

Athene-V2-Chat-72B использует шаблон чата Qwen2.5-72B-Instruct. Пример инференса с помощью библиотеки Transformers.

Athene-V2-Agent-72B можно использовать в любой совместимой с OpenAI API среде с помощью docker-образа VLLM. Примеры запуска погодного и RAG-агента.

⚠️ Athene-V2-Agent использует уникальный стиль промптов, который включен в docker-образ, поскольку исполняемые вызовы извлекаются из сгенерированного планирования модели.
Использование шаблона чата HuggingFace приведет к неоптимальным результатам в случае использования Athene-V2-Agent .

▶️На HF доступны неофициальные квантованные версии в формате GGUF c диапазоном разрядности от 3 до 8 bit:

🟠Athene-V2-Chat-72B

🟠Athene-V2-Agent-72B


📌Лицензирование: Nexusflow Research License


🟡Страница проекта
🟡Набор моделей
🟡Сообщество в Discord


@ai_machinelearning_big_data

#AI #ML #LLM #AtheneV2 #Nexusflow

BY Машинное обучение RU






Share with your friend now:
tgoop.com/machinelearning_ru/2163

View MORE
Open in Telegram


Telegram News

Date: |

The court said the defendant had also incited people to commit public nuisance, with messages calling on them to take part in rallies and demonstrations including at Hong Kong International Airport, to block roads and to paralyse the public transportation system. Various forms of protest promoted on the messaging platform included general strikes, lunchtime protests and silent sit-ins. Telegram users themselves will be able to flag and report potentially false content. Telegram iOS app: In the “Chats” tab, click the new message icon in the right upper corner. Select “New Channel.” “[The defendant] could not shift his criminal liability,” Hui said. As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.”
from us


Telegram Машинное обучение RU
FROM American