Warning: file_put_contents(aCache/aDaily/post/data_math/-421-422-423-421-): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
Математика Дата саентиста@data_math P.422
DATA_MATH Telegram 422
Forwarded from Machinelearning
🌟 Lite Oute 2 Mamba2Attn: базовая и инструктивная SLM на архитектуре Mamba2.


OuteAI выпустила второе поколение легких моделей на 250М параметров каждая :

🟢 Lite Oute 2 Mamba2Attn 250M Base
🟢 Lite Oute 2 Mamba2Attn 250M-Instruct

В модели интегрирован механизм Mamba2Attn - усовершенствованный метод внимания, который повышает способность модели фокусироваться на важных частях входных данных. Этот механизм особенно полезен для задач NLP, требующих понимания сложных закономерностей или взаимосвязей в данных.

Интегрировав Mamba2Attn, разработчикам удалось сохранить релевантную для своего класса малых моделей производительность, уменьшив при этом ее размер и вычислительные требования.

Базовая модель была обучена на 30 миллиардах токенов из корпуса данных, структура которого - 50% датасета dclm-baseline-1.0 b 50% fineweb-edu. Инструктивная версия прошла дообучение с SFT и DPO.

Обе модели имеют 4 слоя внимания из общего количества 32, такая конфигурация позволяет минимизировать потери при проверке, что подтверждено исследованием о соотношении слоев самовнимания к MLP.

▶️ Рекомендованные параметры для Instruct - модели:

🟢Temperature: 0.1 - 0.4
🟢Repetition Penalty: 1.10 - 1.12

▶️Ограничения:

🟠Непоследовательная точность. Примите во внимание, что обе модели - малого размера, инференс в некорорых задачах может быть неполным или неточным;
🟠Отсутствие глубины контекста. В некоторых задачах, модели могут не соответствовать ожиданиям глубины запоминания контекста;
🟠Баланс лаконичности. Модель иногда испытывает трудности с балансом между краткостью и детализацией, давая либо слишком краткие ответы, либо излишне повторяя заданную информацию.


📌Лицензирование : Apache 2.0 License


🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Сообщество в Discord


@ai_machinelearning_big_data

#AI #SLM #Mamba2 #ML #Oute
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍2🔥2🤩1



tgoop.com/data_math/422
Create:
Last Update:

🌟 Lite Oute 2 Mamba2Attn: базовая и инструктивная SLM на архитектуре Mamba2.


OuteAI выпустила второе поколение легких моделей на 250М параметров каждая :

🟢 Lite Oute 2 Mamba2Attn 250M Base
🟢 Lite Oute 2 Mamba2Attn 250M-Instruct

В модели интегрирован механизм Mamba2Attn - усовершенствованный метод внимания, который повышает способность модели фокусироваться на важных частях входных данных. Этот механизм особенно полезен для задач NLP, требующих понимания сложных закономерностей или взаимосвязей в данных.

Интегрировав Mamba2Attn, разработчикам удалось сохранить релевантную для своего класса малых моделей производительность, уменьшив при этом ее размер и вычислительные требования.

Базовая модель была обучена на 30 миллиардах токенов из корпуса данных, структура которого - 50% датасета dclm-baseline-1.0 b 50% fineweb-edu. Инструктивная версия прошла дообучение с SFT и DPO.

Обе модели имеют 4 слоя внимания из общего количества 32, такая конфигурация позволяет минимизировать потери при проверке, что подтверждено исследованием о соотношении слоев самовнимания к MLP.

▶️ Рекомендованные параметры для Instruct - модели:

🟢Temperature: 0.1 - 0.4
🟢Repetition Penalty: 1.10 - 1.12

▶️Ограничения:

🟠Непоследовательная точность. Примите во внимание, что обе модели - малого размера, инференс в некорорых задачах может быть неполным или неточным;
🟠Отсутствие глубины контекста. В некоторых задачах, модели могут не соответствовать ожиданиям глубины запоминания контекста;
🟠Баланс лаконичности. Модель иногда испытывает трудности с балансом между краткостью и детализацией, давая либо слишком краткие ответы, либо излишне повторяя заданную информацию.


📌Лицензирование : Apache 2.0 License


🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Сообщество в Discord


@ai_machinelearning_big_data

#AI #SLM #Mamba2 #ML #Oute

BY Математика Дата саентиста






Share with your friend now:
tgoop.com/data_math/422

View MORE
Open in Telegram


Telegram News

Date: |

4How to customize a Telegram channel? To view your bio, click the Menu icon and select “View channel info.” bank east asia october 20 kowloon The public channel had more than 109,000 subscribers, Judge Hui said. Ng had the power to remove or amend the messages in the channel, but he “allowed them to exist.” When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name.
from us


Telegram Математика Дата саентиста
FROM American