Warning: file_put_contents(aCache/aDaily/post/neural/-10069-10070-10071-10072-10069-): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
Neural Networks | Нейронные сети@neural P.10072
NEURAL Telegram 10072
Forwarded from Machinelearning
⚡️ 5Gemma: новая коллекция энкодер-декодер моделей от Google.

Инженеры Google DeepMind решили вдохнуть новую жизнь в классический подход «энкодер-декодер» выпустив семейство моделей T5Gemma.

Главная интрига заключается не в том, что они сделали, а в том, как. Вместо того чтобы обучать модели с нуля, они разработали метод «адаптации»: взяли уже готовую и предобученную модель-декодер Gemma 2 и, по сути, пересобрали ее в двухкомпонентную энкодер-декодерную архитектуру.

Метод открыл дорогу для интересных экспериментов. Например, стало возможно создавать «несбалансированные» модели, комбинируя большой энкодер с маленьким декодером, скажем, 9-миллиардный энкодер и 2-миллиардный декодер.

Такая конфигурация идеальна для задач суммаризации, где глубокое понимание исходного текста (работа энкодера) гораздо важнее, чем генерация сложного и витиеватого ответа (работа декодера). Это дает инженерам гибкий инструмент для тонкой настройки баланса между качеством и скоростью работы.

🟡Но самое важное - прирост в производительности.

На тестах T5Gemma показывает результаты на уровне или даже лучше своих «однокомпонентных» аналогов. Асимметричная модель T5Gemma 9B-2B демонстрирует значительно более высокую точность, чем базовая Gemma 2 2B, но при этом скорость инференса у них почти идентична.

Даже сбалансированная T5Gemma 9B-9B оказывается точнее, чем Gemma 2 9B, при сопоставимой задержке. Это прямое доказательство того, что двухкомпонентная архитектура может быть и умнее, и эффективнее.

T5Gemma показывает впечатляющий рост в задачах, требующих логических рассуждений. Например, на математическом тесте GSM8K модель T5Gemma 9B-9B набирает на 9 баллов больше, чем Gemma 2 9B.

Эффект становится еще более выраженным после инструктивной донастройки. Здесь разрыв в производительности резко увеличивается: на бенчмарке MMLU модель T5Gemma 2B-2B IT опережает аналог Gemma 2 2B IT почти на 12 баллов.

🟡Google выложила в открытый доступ целую линейку чекпойнтов:

🟢T5 (Small, Base, Large, XL) на базе Gemma (2B, 9B);

🟢«Несбалансированную» версию 9B-2B для экспериментов;

🟢Модели с разными целями обучения (PrefixLM для генерации, UL2 для качества представлений).


🔜 Попробовать возможности T5Gemma или настроить их под свои нужды можно с помощью блокнота Colab. Модели также доступны в Vertex AI.


📌Лицензирование: Gemma License.


🟡T5gemma: https://developers.googleblog.com/en/t5gemma/
🟡Статья: https://arxiv.org/abs/2504.06225
🟡Скачать модель: https://huggingface.co/collections/google/t5gemma-686ba262fe290b881d21ec86

@ai_machinelearning_big_data

#AI #ML #T5Gemma #Google
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/neural/10072
Create:
Last Update:

⚡️ 5Gemma: новая коллекция энкодер-декодер моделей от Google.

Инженеры Google DeepMind решили вдохнуть новую жизнь в классический подход «энкодер-декодер» выпустив семейство моделей T5Gemma.

Главная интрига заключается не в том, что они сделали, а в том, как. Вместо того чтобы обучать модели с нуля, они разработали метод «адаптации»: взяли уже готовую и предобученную модель-декодер Gemma 2 и, по сути, пересобрали ее в двухкомпонентную энкодер-декодерную архитектуру.

Метод открыл дорогу для интересных экспериментов. Например, стало возможно создавать «несбалансированные» модели, комбинируя большой энкодер с маленьким декодером, скажем, 9-миллиардный энкодер и 2-миллиардный декодер.

Такая конфигурация идеальна для задач суммаризации, где глубокое понимание исходного текста (работа энкодера) гораздо важнее, чем генерация сложного и витиеватого ответа (работа декодера). Это дает инженерам гибкий инструмент для тонкой настройки баланса между качеством и скоростью работы.

🟡Но самое важное - прирост в производительности.

На тестах T5Gemma показывает результаты на уровне или даже лучше своих «однокомпонентных» аналогов. Асимметричная модель T5Gemma 9B-2B демонстрирует значительно более высокую точность, чем базовая Gemma 2 2B, но при этом скорость инференса у них почти идентична.

Даже сбалансированная T5Gemma 9B-9B оказывается точнее, чем Gemma 2 9B, при сопоставимой задержке. Это прямое доказательство того, что двухкомпонентная архитектура может быть и умнее, и эффективнее.

T5Gemma показывает впечатляющий рост в задачах, требующих логических рассуждений. Например, на математическом тесте GSM8K модель T5Gemma 9B-9B набирает на 9 баллов больше, чем Gemma 2 9B.

Эффект становится еще более выраженным после инструктивной донастройки. Здесь разрыв в производительности резко увеличивается: на бенчмарке MMLU модель T5Gemma 2B-2B IT опережает аналог Gemma 2 2B IT почти на 12 баллов.

🟡Google выложила в открытый доступ целую линейку чекпойнтов:

🟢T5 (Small, Base, Large, XL) на базе Gemma (2B, 9B);

🟢«Несбалансированную» версию 9B-2B для экспериментов;

🟢Модели с разными целями обучения (PrefixLM для генерации, UL2 для качества представлений).


🔜 Попробовать возможности T5Gemma или настроить их под свои нужды можно с помощью блокнота Colab. Модели также доступны в Vertex AI.


📌Лицензирование: Gemma License.


🟡T5gemma: https://developers.googleblog.com/en/t5gemma/
🟡Статья: https://arxiv.org/abs/2504.06225
🟡Скачать модель: https://huggingface.co/collections/google/t5gemma-686ba262fe290b881d21ec86

@ai_machinelearning_big_data

#AI #ML #T5Gemma #Google

BY Neural Networks | Нейронные сети







Share with your friend now:
tgoop.com/neural/10072

View MORE
Open in Telegram


Telegram News

Date: |

During the meeting with TSE Minister Edson Fachin, Perekopsky also mentioned the TSE channel on the platform as one of the firm's key success stories. Launched as part of the company's commitments to tackle the spread of fake news in Brazil, the verified channel has attracted more than 184,000 members in less than a month. Joined by Telegram's representative in Brazil, Alan Campos, Perekopsky noted the platform was unable to cater to some of the TSE requests due to the company's operational setup. But Perekopsky added that these requests could be studied for future implementation. Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau. fire bomb molotov November 18 Dylan Hollingsworth yau ma tei With the sharp downturn in the crypto market, yelling has become a coping mechanism for many crypto traders. This screaming therapy became popular after the surge of Goblintown Ethereum NFTs at the end of May or early June. Here, holders made incoherent groaning sounds in late-night Twitter spaces. They also role-played as urine-loving Goblin creatures.
from us


Telegram Neural Networks | Нейронные сети
FROM American