GONZO_ML Telegram 1559
[Google] PaLM 2 Technical Report
Авторов много, но я традиционно передаю Диме привет :)
Статья: https://ai.google/static/documents/palm2techreport.pdf
Пост в блоге: https://blog.google/technology/ai/google-palm-2-ai-large-language-model/

Вчера на Google I/O компания анонсировала свою новую модель PaLM 2. Это наследник модели PaLM с 540B параметров 2022 года (https://arxiv.org/abs/2204.02311), более вычислительно эффективный, меньший по размеру, но более качественный, а также мультиязычный с поддержкой более 100 языков, с хорошими способностями генерации кода и улучшенными способностями к reasoning’у.

Работа опубликована в формате похожем на GPT-4 (https://www.tgoop.com/gonzo_ML/1383), технический отчёт без технических деталей.

Что при этом можно сказать про модель?

Это трансформер, скорее всего только декодер, как и PaLM.

В работе снова фокус на скейлинге, авторы незавиcимо подтвердили наблюдения из работы про Шиншиллу (https://www.tgoop.com/gonzo_ML/1216), что с ростом вычислительного бюджета данные надо скейлить в той же пропорции, что и саму модель. И получили оценки оптимального размера модели под бюджет очень близкие к той работе. При этом на downstream задачах более крупная модель всё равно может быть лучше, чем оптимальная по лоссу предобучения.

Текстовый корпус для предобучения модели существенно больше, чем был у PaLM. При этом доля не-английского в нём увеличилась. Кроме монолингвальных неанглийских текстов, в обучение также добавили параллельные данные по сотням языков в паре с английским. Благодаря этому модель сходу может и переводить, как могут переводить и ChatGPT (https://www.tgoop.com/gonzo_ML/1405) с GPT-4 (https://www.tgoop.com/gonzo_ML/1413). Скоро померяем и для PaLM 2 (как только текущая модель в preview скорректирует свою паранойю про несоответствие запросов полиси). Но заявлено, что она уже лучше текущего Google Translate.

В целом для задач работы с языками модель выглядит очень интересно, и по пока не подкреплённому реальным опытом ощущению это должно быть лучше GPT-4 в реальных задачах, где нужен не только английский.

Модель была обучена на контекстах значительно большей длины, чем PaLM (там было 2048 токенов). В обучении используется смесь разных objectives аналогичная UL2 (https://www.tgoop.com/gonzo_ML/1113). Вероятно есть и какие-то архитектурные улучшения.

Проверялись на трёх вариантах размера модели: Small (S), Medium (M), и Large (L). Самая большая из них значительно меньше по размеру, чем 540B PaLM, но требует вычислений больше. В API при этом будет вынесено 4 разных модели: Gecko, Otter, Bison, Unicorn (самая большая). Gecko заявлено что будет влезать на мобильные устройства и работать там достаточно быстро в локальном режиме оффлайн. Предположу, что Gecko меньше Small. По умолчанию все результаты репортятся для модели Large. При этом ещё и делают усреднение по последним пяти чекпойнтам модели.

Продолжая традицию измерения качества моделей не на специальных датасетах, а на человеческих экзаменах, модель успешно проходит множество экзаменов на разных языках (за вычетом разговорной части), например, у неё проходной балл на Goethe-Zertifikat C2, “proving high-level German language ability”.

Хорошее улучшение относительно PaLM на английских задачах QA и классификации в 1-shot. Заметное улучшение на неанглийских.

Новые SoTA на reasoning, включая заметно побитый результат GPT-4. Есть также версия модели Flan-PaLM 2, зафайнтюненная на инструкциях. Она, например, лучше обычной PaLM 2 в математических задачах.

Для работы с кодом взяли PaLM 2-S (для интерактивности нужна быстрая небольшая модель) и продолжили обучение на специальном мультиязычном датасете, где много кода. Она обошла намного более тяжёлую и медленную PaLM-540B-Coder.

Генерацию оценивать сложно, но там модель тоже, похоже, хороша. Намного лучше PaLM.

Исследовали запоминание данных моделью, оно ниже, чем у PaLM, особенно если не было много повторов в исходных данных.

Отдельная большая часть работы про токсичность и Responsible AI.



tgoop.com/gonzo_ML/1559
Create:
Last Update:

[Google] PaLM 2 Technical Report
Авторов много, но я традиционно передаю Диме привет :)
Статья: https://ai.google/static/documents/palm2techreport.pdf
Пост в блоге: https://blog.google/technology/ai/google-palm-2-ai-large-language-model/

Вчера на Google I/O компания анонсировала свою новую модель PaLM 2. Это наследник модели PaLM с 540B параметров 2022 года (https://arxiv.org/abs/2204.02311), более вычислительно эффективный, меньший по размеру, но более качественный, а также мультиязычный с поддержкой более 100 языков, с хорошими способностями генерации кода и улучшенными способностями к reasoning’у.

Работа опубликована в формате похожем на GPT-4 (https://www.tgoop.com/gonzo_ML/1383), технический отчёт без технических деталей.

Что при этом можно сказать про модель?

Это трансформер, скорее всего только декодер, как и PaLM.

В работе снова фокус на скейлинге, авторы незавиcимо подтвердили наблюдения из работы про Шиншиллу (https://www.tgoop.com/gonzo_ML/1216), что с ростом вычислительного бюджета данные надо скейлить в той же пропорции, что и саму модель. И получили оценки оптимального размера модели под бюджет очень близкие к той работе. При этом на downstream задачах более крупная модель всё равно может быть лучше, чем оптимальная по лоссу предобучения.

Текстовый корпус для предобучения модели существенно больше, чем был у PaLM. При этом доля не-английского в нём увеличилась. Кроме монолингвальных неанглийских текстов, в обучение также добавили параллельные данные по сотням языков в паре с английским. Благодаря этому модель сходу может и переводить, как могут переводить и ChatGPT (https://www.tgoop.com/gonzo_ML/1405) с GPT-4 (https://www.tgoop.com/gonzo_ML/1413). Скоро померяем и для PaLM 2 (как только текущая модель в preview скорректирует свою паранойю про несоответствие запросов полиси). Но заявлено, что она уже лучше текущего Google Translate.

В целом для задач работы с языками модель выглядит очень интересно, и по пока не подкреплённому реальным опытом ощущению это должно быть лучше GPT-4 в реальных задачах, где нужен не только английский.

Модель была обучена на контекстах значительно большей длины, чем PaLM (там было 2048 токенов). В обучении используется смесь разных objectives аналогичная UL2 (https://www.tgoop.com/gonzo_ML/1113). Вероятно есть и какие-то архитектурные улучшения.

Проверялись на трёх вариантах размера модели: Small (S), Medium (M), и Large (L). Самая большая из них значительно меньше по размеру, чем 540B PaLM, но требует вычислений больше. В API при этом будет вынесено 4 разных модели: Gecko, Otter, Bison, Unicorn (самая большая). Gecko заявлено что будет влезать на мобильные устройства и работать там достаточно быстро в локальном режиме оффлайн. Предположу, что Gecko меньше Small. По умолчанию все результаты репортятся для модели Large. При этом ещё и делают усреднение по последним пяти чекпойнтам модели.

Продолжая традицию измерения качества моделей не на специальных датасетах, а на человеческих экзаменах, модель успешно проходит множество экзаменов на разных языках (за вычетом разговорной части), например, у неё проходной балл на Goethe-Zertifikat C2, “proving high-level German language ability”.

Хорошее улучшение относительно PaLM на английских задачах QA и классификации в 1-shot. Заметное улучшение на неанглийских.

Новые SoTA на reasoning, включая заметно побитый результат GPT-4. Есть также версия модели Flan-PaLM 2, зафайнтюненная на инструкциях. Она, например, лучше обычной PaLM 2 в математических задачах.

Для работы с кодом взяли PaLM 2-S (для интерактивности нужна быстрая небольшая модель) и продолжили обучение на специальном мультиязычном датасете, где много кода. Она обошла намного более тяжёлую и медленную PaLM-540B-Coder.

Генерацию оценивать сложно, но там модель тоже, похоже, хороша. Намного лучше PaLM.

Исследовали запоминание данных моделью, оно ниже, чем у PaLM, особенно если не было много повторов в исходных данных.

Отдельная большая часть работы про токсичность и Responsible AI.

BY gonzo-обзоры ML статей


Share with your friend now:
tgoop.com/gonzo_ML/1559

View MORE
Open in Telegram


Telegram News

Date: |

2How to set up a Telegram channel? (A step-by-step tutorial) The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information. "Doxxing content is forbidden on Telegram and our moderators routinely remove such content from around the world," said a spokesman for the messaging app, Remi Vaughn. As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.” fire bomb molotov November 18 Dylan Hollingsworth yau ma tei
from us


Telegram gonzo-обзоры ML статей
FROM American