я обучала одну модель@def_model

я обучала одну модель

Невероятно, но гугл не отложили релиз Gemini на следующий год* 🥳

https://blog.google/technology/ai/google-gemini-ai/

Обходит сейчас GPT-4 на всех бенчах, кроме HellaSwag

Проскимила технический репорт, и увы про архитектуру не сказано почти ничего, кроме того, что это Transformer decoder. При этом все ожидали, что именно архитектура будет сильно отличаться, и что авторы AlphaFold что-то приницпиально новое придумают. Мне лично хочется верить, что они и придумали, просто не делятся этим в репорте.

Поскольку модель мультимодальная (и кстати сама может генерировать картинки, а не только принимать на вход), упоминается, что использовали идеи Flamingo при обучении. Если помните, выход Flamingo в прошлом году произвел настоящий хайп по мультимодалке, так как идея склеивать замороженные слои из разных модальностей очень элегентная и при этом очень рабочая

Про данные тоже особо много не пишут, но рассказывают, что специально файнтюнились на фактологию. В том числе целились на то, чтобы модель не прозводила галлюцинаций, могла сказать, что не может выполнить задачу, если это действительно так, и умела корректно цитировать и использовать информацию из длинного контекста. Кажется вот засчет такого файнтюна кучу бенчмарков и стало возможно сильно вытянуть

А еще из 60 страниц репорта 10 страниц занимают цитаты, и 9 страниц – упоминания всех контрибьюторов

UPD: Говорят, что Gemini Pro уже заехал в Bard (мне в Европе пока Bard говорит, что он использует LaMDA) и 13 числа станет доступен в Google Cloud Vertex AI 13 декабря.

*Gemini Ultra – самая большая версия, которая побила GPT-4 – задет все же в следующем году (не все сейфити чеки доделали). Круто они придумали анонс сделать, а модель не релизить 😔

Please open Telegram to view this post

VIEW IN TELEGRAM

Google

Introducing Gemini: our largest and most capable AI model

Gemini is our most capable and general model, built to be multimodal and optimized for three different sizes: Ultra, Pro and Nano.

🔥24❤1

www.tgoop.com/def_model_train/989

3.57K viewsedited Dec 6, 2023 at 15:53