tgoop.com/def_model_train/989
Last Update:
Невероятно, но гугл не отложили релиз Gemini на следующий год*
https://blog.google/technology/ai/google-gemini-ai/
Обходит сейчас GPT-4 на всех бенчах, кроме HellaSwag
Проскимила технический репорт, и увы про архитектуру не сказано почти ничего, кроме того, что это Transformer decoder. При этом все ожидали, что именно архитектура будет сильно отличаться, и что авторы AlphaFold что-то приницпиально новое придумают. Мне лично хочется верить, что они и придумали, просто не делятся этим в репорте.
Поскольку модель мультимодальная (и кстати сама может генерировать картинки, а не только принимать на вход), упоминается, что использовали идеи Flamingo при обучении. Если помните, выход Flamingo в прошлом году произвел настоящий хайп по мультимодалке, так как идея склеивать замороженные слои из разных модальностей очень элегентная и при этом очень рабочая
Про данные тоже особо много не пишут, но рассказывают, что специально файнтюнились на фактологию. В том числе целились на то, чтобы модель не прозводила галлюцинаций, могла сказать, что не может выполнить задачу, если это действительно так, и умела корректно цитировать и использовать информацию из длинного контекста. Кажется вот засчет такого файнтюна кучу бенчмарков и стало возможно сильно вытянуть
А еще из 60 страниц репорта 10 страниц занимают цитаты, и 9 страниц – упоминания всех контрибьюторов
UPD: Говорят, что Gemini Pro уже заехал в Bard (мне в Европе пока Bard говорит, что он использует LaMDA) и 13 числа станет доступен в Google Cloud Vertex AI 13 декабря.
*Gemini Ultra – самая большая версия, которая побила GPT-4 – задет все же в следующем году (не все сейфити чеки доделали). Круто они придумали анонс сделать, а модель не релизить

