gonzo-обзоры ML статей@gonzo

gonzo-обзоры ML статей

Дни интересных анонсов.

OpenAI вчера анонсировали генеративную диффузионную модель для видео под названием Sora (https://openai.com/sora), способную генерировать видео длиной до одной минуты по текстовому описанию. Также можно работать по входной картинке или видео. Выглядит впечатляюще, пока модель в очень ограниченном доступе для редтиминга и сбора фидбека от избранных творческих людей.

Техотчёт Sora здесь: https://openai.com/research/video-generation-models-as-world-simulators

Смотрите там же кучу примеров, они прикольные.

Гугл вчера же анонсировал развитие линейки Gemini. Gemini 1.0 Pro и Ultra ушли в статус GA (Generally available), то есть готовые к продакшн использованию (Ultra пока через whitelist), а также объявлена Gemini 1.5 Pro (https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024).

Техотчёт Gemini 1.5 здесь: https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

Gemini 1.5 Pro заявлена как сравнимая по качеству с 1.0 Ultra, но более лёгкая и использующая Sparse MoE (https://www.tgoop.com/gonzo_ML/472). Другая интересная фича этой модели -- контекст до 10M символов что на пару порядков больше предыдущих лидеров в лице Anthropic Claude 2.1 (200k) и GPT-4 Turbo (128k). 10М правда пока в режиме исследования, а контекст размером 1M доступен для ограниченного круга, для всех остальных пока 128k.

Например, в 1M токенов влезло 44-минутное немое видео с Бастером Китоном (https://www.youtube.com/watch?v=rOVtjJkqtiA). По тесту Needle In A Haystack (https://github.com/gkamradt/LLMTest_NeedleInAHaystack), где в большом тексте прячется мелкий факт, который модель должна найти и использовать, эти 1M выглядят настоящими.

Это интересное развитие, которое показывает, куда скорее всего придут модели ближайшего будущего. RAG наверное останется, но для многих кейсов он должен измениться. OpenAI в это же время исследует возможности использования памяти с ChatGPT и GPTs (https://openai.com/blog/memory-and-new-controls-for-chatgpt).

На прикольном бенчмарке MTOB (Machine Translation from One Book, https://arxiv.org/abs/2309.16575), когда по одной книге с грамматикой языка Kalamang, имеющего менее 200 носителей, надо научиться переводить между этим языком и английским, результат весьма достойный. Это прикольно потому что здесь дан не датасет с параллельными текстами, как обычно при обучении MT, а скорее датасет в формате более подходящем для System 2.

Openai

Sora

Turn your ideas into videos with hyperreal motion and sound.

👍17🙏1

www.tgoop.com/gonzo_ML/2350

4.49K viewsFeb 16, 2024 at 12:46