tgoop.com/nn_for_science/2125
Last Update:
Итоги AMA с командой OpenAI o1
Названия моделей и парадигма рассуждений
- OpenAI o1 названа так, чтобы отразить новый уровень возможностей ИИ; счётчик сброшен на 1
- "Preview" указывает на то, что это ранняя версия полной модели
- "Mini" означает меньшую версию модели o1, оптимизированную для скорости
- o - как OpenAI
- o1 не "система"; это модель, обученная генерировать длинные цепочки мыслей перед выдачей окончательного ответа
- Иконка o1 метафорически представляет собой пришельца с необычайными способностями (виза талантов О1 в США по которой работает большое количество людей в OpenAI)
Размер и производительность моделей o1
- o1-mini намного меньше и быстрее o1-preview, поэтому в будущем будет предложена бесплатным пользователям
- o1-preview - ранняя контрольная точка модели o1, размер тот же
- o1-mini лучше справляется с задачами STEM, но имеет ограниченные знания о мире
- o1-mini превосходит o1-preview в некоторых задачах, особенно связанных с кодом
- Входные токены для o1 рассчитываются так же, как для GPT-4o, используя тот же токенизатор
- o1-mini может исследовать больше цепочек мыслей по сравнению с o1-preview
Контекст входных токенов и возможности модели
- Скоро появятся бóльшие входные контексты для моделей o1
- Модели o1 могут справляться с более длинными, открытыми задачами с меньшей необходимостью разбивки входных данных по сравнению с GPT-4o
- o1 может генерировать длинные цепочки мыслей перед предоставлением ответа, в отличие от предыдущих моделей
- В настоящее время нет возможности приостановить вывод во время CoT для добавления дополнительного контекста, но это изучается для будущих моделей
Инструменты, функциональность и предстоящие функции
- o1-preview пока не использует инструменты, но планируется поддержка вызова функций, интерпретатора кода и браузер
- В будущих обновлениях будут добавлены поддержка инструментов, структурированные выходные данные и системные промпты
- В будущих версиях пользователи, возможно, получат контроль над временем размышления и ограничениями токенов
- Ведутся работы по включению потоковой передачи и учёта прогресса рассуждений в API
- Мультимодальные возможности встроены в o1, нацелены на наилучшую производительность в задачах типа MMMU
Рассуждения CoT (Chain of Thought)
- o1 генерирует скрытые цепочки мыслей во время рассуждений
- Нет планов раскрывать токены CoT пользователям API или ChatGPT
- Токены CoT суммируются, но нет гарантии верности реальному ходу рассуждений
- Инструкции в промптах могут влиять на то, как модель думает о проблеме
- Обучение с подкреплением (RL) используется для улучшения CoT в o1, и GPT-4o не может сравниться с его производительностью CoT только через промпты
- Этап размышления кажется медленнее, потому что он суммирует процесс мышления, хотя генерация ответа обычно быстрее
API и ограничения использования
- o1-mini имеет еженедельное ограничение в 50 промптов для пользователей ChatGPT Plus
- Все промпты в ChatGPT считаются одинаково
- Со временем будут введены новые уровни доступа к API и более высокие ограничения
- Кэширование промптов в API - популярный запрос, но сроки пока не определены
Ценообразование, файнтюнинг и масштабирование
- Ожидается, что цены на модели o1 будут следовать тенденции снижения каждые 1-2 года
- Batch ценообразование API будет поддерживаться после увеличения ограничений
- Файнтюнинг в планах, но сроки пока не определены
- Масштабирование o1 ограничено исследовательскими и инженерными талантами
- Новые парадигмы масштабирования для вычислений могут принести значительные выгоды в будущих поколениях моделей
Разработка модели и исследовательские выводы
- o1 была обучена с использованием обучения с подкреплением для достижения производительности в рассуждениях
- Модель демонстрирует творческое мышление и высокую производительность в нестандартных задачах, таких как поэзия
- Философские рассуждения o1 и способность к обобщению, например, расшифровка шифров, впечатляют
BY AI для Всех

Share with your friend now:
tgoop.com/nn_for_science/2125