tgoop.com/dlinnlp/1776
Create:
Last Update:
Last Update:
🍓
openai.com/index/learning-to-reason-with-llms
1. GPT-o1 это затюненая с помощью RL модель на улучшение reasoning (деталей как это сделано, конечно же нет)
1. Scaling c train-time compute (как долго делать RL) и test-time compute (как долго генерировать ответ) -- на текущих графиках никакого намёка на то чтобы модель выходила на плато 🔥
1. По сравнению с 4o на codeforces o1 получает 89 перцентиль вместо 11
1. В PhD-level GPTQA Diamond по физике pass@1 улучшили с 60% до 93%
1. По human preferences люди предпочитают o1 в 60% случаев в проге, и 70% в математике
Ждём когда будет доступно в chatgpt и API публично
BY DL in NLP

Share with your friend now:
tgoop.com/dlinnlp/1776