DLINNLP Telegram 1776
🍓
openai.com/index/learning-to-reason-with-llms


1. GPT-o1 это затюненая с помощью RL модель на улучшение reasoning (деталей как это сделано, конечно же нет)
1. Scaling c train-time compute (как долго делать RL) и test-time compute (как долго генерировать ответ) -- на текущих графиках никакого намёка на то чтобы модель выходила на плато 🔥
1. По сравнению с 4o на codeforces o1 получает 89 перцентиль вместо 11
1. В PhD-level GPTQA Diamond по физике pass@1 улучшили с 60% до 93%
1. По human preferences люди предпочитают o1 в 60% случаев в проге, и 70% в математике

Ждём когда будет доступно в chatgpt и API публично



tgoop.com/dlinnlp/1776
Create:
Last Update:

🍓
openai.com/index/learning-to-reason-with-llms


1. GPT-o1 это затюненая с помощью RL модель на улучшение reasoning (деталей как это сделано, конечно же нет)
1. Scaling c train-time compute (как долго делать RL) и test-time compute (как долго генерировать ответ) -- на текущих графиках никакого намёка на то чтобы модель выходила на плато 🔥
1. По сравнению с 4o на codeforces o1 получает 89 перцентиль вместо 11
1. В PhD-level GPTQA Diamond по физике pass@1 улучшили с 60% до 93%
1. По human preferences люди предпочитают o1 в 60% случаев в проге, и 70% в математике

Ждём когда будет доступно в chatgpt и API публично

BY DL in NLP




Share with your friend now:
tgoop.com/dlinnlp/1776

View MORE
Open in Telegram


Telegram News

Date: |

Telegram users themselves will be able to flag and report potentially false content. Invite up to 200 users from your contacts to join your channel To edit your name or bio, click the Menu icon and select “Manage Channel.” Image: Telegram. Just as the Bitcoin turmoil continues, crypto traders have taken to Telegram to voice their feelings. Crypto investors can reduce their anxiety about losses by joining the “Bear Market Screaming Therapy Group” on Telegram.
from us


Telegram DL in NLP
FROM American