DL in NLP@dlinnlp P.1776

Notice: file_put_contents(): Write of 366 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 16384 of 16750 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
DL in NLP@dlinnlp P.1776

DLINNLP Telegram 1776

🍓
openai.com/index/learning-to-reason-with-llms

1. GPT-o1 это затюненая с помощью RL модель на улучшение reasoning (деталей как это сделано, конечно же нет)
1. Scaling c train-time compute (как долго делать RL) и test-time compute (как долго генерировать ответ) -- на текущих графиках никакого намёка на то чтобы модель выходила на плато 🔥
1. По сравнению с 4o на codeforces o1 получает 89 перцентиль вместо 11
1. В PhD-level GPTQA Diamond по физике pass@1 улучшили с 60% до 93%
1. По human preferences люди предпочитают o1 в 60% случаев в проге, и 70% в математике

Ждём когда будет доступно в chatgpt и API публично

🔥72👍12❤6

www.tgoop.com/dlinnlp/1776

10K viewsVlad Lialin, edited Sep 12, 2024 at 17:29

tgoop.com/dlinnlp/1776

Create: 2024-09-12
Last Update: 2025-11-30 20:57:47

🍓
openai.com/index/learning-to-reason-with-llms

1. GPT-o1 это затюненая с помощью RL модель на улучшение reasoning (деталей как это сделано, конечно же нет)
1. Scaling c train-time compute (как долго делать RL) и test-time compute (как долго генерировать ответ) -- на текущих графиках никакого намёка на то чтобы модель выходила на плато 🔥
1. По сравнению с 4o на codeforces o1 получает 89 перцентиль вместо 11
1. В PhD-level GPTQA Diamond по физике pass@1 улучшили с 60% до 93%
1. По human preferences люди предпочитают o1 в 60% случаев в проге, и 70% в математике

Ждём когда будет доступно в chatgpt и API публично

BY DL in NLP

Share with your friend now:
tgoop.com/dlinnlp/1776

Open in Telegram

Telegram News

Date: 2025-11-30|

Clear bank east asia october 20 kowloon The Channel name and bio must be no more than 255 characters long Administrators Co-founder of NFT renting protocol Rentable World emiliano.eth shared the group Tuesday morning on Twitter, calling out the "degenerate" community, or crypto obsessives that engage in high-risk trading.
from us

Telegram DL in NLP
FROM American