tgoop.com/ai_machinelearning_big_data/7819
Last Update:
Microsoft Research ΠΏΡΠ΅Π΄ΡΡΠ°Π²ΠΈΠ»Π° ΠΌΠ΅ΡΠΎΠ΄Ρ, ΡΡΠΈΠ»ΠΈΠ²Π°ΡΡΠΈΠ΅ ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡΡ ΡΠ·ΡΠΊΠΎΠ²ΡΡ
ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, ΠΎΡ ΠΊΠΎΠΌΠΏΠ°ΠΊΡΠ½ΡΡ
Π΄ΠΎ Π³ΠΈΠ³Π°Π½ΡΡΠΊΠΈΡ
ΠΊ ΡΠ»ΠΎΠΆΠ½ΡΠΌ ΡΠ°ΡΡΡΠΆΠ΄Π΅Π½ΠΈΡΠΌ. Π’Π΅Ρ
Π½ΠΎΠ»ΠΎΠ³ΠΈΠΈ ΡΠΎΠΊΡΡΠΈΡΡΡΡΡΡ Π½Π° 3 Π½Π°ΠΏΡΠ°Π²Π»Π΅Π½ΠΈΡΡ
: Π°ΡΡ
ΠΈΡΠ΅ΠΊΡΡΡΠ° ΠΌΠ°Π»ΡΡ
ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, ΠΌΠ°ΡΠ΅ΠΌΠ°ΡΠΈΡΠ΅ΡΠΊΠ°Ρ ΡΡΡΠΎΠ³ΠΎΡΡΡ ΠΈ ΠΊΡΠΎΡΡ-Π΄ΠΎΠΌΠ΅Π½Π½ΠΎΠ΅ ΠΎΠ±ΠΎΠ±ΡΠ΅Π½ΠΈΠ΅.
ΠΠ»ΡΡ Π΄Π»Ρ ΠΌΠ°Π»Π΅Π½ΡΠΊΠΈΡ
ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ (1.5β7 ΠΌΠ»ΡΠ΄ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ²) Π² ΠΈΠΌΠΈΡΠ°ΡΠΈΠΈ ΡΠ΅Π»ΠΎΠ²Π΅ΡΠ΅ΡΠΊΠΎΠ³ΠΎ ΠΏΠΎΡΠ°Π³ΠΎΠ²ΠΎΠ³ΠΎ ΠΌΡΡΠ»Π΅Π½ΠΈΡ.
rStar-Math ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠ΅Ρ Π°Π»Π³ΠΎΡΠΈΡΠΌ MCTS Π² ΡΠΈΠΊΠ»Π΅ ΡΠ°ΠΌΠΎΠΎΠ±ΡΡΠ΅Π½ΠΈΡ: ΡΠ½Π°ΡΠ°Π»Π° Π΄Π΅ΠΊΠΎΠΌΠΏΠΎΠ·ΠΈΡΠΈΡ Π·Π°Π΄Π°ΡΠΈ Π½Π° ΡΠ°Π³ΠΈ, Π·Π°ΡΠ΅ΠΌ Process Preference Model (PPM), ΠΊΠΎΡΠΎΡΡΠΉ ΡΡΠΈΡ ΠΌΠΎΠ΄Π΅Π»Ρ ΠΎΡΠ΅Π½ΠΈΠ²Π°ΡΡ ΠΊΠ°ΡΠ΅ΡΡΠ²ΠΎ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΡΠ°Π³Π° ΡΠ΅ΡΠ΅Π· "ΠΌΠ΅ΡΠΊΠΈ Π½Π°Π³ΡΠ°Π΄Ρ", ΠΈ Π½Π°ΠΊΠΎΠ½Π΅Ρ β ΠΈΡΠ΅ΡΠ°ΡΠΈΠ²Π½Π°Ρ Π΄ΠΎΡΠ°Π±ΠΎΡΠΊΠ°. ΠΠ° 4 ΡΠΈΠΊΠ»Π° MCTS, ΡΡΡΠ°ΡΠ΅Π³ΠΈΡ ΠΈ PPM ΡΠΎΠ²ΠΌΠ΅ΡΡΠ½ΠΎ ΡΠ»ΡΡΡΠ°ΡΡ ΡΠ΅Π·ΡΠ»ΡΡΠ°Ρ.
Logic-RL β ΡΡΠΎ ΡΡΠ΅ΠΉΠΌΠ²ΠΎΡΠΊ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ Ρ ΠΏΠΎΠ΄ΠΊΡΠ΅ΠΏΠ»Π΅Π½ΠΈΠ΅ΠΌ, ΠΊΠΎΡΠΎΡΡΠΉ Π½Π°Π³ΡΠ°ΠΆΠ΄Π°Π΅Ρ ΠΌΠΎΠ΄Π΅Π»Ρ ΡΠΎΠ»ΡΠΊΠΎ ΠΏΡΠΈ ΠΈΠ΄Π΅Π°Π»ΡΠ½ΠΎ ΠΎΡΠΎΡΠΌΠ»Π΅Π½Π½ΠΎΠΌ Ρ
ΠΎΠ΄Π΅ ΡΠ°ΡΡΡΠΆΠ΄Π΅Π½ΠΈΠΉ ΠΈ Π²Π΅ΡΠ½ΠΎΠΌ ΠΎΡΠ²Π΅ΡΠ΅, ΠΈΡΠΊΠ»ΡΡΠ°Ρ Π»ΡΠ±ΡΠ΅ ΠΏΠΎΠΏΡΡΠΊΠΈ Π²ΡΠ±ΠΎΡΠ° ΠΎΠ±Ρ
ΠΎΠ΄Π½ΡΡ
ΠΏΡΡΠ΅ΠΉ.
ΠΠ»Ρ ΠΌΠ°ΡΠ΅ΠΌΠ°ΡΠΈΡΠ΅ΡΠΊΠΎΠΉ Π½Π°Π΄Π΅ΠΆΠ½ΠΎΡΡΠΈ ΡΠ°Π·ΡΠ°Π±ΠΎΡΠ°Π½ LIPS, Π³ΠΈΠ±ΡΠΈΠ΄ ΠΠ ΠΈ ΡΠΈΠΌΠ²ΠΎΠ»ΡΠ½ΡΡ
Π΄Π²ΠΈΠΆΠΊΠΎΠ². LIPS ΡΠ°ΡΠΏΡΠ΅Π΄Π΅Π»ΡΠ΅Ρ Π·Π°Π΄Π°ΡΠΈ: ΡΠ·ΡΠΊΠΎΠ²Π°Ρ ΠΌΠΎΠ΄Π΅Π»Ρ ΡΠ°ΡΠΏΠΎΠ·Π½Π°Π΅Ρ ΠΏΠ°ΡΡΠ΅ΡΠ½Ρ ΠΈ ΠΏΠ΅ΡΠ΅ΡΠΎΡΠΌΡΠ»ΠΈΡΡΠ΅Ρ ΡΡΠ»ΠΎΠ²ΠΈΡ (Π½Π°ΠΏΡΠΈΠΌΠ΅Ρ, Π½Π΅ΡΠ°Π²Π΅Π½ΡΡΠ²Π°), Π° ΡΠΈΠΌΠ²ΠΎΠ»ΡΠ½ΡΠΉ ΡΠ΅ΡΠ°ΡΠ΅Π»Ρ Π²ΡΠΏΠΎΠ»Π½ΡΠ΅Ρ ΡΠΎΡΠ½ΡΠ΅ ΠΏΡΠ΅ΠΎΠ±ΡΠ°Π·ΠΎΠ²Π°Π½ΠΈΡ (ΠΌΠ°ΡΡΡΠ°Π±ΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅, ΡΠΏΡΠΎΡΠ΅Π½ΠΈΠ΅).
Π§ΡΠΎΠ±Ρ ΠΠ ΠΏΠΎΠ½ΠΈΠΌΠ°Π» ΡΡΠ»ΠΎΠ²ΠΈΡ Π±Π΅Π· ΠΎΡΠΈΠ±ΠΎΠΊ, ΡΠΎΠ·Π΄Π°Π½ Π½Π΅ΠΉΡΠΎ-ΡΠΈΠΌΠ²ΠΎΠ»ΠΈΡΠ΅ΡΠΊΠΈΠΉ ΡΡΠ΅ΠΉΠΌΠ²ΠΎΡΠΊ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΈ Π΄Π°Π½Π½ΡΡ
: ΡΠΈΠΌΠ²ΠΎΠ»ΡΠ½ΡΠ΅ ΡΠΈΡΡΠ΅ΠΌΡ ΡΠΎΠ·Π΄Π°ΡΡ Π·Π°Π΄Π°ΡΠΈ, Π° ΡΠ·ΡΠΊΠΎΠ²ΡΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΠ΅ΡΠ΅Π²ΠΎΠ΄ΡΡ ΠΈΡ
Π² "ΡΠ΅Π»ΠΎΠ²Π΅ΡΠ΅ΡΠΊΠΈΠΉ" ΡΠ΅ΠΊΡΡ. ΠΠ»Ρ ΠΏΡΠΎΠ²Π΅ΡΠΊΠΈ Π²ΡΠ²ΠΎΠ΄ΠΎΠ² ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡΡΡΡ ΡΠΈΠΌΠ²ΠΎΠ»ΡΠ½Π°Ρ ΡΠΊΠ²ΠΈΠ²Π°Π»Π΅Π½ΡΠ½ΠΎΡΡΡ (ΡΡΠ°Π²Π½Π΅Π½ΠΈΠ΅ ΡΠΎΡΠΌΡΠ») ΠΈ ΡΠ΅ΠΌΠ°Π½ΡΠΈΡΠ΅ΡΠΊΠ°Ρ ΡΠΎΠ³Π»Π°ΡΠΎΠ²Π°Π½Π½ΠΎΡΡΡ (Π°Π½Π°Π»ΠΈΠ· ΡΠΌΡΡΠ»Π° ΡΠ΅ΡΠ΅Π· ΡΠΌΠ±Π΅Π΄Π΄ΠΈΠ½Π³ΠΈ), ΠΏΠΎΠ²ΡΡΠ°Ρ ΡΠΎΡΠ½ΠΎΡΡΡ Π½Π° 35%.
ΠΠΎΠΏΠΎΠ»Π½ΠΈΡΠ΅Π»ΡΠ½ΡΠΉ Π±ΠΎΠ½ΡΡ β Π½Π΅ΠΎΠΆΠΈΠ΄Π°Π½Π½ΠΎΠ΅ ΠΎΠ±ΠΎΠ±ΡΠ΅Π½ΠΈΠ΅. Π’ΡΠ΅Π½ΠΈΡΠΎΠ²ΠΊΠ° Π½Π° ΠΌΠ°ΡΠ΅ΠΌΠ°ΡΠΈΠΊΠ΅ ΡΠ΅Π·ΠΊΠΎ ΡΠ»ΡΡΡΠΈΠ»Π° ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΡ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π² ΠΏΡΠΎΠ³ΡΠ°ΠΌΠΌΠΈΡΠΎΠ²Π°Π½ΠΈΠΈ ΠΈ Π΅ΡΡΠ΅ΡΡΠ²Π΅Π½Π½ΡΡ
Π½Π°ΡΠΊΠ°Ρ
.
ΠΠ»Ρ ΡΠ½ΠΈΡΠΈΠΊΠ°ΡΠΈΠΈ ΠΏΠΎΠ΄Ρ
ΠΎΠ΄ΠΎΠ² ΡΠΎΠ·Π΄Π°Π½ Chain-of-Reasoning (CoR), ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡΡΠΈΠΉ Π³ΠΈΠ±ΠΊΠΎ ΠΊΠΎΠΌΠ±ΠΈΠ½ΠΈΡΠΎΠ²Π°ΡΡ ΡΠ΅ΠΊΡΡΠΎΠ²ΡΠ΅, ΠΏΡΠΎΠ³ΡΠ°ΠΌΠΌΠ½ΡΠ΅ ΠΈ ΡΠΈΠΌΠ²ΠΎΠ»ΡΠ½ΡΠ΅ ΡΠ°ΡΡΡΠΆΠ΄Π΅Π½ΠΈΡ Π² ΠΎΠ΄Π½ΠΎΠΌ ΡΠ΅ΡΠ΅Π½ΠΈΠΈ. Π Critical Plan Step Learning (CPL) ΡΡΠΈΡ ΠΠ ΡΡΡΠ°ΡΠ΅Π³ΠΈΡΠ΅ΡΠΊΠΎΠΌΡ ΠΏΠ»Π°Π½ΠΈΡΠΎΠ²Π°Π½ΠΈΡ: ΡΠ°Π·Π±ΠΈΠ²Π°ΡΡ ΠΏΡΠΎΠ±Π»Π΅ΠΌΡ, Π²ΡΠ΄Π΅Π»ΡΡΡ ΠΊΠ»ΡΡΠ΅Π²ΡΠ΅ ΡΠ°Π³ΠΈ ΠΈ ΠΎΡΠ±ΡΠ°ΡΡΠ²Π°ΡΡ ΡΠ»Π°Π±ΡΠ΅ Π²Π°ΡΠΈΠ°Π½ΡΡ ΡΠ΅ΡΠ΅Π· ΠΊΠΎΠΌΠ±ΠΈΠ½Π°ΡΠΈΡ Plan-based MCTS ΠΈ Step-APO.
@ai_machinelearning_big_data
#AI #ML #LLM #RL #Reasoning #Microsoft