tgoop.com/ai_machinelearning_big_data/6627
Last Update:
Π Π°Π·ΡΠ°Π±ΠΎΡΡΠΈΠΊΠΈ Ρ Hugging Face ΡΠ΅ΡΠΈΠ»ΠΈ ΠΏΠΎΠ²ΡΠΎΡΠΈΡΡ ΠΏΠΎΠ»Π½ΡΠΉ ΡΠΈΠΊΠ» ΡΠ°Π·ΡΠ°Π±ΠΎΡΠΊΠΈ DeepSeek - ΠΎΡ ΡΠ±ΠΎΡΠ° Π΄Π°Π½Π½ΡΡ
Π΄ΠΎ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ! π₯
Π¦Π΅Π»Ρ ΡΡΠΎΠ³ΠΎ ΡΠ΅ΠΏΠΎΠ·ΠΈΡΠΎΡΠΈΡ - ΠΎΠ±ΡΡΡΠ½ΠΈΡΡ Π²ΡΠ΅ ΡΠ°ΡΡΠΈ ΠΊΠΎΠ½Π²Π΅ΠΉΠ΅ΡΠ° ΡΠΎΠ·Π΄Π°Π½ΠΈΡ R1 ΡΠ°ΠΊΠΈΠΌ ΠΎΠ±ΡΠ°Π·ΠΎΠΌ, ΡΡΠΎΠ±Ρ ΠΊΠ°ΠΆΠ΄ΡΠΉ ΠΌΠΎΠ³ ΠΏΠΎΠ²ΡΠΎΡΠΈΡΡ Π΅Π³ΠΎ ΠΈΠ»ΠΈ ΠΏΠΎΡΡΡΠΎΠΈΡΡ ΠΏΠΎΠ²Π΅ΡΡ
Π½Π΅Π³ΠΎ ΡΠ²ΠΎΠΉ ΠΏΡΠΎΠ΅ΠΊΡ.
ΠΠ· ΡΠ΅Π³ΠΎ ΡΠΎΡΡΠΎΠΈΡ ΠΏΡΠΎΠ΅ΠΊΡ:
- src/open_r1 ΡΠΎΠ΄Π΅ΡΠΆΠΈΡ ΡΠΊΡΠΈΠΏΡΡ Π΄Π»Ρ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ ΠΈ ΠΎΡΠ΅Π½ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, Π° ΡΠ°ΠΊΠΆΠ΅ Π΄Π»Ρ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΈ ΡΠΈΠ½ΡΠ΅ΡΠΈΡΠ΅ΡΠΊΠΈΡ
Π΄Π°Π½Π½ΡΡ
:
- grpo.py : ΠΎΠ±ΡΡΠ΅Π½ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Ρ ΠΏΠΎΠΌΠΎΡΡΡ GRPO
- sft.py: ΠΏΡΠΎΡΡΠΎΠΉ SFT
- evaluate.py: ΠΎΡΠ΅Π½ΠΊΠ° ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ ΡΠ΅ΡΡΠΎΠ² R1.
- generate.py: Π³Π΅Π½Π΅ΡΠ°ΡΠΈΡ ΡΠΈΠ½ΡΠ΅ΡΠΈΡΠ΅ΡΠΊΠΈΡ
Π΄Π°Π½Π½ΡΡ
Ρ ΠΏΠΎΠΌΠΎΡΡΡ Distilabel.
- Makefile ΡΠΎΠ΄Π΅ΡΠΆΠΈΡ ΠΏΡΠΎΡΡΡΡ Π² Π²ΡΠΏΠΎΠ»Π½Π΅Π½ΠΈΠΈ ΠΊΠΎΠΌΠ°Π½Π΄Ρ Π΄Π»Ρ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΡΠ°Π³Π° ΠΊΠΎΠ½Π²Π΅ΠΉΠ΅ΡΠ° R1.
βͺ Github
@ai_machinelearning_big_data
#opensource #DeepSeekR1 #huggingface #OpenR1