tgoop.com/opendatascience/2526
Last Update:
ΠΠΈΡΠ°ΠΉΡΠΊΠΈΠΉ Π³ΠΈΠ³Π°Π½Ρ ByteDance Π²ΡΠΏΡΡΠΊΠ°Π΅Ρ ΠΌΠΎΡΠ½ΡΡ open-source ΠΌΠΎΠ΄Π΅Π»Ρ Seed-OSS Π½Π° 36 ΠΌΠΈΠ»Π»ΠΈΠ°ΡΠ΄ΠΎΠ² ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ²
ΠΠΎΠΌΠΏΠ°Π½ΠΈΡ, ΡΡΠΎΡΡΠ°Ρ Π·Π° TikTok, ΡΠ΄Π΅Π»Π°Π»Π° ΠΊΡΡΠΏΠ½ΡΠΉ ΡΠ°Π³ Π² ΠΌΠΈΡΠ΅ ΠΎΡΠΊΡΡΡΠΎΠ³ΠΎ ΠΠ. ΠΡ
ΠΊΠΎΠΌΠ°Π½Π΄Π° Seed ΠΏΡΠ΅Π΄ΡΡΠ°Π²ΠΈΠ»Π° Seed-OSS-36B β ΡΠ΅ΠΌΠ΅ΠΉΡΡΠ²ΠΎ ΠΈΠ· ΡΡΠ΅Ρ
ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Ρ ΡΠ½ΠΈΠΊΠ°Π»ΡΠ½ΠΎΠΉ ΡΠ΅Ρ
Π½ΠΎΠ»ΠΎΠ³ΠΈΠ΅ΠΉ ΡΠΏΡΠ°Π²Π»Π΅Π½ΠΈΡ Β«Π±ΡΠ΄ΠΆΠ΅ΡΠΎΠΌΒ» Π²ΡΡΠΈΡΠ»Π΅Π½ΠΈΠΉ. ΠΡΠΎ ΠΏΡΡΠΌΠΎΠΉ ΠΎΡΠ²Π΅Ρ Π½Π° ΡΡΡΠ°ΡΠ΅Π³ΠΈΡ OpenAI Ρ Π΅Ρ GPT-OSS.
ΠΠ»ΡΡΠ΅Π²ΡΠ΅ ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡΠΈ, ΠΊΠΎΡΠΎΡΡΠ΅ Π²ΡΠ΄Π΅Π»ΡΡΡ Seed-OSS Π½Π° ΡΠΎΠ½Π΅ Π΄ΡΡΠ³ΠΈΡ
:
π ΠΠ΅Π²Π΅ΡΠΎΡΡΠ½ΠΎ Π΄Π»ΠΈΠ½Π½ΡΠΉ ΠΊΠΎΠ½ΡΠ΅ΠΊΡΡ: 512K ΡΠΎΠΊΠ΅Π½ΠΎΠ² (~1600 ΡΡΡΠ°Π½ΠΈΡ ΡΠ΅ΠΊΡΡΠ°)
ΠΡΠΎ Π² 4 ΡΠ°Π·Π° Π±ΠΎΠ»ΡΡΠ΅, ΡΠ΅ΠΌ Ρ ΠΏΠΎΡΠ»Π΅Π΄Π½Π΅ΠΉ Π²Π΅ΡΡΠΈΠΈ DeepSeek V3.1 (128K). ΠΠ°ΠΆΠ½ΠΎ, ΡΡΠΎ ΡΠ°ΠΊΠ°Ρ Π΄Π»ΠΈΠ½Π° Π±ΡΠ»Π° Π·Π°Π»ΠΎΠΆΠ΅Π½Π° ΡΡΠ°Π·Ρ Π½Π° ΡΡΠ°ΠΏΠ΅ ΠΏΡΠ΅Π΄ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ, Π° Π½Π΅ Π΄ΠΎΡΡΠΈΠ³Π½ΡΡΠ° ΠΏΠΎΠ·ΠΆΠ΅ ΠΈΡΠΊΡΡΡΡΠ²Π΅Π½Π½ΡΠΌΠΈ ΠΌΠ΅ΡΠΎΠ΄Π°ΠΌΠΈ. ΠΡΠΎ ΠΎΡΠΊΡΡΠ²Π°Π΅Ρ Π΄Π²Π΅ΡΠΈ Π΄Π»Ρ Π°Π½Π°Π»ΠΈΠ·Π° ΠΎΠ³ΡΠΎΠΌΠ½ΡΡ
ΡΡΠΈΠ΄ΠΈΡΠ΅ΡΠΊΠΈΡ
Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠΎΠ², Π΄Π»ΠΈΠ½Π½ΡΡ
ΠΎΡΡΠ΅ΡΠΎΠ² ΠΈ ΡΠ»ΠΎΠΆΠ½ΠΎΠ³ΠΎ ΠΊΠΎΠ΄Π°.
π‘ ΠΠΎΠ²Π°Ρ ΡΡΠ½ΠΊΡΠΈΡ: Β«ΠΡΠ΄ΠΆΠ΅Ρ ΡΠ°Π·ΠΌΡΡΠ»Π΅Π½ΠΈΠΉΒ» (Thinking Budget)
ΠΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΠ΅Π»Ρ ΠΌΠΎΠΆΠ΅Ρ ΡΠ°ΠΌ Π·Π°Π΄Π°ΡΡ Π»ΠΈΠΌΠΈΡ ΡΠΎΠΊΠ΅Π½ΠΎΠ², ΠΊΠΎΡΠΎΡΡΠ΅ ΠΌΠΎΠ΄Π΅Π»Ρ ΠΏΠΎΡΡΠ°ΡΠΈΡ Π½Π° ΡΠ΅ΡΠ΅Π½ΠΈΠ΅ Π·Π°Π΄Π°ΡΠΈ. ΠΠ»Ρ ΠΏΡΠΎΡΡΡΡ
Π²ΠΎΠΏΡΠΎΡΠΎΠ² β ΠΌΠ°Π»ΡΠΉ Π±ΡΠ΄ΠΆΠ΅Ρ ΠΈ Π±ΡΡΡΡΡΠΉ ΠΎΡΠ²Π΅Ρ. ΠΠ»Ρ ΡΠ»ΠΎΠΆΠ½ΡΡ
Π²ΡΡΠΈΡΠ»Π΅Π½ΠΈΠΉ ΠΈΠ»ΠΈ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΈ ΠΊΠΎΠ΄Π° β Π±ΠΎΠ»ΡΡΠΎΠΉ Π±ΡΠ΄ΠΆΠ΅Ρ Π΄Π»Ρ Π³Π»ΡΠ±ΠΎΠΊΠΈΡ
ΡΠ°Π·Π΄ΡΠΌΠΈΠΉ. ΠΠΎΠ΄Π΅Π»Ρ Π±ΡΠΊΠ²Π°Π»ΡΠ½ΠΎ Π²Π΅Π΄Π΅Ρ Π²Π½ΡΡΡΠ΅Π½Π½ΠΈΠΉ Π΄ΠΈΠ°Π»ΠΎΠ³, ΠΎΡΡΠ»Π΅ΠΆΠΈΠ²Π°Ρ, ΡΠΊΠΎΠ»ΡΠΊΠΎ Β«ΠΌΡΡΠ»Π΅ΠΉΒ» ΡΠΆΠ΅ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΎ.
Π’Π΅Ρ
Π½ΠΈΡΠ΅ΡΠΊΠΈΠ΅ Π΄Π΅ΡΠ°Π»ΠΈ:
β’ Π’ΡΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ: Π΄Π²Π΅ Π±Π°Π·ΠΎΠ²ΡΠ΅ (Ρ ΡΠΈΠ½ΡΠ΅ΡΠΈΡΠ΅ΡΠΊΠΈΠΌΠΈ Π΄Π°Π½Π½ΡΠΌΠΈ ΠΈ Π±Π΅Π·) ΠΈ ΠΎΠ΄Π½Π° ΠΈΠ½ΡΡΡΡΠΊΡΠΈΠ²Π½Π°Ρ.
β’ ΠΡΡ
ΠΈΡΠ΅ΠΊΡΡΡΠ°: ΠΠ»ΠΎΡΠ½Π°Ρ (dense) ΠΌΠΎΠ΄Π΅Π»Ρ Π½Π° 36B ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ², Π½Π΅ Mixture-of-Experts (MoE)
β’ ΠΠ»ΡΡΠ΅Π²ΡΠ΅ ΡΠ΅Ρ
Π½ΠΎΠ»ΠΎΠ³ΠΈΠΈ: RoPE, GQA, RMSNorm, SwiGLU
β’ Π‘Π»ΠΎΠΈ: 64 | Hidden Size: 5120 | Π Π°Π·ΠΌΠ΅Ρ ΡΠ»ΠΎΠ²Π°ΡΡ: 155K
β’ ΠΠ±ΡΠ΅ΠΌ ΠΎΠ±ΡΡΠ°ΡΡΠΈΡ
Π΄Π°Π½Π½ΡΡ
: 12Π’ ΡΠΎΠΊΠ΅Π½ΠΎΠ² (ΠΌΠ΅Π½ΡΡΠ΅, ΡΠ΅ΠΌ Ρ ΠΌΠ½ΠΎΠ³ΠΈΡ
Π°Π½Π°Π»ΠΎΠ³ΠΎΠ² ~15T+)
β’ ΠΠΈΡΠ΅Π½Π·ΠΈΡ: Apache-2.0 (ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ Π±Π΅ΡΠΏΠ»Π°ΡΠ½ΠΎ, Π² Ρ.Ρ. ΠΊΠΎΠΌΠΌΠ΅ΡΡΠ΅ΡΠΊΠΈ)
Π Π΅Π·ΡΠ»ΡΡΠ°ΡΡ Π±Π΅Π½ΡΠΌΠ°ΡΠΊΠΎΠ² Π²ΠΏΠ΅ΡΠ°ΡΠ»ΡΡΡ:
β’ MMLU-Pro: 65.1 (Qwen2.5-32B: 58.5)
β’ BBH (Π»ΠΎΠ³ΠΈΠΊΠ°): 87.7 (Π½ΠΎΠ²ΡΠΉ ΡΠ΅ΠΊΠΎΡΠ΄ Π΄Π»Ρ open-source)
β’ GSM8K (ΠΌΠ°ΡΠ΅ΠΌΠ°ΡΠΈΠΊΠ°): 90.8
β’ HumanEval (ΠΊΠΎΠ΄): 76.8
ΠΠΎΠ΄Π΅Π»Ρ ΡΠΆΠ΅ Π΄ΠΎΡΡΡΠΏΠ½Π° Π΄Π»Ρ Π·Π°Π³ΡΡΠ·ΠΊΠΈ ΠΈ ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΠΎΠ².
GitHub | Hugging Face
#ΠΠΈΡΠ°ΠΉΡΠΊΠΈΠΉΠΠ #ΠΠΈΡΠ°ΠΉAI #OpenSource #LLM #SeedOSS #ByteDance #ΠΡΠΊΡΡΡΡΠ²Π΅Π½Π½ΡΠΉΠΠ½ΡΠ΅Π»Π»Π΅ΠΊΡ
BY Data Science by ODS.ai π¦

Share with your friend now:
tgoop.com/opendatascience/2526
