tgoop.com/opendatascience/2568
Last Update:
ΠΠ°ΠΆΠ΅ ΡΠ°ΠΌΡΠ΅ ΠΌΠΎΡΠ½ΡΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π΅ ΠΌΠΎΠ³ΡΡ ΡΡΠ΅ΡΡΡ Π²ΡΠ΅ ΠΊΠΎΠΌΠ±ΠΈΠ½Π°ΡΠΈΠΈ Π·Π°ΠΏΡΠΎΡΠΎΠ² ΠΈ Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠΎΠ².
ΠΡΡΡ ΠΌΠ°ΡΠ΅ΠΌΠ°ΡΠΈΡΠ΅ΡΠΊΠΈΠΉ ΠΏΠΎΡΠΎΠ»ΠΎΠΊ: ΡΠ°ΡΡΡ ΠΎΡΠ²Π΅ΡΠΎΠ² Π½Π΅Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ Π΄ΠΎΡΡΠ°ΡΡ, ΠΊΠ°ΠΊ Π±Ρ ΠΌΡ Π½ΠΈ ΡΠ²Π΅Π»ΠΈΡΠΈΠ²Π°Π»ΠΈ ΡΠ°Π·ΠΌΠ΅Ρ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ»ΠΈ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²ΠΎ Π΄Π°Π½Π½ΡΡ
.
π Π ΡΡΠΌ ΡΡΡΡ
- ΠΠΌΠ±Π΅Π΄Π΄ΠΈΠ½Π³ΠΈ ΠΈΠΌΠ΅ΡΡ ΠΎΠ³ΡΠ°Π½ΠΈΡΠ΅Π½Π½ΡΡ ΡΠΌΠΊΠΎΡΡΡ, Π·Π°Π²ΠΈΡΡΡΡΡ ΠΎΡ ΡΠ°Π·ΠΌΠ΅ΡΠ½ΠΎΡΡΠΈ Π²Π΅ΠΊΡΠΎΡΠ°.
- ΠΡΠΈ Π±ΠΎΠ»ΡΡΠΈΡ
ΠΎΠ±ΡΡΠΌΠ°Ρ
Π΄Π°Π½Π½ΡΡ
ΡΠΎΡΠ½ΠΎΡΡΡ ΠΏΠΎΠΈΡΠΊΠ° Π½Π°ΡΠΈΠ½Π°Π΅Ρ ΡΠ΅Π·ΠΊΠΎ ΠΏΠ°Π΄Π°ΡΡ.
- ΠΠ°ΠΏΡΠΈΠΌΠ΅Ρ: ΡΠΌΠ±Π΅Π΄Π΄ΠΈΠ½Π³ΠΈ ΡΠ°Π·ΠΌΠ΅ΡΠΎΠΌ 4096 Β«Π»ΠΎΠΌΠ°ΡΡΡΡΒ» ΡΠΆΠ΅ Π½Π° ~250 ΠΌΠ»Π½ Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠΎΠ² (Π΄Π»Ρ top-2).
π ΠΡΠ°ΠΊΡΠΈΠΊΠ°
- ΠΠ»Ρ ΠΏΠΎΠΈΡΠΊΠ°, ΡΠ΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°ΡΠΈΠΉ ΠΈ RAG ΡΠΌΠ±Π΅Π΄Π΄ΠΈΠ½Π³ΠΈ Π½Π΅Π»ΡΠ·Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ ΠΊΠ°ΠΊ Π΅Π΄ΠΈΠ½ΡΡΠ²Π΅Π½Π½ΡΠΉ ΠΈΠ½ΡΡΡΡΠΌΠ΅Π½Ρ.
- ΠΡΠΆΠ½Ρ Π³ΠΈΠ±ΡΠΈΠ΄Π½ΡΠ΅ ΡΠΈΡΡΠ΅ΠΌΡ:
- Dense + sparse (BM25, Π³ΠΈΠ±ΡΠΈΠ΄Π½ΡΠΉ ΠΏΠΎΠΈΡΠΊ)
- Multi-vector retrieval
- Π Π΅ΡΠ°Π½ΠΊΠ΅ΡΡ Π½Π° Π΄Π»ΠΈΠ½Π½ΡΡ
ΠΊΠΎΠ½ΡΠ΅ΠΊΡΡΠ°Ρ
π ΠΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΡ
- ΠΠ° ΡΠ΅ΡΡΠΎΠ²ΠΎΠΌ Π΄Π°ΡΠ°ΡΠ΅ΡΠ΅ LIMIT Π΄Π°ΠΆΠ΅ ΡΠΈΠ»ΡΠ½ΡΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ <20% ΡΠΎΡΠ½ΠΎΡΡΠΈ (recall@100).
- BM25 Π΄Π°Π» ~93.6%, ColBERT (multi-vector) β ~54.8%.
- Single-vector ΡΠΌΠ±Π΅Π΄Π΄ΠΈΠ½Π³ΠΈ Π±ΡΡΡΡΠΎ ΡΠΏΠΈΡΠ°ΡΡΡΡ Π² Π»ΠΈΠΌΠΈΡ.
π‘ ΠΡΠ²ΠΎΠ΄
ΠΠΌΠ±Π΅Π΄Π΄ΠΈΠ½Π³ΠΈ β Π²Π°ΠΆΠ½ΡΠΉ ΠΈΠ½ΡΡΡΡΠΌΠ΅Π½Ρ, Π½ΠΎ Π½Π΅ ΡΠ½ΠΈΠ²Π΅ΡΡΠ°Π»ΡΠ½ΡΠΉ.
ΠΡΠ΄ΡΡΠ΅Π΅ ΠΏΠΎΠΈΡΠΊΠ° ΠΈ RAG β Π·Π° Π³ΠΈΠ±ΡΠΈΠ΄Π½ΡΠΌΠΈ ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½Π°ΠΌΠΈ.
@machinelearning_interview