OPENDATASCIENCE Telegram 2572
⚑️ НовоС исслСдованиС Google DeepMind ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΎ Тёсткий ΠΏΡ€Π΅Π΄Π΅Π» эмбСддингов

Π”Π°ΠΆΠ΅ самыС ΠΌΠΎΡ‰Π½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π΅ ΠΌΠΎΠ³ΡƒΡ‚ ΡƒΡ‡Π΅ΡΡ‚ΡŒ всС ΠΊΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΠΈ запросов ΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ².
Π•ΡΡ‚ΡŒ матСматичСский ΠΏΠΎΡ‚ΠΎΠ»ΠΎΠΊ: Ρ‡Π°ΡΡ‚ΡŒ ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ² Π½Π΅Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ Π΄ΠΎΡΡ‚Π°Ρ‚ΡŒ, ΠΊΠ°ΠΊ Π±Ρ‹ ΠΌΡ‹ Π½ΠΈ ΡƒΠ²Π΅Π»ΠΈΡ‡ΠΈΠ²Π°Π»ΠΈ Ρ€Π°Π·ΠΌΠ΅Ρ€ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ»ΠΈ количСство Π΄Π°Π½Π½Ρ‹Ρ….

πŸ“Œ Π’ Ρ‡Ρ‘ΠΌ ΡΡƒΡ‚ΡŒ
- Π­ΠΌΠ±Π΅Π΄Π΄ΠΈΠ½Π³ΠΈ ΠΈΠΌΠ΅ΡŽΡ‚ ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½Π½ΡƒΡŽ Ρ‘ΠΌΠΊΠΎΡΡ‚ΡŒ, Π·Π°Π²ΠΈΡΡΡ‰ΡƒΡŽ ΠΎΡ‚ размСрности Π²Π΅ΠΊΡ‚ΠΎΡ€Π°.
- ΠŸΡ€ΠΈ Π±ΠΎΠ»ΡŒΡˆΠΈΡ… ΠΎΠ±ΡŠΡ‘ΠΌΠ°Ρ… Π΄Π°Π½Π½Ρ‹Ρ… Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ поиска Π½Π°Ρ‡ΠΈΠ½Π°Π΅Ρ‚ Ρ€Π΅Π·ΠΊΠΎ ΠΏΠ°Π΄Π°Ρ‚ΡŒ.
- НапримСр: эмбСддинги Ρ€Π°Π·ΠΌΠ΅Ρ€ΠΎΠΌ 4096 Β«Π»ΠΎΠΌΠ°ΡŽΡ‚ΡΡΒ» ΡƒΠΆΠ΅ Π½Π° ~250 ΠΌΠ»Π½ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² (для top-2).

πŸ›  ΠŸΡ€Π°ΠΊΡ‚ΠΈΠΊΠ°
- Для поиска, Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΉ ΠΈ RAG эмбСддинги нСльзя ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠ°ΠΊ СдинствСнный инструмСнт.
- НуТны Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹Π΅ систСмы:
- Dense + sparse (BM25, Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹ΠΉ поиск)
- Multi-vector retrieval
- Π Π΅Ρ€Π°Π½ΠΊΠ΅Ρ€Ρ‹ Π½Π° Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… контСкстах

πŸ“‰ ЭкспСримСнты
- На тСстовом датасСтС LIMIT Π΄Π°ΠΆΠ΅ ΡΠΈΠ»ΡŒΠ½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ <20% точности (recall@100).
- BM25 Π΄Π°Π» ~93.6%, ColBERT (multi-vector) β€” ~54.8%.
- Single-vector эмбСддинги быстро ΡƒΠΏΠΈΡ€Π°ΡŽΡ‚ΡΡ Π² Π»ΠΈΠΌΠΈΡ‚.

πŸ’‘ Π’Ρ‹Π²ΠΎΠ΄
Π­ΠΌΠ±Π΅Π΄Π΄ΠΈΠ½Π³ΠΈ β€” Π²Π°ΠΆΠ½Ρ‹ΠΉ инструмСнт, Π½ΠΎ Π½Π΅ ΡƒΠ½ΠΈΠ²Π΅Ρ€ΡΠ°Π»ΡŒΠ½Ρ‹ΠΉ.
Π‘ΡƒΠ΄ΡƒΡ‰Π΅Π΅ поиска ΠΈ RAG β€” Π·Π° Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹ΠΌΠΈ ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½Π°ΠΌΠΈ.

πŸŸ Π‘Ρ‚Π°Ρ‚ΡŒΡ: https://arxiv.org/abs/2508.21038

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
πŸ‘8πŸ”₯5❀2



tgoop.com/opendatascience/2572
Create:
Last Update:

⚑️ НовоС исслСдованиС Google DeepMind ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΎ Тёсткий ΠΏΡ€Π΅Π΄Π΅Π» эмбСддингов

Π”Π°ΠΆΠ΅ самыС ΠΌΠΎΡ‰Π½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π΅ ΠΌΠΎΠ³ΡƒΡ‚ ΡƒΡ‡Π΅ΡΡ‚ΡŒ всС ΠΊΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΠΈ запросов ΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ².
Π•ΡΡ‚ΡŒ матСматичСский ΠΏΠΎΡ‚ΠΎΠ»ΠΎΠΊ: Ρ‡Π°ΡΡ‚ΡŒ ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ² Π½Π΅Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ Π΄ΠΎΡΡ‚Π°Ρ‚ΡŒ, ΠΊΠ°ΠΊ Π±Ρ‹ ΠΌΡ‹ Π½ΠΈ ΡƒΠ²Π΅Π»ΠΈΡ‡ΠΈΠ²Π°Π»ΠΈ Ρ€Π°Π·ΠΌΠ΅Ρ€ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ»ΠΈ количСство Π΄Π°Π½Π½Ρ‹Ρ….

πŸ“Œ Π’ Ρ‡Ρ‘ΠΌ ΡΡƒΡ‚ΡŒ
- Π­ΠΌΠ±Π΅Π΄Π΄ΠΈΠ½Π³ΠΈ ΠΈΠΌΠ΅ΡŽΡ‚ ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½Π½ΡƒΡŽ Ρ‘ΠΌΠΊΠΎΡΡ‚ΡŒ, Π·Π°Π²ΠΈΡΡΡ‰ΡƒΡŽ ΠΎΡ‚ размСрности Π²Π΅ΠΊΡ‚ΠΎΡ€Π°.
- ΠŸΡ€ΠΈ Π±ΠΎΠ»ΡŒΡˆΠΈΡ… ΠΎΠ±ΡŠΡ‘ΠΌΠ°Ρ… Π΄Π°Π½Π½Ρ‹Ρ… Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ поиска Π½Π°Ρ‡ΠΈΠ½Π°Π΅Ρ‚ Ρ€Π΅Π·ΠΊΠΎ ΠΏΠ°Π΄Π°Ρ‚ΡŒ.
- НапримСр: эмбСддинги Ρ€Π°Π·ΠΌΠ΅Ρ€ΠΎΠΌ 4096 Β«Π»ΠΎΠΌΠ°ΡŽΡ‚ΡΡΒ» ΡƒΠΆΠ΅ Π½Π° ~250 ΠΌΠ»Π½ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² (для top-2).

πŸ›  ΠŸΡ€Π°ΠΊΡ‚ΠΈΠΊΠ°
- Для поиска, Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΉ ΠΈ RAG эмбСддинги нСльзя ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠ°ΠΊ СдинствСнный инструмСнт.
- НуТны Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹Π΅ систСмы:
- Dense + sparse (BM25, Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹ΠΉ поиск)
- Multi-vector retrieval
- Π Π΅Ρ€Π°Π½ΠΊΠ΅Ρ€Ρ‹ Π½Π° Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… контСкстах

πŸ“‰ ЭкспСримСнты
- На тСстовом датасСтС LIMIT Π΄Π°ΠΆΠ΅ ΡΠΈΠ»ΡŒΠ½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ <20% точности (recall@100).
- BM25 Π΄Π°Π» ~93.6%, ColBERT (multi-vector) β€” ~54.8%.
- Single-vector эмбСддинги быстро ΡƒΠΏΠΈΡ€Π°ΡŽΡ‚ΡΡ Π² Π»ΠΈΠΌΠΈΡ‚.

πŸ’‘ Π’Ρ‹Π²ΠΎΠ΄
Π­ΠΌΠ±Π΅Π΄Π΄ΠΈΠ½Π³ΠΈ β€” Π²Π°ΠΆΠ½Ρ‹ΠΉ инструмСнт, Π½ΠΎ Π½Π΅ ΡƒΠ½ΠΈΠ²Π΅Ρ€ΡΠ°Π»ΡŒΠ½Ρ‹ΠΉ.
Π‘ΡƒΠ΄ΡƒΡ‰Π΅Π΅ поиска ΠΈ RAG β€” Π·Π° Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹ΠΌΠΈ ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½Π°ΠΌΠΈ.

πŸŸ Π‘Ρ‚Π°Ρ‚ΡŒΡ: https://arxiv.org/abs/2508.21038

@machinelearning_interview

BY Data Science by ODS.ai 🦜











Share with your friend now:
tgoop.com/opendatascience/2572

View MORE
Open in Telegram


Telegram News

Date: |

The main design elements of your Telegram channel include a name, bio (brief description), and avatar. Your bio should be: Other crimes that the SUCK Channel incited under Ng’s watch included using corrosive chemicals to make explosives and causing grievous bodily harm with intent. The court also found Ng responsible for calling on people to assist protesters who clashed violently with police at several universities in November 2019. Ng was convicted in April for conspiracy to incite a riot, public nuisance, arson, criminal damage, manufacturing of explosives, administering poison and wounding with intent to do grievous bodily harm between October 2019 and June 2020. Your posting frequency depends on the topic of your channel. If you have a news channel, it’s OK to publish new content every day (or even every hour). For other industries, stick with 2-3 large posts a week. Matt Hussey, editorial director of NEAR Protocol (and former editor-in-chief of Decrypt) responded to the news of the Telegram group with β€œ#meIRL.”
from us


Telegram Data Science by ODS.ai 🦜
FROM American