OPENDATASCIENCE Telegram 2568
⚑️ НовоС исслСдованиС Google DeepMind ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΎ Тёсткий ΠΏΡ€Π΅Π΄Π΅Π» эмбСддингов

Π”Π°ΠΆΠ΅ самыС ΠΌΠΎΡ‰Π½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π΅ ΠΌΠΎΠ³ΡƒΡ‚ ΡƒΡ‡Π΅ΡΡ‚ΡŒ всС ΠΊΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΠΈ запросов ΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ².
Π•ΡΡ‚ΡŒ матСматичСский ΠΏΠΎΡ‚ΠΎΠ»ΠΎΠΊ: Ρ‡Π°ΡΡ‚ΡŒ ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ² Π½Π΅Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ Π΄ΠΎΡΡ‚Π°Ρ‚ΡŒ, ΠΊΠ°ΠΊ Π±Ρ‹ ΠΌΡ‹ Π½ΠΈ ΡƒΠ²Π΅Π»ΠΈΡ‡ΠΈΠ²Π°Π»ΠΈ Ρ€Π°Π·ΠΌΠ΅Ρ€ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ»ΠΈ количСство Π΄Π°Π½Π½Ρ‹Ρ….

πŸ“Œ Π’ Ρ‡Ρ‘ΠΌ ΡΡƒΡ‚ΡŒ
- Π­ΠΌΠ±Π΅Π΄Π΄ΠΈΠ½Π³ΠΈ ΠΈΠΌΠ΅ΡŽΡ‚ ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½Π½ΡƒΡŽ Ρ‘ΠΌΠΊΠΎΡΡ‚ΡŒ, Π·Π°Π²ΠΈΡΡΡ‰ΡƒΡŽ ΠΎΡ‚ размСрности Π²Π΅ΠΊΡ‚ΠΎΡ€Π°.
- ΠŸΡ€ΠΈ Π±ΠΎΠ»ΡŒΡˆΠΈΡ… ΠΎΠ±ΡŠΡ‘ΠΌΠ°Ρ… Π΄Π°Π½Π½Ρ‹Ρ… Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ поиска Π½Π°Ρ‡ΠΈΠ½Π°Π΅Ρ‚ Ρ€Π΅Π·ΠΊΠΎ ΠΏΠ°Π΄Π°Ρ‚ΡŒ.
- НапримСр: эмбСддинги Ρ€Π°Π·ΠΌΠ΅Ρ€ΠΎΠΌ 4096 Β«Π»ΠΎΠΌΠ°ΡŽΡ‚ΡΡΒ» ΡƒΠΆΠ΅ Π½Π° ~250 ΠΌΠ»Π½ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² (для top-2).

πŸ›  ΠŸΡ€Π°ΠΊΡ‚ΠΈΠΊΠ°
- Для поиска, Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΉ ΠΈ RAG эмбСддинги нСльзя ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠ°ΠΊ СдинствСнный инструмСнт.
- НуТны Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹Π΅ систСмы:
- Dense + sparse (BM25, Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹ΠΉ поиск)
- Multi-vector retrieval
- Π Π΅Ρ€Π°Π½ΠΊΠ΅Ρ€Ρ‹ Π½Π° Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… контСкстах

πŸ“‰ ЭкспСримСнты
- На тСстовом датасСтС LIMIT Π΄Π°ΠΆΠ΅ ΡΠΈΠ»ΡŒΠ½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ <20% точности (recall@100).
- BM25 Π΄Π°Π» ~93.6%, ColBERT (multi-vector) β€” ~54.8%.
- Single-vector эмбСддинги быстро ΡƒΠΏΠΈΡ€Π°ΡŽΡ‚ΡΡ Π² Π»ΠΈΠΌΠΈΡ‚.

πŸ’‘ Π’Ρ‹Π²ΠΎΠ΄
Π­ΠΌΠ±Π΅Π΄Π΄ΠΈΠ½Π³ΠΈ β€” Π²Π°ΠΆΠ½Ρ‹ΠΉ инструмСнт, Π½ΠΎ Π½Π΅ ΡƒΠ½ΠΈΠ²Π΅Ρ€ΡΠ°Π»ΡŒΠ½Ρ‹ΠΉ.
Π‘ΡƒΠ΄ΡƒΡ‰Π΅Π΅ поиска ΠΈ RAG β€” Π·Π° Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹ΠΌΠΈ ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½Π°ΠΌΠΈ.

πŸŸ Π‘Ρ‚Π°Ρ‚ΡŒΡ: https://arxiv.org/abs/2508.21038

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
πŸ‘8πŸ”₯5❀2



tgoop.com/opendatascience/2568
Create:
Last Update:

⚑️ НовоС исслСдованиС Google DeepMind ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΎ Тёсткий ΠΏΡ€Π΅Π΄Π΅Π» эмбСддингов

Π”Π°ΠΆΠ΅ самыС ΠΌΠΎΡ‰Π½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π΅ ΠΌΠΎΠ³ΡƒΡ‚ ΡƒΡ‡Π΅ΡΡ‚ΡŒ всС ΠΊΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΠΈ запросов ΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ².
Π•ΡΡ‚ΡŒ матСматичСский ΠΏΠΎΡ‚ΠΎΠ»ΠΎΠΊ: Ρ‡Π°ΡΡ‚ΡŒ ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ² Π½Π΅Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ Π΄ΠΎΡΡ‚Π°Ρ‚ΡŒ, ΠΊΠ°ΠΊ Π±Ρ‹ ΠΌΡ‹ Π½ΠΈ ΡƒΠ²Π΅Π»ΠΈΡ‡ΠΈΠ²Π°Π»ΠΈ Ρ€Π°Π·ΠΌΠ΅Ρ€ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ»ΠΈ количСство Π΄Π°Π½Π½Ρ‹Ρ….

πŸ“Œ Π’ Ρ‡Ρ‘ΠΌ ΡΡƒΡ‚ΡŒ
- Π­ΠΌΠ±Π΅Π΄Π΄ΠΈΠ½Π³ΠΈ ΠΈΠΌΠ΅ΡŽΡ‚ ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½Π½ΡƒΡŽ Ρ‘ΠΌΠΊΠΎΡΡ‚ΡŒ, Π·Π°Π²ΠΈΡΡΡ‰ΡƒΡŽ ΠΎΡ‚ размСрности Π²Π΅ΠΊΡ‚ΠΎΡ€Π°.
- ΠŸΡ€ΠΈ Π±ΠΎΠ»ΡŒΡˆΠΈΡ… ΠΎΠ±ΡŠΡ‘ΠΌΠ°Ρ… Π΄Π°Π½Π½Ρ‹Ρ… Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ поиска Π½Π°Ρ‡ΠΈΠ½Π°Π΅Ρ‚ Ρ€Π΅Π·ΠΊΠΎ ΠΏΠ°Π΄Π°Ρ‚ΡŒ.
- НапримСр: эмбСддинги Ρ€Π°Π·ΠΌΠ΅Ρ€ΠΎΠΌ 4096 Β«Π»ΠΎΠΌΠ°ΡŽΡ‚ΡΡΒ» ΡƒΠΆΠ΅ Π½Π° ~250 ΠΌΠ»Π½ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² (для top-2).

πŸ›  ΠŸΡ€Π°ΠΊΡ‚ΠΈΠΊΠ°
- Для поиска, Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΉ ΠΈ RAG эмбСддинги нСльзя ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠ°ΠΊ СдинствСнный инструмСнт.
- НуТны Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹Π΅ систСмы:
- Dense + sparse (BM25, Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹ΠΉ поиск)
- Multi-vector retrieval
- Π Π΅Ρ€Π°Π½ΠΊΠ΅Ρ€Ρ‹ Π½Π° Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… контСкстах

πŸ“‰ ЭкспСримСнты
- На тСстовом датасСтС LIMIT Π΄Π°ΠΆΠ΅ ΡΠΈΠ»ΡŒΠ½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ <20% точности (recall@100).
- BM25 Π΄Π°Π» ~93.6%, ColBERT (multi-vector) β€” ~54.8%.
- Single-vector эмбСддинги быстро ΡƒΠΏΠΈΡ€Π°ΡŽΡ‚ΡΡ Π² Π»ΠΈΠΌΠΈΡ‚.

πŸ’‘ Π’Ρ‹Π²ΠΎΠ΄
Π­ΠΌΠ±Π΅Π΄Π΄ΠΈΠ½Π³ΠΈ β€” Π²Π°ΠΆΠ½Ρ‹ΠΉ инструмСнт, Π½ΠΎ Π½Π΅ ΡƒΠ½ΠΈΠ²Π΅Ρ€ΡΠ°Π»ΡŒΠ½Ρ‹ΠΉ.
Π‘ΡƒΠ΄ΡƒΡ‰Π΅Π΅ поиска ΠΈ RAG β€” Π·Π° Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹ΠΌΠΈ ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½Π°ΠΌΠΈ.

πŸŸ Π‘Ρ‚Π°Ρ‚ΡŒΡ: https://arxiv.org/abs/2508.21038

@machinelearning_interview

BY Data Science by ODS.ai 🦜











Share with your friend now:
tgoop.com/opendatascience/2568

View MORE
Open in Telegram


Telegram News

Date: |

The main design elements of your Telegram channel include a name, bio (brief description), and avatar. Your bio should be: With Bitcoin down 30% in the past week, some crypto traders have taken to Telegram to β€œvoice” their feelings. Content is editable within two days of publishing End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance. In the next window, choose the type of your channel. If you want your channel to be public, you need to develop a link for it. In the screenshot below, it’s ”/catmarketing.” If your selected link is unavailable, you’ll need to suggest another option.
from us


Telegram Data Science by ODS.ai 🦜
FROM American