OPENDATASCIENCE Telegram 2574
⚑️ НовоС исслСдованиС Google DeepMind ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΎ Тёсткий ΠΏΡ€Π΅Π΄Π΅Π» эмбСддингов

Π”Π°ΠΆΠ΅ самыС ΠΌΠΎΡ‰Π½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π΅ ΠΌΠΎΠ³ΡƒΡ‚ ΡƒΡ‡Π΅ΡΡ‚ΡŒ всС ΠΊΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΠΈ запросов ΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ².
Π•ΡΡ‚ΡŒ матСматичСский ΠΏΠΎΡ‚ΠΎΠ»ΠΎΠΊ: Ρ‡Π°ΡΡ‚ΡŒ ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ² Π½Π΅Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ Π΄ΠΎΡΡ‚Π°Ρ‚ΡŒ, ΠΊΠ°ΠΊ Π±Ρ‹ ΠΌΡ‹ Π½ΠΈ ΡƒΠ²Π΅Π»ΠΈΡ‡ΠΈΠ²Π°Π»ΠΈ Ρ€Π°Π·ΠΌΠ΅Ρ€ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ»ΠΈ количСство Π΄Π°Π½Π½Ρ‹Ρ….

πŸ“Œ Π’ Ρ‡Ρ‘ΠΌ ΡΡƒΡ‚ΡŒ
- Π­ΠΌΠ±Π΅Π΄Π΄ΠΈΠ½Π³ΠΈ ΠΈΠΌΠ΅ΡŽΡ‚ ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½Π½ΡƒΡŽ Ρ‘ΠΌΠΊΠΎΡΡ‚ΡŒ, Π·Π°Π²ΠΈΡΡΡ‰ΡƒΡŽ ΠΎΡ‚ размСрности Π²Π΅ΠΊΡ‚ΠΎΡ€Π°.
- ΠŸΡ€ΠΈ Π±ΠΎΠ»ΡŒΡˆΠΈΡ… ΠΎΠ±ΡŠΡ‘ΠΌΠ°Ρ… Π΄Π°Π½Π½Ρ‹Ρ… Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ поиска Π½Π°Ρ‡ΠΈΠ½Π°Π΅Ρ‚ Ρ€Π΅Π·ΠΊΠΎ ΠΏΠ°Π΄Π°Ρ‚ΡŒ.
- НапримСр: эмбСддинги Ρ€Π°Π·ΠΌΠ΅Ρ€ΠΎΠΌ 4096 Β«Π»ΠΎΠΌΠ°ΡŽΡ‚ΡΡΒ» ΡƒΠΆΠ΅ Π½Π° ~250 ΠΌΠ»Π½ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² (для top-2).

πŸ›  ΠŸΡ€Π°ΠΊΡ‚ΠΈΠΊΠ°
- Для поиска, Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΉ ΠΈ RAG эмбСддинги нСльзя ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠ°ΠΊ СдинствСнный инструмСнт.
- НуТны Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹Π΅ систСмы:
- Dense + sparse (BM25, Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹ΠΉ поиск)
- Multi-vector retrieval
- Π Π΅Ρ€Π°Π½ΠΊΠ΅Ρ€Ρ‹ Π½Π° Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… контСкстах

πŸ“‰ ЭкспСримСнты
- На тСстовом датасСтС LIMIT Π΄Π°ΠΆΠ΅ ΡΠΈΠ»ΡŒΠ½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ <20% точности (recall@100).
- BM25 Π΄Π°Π» ~93.6%, ColBERT (multi-vector) β€” ~54.8%.
- Single-vector эмбСддинги быстро ΡƒΠΏΠΈΡ€Π°ΡŽΡ‚ΡΡ Π² Π»ΠΈΠΌΠΈΡ‚.

πŸ’‘ Π’Ρ‹Π²ΠΎΠ΄
Π­ΠΌΠ±Π΅Π΄Π΄ΠΈΠ½Π³ΠΈ β€” Π²Π°ΠΆΠ½Ρ‹ΠΉ инструмСнт, Π½ΠΎ Π½Π΅ ΡƒΠ½ΠΈΠ²Π΅Ρ€ΡΠ°Π»ΡŒΠ½Ρ‹ΠΉ.
Π‘ΡƒΠ΄ΡƒΡ‰Π΅Π΅ поиска ΠΈ RAG β€” Π·Π° Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹ΠΌΠΈ ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½Π°ΠΌΠΈ.

πŸŸ Π‘Ρ‚Π°Ρ‚ΡŒΡ: https://arxiv.org/abs/2508.21038

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
πŸ‘8πŸ”₯5❀2



tgoop.com/opendatascience/2574
Create:
Last Update:

⚑️ НовоС исслСдованиС Google DeepMind ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΎ Тёсткий ΠΏΡ€Π΅Π΄Π΅Π» эмбСддингов

Π”Π°ΠΆΠ΅ самыС ΠΌΠΎΡ‰Π½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π΅ ΠΌΠΎΠ³ΡƒΡ‚ ΡƒΡ‡Π΅ΡΡ‚ΡŒ всС ΠΊΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΠΈ запросов ΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ².
Π•ΡΡ‚ΡŒ матСматичСский ΠΏΠΎΡ‚ΠΎΠ»ΠΎΠΊ: Ρ‡Π°ΡΡ‚ΡŒ ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ² Π½Π΅Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ Π΄ΠΎΡΡ‚Π°Ρ‚ΡŒ, ΠΊΠ°ΠΊ Π±Ρ‹ ΠΌΡ‹ Π½ΠΈ ΡƒΠ²Π΅Π»ΠΈΡ‡ΠΈΠ²Π°Π»ΠΈ Ρ€Π°Π·ΠΌΠ΅Ρ€ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ»ΠΈ количСство Π΄Π°Π½Π½Ρ‹Ρ….

πŸ“Œ Π’ Ρ‡Ρ‘ΠΌ ΡΡƒΡ‚ΡŒ
- Π­ΠΌΠ±Π΅Π΄Π΄ΠΈΠ½Π³ΠΈ ΠΈΠΌΠ΅ΡŽΡ‚ ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½Π½ΡƒΡŽ Ρ‘ΠΌΠΊΠΎΡΡ‚ΡŒ, Π·Π°Π²ΠΈΡΡΡ‰ΡƒΡŽ ΠΎΡ‚ размСрности Π²Π΅ΠΊΡ‚ΠΎΡ€Π°.
- ΠŸΡ€ΠΈ Π±ΠΎΠ»ΡŒΡˆΠΈΡ… ΠΎΠ±ΡŠΡ‘ΠΌΠ°Ρ… Π΄Π°Π½Π½Ρ‹Ρ… Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ поиска Π½Π°Ρ‡ΠΈΠ½Π°Π΅Ρ‚ Ρ€Π΅Π·ΠΊΠΎ ΠΏΠ°Π΄Π°Ρ‚ΡŒ.
- НапримСр: эмбСддинги Ρ€Π°Π·ΠΌΠ΅Ρ€ΠΎΠΌ 4096 Β«Π»ΠΎΠΌΠ°ΡŽΡ‚ΡΡΒ» ΡƒΠΆΠ΅ Π½Π° ~250 ΠΌΠ»Π½ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² (для top-2).

πŸ›  ΠŸΡ€Π°ΠΊΡ‚ΠΈΠΊΠ°
- Для поиска, Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΉ ΠΈ RAG эмбСддинги нСльзя ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠ°ΠΊ СдинствСнный инструмСнт.
- НуТны Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹Π΅ систСмы:
- Dense + sparse (BM25, Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹ΠΉ поиск)
- Multi-vector retrieval
- Π Π΅Ρ€Π°Π½ΠΊΠ΅Ρ€Ρ‹ Π½Π° Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… контСкстах

πŸ“‰ ЭкспСримСнты
- На тСстовом датасСтС LIMIT Π΄Π°ΠΆΠ΅ ΡΠΈΠ»ΡŒΠ½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ <20% точности (recall@100).
- BM25 Π΄Π°Π» ~93.6%, ColBERT (multi-vector) β€” ~54.8%.
- Single-vector эмбСддинги быстро ΡƒΠΏΠΈΡ€Π°ΡŽΡ‚ΡΡ Π² Π»ΠΈΠΌΠΈΡ‚.

πŸ’‘ Π’Ρ‹Π²ΠΎΠ΄
Π­ΠΌΠ±Π΅Π΄Π΄ΠΈΠ½Π³ΠΈ β€” Π²Π°ΠΆΠ½Ρ‹ΠΉ инструмСнт, Π½ΠΎ Π½Π΅ ΡƒΠ½ΠΈΠ²Π΅Ρ€ΡΠ°Π»ΡŒΠ½Ρ‹ΠΉ.
Π‘ΡƒΠ΄ΡƒΡ‰Π΅Π΅ поиска ΠΈ RAG β€” Π·Π° Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹ΠΌΠΈ ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½Π°ΠΌΠΈ.

πŸŸ Π‘Ρ‚Π°Ρ‚ΡŒΡ: https://arxiv.org/abs/2508.21038

@machinelearning_interview

BY Data Science by ODS.ai 🦜











Share with your friend now:
tgoop.com/opendatascience/2574

View MORE
Open in Telegram


Telegram News

Date: |

Matt Hussey, editorial director of NEAR Protocol (and former editor-in-chief of Decrypt) responded to the news of the Telegram group with β€œ#meIRL.” A vandalised bank during the 2019 protest. File photo: May James/HKFP. Step-by-step tutorial on desktop: During a meeting with the president of the Supreme Electoral Court (TSE) on June 6, Telegram's Vice President Ilya Perekopsky announced the initiatives. According to the executive, Brazil is the first country in the world where Telegram is introducing the features, which could be expanded to other countries facing threats to democracy through the dissemination of false content. How to create a business channel on Telegram? (Tutorial)
from us


Telegram Data Science by ODS.ai 🦜
FROM American