DSPROGLIB Telegram 6883
📶 Как работает HNSW: секрет быстрой работы с векторами

Hierarchical navigable small world (HNSW) — алгоритм, лежащий в основе большинства современных векторных баз данных.

Разбираемся просто:

🏗 Построение индекса

HNSW создаёт иерархию слоёв графов:
— Верхние слои: только дальние связи
— Нижний слой: все векторы, плотные локальные связи

🔎На каждом следующем слое вниз добавляются больше векторов и коротких связей

🔍 Как работает поиск

Представьте это как путешествие:
— Верхний слой = дальний перелёт → приблизиться к цели
— Средние слои = поезд → попасть в нужный район
— Нижний слой = велосипед → достичь точного вектора

🔎 Каждый слой направляет поиск на следующем, пропуская нерелевантные данные без необходимости оценивать всё.

⚙️ Важные параметры
— maxConnections: плотность графа (больше = точнее, но медленнее)
— ef/efConstruction: размер «динамического списка» при поиске/индексации (больше = точнее, но медленнее)
— distance: метрика для сравнения векторов

💡 В итоге: HNSW — это многомерный skip-list, который быстро находит правильное «соседство» перед локальным детальным поиском. Именно поэтому он работает так быстро даже с миллиардами векторов.

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍2



tgoop.com/dsproglib/6883
Create:
Last Update:

📶 Как работает HNSW: секрет быстрой работы с векторами

Hierarchical navigable small world (HNSW) — алгоритм, лежащий в основе большинства современных векторных баз данных.

Разбираемся просто:

🏗 Построение индекса

HNSW создаёт иерархию слоёв графов:
— Верхние слои: только дальние связи
— Нижний слой: все векторы, плотные локальные связи

🔎На каждом следующем слое вниз добавляются больше векторов и коротких связей

🔍 Как работает поиск

Представьте это как путешествие:
— Верхний слой = дальний перелёт → приблизиться к цели
— Средние слои = поезд → попасть в нужный район
— Нижний слой = велосипед → достичь точного вектора

🔎 Каждый слой направляет поиск на следующем, пропуская нерелевантные данные без необходимости оценивать всё.

⚙️ Важные параметры
— maxConnections: плотность графа (больше = точнее, но медленнее)
— ef/efConstruction: размер «динамического списка» при поиске/индексации (больше = точнее, но медленнее)
— distance: метрика для сравнения векторов

💡 В итоге: HNSW — это многомерный skip-list, который быстро находит правильное «соседство» перед локальным детальным поиском. Именно поэтому он работает так быстро даже с миллиардами векторов.

🐸 Библиотека дата-сайентиста

#буст

BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение




Share with your friend now:
tgoop.com/dsproglib/6883

View MORE
Open in Telegram


Telegram News

Date: |

Avoid compound hashtags that consist of several words. If you have a hashtag like #marketingnewsinusa, split it into smaller hashtags: “#marketing, #news, #usa. As five out of seven counts were serious, Hui sentenced Ng to six years and six months in jail. While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. “[The defendant] could not shift his criminal liability,” Hui said. Deputy District Judge Peter Hui sentenced computer technician Ng Man-ho on Thursday, a month after the 27-year-old, who ran a Telegram group called SUCK Channel, was found guilty of seven charges of conspiring to incite others to commit illegal acts during the 2019 extradition bill protests and subsequent months.
from us


Telegram Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
FROM American