Это делает ваше RAG-приложение в 10 раз лучше
Большинство людей, которых я знаю, просто разбивают документы на чанки и строят эмбеддинги для этих фрагментов.
Но создавать действительно хорошие чанки — сложно. Идеального способа нет, но есть простой приём, который значительно улучшает качество чанков.
Добавьте к каждому чанку дополнительную метаинформацию.
Например, вы работаете с научными статьями. Каждый чанк — это всего лишь абзац, но сам по себе он часто оказывается слишком размытым.
Вместо того чтобы использовать только абзац, я добавляю к каждому чанку следующую информацию:
🔸 Название статьи
🔸 Номер страницы
🔸 Заголовок секции, к которой относится абзац
🔸 Ключевые слова или теги, содержащиеся в абзаце
🔸 Одно предложение, кратко резюмирующее содержание абзаца
Этот дополнительный контекст делает эмбеддинг гораздо богаче и значительно повышает его полезность при извлечении.
Эту метаинформацию можно либо извлекать автоматически, либо генерировать с помощью LLM.
Это дополнительный шаг. Если вы только начинаете внедрять RAG, можно пока его пропустить. Но как только у вас заработает базовая версия — обязательно реализуйте это улучшение.
Вы больше не захотите работать по-другому.
👉 @DataSciencegx
Большинство людей, которых я знаю, просто разбивают документы на чанки и строят эмбеддинги для этих фрагментов.
Но создавать действительно хорошие чанки — сложно. Идеального способа нет, но есть простой приём, который значительно улучшает качество чанков.
Добавьте к каждому чанку дополнительную метаинформацию.
Например, вы работаете с научными статьями. Каждый чанк — это всего лишь абзац, но сам по себе он часто оказывается слишком размытым.
Вместо того чтобы использовать только абзац, я добавляю к каждому чанку следующую информацию:
Этот дополнительный контекст делает эмбеддинг гораздо богаче и значительно повышает его полезность при извлечении.
Эту метаинформацию можно либо извлекать автоматически, либо генерировать с помощью LLM.
Это дополнительный шаг. Если вы только начинаете внедрять RAG, можно пока его пропустить. Но как только у вас заработает базовая версия — обязательно реализуйте это улучшение.
Вы больше не захотите работать по-другому.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍2