Neural Deep@neuraldeep P.1056

Neural Deep

Всем привет! Увидел я в одном из профильных чатов запрос что делать с таблицами в RAG
И решил собрать базовые рекомендации которым я следую при построение RAG в котором есть таблицы как тип исходных данных

Хочу поделиться мыслями о том, как готовить данные для RAG, если в документах есть смесь текста и таблиц.
Первое это может быть непростой задачей, особенно когда таблицы содержат разноформатные данные, которые сложно привести к единому виду. Вот что я бы предложил:
Вы должны четко понимать когда галлюцинации это фича или баг
Так же вы должны четко описать какую задачу вы хотите решить когда кладете таблицы в RAG

Ответили на эти вопросы тогда к делу

1) Добавляем контекст к таблицам

Чтобы модель лучше понимала данные, важно усилить значения для каждой ячейки.
Например, если у вас есть таблица с популяционным распределением зеленых скрепышей, добавьте к каждой строке соответствующую категорию и подкатегорию.
Это поможет RAG лучше ориентироваться в данных на основе усилиения семантики.

Пример:
Было

Категория,Значение
Зеленые скрепыши,100
В том числе,50

Стало

Категория,Значение
Зеленые скрепыши,100
Зеленые скрепыши (в том числе),50

2) Очистка данных и проверка чанков

Перед тем как разбивать данные на чанки, убедитесь, что при перегонке таблиц в плоский формат (например, CSV) не возникло пустых значений или чанков. Это важно, чтобы в векторном пространстве не было мусора и вы не получили эффект "разрежения кластеров"

3) Разделение таблиц на логические части
Если у вас есть таблица с 1000 строк, разбейте её на более мелкие логические части, скажем, по 100 строк. На это можно написать агента который сделает это за вас. На старте это облегчит обработку и повысит точность поиска ну и соответсвенно скорость.

4) Неявные запросы
Чтобы избежать большого кол-ва ошибок, используйте query expansion или агента, который будет преобразовывать неявные запросы в более точные. Например, вместо запроса "Сколько зеленых скрепышей?" лучше использовать "Сколько зеленых скрепышей в категории 'Зеленые скрепыши'?".

5) Анализ кросс-табов
Если вам нужно анализировать данные из нескольких таблиц одновременно, убедитесь, что модель может корректно обрабатывать такие запросы. Для этого можно использовать дополнительные фильтры или агенты, которые будут объединять данные из разных таблиц т.е ходить по разным индексам.

6) Создание QA датасета для проверки качеств
На старте будет много ошибок, это нормально. Чтобы улучшать качество модели и не прыгать то улучшим данные то улучшим промпт то покрутим темературу, создайте QA датасет, где будут вопросы и правильные ответы. Это позволит вам итерационно улучшать модель и оценивать её результаты.

пример такого QA датасета:

[
    {
        "question": "Сколько зеленых скрепышей?",
        "ground_truth": "100"
    },
    {
        "question": "Сколько зеленых скрепышей (в том числе)?",
        "ground_truth": "50"
    }
]

Все это носит рекомендательный характер и требует проверки на практике с вашими данными, но вдруг кому-то это может помочь найти нужный путь. Если есть вопросы или предложения, пишите!

50🔥55

www.tgoop.com/neuraldeep/1056

723 viewsValerii Kovalskii, edited Aug 21, 2024 at 06:42

tgoop.com/neuraldeep/1056

Create: 2024-08-21
Last Update: 2025-07-26 23:12:27

Категория,Значение
Зеленые скрепыши,100
В том числе,50

Стало

Категория,Значение
Зеленые скрепыши,100
Зеленые скрепыши (в том числе),50

[
    {
        "question": "Сколько зеленых скрепышей?",
        "ground_truth": "100"
    },
    {
        "question": "Сколько зеленых скрепышей (в том числе)?",
        "ground_truth": "50"
    }
]

BY Neural Deep

Share with your friend now:
tgoop.com/neuraldeep/1056

Telegram News

Всем привет! Увидел я в одном из профильных чатов запрос что делать с таблицами в RAG