Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/neuraldeep/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
Neural Deep@neuraldeep P.1056
NEURALDEEP Telegram 1056
Всем привет! Увидел я в одном из профильных чатов запрос что делать с таблицами в RAG
И решил собрать базовые рекомендации которым я следую при построение RAG в котором есть таблицы как тип исходных данных

Хочу поделиться мыслями о том, как готовить данные для RAG, если в документах есть смесь текста и таблиц.
Первое это может быть непростой задачей, особенно когда таблицы содержат разноформатные данные, которые сложно привести к единому виду. Вот что я бы предложил:
Вы должны четко понимать когда галлюцинации это фича или баг
Так же вы должны четко описать какую задачу вы хотите решить когда кладете таблицы в RAG


Ответили на эти вопросы тогда к делу

1) Добавляем контекст к таблицам

Чтобы модель лучше понимала данные, важно усилить значения для каждой ячейки.
Например, если у вас есть таблица с популяционным распределением зеленых скрепышей, добавьте к каждой строке соответствующую категорию и подкатегорию.
Это поможет RAG лучше ориентироваться в данных на основе усилиения семантики.

Пример:
Было
Категория,Значение
Зеленые скрепыши,100
В том числе,50

Стало
Категория,Значение
Зеленые скрепыши,100
Зеленые скрепыши (в том числе),50



2) Очистка данных и проверка чанков

Перед тем как разбивать данные на чанки, убедитесь, что при перегонке таблиц в плоский формат (например, CSV) не возникло пустых значений или чанков. Это важно, чтобы в векторном пространстве не было мусора и вы не получили эффект "разрежения кластеров"

3) Разделение таблиц на логические части
Если у вас есть таблица с 1000 строк, разбейте её на более мелкие логические части, скажем, по 100 строк. На это можно написать агента который сделает это за вас. На старте это облегчит обработку и повысит точность поиска ну и соответсвенно скорость.

4) Неявные запросы
Чтобы избежать большого кол-ва ошибок, используйте query expansion или агента, который будет преобразовывать неявные запросы в более точные. Например, вместо запроса "Сколько зеленых скрепышей?" лучше использовать "Сколько зеленых скрепышей в категории 'Зеленые скрепыши'?".

5) Анализ кросс-табов
Если вам нужно анализировать данные из нескольких таблиц одновременно, убедитесь, что модель может корректно обрабатывать такие запросы. Для этого можно использовать дополнительные фильтры или агенты, которые будут объединять данные из разных таблиц т.е ходить по разным индексам.

6) Создание QA датасета для проверки качеств
На старте будет много ошибок, это нормально. Чтобы улучшать качество модели и не прыгать то улучшим данные то улучшим промпт то покрутим темературу, создайте QA датасет, где будут вопросы и правильные ответы. Это позволит вам итерационно улучшать модель и оценивать её результаты.

пример такого QA датасета:
[
{
"question": "Сколько зеленых скрепышей?",
"ground_truth": "100"
},
{
"question": "Сколько зеленых скрепышей (в том числе)?",
"ground_truth": "50"
}
]


Все это носит рекомендательный характер и требует проверки на практике с вашими данными, но вдруг кому-то это может помочь найти нужный путь. Если есть вопросы или предложения, пишите!
50🔥55



tgoop.com/neuraldeep/1056
Create:
Last Update:

Всем привет! Увидел я в одном из профильных чатов запрос что делать с таблицами в RAG
И решил собрать базовые рекомендации которым я следую при построение RAG в котором есть таблицы как тип исходных данных

Хочу поделиться мыслями о том, как готовить данные для RAG, если в документах есть смесь текста и таблиц.
Первое это может быть непростой задачей, особенно когда таблицы содержат разноформатные данные, которые сложно привести к единому виду. Вот что я бы предложил:
Вы должны четко понимать когда галлюцинации это фича или баг
Так же вы должны четко описать какую задачу вы хотите решить когда кладете таблицы в RAG


Ответили на эти вопросы тогда к делу

1) Добавляем контекст к таблицам

Чтобы модель лучше понимала данные, важно усилить значения для каждой ячейки.
Например, если у вас есть таблица с популяционным распределением зеленых скрепышей, добавьте к каждой строке соответствующую категорию и подкатегорию.
Это поможет RAG лучше ориентироваться в данных на основе усилиения семантики.

Пример:
Было

Категория,Значение
Зеленые скрепыши,100
В том числе,50

Стало
Категория,Значение
Зеленые скрепыши,100
Зеленые скрепыши (в том числе),50



2) Очистка данных и проверка чанков

Перед тем как разбивать данные на чанки, убедитесь, что при перегонке таблиц в плоский формат (например, CSV) не возникло пустых значений или чанков. Это важно, чтобы в векторном пространстве не было мусора и вы не получили эффект "разрежения кластеров"

3) Разделение таблиц на логические части
Если у вас есть таблица с 1000 строк, разбейте её на более мелкие логические части, скажем, по 100 строк. На это можно написать агента который сделает это за вас. На старте это облегчит обработку и повысит точность поиска ну и соответсвенно скорость.

4) Неявные запросы
Чтобы избежать большого кол-ва ошибок, используйте query expansion или агента, который будет преобразовывать неявные запросы в более точные. Например, вместо запроса "Сколько зеленых скрепышей?" лучше использовать "Сколько зеленых скрепышей в категории 'Зеленые скрепыши'?".

5) Анализ кросс-табов
Если вам нужно анализировать данные из нескольких таблиц одновременно, убедитесь, что модель может корректно обрабатывать такие запросы. Для этого можно использовать дополнительные фильтры или агенты, которые будут объединять данные из разных таблиц т.е ходить по разным индексам.

6) Создание QA датасета для проверки качеств
На старте будет много ошибок, это нормально. Чтобы улучшать качество модели и не прыгать то улучшим данные то улучшим промпт то покрутим темературу, создайте QA датасет, где будут вопросы и правильные ответы. Это позволит вам итерационно улучшать модель и оценивать её результаты.

пример такого QA датасета:
[
{
"question": "Сколько зеленых скрепышей?",
"ground_truth": "100"
},
{
"question": "Сколько зеленых скрепышей (в том числе)?",
"ground_truth": "50"
}
]


Все это носит рекомендательный характер и требует проверки на практике с вашими данными, но вдруг кому-то это может помочь найти нужный путь. Если есть вопросы или предложения, пишите!

BY Neural Deep




Share with your friend now:
tgoop.com/neuraldeep/1056

View MORE
Open in Telegram


Telegram News

Date: |

There have been several contributions to the group with members posting voice notes of screaming, yelling, groaning, and wailing in different rhythms and pitches. Calling out the “degenerate” community or the crypto obsessives that engage in high-risk trading, Co-founder of NFT renting protocol Rentable World emiliano.eth shared this group on his Twitter. He wrote: “hey degen, are you stressed? Just let it out all out. Voice only tg channel for screaming”. How to Create a Private or Public Channel on Telegram? In the next window, choose the type of your channel. If you want your channel to be public, you need to develop a link for it. In the screenshot below, it’s ”/catmarketing.” If your selected link is unavailable, you’ll need to suggest another option. To view your bio, click the Menu icon and select “View channel info.” Ng, who had pleaded not guilty to all charges, had been detained for more than 20 months. His channel was said to have contained around 120 messages and photos that incited others to vandalise pro-government shops and commit criminal damage targeting police stations.
from us


Telegram Neural Deep
FROM American