SELFMADELIBRARY Telegram 715
Автоматическое создание обзоров научной литературы с помощью больших языковых моделей: пошаговый подход

В статье предлагается новый подход к генерации обзоров научной литературы, основанный на пошаговом использовании LLM. На основе заданных тем и списка рефератов статей разрабатывается серия запросов (prompts), которые направляют LLM на последовательную генерацию заголовка, аннотации, иерархических заголовков разделов и основного содержания обзора.

Разбиение задачи на управляемые этапы позволяет LLM сохранять общую перспективу при генерации заголовков, что повышает связность и релевантность создаваемых обзоров. Кроме того, после генерации заголовков, генерация основного содержания может быть обусловлена этой структурой, а не всем предыдущим контентом, что значительно снижает стоимость использования API.

Методология, которую предлагают авторы

Процесс генерации обзора состоит из шести шагов, разделенных на две основные фазы:

1\. Генерация структуры:

- Шаг 1: Генерация заголовка. LLM генерирует заголовок обзора на основе заданных тем и рефератов.

- Шаг 2: Генерация заголовков разделов. LLM генерирует заголовки разделов, сохраняя информацию из предыдущих шагов.

- Шаг 3: Генерация аннотации. LLM генерирует аннотацию, суммируя сгенерированный заголовок и структуру в рамках заданных тем.


2\. Генерация подразделов и содержания:

- Шаг 4: Выбор рефератов для каждого раздела. Для каждого раздела выбирается подмножество рефератов, которые будут использованы при генерации его структуры и содержания.

- Шаг 5: Генерация заголовков подразделов. LLM генерирует заголовки подразделов на основе заголовка обзора, структуры и выбранных рефератов.

- Шаг 6: Генерация содержания. LLM генерирует подробное содержание для каждого подраздела, используя структуру, выбранные рефераты и примеры цитирования.


Результаты и обсуждение

Система, реализованная с использованием модели Qwen-long, заняла третье место в конкурсе NLPCC 2024 Scientific Literature Survey Generation, отстав от команды, занявшей второе место, всего на 0.03%. Кроме того, система продемонстрировала высокий показатель Soft Heading Recall (95.84%), заняв второе место среди всех участников. Эти результаты свидетельствуют об эффективности пошагового подхода в поддержании логической и связной структуры обзоров.

Благодаря эффективному дизайну запросов и низкой стоимости API Qwen-long, стоимость генерации одного обзора составила всего 0.1 RMB, что повышает практическую ценность метода.

Ограничения и будущие направления

Несмотря на достигнутые успехи, метод имеет свои ограничения. В частности, без использования содержания рефератов, феномен галлюцинаций LLM становится значительным. В результате метод не может гарантировать точность и достоверность цитирования и анализа в сгенерированном обзоре, что негативно сказывается на оценке человеком.

В будущем планируется включить содержание рефератов в структуру метода, чтобы повысить фактическую точность и надежность результатов, стремясь к созданию более точных и достоверных автоматических обзоров литературы.

Lai, Y., Wu, Y., Wang, Y., Hu, W., & Zheng, C. (2024). Instruct Large Language Models to Generate Scientific Literature Survey Step by Step (arXiv:2408.07884). arXiv. https://doi.org/10.48550/arXiv.2408.07884
9👍4



tgoop.com/selfmadeLibrary/715
Create:
Last Update:

Автоматическое создание обзоров научной литературы с помощью больших языковых моделей: пошаговый подход

В статье предлагается новый подход к генерации обзоров научной литературы, основанный на пошаговом использовании LLM. На основе заданных тем и списка рефератов статей разрабатывается серия запросов (prompts), которые направляют LLM на последовательную генерацию заголовка, аннотации, иерархических заголовков разделов и основного содержания обзора.

Разбиение задачи на управляемые этапы позволяет LLM сохранять общую перспективу при генерации заголовков, что повышает связность и релевантность создаваемых обзоров. Кроме того, после генерации заголовков, генерация основного содержания может быть обусловлена этой структурой, а не всем предыдущим контентом, что значительно снижает стоимость использования API.

Методология, которую предлагают авторы

Процесс генерации обзора состоит из шести шагов, разделенных на две основные фазы:

1\. Генерация структуры:

- Шаг 1: Генерация заголовка. LLM генерирует заголовок обзора на основе заданных тем и рефератов.

- Шаг 2: Генерация заголовков разделов. LLM генерирует заголовки разделов, сохраняя информацию из предыдущих шагов.

- Шаг 3: Генерация аннотации. LLM генерирует аннотацию, суммируя сгенерированный заголовок и структуру в рамках заданных тем.


2\. Генерация подразделов и содержания:

- Шаг 4: Выбор рефератов для каждого раздела. Для каждого раздела выбирается подмножество рефератов, которые будут использованы при генерации его структуры и содержания.

- Шаг 5: Генерация заголовков подразделов. LLM генерирует заголовки подразделов на основе заголовка обзора, структуры и выбранных рефератов.

- Шаг 6: Генерация содержания. LLM генерирует подробное содержание для каждого подраздела, используя структуру, выбранные рефераты и примеры цитирования.


Результаты и обсуждение

Система, реализованная с использованием модели Qwen-long, заняла третье место в конкурсе NLPCC 2024 Scientific Literature Survey Generation, отстав от команды, занявшей второе место, всего на 0.03%. Кроме того, система продемонстрировала высокий показатель Soft Heading Recall (95.84%), заняв второе место среди всех участников. Эти результаты свидетельствуют об эффективности пошагового подхода в поддержании логической и связной структуры обзоров.

Благодаря эффективному дизайну запросов и низкой стоимости API Qwen-long, стоимость генерации одного обзора составила всего 0.1 RMB, что повышает практическую ценность метода.

Ограничения и будущие направления

Несмотря на достигнутые успехи, метод имеет свои ограничения. В частности, без использования содержания рефератов, феномен галлюцинаций LLM становится значительным. В результате метод не может гарантировать точность и достоверность цитирования и анализа в сгенерированном обзоре, что негативно сказывается на оценке человеком.

В будущем планируется включить содержание рефератов в структуру метода, чтобы повысить фактическую точность и надежность результатов, стремясь к созданию более точных и достоверных автоматических обзоров литературы.

Lai, Y., Wu, Y., Wang, Y., Hu, W., & Zheng, C. (2024). Instruct Large Language Models to Generate Scientific Literature Survey Step by Step (arXiv:2408.07884). arXiv. https://doi.org/10.48550/arXiv.2408.07884

BY какая-то библиотека


Share with your friend now:
tgoop.com/selfmadeLibrary/715

View MORE
Open in Telegram


Telegram News

Date: |

End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance. The SUCK Channel on Telegram, with a message saying some content has been removed by the police. Photo: Telegram screenshot. Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link). Read now Polls
from us


Telegram какая-то библиотека
FROM American