TECH_PRIESTESS Telegram 1743
Обновила на архиве статью AI-generated text boundary detection with RoFT, которую недавно приняли на конференцию COLM.

Напомню, что в этой статье мы с коллегами рассматривали тексты, частично написанные человеком и частично сгенерированные LLMкой и детектировали номер предложения, в котором произошел переход от человеческого текста к машинной генерации. Основной особенностью статьи является тщательное изучение сценариев, в которых детектор обучается на доменах или генерациях одних моделей, а тестируется на другом, прежде невиданном домене или генерации невиданной модели.

Также напомню, что:
💜 В этом сценарии классификатор на основе стандартной предтренированной модели Roberta оказался хорош in domain, но плохо переносился между доменами и моделями (сильно падало качество на out of domain);
💜 Классификаторы на основе TDA оказались неплохо переносимы (качество на out of domain падало не сильно), но имели низкое качество в целом;
💜 Наилучшим компромиссом между качеством in domain и out of domain оказались классификаторы на основе средней перплексии и дисперсии перплексии по предложениям на основе моделей phi 1.5/phi 2 от Тани Гайнцевой.

Ну, а основными отличиями этой конкретной версии статьи являются исправление мелких ошибок и улучшение читаемости диаграмм.

Кроме того, мы с Таней добавили код на гитхаб проекта. Ставьте звёздочки и сохраняйте, чтобы не забыть!

#объяснения_статей
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/tech_priestess/1743
Create:
Last Update:

Обновила на архиве статью AI-generated text boundary detection with RoFT, которую недавно приняли на конференцию COLM.

Напомню, что в этой статье мы с коллегами рассматривали тексты, частично написанные человеком и частично сгенерированные LLMкой и детектировали номер предложения, в котором произошел переход от человеческого текста к машинной генерации. Основной особенностью статьи является тщательное изучение сценариев, в которых детектор обучается на доменах или генерациях одних моделей, а тестируется на другом, прежде невиданном домене или генерации невиданной модели.

Также напомню, что:
💜 В этом сценарии классификатор на основе стандартной предтренированной модели Roberta оказался хорош in domain, но плохо переносился между доменами и моделями (сильно падало качество на out of domain);
💜 Классификаторы на основе TDA оказались неплохо переносимы (качество на out of domain падало не сильно), но имели низкое качество в целом;
💜 Наилучшим компромиссом между качеством in domain и out of domain оказались классификаторы на основе средней перплексии и дисперсии перплексии по предложениям на основе моделей phi 1.5/phi 2 от Тани Гайнцевой.

Ну, а основными отличиями этой конкретной версии статьи являются исправление мелких ошибок и улучшение читаемости диаграмм.

Кроме того, мы с Таней добавили код на гитхаб проекта. Ставьте звёздочки и сохраняйте, чтобы не забыть!

#объяснения_статей

BY Техножрица 👩‍💻👩‍🏫👩‍🔧




Share with your friend now:
tgoop.com/tech_priestess/1743

View MORE
Open in Telegram


Telegram News

Date: |

Other crimes that the SUCK Channel incited under Ng’s watch included using corrosive chemicals to make explosives and causing grievous bodily harm with intent. The court also found Ng responsible for calling on people to assist protesters who clashed violently with police at several universities in November 2019. Hashtags are a fast way to find the correct information on social media. To put your content out there, be sure to add hashtags to each post. We have two intelligent tips to give you: How to create a business channel on Telegram? (Tutorial) Matt Hussey, editorial director of NEAR Protocol (and former editor-in-chief of Decrypt) responded to the news of the Telegram group with “#meIRL.” Telegram Channels requirements & features
from us


Telegram Техножрица 👩‍💻👩‍🏫👩‍🔧
FROM American