JUNKYARDMATHML Telegram 180
Обновила на архиве статью AI-generated text boundary detection with RoFT, которую недавно приняли на конференцию COLM.

Напомню, что в этой статье мы с коллегами рассматривали тексты, частично написанные человеком и частично сгенерированные LLMкой и детектировали номер предложения, в котором произошел переход от человеческого текста к машинной генерации. Основной особенностью статьи является тщательное изучение сценариев, в которых детектор обучается на доменах или генерациях одних моделей, а тестируется на другом, прежде невиданном домене или генерации невиданной модели.

Также напомню, что:
💜 В этом сценарии классификатор на основе стандартной предтренированной модели Roberta оказался хорош in domain, но плохо переносился между доменами и моделями (сильно падало качество на out of domain);
💜 Классификаторы на основе TDA оказались неплохо переносимы (качество на out of domain падало не сильно), но имели низкое качество в целом;
💜 Наилучшим компромиссом между качеством in domain и out of domain оказались классификаторы на основе средней перплексии и дисперсии перплексии по предложениям на основе моделей phi 1.5/phi 2 от Тани Гайнцевой.

Ну, а основными отличиями этой конкретной версии статьи являются исправление мелких ошибок и улучшение читаемости диаграмм.

Кроме того, мы с Таней добавили код на гитхаб проекта. Ставьте звёздочки и сохраняйте, чтобы не забыть!

#объяснения_статей
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/junkyardmathml/180
Create:
Last Update:

Обновила на архиве статью AI-generated text boundary detection with RoFT, которую недавно приняли на конференцию COLM.

Напомню, что в этой статье мы с коллегами рассматривали тексты, частично написанные человеком и частично сгенерированные LLMкой и детектировали номер предложения, в котором произошел переход от человеческого текста к машинной генерации. Основной особенностью статьи является тщательное изучение сценариев, в которых детектор обучается на доменах или генерациях одних моделей, а тестируется на другом, прежде невиданном домене или генерации невиданной модели.

Также напомню, что:
💜 В этом сценарии классификатор на основе стандартной предтренированной модели Roberta оказался хорош in domain, но плохо переносился между доменами и моделями (сильно падало качество на out of domain);
💜 Классификаторы на основе TDA оказались неплохо переносимы (качество на out of domain падало не сильно), но имели низкое качество в целом;
💜 Наилучшим компромиссом между качеством in domain и out of domain оказались классификаторы на основе средней перплексии и дисперсии перплексии по предложениям на основе моделей phi 1.5/phi 2 от Тани Гайнцевой.

Ну, а основными отличиями этой конкретной версии статьи являются исправление мелких ошибок и улучшение читаемости диаграмм.

Кроме того, мы с Таней добавили код на гитхаб проекта. Ставьте звёздочки и сохраняйте, чтобы не забыть!

#объяснения_статей

BY Math and ML stuff




Share with your friend now:
tgoop.com/junkyardmathml/180

View MORE
Open in Telegram


Telegram News

Date: |

A vandalised bank during the 2019 protest. File photo: May James/HKFP. Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click “Save”.! Commenting about the court's concerns about the spread of false information related to the elections, Minister Fachin noted Brazil is "facing circumstances that could put Brazil's democracy at risk." During the meeting, the information technology secretary at the TSE, Julio Valente, put forward a list of requests the court believes will disinformation. The optimal dimension of the avatar on Telegram is 512px by 512px, and it’s recommended to use PNG format to deliver an unpixelated avatar. Administrators
from us


Telegram Math and ML stuff
FROM American