ITEXTRAPOLATION Telegram 692
Смотрите, OpenAI предлагает инструмент, определяющий вероятность того, что входящий текст сгенерирован нейросетью, а не написан человеком. Вообще молодцы, придумывают генерацию текста и сразу же предлагают контринструмент. Но вот беда, на мой взгляд, тут в том, что рано или поздно определить искусственность текста можно будет, как погоду в анекдоте про синоптиков. Ну, в том, где синоптики хвастаются, что научились определять погоду с вероятностью 30%, а им предлагают всегда говорить наоборот, чем самым повысить вероятность угадать погоду.

Есть один очень крутой способ тренировать нейросети, когда по факту создаются две нейросети, одна генерирует результат, а вторая пытается отличить его от настоящих данных. Сначала тренируем первую, потом вторую, потом опять первую и так до упора. Примером всегда приводят фальшивомонетчика и банка. «Фальшивомонетчик» пытается нарисовать купюру, а «банк» отличить её от настоящих купюр. Ну вы поняли, в общем. Работает этот алгоритм, когда и банк и фальшивомонетчик умны приблизительно одинаково, чтобы часть нарисованных экземпляров можно было бы отметить более удачными, чем другие. Потом наоборот, фальшивомонетчик учится рисовать купюры так, чтобы банк опять их не мог отличить от настоящих. «Состязательные нейросети» погуглите, кароч. Там рано или поздно генератор становится настолько хорош, что дискриминатор уже не в состоянии найти внятной разницы. Часть настоящих купюр считает поддельными и наоборот, часть поддельных — настоящими.

Так вот, с определением искусственности автора работы со строгими данными, вроде купюр, довольно просто. С нестрогими данными, вроде фотографий, картин, аудиофайлов чуть посложнее, но всё ещё довольно решаемо, ведь размер входных данных довольно большой и датасеты «настоящих» данных тоже огромные. С текстом же всё становится очень сложно. Единица смысла там — слово или может быть даже предложение. Человеческий текст довольно часто с ошибками, как логическими, так и орфографическими и часто с пробелами в логике. Входных данных сравнительно мало, датасет ненормализированный, да и с настоящими данными беда тоже. Некоторые вообще пишут так, что лучше бы нейросети писали, ейбогу.

В общем, ложноположительных и ложноотрицательных результатов такие дискриминаторы будут выдавать так прилично. Даже предположу, что это будет в формате «этот текст с вероятностью 67% написан нейросетью», что будет означать приблизительно ничего. А всё, что сможет сказать конкретно OpenAI, так это что-то вроде «да, этот текст сгенерировал я два дня назад, не ставьте зачёт этому студенту».

Ещё одна мысль по этому поводу о том, что если каких-то данных достаточно, чтобы определить, что текст написан не автором, то этих же данных будет вполне достаточно, чтобы сгенерировать такой текст, который нельзя будет отличить от авторского.



tgoop.com/itextrapolation/692
Create:
Last Update:

Смотрите, OpenAI предлагает инструмент, определяющий вероятность того, что входящий текст сгенерирован нейросетью, а не написан человеком. Вообще молодцы, придумывают генерацию текста и сразу же предлагают контринструмент. Но вот беда, на мой взгляд, тут в том, что рано или поздно определить искусственность текста можно будет, как погоду в анекдоте про синоптиков. Ну, в том, где синоптики хвастаются, что научились определять погоду с вероятностью 30%, а им предлагают всегда говорить наоборот, чем самым повысить вероятность угадать погоду.

Есть один очень крутой способ тренировать нейросети, когда по факту создаются две нейросети, одна генерирует результат, а вторая пытается отличить его от настоящих данных. Сначала тренируем первую, потом вторую, потом опять первую и так до упора. Примером всегда приводят фальшивомонетчика и банка. «Фальшивомонетчик» пытается нарисовать купюру, а «банк» отличить её от настоящих купюр. Ну вы поняли, в общем. Работает этот алгоритм, когда и банк и фальшивомонетчик умны приблизительно одинаково, чтобы часть нарисованных экземпляров можно было бы отметить более удачными, чем другие. Потом наоборот, фальшивомонетчик учится рисовать купюры так, чтобы банк опять их не мог отличить от настоящих. «Состязательные нейросети» погуглите, кароч. Там рано или поздно генератор становится настолько хорош, что дискриминатор уже не в состоянии найти внятной разницы. Часть настоящих купюр считает поддельными и наоборот, часть поддельных — настоящими.

Так вот, с определением искусственности автора работы со строгими данными, вроде купюр, довольно просто. С нестрогими данными, вроде фотографий, картин, аудиофайлов чуть посложнее, но всё ещё довольно решаемо, ведь размер входных данных довольно большой и датасеты «настоящих» данных тоже огромные. С текстом же всё становится очень сложно. Единица смысла там — слово или может быть даже предложение. Человеческий текст довольно часто с ошибками, как логическими, так и орфографическими и часто с пробелами в логике. Входных данных сравнительно мало, датасет ненормализированный, да и с настоящими данными беда тоже. Некоторые вообще пишут так, что лучше бы нейросети писали, ейбогу.

В общем, ложноположительных и ложноотрицательных результатов такие дискриминаторы будут выдавать так прилично. Даже предположу, что это будет в формате «этот текст с вероятностью 67% написан нейросетью», что будет означать приблизительно ничего. А всё, что сможет сказать конкретно OpenAI, так это что-то вроде «да, этот текст сгенерировал я два дня назад, не ставьте зачёт этому студенту».

Ещё одна мысль по этому поводу о том, что если каких-то данных достаточно, чтобы определить, что текст написан не автором, то этих же данных будет вполне достаточно, чтобы сгенерировать такой текст, который нельзя будет отличить от авторского.

BY Экстраполяция IT




Share with your friend now:
tgoop.com/itextrapolation/692

View MORE
Open in Telegram


Telegram News

Date: |

Hashtags are a fast way to find the correct information on social media. To put your content out there, be sure to add hashtags to each post. We have two intelligent tips to give you: On June 7, Perekopsky met with Brazilian President Jair Bolsonaro, an avid user of the platform. According to the firm's VP, the main subject of the meeting was "freedom of expression." Matt Hussey, editorial director at NEAR Protocol also responded to this news with “#meIRL”. Just as you search “Bear Market Screaming” in Telegram, you will see a Pepe frog yelling as the group’s featured image. Telegram iOS app: In the “Chats” tab, click the new message icon in the right upper corner. Select “New Channel.” So far, more than a dozen different members have contributed to the group, posting voice notes of themselves screaming, yelling, groaning, and wailing in various pitches and rhythms.
from us


Telegram Экстраполяция IT
FROM American