SEO_PYTHON_2NEURON Telegram 68
Где лучше расположить ключ в предложении?

Пишу этот пост по мотивам выступления у Михаила Шакина https://www.youtube.com/watch?v=I79BgjkFWFI.

Как я уже неоднократно писал и приводил примеры, нейросети трансформеры учитывают порядок слов. А, что если провести ряд экспериментов и выяснить как влияет, к примеру, расположение ключа в предложении?

Прежде чем начать, давайте оговорим условия и допущения, без которых ни один эксперимент не проводится.

1) Будем считать, что нейросети читают текст по предложениям, на самом деле это может быть не так, но следует отметить, что при обучении трансформеров, подаются тексты ограниченные специальными токенами ([CLS] в начале и, как правило [SEP] в конце) https://huggingface.co/learn/nlp-course/ru/chapter7/2 .
2) Для чистоты эксперимента, возьмем предложения состоящие из максимально нерелевантного слова, например английского слова “and”
3) Прицепим слева и справа ещё по предложению: prev_sent = 'Это самое обычное предложение состоящее из десяти слов русского языка.'
4) На вход буде подавать пары: ключ/текст
5) Длина предложения – 10 слов (средняя длина в русском языке 10.38 слов)
6) Результаты будем оценивать по механизму косинусной близости векторов пар, ключ/текст.
7) Векторы для пар ключ/текст будем брать из модели textEmbedding от Яндекса

Пример пар:
[ПВХ] / [ПВХ and and .. and]
[ПВХ] / [and ПВХ and .. and]
[ПВХ] / [and and ПВХ.. and]
………. / …………………………………
[ПВХ] / [and and and .. ПВХ]


Однословники. Подаем на вход, например пару: Ипотека / Это самое обычное предложение состоящее из десяти слов русского языка. Ипотека and and and and and and and and and. Это самое обычное предложение состоящее из десяти слов русского языка.
Результат: наблюдаем U-образные кривые с локальным максимумами если ключ стоит в начале либо в конце предложения

Двусловники. Подаем на вход биграммы с разными интентами (инфо и коммерческий)
Результат – те же локальные экстремумы релевантости при нахождении ключа в начале либо в конце предложения

Триграммы с разным интентом – результат схожий

Делаем выводы?
Результаты эксперимента как с одним предложением, так и с предложением окруженным с двух сторон другими текстами дают схожие результаты. Почти всегда наблюдаются локальные экстремумы релевантости если ключ находится либо в начале, либо в конце предложения.

PS Ждите пост про то, как расставлять LSI слова, будет интересно! Пошел пилить статью на habr.com. 😉
👍28🏆4🤔2



tgoop.com/seo_python_2neuron/68
Create:
Last Update:

Где лучше расположить ключ в предложении?

Пишу этот пост по мотивам выступления у Михаила Шакина https://www.youtube.com/watch?v=I79BgjkFWFI.

Как я уже неоднократно писал и приводил примеры, нейросети трансформеры учитывают порядок слов. А, что если провести ряд экспериментов и выяснить как влияет, к примеру, расположение ключа в предложении?

Прежде чем начать, давайте оговорим условия и допущения, без которых ни один эксперимент не проводится.

1) Будем считать, что нейросети читают текст по предложениям, на самом деле это может быть не так, но следует отметить, что при обучении трансформеров, подаются тексты ограниченные специальными токенами ([CLS] в начале и, как правило [SEP] в конце) https://huggingface.co/learn/nlp-course/ru/chapter7/2 .
2) Для чистоты эксперимента, возьмем предложения состоящие из максимально нерелевантного слова, например английского слова “and”
3) Прицепим слева и справа ещё по предложению: prev_sent = 'Это самое обычное предложение состоящее из десяти слов русского языка.'
4) На вход буде подавать пары: ключ/текст
5) Длина предложения – 10 слов (средняя длина в русском языке 10.38 слов)
6) Результаты будем оценивать по механизму косинусной близости векторов пар, ключ/текст.
7) Векторы для пар ключ/текст будем брать из модели textEmbedding от Яндекса

Пример пар:
[ПВХ] / [ПВХ and and .. and]
[ПВХ] / [and ПВХ and .. and]
[ПВХ] / [and and ПВХ.. and]
………. / …………………………………
[ПВХ] / [and and and .. ПВХ]


Однословники. Подаем на вход, например пару: Ипотека / Это самое обычное предложение состоящее из десяти слов русского языка. Ипотека and and and and and and and and and. Это самое обычное предложение состоящее из десяти слов русского языка.
Результат: наблюдаем U-образные кривые с локальным максимумами если ключ стоит в начале либо в конце предложения

Двусловники. Подаем на вход биграммы с разными интентами (инфо и коммерческий)
Результат – те же локальные экстремумы релевантости при нахождении ключа в начале либо в конце предложения

Триграммы с разным интентом – результат схожий

Делаем выводы?
Результаты эксперимента как с одним предложением, так и с предложением окруженным с двух сторон другими текстами дают схожие результаты. Почти всегда наблюдаются локальные экстремумы релевантости если ключ находится либо в начале, либо в конце предложения.

PS Ждите пост про то, как расставлять LSI слова, будет интересно! Пошел пилить статью на habr.com. 😉

BY SEO Python 2 Нейрона







Share with your friend now:
tgoop.com/seo_python_2neuron/68

View MORE
Open in Telegram


Telegram News

Date: |

Commenting about the court's concerns about the spread of false information related to the elections, Minister Fachin noted Brazil is "facing circumstances that could put Brazil's democracy at risk." During the meeting, the information technology secretary at the TSE, Julio Valente, put forward a list of requests the court believes will disinformation. Unlimited number of subscribers per channel Step-by-step tutorial on desktop: 1What is Telegram Channels? Administrators
from us


Telegram SEO Python 2 Нейрона
FROM American