tgoop.com/seo_python_2neuron/59
Create:
Last Update:
Last Update:
Крутить или не крутить? Вот в чем вопрос! ПФ и YATI – или почему Яндекс так чувствителен к накрутке?
Разработчики Яндекса в своей эпохальной статье и не менее интересном видео раскрывают суть нейросети YATI, вклад которой в ранжирование, согласно их же доклада уже на момент внедрения составлял более 50%.
Что такое YATI? Очень грубо, это BERT (модель трансформер) плюс простая (feed-forward) нейросеть, задача которой предугадывать был ли клик по фразе.
Приведу цитату:
Как и BERT, модель сначала учится свойствам языка, решая задачуMLM (Masked Language Model),но делает это сразу на текстах, характерных для задачи ранжирования. Уже на этом этапе вход модели состоит из запроса и документа, и мы с самого начала обучаем модель предсказывать ещё и вероятность клика на документ по запросу. Удивительно, но тот же самый таргет «переформулировок», который был разработан ещё для feed-forward-сетей, отлично показывает себя и здесь. Обучение на клик существенно увеличивает качество при последующем решении семантических задач ранжирования.
Вот эту вторую нейросеть, Яндекс изначально обучил на исторических данных, которых у него масса, но модель нужно периодически переобучать, то есть добавлять новые пары «запрос» => «вероятность клика»
А, что будет, если начать искусственно крутить ПФ по некоторым фразам? Правильно модель может сломаться. И в этом, как мне кажется, и лежало то изначально агрессивное неприятие накрутки ПФ. Но времена меняются, за накрутку не банят, но тогда возникает вопрос, а, что же такого смог придумать Яндекс, что отфильтровать влияние накрутки?
Как бы я поступил, будучи разработчиком?
Во-первых я бы ввел как минимум 3-х ступенчатый алгоритм. На первом этапе всем подозрительным ботам я бы скармливал капчу, отсеивая таким образом львиную долю «тупого» трафика.
Во-вторых я бы ввел некий показатель «подходящести» посетителя (прошу не докапываться до фразы) конкретному запросу.
В третьих я бы ввел показатель «трастовости» и завязал бы его тупо на кол-во денег потраченных на Яндекс такси, музыке и прочих сервисах.
У Яндекса это всё давно уже есть, предлагаю посмотреть вот это занимательно видео. Каждого посетителя Яндекс видит как эмбеддинг, состоящий из исторических данных. При выборе сайтов, которые он показывает вам в персонифицированной выдаче, он берет одну часть из Yati, а другую из Трансформера отвечающего за персонализацию и сгружает это все в Catboost (финальная нейросеть сборка).
Делаем выводы?
Всё то, о чем говорят ПФщики, а именно, нагул профилей по долгосрочным интересам, разный «вес» кликов от живого человека и от бота – в некоторой степени подтверждается информацией публикуемой Яндексом.
ОК, тогда в чем проблема, спросите вы? Если Яндекс так здорово научился вычислять фейковых посетителей, почему он тогда не прикроет лавочку окончательно?
Проблема в ресурсах и их стоимости, вернее, даже не столько в ресурсах, сколько в возможности быстрой обработки всей необходимой информации. Посетитель не будет ждать, пока Яндекс проверит вашу историю покупок и историю всех ваших посещений. Пруф в той же статье и в этом видео где как раз объясняется с какими проблемами они столкнулись при использовании больших моделей в рантайме (боевом режиме). Спойлер - они их максимально упростили и измерили качество, качество их устроило.
Таким образом у нас классический «меч против щита». И Яндекс и ПФщики ограниченны ресурсами. Рубануть сходу не получается видимо теряется качество, жестко фильтровать – экономически невыгодно, вот и приходится балансировать
BY SEO Python 2 Нейрона

Share with your friend now:
tgoop.com/seo_python_2neuron/59
