Telegram Web
16 факторов ранжирования с наивысшим коэффициентом.

1. Покрытие домена трехбуквиями из запроса. (Челябинская лотерея - chelloto. Переводим запрос в транслит, находим трехбуквия которые покрываются (che, hel, lot, olo), смотрим какую долю от всех трехбуквиев покрыли.
2. Фактор, хитрым образом скомбинированный из FRC и псевдо-CTR.
3. Кликабельность domAttr по максимальномо выраженному слову. Например для всех запросов в которых есть слово википедия кликают на странцы википедии.
4. Наиболее характерное слово запроса, соответствующее сайту, по данным бара.
5. Домен в зоне .com
6. BCLM по запросному индексу для владельцев. (примечание - BCLM текстовый фактор оценивающий кучность слов запроса в тексте).
7. Кликабельность владельца независимо от запроса.
8. Хост ранк по максимально выраженному слову запроса (обычно это название сайта).
9. Насколько часто кликают в URLы данного domainId по данному запросу - CTR domainId домноженный на поправочный коэффициент.
10. Отношение числа кликов по данному domainId ко всем кликам по запросу.
11. Кликабельность домена по биграммам (без учёта тезаурусных расширений запросов).
12. Популярность owner'а в запросах.
13. Для данного запроса нет информации о кликабельности 1 - запроса нет в базе кликов, 0 - запрос есть в базе кликов.
14. Переходы на сайт из поисковиков по биграммам, по данным Бара (без учёта тезаурусных расширений запросов).
15. Доля кликов по навигационным запросам.
16. Page rank. Фактор ремапится.

В том случае, если информация из файла выше - достоверна, то неудивительно почему так хорошо работает EMD, ласт клик, тайп ин/бренд трафик и широкий запросный индекс.

Ну и тем более неудивительно почему основные агрегаторы/Авито/Маркет приморожены к топу.
Зарубежные коллеги выкатили отличную статью с разбором утечки кода Яндекса. Спасибо Алаичу за наводку. Если вам лень читать все полностью, то вот мое саммари по статье. Возможно кому то будет полезно.

Основные тезисы, часть 1:

• Яндекс в настоящее время использует двух краулеров для индексации. Основной краулер и “Orange crawler” который работает в режиме реального времени. (В Гугле при этом используется деление индекса на три краулера - в режиме реального времени, регулярного и редкого).

• У Яндекса нет рендеринга JavaScript. Несмотря на то, что возможность имеется, они ограничиваются краулингом текста.

• Существует два варианта отдачи пользователю результатов поисковой выдачи. Первая - поиск результатов в “Метапоиске” (“Метапоиск” - кэш популярных запросов). Если результат не найден в данном слое, то запрос отправляется на обработку в базовый поиск, откуда переходит в Матрикснет для формирования выдачи.

• Изучив файлы более подробно, было обнаружено, что в общей сложности существует 17 854 фактора ранжирования.

• Дополнительно есть серия записей из 2000 факторов не входящих в основной код и предположительно являющихся тестовыми.

• В документации сказано что у Яндекса есть три основные три класса факторов ранжирования:
- Статические - TG_STATIC (например, относящиеся к странице - количество ссылок на страницу, в момент совершения поиска);
- Динамические - TG_DYNAMIC (относящиеся и к запросу и к странице: слова, соответствующие поисковому запросу, их количество и местоположение на странице);
- Запросные/Особые - TG_QUERY_ONLY, TG_QUERY, TG_USER_SEARCH и TG_USER_SEARCH_ONLY. (характерные только для поисковых запросов, например геолокация).

• Главная особенность MatrixNet - возможность настройки формулы ранжирования для определенного класса поисковых запросов.

• Несмотря на количество доступных факторов, в слитом коде присутствует много файлов, ссылки на которые отсутствуют в архиве.

• В файле nav_linear.h в каталоге /search/relevance/ находятся начальные коэффициенты (или веса), связанные с факторами ранжирования. Этот раздел кода выделяет 257 из 17 000+ факторов ранжирования.

• Учитывая, что коэффициенты в файлах имеют статические значение, высказывается гипотеза о том, что это не единственное место, где происходит ранжирование. Скорее всего данная функция служит для первоначальной оценки релевантности, после чего данные передаются в MatrixNet.

• Что известно о MatrixNet?
- Матрикснет применяется ко всем факторам;
- Существует несколько уровней ранжирования (L1, L2, L3);
- На каждом уровне есть ассортимент моделей ранжирования;

• Файл select_rankings_model.cpp предполагает различные модели ранжирования для каждого уровня. Это пример того, как функционируют нейронные сети. Каждый слой - это компонент, который выполняет операции, а объединенные результаты этих операций создают ранжированный список документов, который затем представляется в виде поисковой выдачи.
Основные тезисы, часть 2:

• 5 самых негативных факторов:

- Реклама на странице.
- Разницу между текущей датой и датой документа. (Рекомендуется обновлять контент, а не создавать новые страницы)
- Фактор основанный на количестве показов URL по отношению к запросу. (Предположение о понижении в позициях URL, который появляется во многих поисковых запросах, для повышения разнообразие результатов выдачи)
- Доля коммерческих ссылок. Процент входящих ссылок с коммерческими анкорами. Коэффициент возвращается к 0.1, если доля таких ссылок более 50%, в противном случае он устанавливается равным 0.
- Географическое совпадение документа и страны, из которой пользователь осуществлял поиск.

• 5 самых позитивных факторов:

- Покрытие домена трехбуквиями из запроса. (Челябинская лотерея - chelloto. Переводим запрос в транслит, находим трехбуквия которые покрываются (che, hel, lot, olo), смотрим какую долю от всех трехбуквиев покрыли;
- Комбинация FRC и псевдо-CTR". Нет никаких указаний на то, что такое FRC;
- Кликабельность самого важного слова в домене. Например, по всем запросам, в которых есть слово "википедия", кликают на страницы википедии;
- Наиболее характерное слово запроса, соответствующее сайту, согласно Яндекс бару". Автор предполагает, что это означает ключевое слово, которое чаще всего ищут на панели инструментов Яндекса, связанной с сайтом;
- Домен в зоне .com

• Неожиданные факторы:

- PageRank является 17-м по значимости фактором ранжирования Яндекса;
- Спам-карма основана на информации Whois и основана на вероятности того, что хост является спамом;
- Отношение ссылок, анкорным текстом которых является URL (а не текст), к общему количеству ссылок.
- Процентное соотношение количества слов, являющихся 200 наиболее частотными словами языка, от количества всех слов текста.
- Среднее время пребывания на сайте по данным ЯндексБара.

• Яндекс парсит Google, Bing, YouTube и TikTok, а также множество других сайтов и сервисов.

• Есть код, указывающий на то, что Яндекс использует некоторые данные Google в рамках собственных расчетов. Плюс 83 фактора ранжирования имеющих в названии GGL или GOOGLE.

• У Яндекса есть пороговые значения для 315 факторов ранжирования, превышение которых указывает на чрезмерную SEO оптимизацию. 39 из них являются изначально взвешенными факторами, которые могут предотвратить включение страницы в список первоначальных размещений.

• У Яндекса есть система “бустов”, которые могут улучшить ранжирование определенных документов.

• Калькулятор ссылочного спама Яндекса учитывает 89 факторов.
Ощущение, что у Яндекса что-то сломалось, так как в выдачу стали возвращаться сайты забаненные РКН.
Вчера наткнулся в выдаче на забаненный онлайн кинотеатр, сейчас решил посмотреть выдачу по гэмбле - и да, в выдаче стоят офф сайты казино давным давно забаненные РКН.
Судя по рабочему файлику - поднял сегодня свой тысячный дроп. Немного наблюдений за время работы:

1) Собственно, как обычно, всем советую вести записи со статистикой по всем дропам. Причем не только выкупленным, но и по проигранным аукционам и просто интересным доменам за которые вы по тем или иным причинам не стали бороться.

Жаль, что я системно учитывать все это начал гораздо позже. Было бы интересно посмотреть и сравнить то, что выкупалось в 2015, с текущим состоянием дел на аукционах.

2) Навскидку - стоимость дропов одного уровня несколько лет назад и сейчас, различается в 3-10 раз в зависимости от его пузомерок. То что раньше выкупалось за 10$ - сейчас не всегда выкупишь за 100$, то что раньше выкупалось за 1-2к$, сейчас стоит 3-10$к. Выше я не лезу и не лез, не те задачи, но на дистанции это очень сильно снижает ROI.

3) О задачах. Есть ощущение, что большая частью людей до сих пор не сильно понимает для чего они покупают дропы: странные подклейки, использование очень дорогих дропов для ПБН или наоборот, дешевых для поднятия на нем основного сайта, хотя там бы лучше зашел EMD.

4) Даже после 1000 поднятых дропов, я не могу сказать со 100% точностью, почему один дроп стреляет, а другой нет. Возможно я просто тупой (но продуктивный), но основной «скилл» я наработал на первой паре сотен дропов. Все что дальше - не сильно дало мне прибавки к пониманию.

5) Из пункта выше следует, что если вы тоже тупой (но продуктивный), то не следует упарываться в аналитику больше чем следует.
Когда следует это делать? Когда вы умный и работаете с бюджетами выше 5к$ на дроп. Там несколько ошибок подряд может больно ударить по бюджету (если вы дошли до этих цифр, вы и без меня это знаете).

6) Лучший способ научиться работать с дропами - практика с НК ключами в ВК нише в НК гео. В этом случае, возможно, вы сразу даже начнете работать в плюс.

7) Худший способ научиться работать с дропами - покупать курсы и проходить обучения полагаясь только на теорию. Поэтому если вы решили обучиться у кого то работе с дроп доменами - сразу закладывайте N денег на практику, во время обучения поднимайте дропы и обсуждайте их со своим «ментором». Это будет макимальная win-win ситуация для вас обоих. Если человек не хочет разбирать ваши дропы - лучше откажитесь от такого обучения.
К слову о пункте 6 в посте выше.

Тестирую дропы в одном из очень специфичных языков. Чем специфичнее язык, тем менее мы можем заморачиваться с качеством текстов в нем. В моем случае это просто прогон через DeepL хорошего копирайта на английском.

Естественно взлетело не 5 из 5, но результат гораздо выше, чем в популярных ГЕО.
На Google I/O 2023 разобрали пример нового поиска с AI от Гугл в рамках поисковой сессии с запросом: “Что лучше для семьи с детьми младше 3х лет и собакой: Брайс-каньон или Арчес

Вопросы такого вида почти не задавались юзерами в старом поиске, так как не давали внятного ответа. Теперь же, сразу под поисковой строкой будет появляться сгенерированный AI ответ на конкретный вопрос.

В данном случае, в первом же предложении, AI выдал ответ “И тот и другой подходят для семейного отдыха. В обоих собакам запрещено ходить по грунтовым тропам, но в Брайс-Каньоне для прогулки с собакой доступны две асфальтированные дорожки.”

Справа от текста выданного AI, будут находиться 3 ссылки раскрывающие тематику запроса, откуда была получена данная информация. Перейдя по ним, можно будет более подробно изучить всю информацию по теме.

“Данный инструмент основан на алгоритмах ранжирования и безопасности поиска Гугла, которые оттачивались годами”.

Классическая выдача в поиске сохранится и будет расположена под блоком AI.
Выдача с коммерческим и около коммерческим интентом

Например по запросу: “хороший велосипед для 5 километровой поездки по холмам” будет содержать в себе:

- Блок Google Merchant;
- Полезные советы от AI;
- Коммерческий блок с товарами которые подходят под заданные требования, их ценой, фото, отзывами и описаниями. Коммерческий блок будет основан на информации от Google Shopping Graph;
- Блок сопутствующих вопросов, при клике на который пользователь проваливается в новое взаимодействие с поиском;
- Классические результаты поиска.

Остальные возможности поиска с AI от Гугл похожи на короткие взаимодействия с уже знакомым всем ChatGPT.

“Новые возможности сделают поисковую систему умнее, а поиск - проще” (c) Cathy Edwards (Google VP Engineer)
2025/06/28 21:02:57
Back to Top
HTML Embed Code: