За последние годы алгоритмы ранжирования поисковых систем претерпели значительную эволюцию. Со временем не только росло число факторов ранжирования, менялись также и способы их учета в формуле. Наш зарубежный коллега Дейв Дейвис попытался разобраться в хитросплетениях поисковых технологий.
Попробуем провести анализ патента «Системы и методы ранжирования результатов поиска на основе идентификации интересов пользователей», который был выдан Google 27 августа 2015 года. Заявка на патент была подана еще в декабре 2012-го, т.е. понятно, что многое из описанного в нем уже внедрено в поисковый алгоритм.
Цель этого исследования с помощью определенных вычислений понять, как именно Google применяет патент на практике.
Что говорится в патенте о персонализации? И главное, как Google вычисляет интересы? Ответ на эти вопросы прольет свет и на другие детали алгоритма ранжирования.
Для начала прочтем введение:
«Применение технологии осуществляется путем вычислительных методов, отвечающих за: получение запроса на поиск от пользователя; определение списка результатов поиска, соответствующих запросу; нахождение в полученном списке результата или результатов, относящихся с тематике, к которой прежде пользователем был проявлен интерес; ранжирование результатов поиска таким образом, чтобы преимущество получали результаты, относящиеся к тематике, к которой прежде пользователем был проявлен интерес; предоставление результатов поиска, выстроенных в соответствии с ранжированием, посредством графического интерфейса.»
В сущности, данный текст говорит о том, что Google запатентовал метод, позволяющий подстраивать результаты поиска под конкретного пользователя, исходя из ранее продемонстрированных им предпочтений.
Самое интересное начинается в разделе 16:
«Определенные методики включают в себя выбор пользователем объектов интереса (в т.ч. мест, где хотел бы побывать пользователь, статей, которые он хотел бы прочесть, и т.д.), а также составление и предоставление, в ответ на получение поискового запроса, списка результатов поиска, отражающих интересы пользователя.»
Т.е. поисковая выдача настраивается на основе интересов пользователя в широком смысле, когда учитывается не какая-то конкретная ссылка или веб-страница, а, например, местность.
Далее раскрываются еще более интригующие детали, важные для понимания сути поискового алгоритма, а не просто отдельных факторов ранжирования.
Раздел 22:
«Некоторые методики связаны с предоставлением пользователю возможности указать степень заинтересованности.»
И далее в разделе 23:
«В некоторых методиках фактор 206 может представлять собой предустановленный коэффициент, соответствующий степени заинтересованности. Например, высокой степени заинтересованности соответствует значение «2,0», средней «1,5», низкой «1,25».»
Здесь речь идет о таблице, приведенной ниже: Указанные значение используются в следующей таблице: Видно, что некоторые страницы из первой таблицы отсутствуют во второй по причине низкой релевантности запросу «Palo Alto Business». «Чистый вес» (или релевантность), рассчитанный исключительно на основе вычислений по глобальному алгоритму, умножается на значение коэффициента заинтересованности.
Здесь весьма интересно не само описание применения персонализации, а разоблачение того факта, что Google использует некие множители для «продвижения» в выдаче сайтов вопреки своему алгоритму. Понимая это, мы можем экстраполировать данное знание на другие понятия SEO, такие как PageRank ли TrustRank. Возможно, они не влияют на «чистую релевантность», а влияют непосредственно на выдачу, выступая в качестве коэффициентов.