«Королёв» — новая версия поиска Яндекса

Содержание

Кратко о главном
На какие запросы повлияет «Королев»
Немного истории
- Матрикснет
- Палех
Как работает алгоритм «Королёв»
- Эффект «Королёва»
Люди учат машины
- Толока
Мнения экспертов
Выводы

Как никогда весь «сеошный» мир ждал запуска нового алгоритма ранжирования, анонсированного на 22 августа 2017 года. Ещё бы, подобные анонсы – вещь для Яндекса абсолютно нетипичная, обычно они предпочитают не распространяться о своих планах, и сообщают об очередном релизе алгоритма ранжирования постфактум.

22 августа 2017 года Яндекс запустил новую версию поиска. В её основе лежит поисковый алгоритм «Королёв» (с 2008-го года новые алгоритмы ранжирования в Яндексе называют в честь городов). Алгоритм с помощью нейронной сети сопоставляет смысл запросов и веб-страниц — это позволяет Яндексу точнее отвечать на сложные запросы. Для обучения новой версии поиска используются поисковая статистика и оценки миллионов людей. Таким образом, вклад в развитие поиска вносят не только разработчики, но и все пользователи Яндекса.

Область применения нового алгоритма практически не затрагивает традиционные сеошные сферы интересов, в первую очередь к которым можно отнести коммерческую выдачу. «Королёв» оказался логическим продолжением алгоритма «Палех» и призван обслуживать длинный хвост микрочастотных запросов, как правило, задаваемых на естественном языке. Особенностью таких запросов является то, что релевантные им документы могут не содержать многих из слов, входящих в запрос. Это ставит в тупик традиционные алгоритмы ранжирования, основанные на текстовой релевантности.

Решение найдено в виде использования нейросетей, которые обучаются в том числе и на поведении пользователей. Поэтому новый алгоритм Яндекса работает на основе нейронной сети. Он обучается на примерах запросов пользователей, и подбирает ответы исходя из смысла текста на странице. Это означает, в частности, что он будет гораздо эффективнее работать с нестандартными запросами, когда пользователи сами не уверены, как называется то, что они хотят найти. Здесь многое упирается в вычислительные мощности.

Вообще подобный подход к решению задачи ранжирования длинного микрочастотного хвоста запросов не нов. Еще в 2015-м году стало известно о технологии, применяемой поисковой системой Google для поиска ответов на многословные запросы, заданные на естественном языке – RankBrain. Эта технология, так же основанная на машинном обучении, позволяет распознавать наиболее значимые слова в запросах, и анализировать контекст, в котором осуществляется поиск. Что позволяет находить релевантные документы, которые не содержат всех слов запроса.

Кроме того, алгоритм работает и с картинками. Он анализирует содержание изображения и подбирает необходимый вариант, исходя из него, а не только из описания в тегах или окружающего его текста.

Впрочем, длинный хвост микрочастотных многословных запросов на естественном языке вполне может быть интересен «выжигателям» информационной семантики – создателям так называемых инфосайтов «на все случаи жизни». В общем-то, они и так стараются под как можно большее количество известных им запросов, которые удается заполучить с помощью различных методов сбора семантики, организовать точное вхождение в свои тексты. Там же, где точных вхождений не будет, т.е. для запросов, которые не всосал «семантический пылесос» создателей инфосайтов или для которых им не удалось обеспечить точных вхождений в контент, и начинается вотчина «Королёва», который призван искать соответствия между запросами и ответами в том случае, когда между ними мало пересечений по ключевым словам. В таких случаях «Королёв» несомненно повысит требования к качеству контента, и реально интересные читабельные статьи будут еще больше выигрывать у сборников вхождений ключевых фраз, разбавленных водой, т.к. именно в таких статьях могут содержаться полезные для нового алгоритма сигналы. Ну, а всем остальным сеошникам действительно можно расслабиться – очередная порка откладывается. Жертв и разрушений нет.

Статья по теме: Какие страницы теряют трафик от «Баден-Бадена» на качественных статейных сайтах

Кратко о главном

Новый алгоритм «Королёв»:
Обучается на поисковой статистике, которая учитывает на какие страницы пользователи переходят по тем или иным запросам и сколько времени они там проводят.
Обращает внимание на другие запросы, по которым люди приходят на эту страницу.
Для ответа пользователю подбирает страницы, которые соответствуют смыслу поискового запроса.
Страница может не содержать всех слов из запроса, но тем не менее очень хорошо на него отвечать.
Сопоставляет поисковые запросы со страницами целиком — а не только с их заголовками.

Алгоритм «Королев» — это развитие «Палеха», направленного на повышение качества выдачи по сложным, в основном информационным запросам. По сути, на «Палехе» Яндекс протестировал поиск на основе нейронных сетей, а теперь запустил его во всем масштабе.

Раньше все алгоритмы работали по методу машинного обучения «Матрикснет», который поисковик дорабатывал, условно, вручную. А «Королев», основанный на нейросетях, обучается самостоятельно с помощью миллионов запросов, которые ежедневно задают пользователи.

Вместо того, чтобы анализировать сайты в ответ на запрос, поисковик будет заранее знать, на какие вопросы и их вариации отвечает каждый документ.

На какие запросы повлияет «Королев»

В первую очередь на информационные запросы. Он поможет быстрее находить ответы на сложные вопросы. Соответственно, основные изменения коснутся информационных ресурсов, например, сборников рецептов, которые пользователям будет проще найти.

А что с коммерческими запросами

Единственное, вероятное изменение — увеличение трафика по низкочастотным запросам.

Пока новый алгоритм не кажется опасным. Он оказался логическим продолжением алгоритма «Палех» и область его применения если и затрагивает коммерческую выдачу, то пока очень не очевидно. Выдохнули.

Немного истории

На заре поисковых систем, алгоритмы поиска были достаточно примитивны. Они просто искали страницы, которые содержат слова из поисковой фразы.

О сложном ранжировании — то есть упорядочивании страниц по степени соответствия запросу — речь не шла. Считалось, что чем чаще в документе встречаются слова из запроса, тем лучше он подходит. Интернет быстро рос, и потребовались дополнительные критерии отбора.

Поисковики:

начали учитывать ссылки на документы,
научились определять регион, откуда поступил запрос,
стали обращать внимание на поведение пользователей.

Матрикснет

В какой-то момент факторов ранжирования — признаков, по которым можно определить, насколько хорошо страница отвечает на запрос, — набралось так много, что стало ясно: прописать их все в виде инструкций невозможно. Лучше научить машину самостоятельно принимать решения: какие признаки использовать и как их комбинировать. В Яндексе для этих целей придумали Матрикснет (2009 год). Это метод машинного обучения, с помощью которого строится формула ранжирования.

Поиск, однако, по-прежнему опирается на слова.

Перед тем как пустить в ход сложную формулу ранжирования, поисковые машины составляют список «предварительно подходящих» веб-страниц — таких, в которых есть слова из запроса. Нам, людям, понятно, что один и тот же смысл можно выразить разными словами.

Веб-страница может не содержать всех слов из запроса, но тем не менее очень хорошо на него отвечать.

Однако объяснить это машине довольно сложно.

Палех

Первый шаг Яндекс к поиску по смыслу был поисковый алгоритм «Палех» (2 ноября 2016 г.). В его основе лежит нейронная сеть.

Нейросеть — это компьютерная модель, которая работает по тому же принципу, что и человеческий мозг. Она принимает решения исходя из множества факторов, а главное — самостоятельно устанавливает закономерности и учится на своих ошибках.

Чтобы нейросеть научилась понимать, как смысл запроса соотносится с содержанием страницы, нужны миллиарды примеров. У Яндекса есть такие данные: каждый день поиском пользуются десятки миллионов человек.

Статья по теме: Penguin 4.0 будет обновляться в режиме реального времени

Для улучшения поиска Яндексу нужно знать, что и как ищут люди. Разумеется, Яндекс собирает и обрабатывает эти данные в соответствии с политикой конфиденциальности.

Запуская «Палех», Яндекс научил нейронную сеть преобразовывать поисковые запросы и заголовки веб-страниц в группы чисел — семантические векторы.

Важное свойство таких векторов состоит в том, что их можно сравнивать друг с другом: чем сильнее будет сходство, тем ближе друг к другу по смыслу запрос и заголовок.

Чем он отличается от «Палеха»?

Основным отличием нового алгоритма, помимо улучшения технической реализации, является возможность распознавать схожие «смыслы» по всему документу, а не только по заголовку (Title), который появляется в окне браузера.

Как работает алгоритм «Королёв»

Поисковый алгоритм «Королёв» сравнивает семантические векторы поисковых запросов и веб-страниц целиком — а не только их заголовки. Это позволяет выйти на новый уровень понимания смысла.

Как и в случае с «Палехом», тексты веб-страниц в семантические векторы преобразует нейросеть. Эта операция требует много вычислительных ресурсов. Поэтому «Королёв» высчитывает векторы страниц не в режиме реального времени, а заранее, на этапе индексирования.

Когда человек задаёт запрос, алгоритм сравнивает вектор запроса с уже известными ему векторами страниц.

Эффект «Королёва»

Умение понимать смысл особенно полезно при обработке редких и необычных запросов — когда люди пытаются описать своими словами свойства того или иного объекта и ожидают, что поиск подскажет его название.

Такая схема позволяет начать подбор веб-страниц, соответствующих запросу по смыслу, на ранних стадиях ранжирования. В «Палехе» смысловой анализ — один из завершающих этапов: через него проходят всего 150 документов. В «Королёве» он производится для 200 000 документов.

Кроме того, новый алгоритм не только сравнивает текст веб-страницы с поисковым запросом, но и обращает внимание на другие запросы, по которым люди приходят на эту страницу.

Так можно установить дополнительные смысловые связи.

Люди учат машины

Использование машинного обучения, а особенно нейросетей, рано или поздно позволит научить поиск оперировать смыслами на уровне человека. Чтобы машина поняла, как решать ту или иную задачу, необходимо показать ей огромное количество примеров: положительных и отрицательных. Такие примеры дают пользователи Яндекса.

Нейронная сеть, которую использует алгоритм «Королёв», обучается на обезличенной поисковой статистике. Системы сбора статистики учитывают, на какие страницы пользователи переходят по тем или иным запросам и сколько времени они там проводят.

Если человек открыл веб-страницу и «завис» там надолго, вероятно, он нашёл то, что искал, — то есть страница хорошо отвечает на его запрос. Это положительный пример.

Подобрать отрицательные примеры гораздо легче: достаточно взять запрос и любую случайную веб-страницу.Статистика, которая используется для обучения алгоритма, обезличена

В помощи людей нуждается и Матрикснет, который строит формулу ранжирования.

Толока

Чтобы поиск развивался, люди должны постоянно давать оценку его работе. Когда-то выставлением оценок занимались только сотрудники Яндекса — так называемые асессоры. Но чем больше оценок, тем лучше — поэтому Яндекс привлек к этому всех желающих и запустили сервис Яндекс.Толока. Сейчас там зарегистрировано более миллиона пользователей: они анализируют качество поиска и участвуют в улучшении других сервисов Яндекса. Задания на Толоке оплачиваются — сумма, которую можно заработать, указана рядом с заданием. За два с лишним года существования сервиса толокеры дали около двух миллиардов оценок.

В основе современного поиска лежат сложные алгоритмы. Алгоритмы придумывают разработчики, а учат — миллионы пользователей Яндекса. Любой запрос — это анонимный сигнал, который помогает машине всё лучше понимать людей. Новый поиск — это поиск, который мы делаем вместе.

Мнения экспертов

^{/Денис Шубенок, Михаил Волович, Елена Камская/}

Статья по теме: Функции ранжирования в поисковых системах: Okapi BM25, BM25, BM25F

Как новый алгоритм может повлиять на SEO

«Королев» работает на основе нейронной сети, которая накапливает данные и корректирует работу с каждым запросом. Вероятнее всего, важных изменений не будет. Но можно ждать некоторого перераспределения трафика в сторону крупных сайтов. «Королев» рассчитан на сложные, в основном низкочастотные информационные запросы, и от его работы выиграют сайты, которые могут себе позволить создавать множество контента.

Острие нового алгоритма, как и «Палеха» до этого, направлено совсем в другую сторону — в некотором смысле противоположную SEO. Яндекс в основном делает упор на нетривиальные запросы, на которые нет очевидных релевантных ответов. А SEO занимается теми запросами, по которым идеально подходящих ответов тысячи. Потому что сотни оптимизаторов и веб-мастеров на своих сайтах создали под каждый отдельно взятый запрос специальную страницу, и потом усердно занимались тонкой настройкой ее релевантности. В этой — коммерческой — зоне перед поисковиком стоят совершенно другие задачи. Тут не нужно искать релевантные ответы, или даже выбирать самый релевантный. Тут среди сотен достаточно релевантных кандидатов нужно выбрать лучший по каким-то другим, например, коммерческим критериям.

Однако «Королев» — это не дополнительный модуль поиска, а изменение всего алгоритма, начиная с самых ранних этапов предварительного отбора кандидатов на ранжирование. Поэтому он так или иначе затронет все запросы, в том числе и в коммерческой зоне. Какие-то изменения весов коммерческих и текстовых факторов, мы, вероятно, увидим — хотя и вряд ли глобальные.

Какая выдача нас ждет

В последнее время «Королев» очень широко рекламировали, прогнозов и опасений на рынке было много. И главный вопрос: как изменения в алгоритме повлияют на позиции и трафик сайтов? Но ничего страшного, в общем-то, не случилось.

Важно ли теперь собирать семантическое ядро

В экосистеме, сформированной Яндексом и Google, все конкуренты создают на каждый запрос по идеально релевантной странице. Даже если представления о релевантности у Яндекса после «Королева» сильно изменятся, что вряд ли, конкуренты никуда не денутся и быстро подкрутят свои страницы под новый идеал релевантности.

Вырастет ли трафик за счет ассоциированных запросов?

Вряд ли. Но нужно будет обратить самое пристальное внимание на кластеризацию запросов. Одно из анонсированных Яндексом нововведений — учет «семантики» других запросов, по которым переходят на данную страницу.

Суммарно

Для коммерческих тематик мало что поменяется, так как алгоритм работает прежде всего с информационными НЧ, которые не входят в поисковый запрос, но подходят по смыслу.
Изменения коснутся в первую очередь многословных запросов (5+), потому что основная задача алгоритма — понимать смысл уточняющих запросов.
Пока неясно как оптимизировать статьи. Обогащайте семантику LSI-фразами — работайте на перспективу.
Если хотите проверить повлиял ли «Королев» на ваш сайт — посмотрите в Метрике, нет ли существенных изменений трафика по СЧ и НЧ запросам.

Выводы

В целом, «Королев» — это еще один шаг к тому, что работа над поисковым маркетингом должна быть сложной и комплексной, к тому, что тексты на сайтах должны быть для людей, а поисковые системы должны понимать написанное словами. Этот алгоритм скорее всего не изменит положение большинства сайтов, но можно надеяться, что он сделает поиск немного более точным и человечным. Мы этому только рады.

Важно понять: поисковик может понять запрос, только если каждое слово обладает одним понятным смыслом. Если слово обладает несколькими смыслами, могут возникать проблемы.

По большинству запросов всё равно большое значение имеет текстовый фактор. Возможность высоко ранжироваться по таким запросам появится только в будущем, когда алгоритм будет обладать более полной базой знаний о желаниях и предпочтениях пользователей. Но для этого уже сейчас нужно:

создавать текстовый контент, который будет содержать как можно больше слов, определяющих тематику страницы;
улучшать поведенческие факторы, чтобы поисковик точно знал, что страница будет полезной пользователю.