![]()
Как определить, обладает ли поисковик семантичностью
Все менее ясным становится значение понятия «семантический поисковик» с ростом его популярности. Данная статья содержит перевод выдержек из доклада Томаша Имелински, исполнительного вице-президента Отдела поиска и ответов Ask.com. По мнению докладчика, определение семантичности поисковика производится, исходя из наличия/отсутствия ряда условий.
Если представить в качестве поисковика четырехлетнего ребенка, то диалог между пользователем и поисковиком может выглядеть примерно следующим образом:
Пользователь: Как погодка в Лондоне?
Поисковик: Я не знаю.
Пользователь: Какая сейчас погода в Лондоне?
Поисковик: Я не знаю!
Пользователь: ОК. Погода Лондон.
Поисковик: Сколько раз можно задавать один и тот же вопрос?
Я же сказал: не знаю.
Этот поисковик можно считать семантическим, поскольку хоть он и не отвечает, какая погода сейчас в Лондоне, зато знает, что не знает ответа и понимает, что, несмотря на изменение формулировки запроса, смысл задаваемого пользователем вопроса остается неизменным.
Догадаться, что некая последовательность вопросов – это один и тот же вопрос, переформулированный несколько раз – человеческое свойство, пока ещё не доступное большинству поисковых систем. Семантические же поисковики должны обладать этой способностью. Результаты, которые обычно выводятся по таким запросам, как «Топ-10 видео» и «десять лучших видео» - различны, однако они равнозначны по релевантности.
Это не используемые вами технологии, а достигаемый вами результат…
Степень изменения результатов выдачи поисковика при перефразировании запроса- зеркало семантичности. Чем больше различий - тем меньше вероятности, что поисковая система семантична.
При переформулировке запроса большое значение имеет не способ достижения неизменности результатов, будь то обработка натурального языка или статистический анализ серии запросов, а сам результат. Из-за сильного изменения результатов пользователи вынуждены тратить немало времени на то, чтобы определиться с запросом. Усложненный процесс поиска – следствие неполноценного выполнения своей работы поисковыми системами.
Существует некоторый ряд показателей - измерителей изменения результатов выдачи поисковика по переформулированному запросу (таких, например, как изменение положения на странице выдачи результатов единственно верного ответа или изменение порядка всех результатов в случае переформулирования запроса) - определяющих, насколько семантичен поисковик.
Выводы
1. Работа большинства существующих поисковых систем базируется на поиске по ключевым словам, из-за чего результаты выдачи могут изменяться в зависимости от конкретной формулировки запроса. При этом человеческий язык запросов работает по совсем другим принципам.
2. Крайне положительно воспринимаются поисковиками запросы с единственно правильным вариантом ответа, такие, например, как «в каком году родился Пушкин?». Переформулировка или изменение порядка слов здесь почти не изменяет результат выдачи. Однако это говорит не о высоком уровне семантичности поисковой системы, а о наличии огромного количества информации в Интернете, переписанной в различных вариантах и находящейся на различных сайтах. Так же, как и в случае с менее конкретными формулировками, ответы на подобные запросы ищутся поисковиками по ключевым словам.
Способность при перефразировании запроса выдавать неизмененные результаты - основной показатель высокой семантичности поисковой системы, собирающей в одном кластере все существующие формулировки одного и того же по смыслу запроса с целью предоставления одинаковых результатов выдачи, как по популярным, так и по малораспространенным запросам.
По проведенным нами исследованиям, результаты поиска, осуществляемого основными поисковыми системами, сильно изменяются даже при незначительных переформулировках запросов. Так, результаты меняются в зависимости от варианта написания на веб-странице, скажем, числительного (числовое («1000») либо текстовое («тысяча»)) или, например, от добавления в запрос дополнительного слова.
Ранжирование результатов на странице выдачи зависит от ключевых слов, которые присутствуют в запросе. Такая зависимость недопустима, если речь идет о семантическом поиске, поскольку он предполагает легкость в использовании, исключающую необходимость «правильной» формулировки запроса для получения нужного ответа.