На днях Димок опубликовал две заметки-перевода зарубежных публикаций о том, как поисковики интерпретируют подчёркивания в словах и урлах – “SEO для Wordpress от Мэта Катса” и “Подчеркивание. Мнение других поисковиков“. У меня давно была идея публикации на схожую с этой тему, теперь я просто обязан поделиться с вами несколькими идеями.

Широко открытые глаза: смотрим в выдачу

Пережде всего – всё, что касается интерпретации символов поисковиками элементарно проверяется правильно сформулированными запросами. Если бы Barry Schwartz, на которого ссылается Димок, умел смотреть в выдачу – он бы написал про подчёркивания давно, а не “интересовался у представителей Yahoo, MSN и Ask.com, какое значение они придают подчеркиванию в урлах“.

Как проверить, является ли подчёркивание разделителем слов

  • В Гугле:

    morning_спасибо

    сравните с

    morning-спасибо

    Как вы можете видеть – радоваться рано, пока что ни о каком учёте подчёркиваний речи не идёт. Хорошо-хорошо, допустим, боты уже интерпретируют подчёркивания, не проапдейтили только систему анализа запросов. Делаем произвольный поиск страницы по известному нам урлу с подчёркиваниями:

    allinurl:List of cinemas in Thailand

    И… Мы не получаем искомую страницу-оригинал из Википедии, найти её можно только явно задав название с подчёркиваниями, Кац как всегда, прогнал:

    inurl:List_of_cinemas_in_Thailand

  • В Яхе:

    inurl:"List of cinemas in"

  • inurl:"List of cinemas in Thailand"

    Подчёркивания анализируются без проблем.

  • В Мсн:

    List_of cinemas_in Thailand

    То же самое.

Однако есть и более интересные вещи, которые можно выяснить подобными “хитрыми” запросами. Несколько месяцев назад я поставил для себя задачу выяснить

Как SE интерпретируют спецсимволы в поисковых запросах

Поясню зачем: многие собирают киворды, переданные в рефферерах, многие покупают их. Даже легендарный Вордтрекер отдаёт полные запросы, введённые сёрферами.

В то же время, я слышал, как многие “сжимают” свои базы: удаляют все цифры, все знаки пунктуации, заменяя их на пробелы. Затем заменяют группы пробелов на один.

Согласно такой системе запрос

9 1/2 weeks

Превращается в лучшем случае в

9 12 weeks

а в худшем – просто в

weeks

Сразу же скажу тем, кто в танке: цифры в любом случае интерпретируются как буквы, так что удалять их нельзя!

Некоторые идут дальше в своих “сжатиях”, например удаляют стоп-слова. Однако

about the way

и

about way

дают две совершенно разных выдачи.

Что же я проверял

Проверял я поведение спецсимволов в середине, начале и конце слов.

Как я проверял

Для спецсимволов в середине я вводил два слова, которые рядом обычно стоять никак не могут, например:

hello&жопа

- как видите – выдача пустая, знак “&”, ровно как и “_” – один из двух символов, интерпретируемых Гуглом как буква.

Для спецсимволов в начале и конце слова я делал так:

soft+ -soft

Как видите, “+” в конце слов интерпретируется как символ, в угоду американской традиции называть новые продукты и аддоны Something+.

Что получилось

В итоге нудного вбивания подобных запросов для всех спецсимволов оказалось, что самый продвинутый механизм анализа запросов у Гугла. Механизм оптимизирован под американский английский, например, корректно проставленные запятые и точки в цифрах учитываются:

1,000

Корректно – это значит, запятые – как разделители десятков, а точки – как разделители целой и дробной частей. Т. е. для запросов “10,00″ или “10.000″ – не будут учитываться.

Учитывается знак доллара в начале цифр, апостроф в тех местах, где его юзают англичане – don’t, i’ll и т. п.

Яха и МСН в этом плане нетребовательны, почти все спецсимволы они принимают за пробелы.

Алгоритм сжатия кивордов

В итоге я разработал следующий алгоритм сжатия кивордов (здесь слово “удалить” технически означает “заменить на пробел”):

  • удалить метаоператоры ( site:, inurl: ) и метаслова ( AND, OR ). Кстати, часть метаоператоров надо удалять с их значениями, напрмер, inurl:, link: и т. п.
  • удалить стопсимволы в середине слов. Сохраняя при этом апостроф в корректных языковых конструкциях, и символы ,.$ в корректных числовых конструкциях.
  • удалить стопсимволы в начале слов
  • удалить стопсимволы в конце слов
  • удалить одиночные группы стопсиволов
  • “сжать” пробелы (заменить группы пробельных символов одним пробелом)

Вот готовый скрипт: http://with.in/files/compress-keywords.phps

Единственное, что я не реализовал – это сохранение апострофа, т. к. не собрал все конструкции языка с ним.

В заключение

Конечно, тема анализа запросов далеко не закрыта. Например, из комментов читателей выяснилось, что в Гугле есть автоконверт слов с проряжением (тяжелое наследие аски-редакторов):

g o o g l e

Если у вас есть какие-то новые наблюдения на эту тему – поделитесь ими со мною в комментах.

Другие посты на эту тему

Подпишитесь на RSSRSS-канал блога!