Мифы об SE: “Я удаляю весь мусор – знаки пунктуации и цифры – из своих баз кивордов”

Спонсор блога — Gold-affiliate, партнерская программа по продаже ювелирных изделий в Рунете.

На днях Димок опубликовал две заметки-перевода зарубежных публикаций о том, как поисковики интерпретируют подчёркивания в словах и урлах – “SEO для WordPress от Мэта Катса” и “Подчеркивание. Мнение других поисковиков“. У меня давно была идея публикации на схожую с этой тему, теперь я просто обязан поделиться с вами несколькими идеями.

Широко открытые глаза: смотрим в выдачу

Пережде всего – всё, что касается интерпретации символов поисковиками элементарно проверяется правильно сформулированными запросами. Если бы Barry Schwartz, на которого ссылается Димок, умел смотреть в выдачу – он бы написал про подчёркивания давно, а не “интересовался у представителей Yahoo, MSN и Ask.com, какое значение они придают подчеркиванию в урлах“.

Как проверить, является ли подчёркивание разделителем слов

  • В Гугле:

    morning_спасибо

    сравните с

    morning-спасибо

    Как вы можете видеть – радоваться рано, пока что ни о каком учёте подчёркиваний речи не идёт. Хорошо-хорошо, допустим, боты уже интерпретируют подчёркивания, не проапдейтили только систему анализа запросов. Делаем произвольный поиск страницы по известному нам урлу с подчёркиваниями:

    allinurl:List of cinemas in Thailand

    И… Мы не получаем искомую страницу-оригинал из Википедии, найти её можно только явно задав название с подчёркиваниями, Кац как всегда, прогнал:

    inurl:List_of_cinemas_in_Thailand

  • В Яхе:

    inurl:"List of cinemas in"

  • inurl:"List of cinemas in Thailand"

    Подчёркивания анализируются без проблем.

  • В Мсн:

    List_of cinemas_in Thailand

    То же самое.

Однако есть и более интересные вещи, которые можно выяснить подобными “хитрыми” запросами. Несколько месяцев назад я поставил для себя задачу выяснить

Как SE интерпретируют спецсимволы в поисковых запросах

Поясню зачем: многие собирают киворды, переданные в рефферерах, многие покупают их. Даже легендарный Вордтрекер отдаёт полные запросы, введённые сёрферами.

В то же время, я слышал, как многие “сжимают” свои базы: удаляют все цифры, все знаки пунктуации, заменяя их на пробелы. Затем заменяют группы пробелов на один.

Согласно такой системе запрос

9 1/2 weeks

Превращается в лучшем случае в

9 12 weeks

а в худшем – просто в

weeks

Сразу же скажу тем, кто в танке: цифры в любом случае интерпретируются как буквы, так что удалять их нельзя!

Некоторые идут дальше в своих “сжатиях”, например удаляют стоп-слова. Однако

about the way

и

about way

дают две совершенно разных выдачи.

Что же я проверял

Проверял я поведение спецсимволов в середине, начале и конце слов.

Как я проверял

Для спецсимволов в середине я вводил два слова, которые рядом обычно стоять никак не могут, например:

hello&жопа

- как видите – выдача пустая, знак “&”, ровно как и “_” – один из двух символов, интерпретируемых Гуглом как буква.

Для спецсимволов в начале и конце слова я делал так:

soft+ -soft

Как видите, “+” в конце слов интерпретируется как символ, в угоду американской традиции называть новые продукты и аддоны Something+.

Что получилось

В итоге нудного вбивания подобных запросов для всех спецсимволов оказалось, что самый продвинутый механизм анализа запросов у Гугла. Механизм оптимизирован под американский английский, например, корректно проставленные запятые и точки в цифрах учитываются:

1,000

Корректно – это значит, запятые – как разделители десятков, а точки – как разделители целой и дробной частей. Т. е. для запросов “10,00″ или “10.000″ – не будут учитываться.

Учитывается знак доллара в начале цифр, апостроф в тех местах, где его юзают англичане – don’t, i’ll и т. п.

Яха и МСН в этом плане нетребовательны, почти все спецсимволы они принимают за пробелы.

Алгоритм сжатия кивордов

В итоге я разработал следующий алгоритм сжатия кивордов (здесь слово “удалить” технически означает “заменить на пробел”):

  • удалить метаоператоры ( site:, inurl: ) и метаслова ( AND, OR ). Кстати, часть метаоператоров надо удалять с их значениями, напрмер, inurl:, link: и т. п.
  • удалить стопсимволы в середине слов. Сохраняя при этом апостроф в корректных языковых конструкциях, и символы ,.$ в корректных числовых конструкциях.
  • удалить стопсимволы в начале слов
  • удалить стопсимволы в конце слов
  • удалить одиночные группы стопсиволов
  • “сжать” пробелы (заменить группы пробельных символов одним пробелом)

Вот готовый скрипт: http://with.in/files/compress-keywords.phps

Единственное, что я не реализовал – это сохранение апострофа, т. к. не собрал все конструкции языка с ним.

В заключение

Конечно, тема анализа запросов далеко не закрыта. Например, из комментов читателей выяснилось, что в Гугле есть автоконверт слов с проряжением (тяжелое наследие аски-редакторов):

g o o g l e

Если у вас есть какие-то новые наблюдения на эту тему – поделитесь ими со мною в комментах.

Другие статьи на эту же тему

Сделайте, пожалуйста, репост этой статьи, друзья:

Понравилось? Получайте новые материалы моего блога по RSS каналу, в Facebook, в Google+, а еще лучше - оставьте свой email
и я отправлю вам новые статьи ;):
This entry was posted in Софт, SEO and tagged , , , , , , , . Bookmark the permalink.

34 Responses to Мифы об SE: “Я удаляю весь мусор – знаки пунктуации и цифры – из своих баз кивордов”

  1. vosemd says:

    Сам этим вопросом не интересовался, но твой подход наиболее правильный. Помню топик на буржуйском форуме, где буржуй с помощью выдачи пытался доказать что дефис и подчеркивание это одно и то же. Выдачу интерпретировал он в корне неправильно, но все ему поверили.
    Закрывающие «кавычки« у тебя глючат в посте.

  2. samlowry says:

    Кавычки вордпрессовские, я просто заменил символы в движке :-/

  3. Pingback: служебный пост : Записки шареварного маркетолога

  4. Pingback:   Интересно почитать (13.08.2007) by Блог Димка

  5. Pingback: Social Bookmarks

  6. Pingback: Buy Viagra Online :: Post » SE мифы

  7. Eddie says:

    Radnek, наткнулся на твой блог случайно, ткнув в подпись на известном форуме. Одним благодарным читателем у тебя стало больше, блог однозначно в букмарки.
    Спасибо, очень познавательно.

  8. samlowry says:

    Eddie: ээээ…. А почему ты написал это в моём блоге, а не в блоге Раднека?

  9. Eddie says:

    Сорри :) Видать перешел с его блога на твой и не заметил. Ну не важно, блог в букмарках – блог понравился.

  10. samlowry says:

    Eddie: чтобы уж не зря комменты ты эти писал, а мой блог – нравится вообще? Выскажи мнение…

  11. Eddie says:

    Да, блог действительно интересный, есть что почитать. Как наверное ты понял, я зашел сюда с блога Radnek’a c поста http://radnek.com/post/13, и настолько увлекся чтением, что не заметил смену блога :) Каюсь, бываю невнимателен, но этот пост прочитал от корки до корки.

    Конкретно про подчеркивания и тире в словах – эту тему я не изучал, меня больше интересовала выдача со словами AND.
    Несмотря на то, что Гугл пиарится, что это слово не обязательно (The “AND” operator is unnecessary — we include all search terms by default), выдача по этим запросам разная:

    http://www.google.com/search?hl=en&q=aztec+history+and+culture&btnG=Google+Search
    http://www.google.com/search?hl=en&q=aztec+history+culture&btnG=Google+Search

    В первом случае у меня Wikipedia на 3-й позиции, во втором – на 2-й.

  12. samlowry says:

    Eddie: спасибо, не интересовался вообще оператором AND. Может, ещё что-то интересное разведывал?

    Кстати, товарищи: кто это прикалывается в запросах? После этой заметки кто-то перешёл на блог по запросу
    hello&жопа -”kak eto ne intepretiruet? )”

    Прикол отвязный – и правда, теперь есть такое словосочетание в инете :)))

  13. Сэм, да ты просто обогащаешь выдачу гугла :)

  14. samlowry says:

    Раднек: это ты шоль, прикалывался?

  15. Нет, не я. Ты ведь сам этот кейворд написал. Тебя и проиндексировали. Ну а кто-то потом просто по твоей ссылке зашел и реферер передался. Где дут прикол-то?

  16. samlowry says:

    Прикол в том, что кто-то в запросе отминусовал фразу “kak eto ne intepretiruet? )”:
    hello&жопа -”kak eto ne intepretiruet? )”

  17. samlowry says:

    Т. е. это непосредственно к моей статье фраза относится.

  18. Pingback: Как зарождалось SEO… | MaulNet.ru - для тех, кто умеет зарабатывать в Интернете

  19. Sergey says:

    Интересный пост, но большой.
    Почему тегом more не пользуешься?

  20. samlowry says:

    Sergey: разъясни, пожалуйста, зачем он? Может, ты читаешь как-то по-особенному, я думал – это от ЖЖ пришло, там-то лента была, и кат юзали, чтобы лента не раздувалась… А тут?

  21. DarkSEO says:

    а если кейворд такого типа:
    buy mega pill domen.com

    то скрипт выводит:
    buy mega pill domen com

    имхо это не очень хорошо :)

  22. samlowry says:

    DarkSEO: ты хорошо читал? Точка=пробелу. Запросы ‘domain.com’ и ‘domain com’ – равнозначны.

    Ещё раз повторюсь, в таких вопросах ИМХО – не катит. Всё проверяется легко и непринуждённо на практике.

  23. DarkSEO says:

    я не о том, что эти запросы равнозначны или нет :)
    я о том, что у тебя не вырезается сам domen.com (или http://www.domen.com)

  24. samlowry says:

    А зачем его вырезать? Не пойму. Это такое же ключевое слово, как и все, и поисковики как-то по-особому трепетно к названию домена не относятся. И по нему можно выйти. Например:
    “недостатки google.com”

    Если идёт _спец_ запрос – site:google.com – вот тогда его надо вырезать.

    А домены в качестве кивордов вводят только так.

  25. Pingback:   Гугл даёт подсказку о том, как он воспринимает запросы! [Within: блог samlowry]

  26. Stripe says:

    Зачет! :) Интересная информация.

  27. Ice_sCream says:

    Замечено, что Google в ссылке с точкой кушает оба предложения (до и после точки). У яндекса например – берется текст до точки. Это так, к слову. За пост – спасибо.

  28. Cruma says:

    Кстати, если кому нужно собирать киворды, по которым приходят к нему на сайт, советую ознакомиться с возможностями специального сервиса _http://referer.mixed.ru
    Особенно будет полезно для тех, кто работает в русском сегменте.

  29. samlowry says:

    Ice_sCream: странно, почему он должен кушать только до точки? Это уже какая-то фишка Яндекса своя.

  30. Pingback: Блог оптимистичного оптимизатора » Blog Archive » О важности URL страниц.

  31. Pingback: О важности URL страниц. » surfer

  32. Pingback: Важность URL. | AltBlog.ru

  33. 19slawa81 says:

    Замечено, что Google в ссылке с точкой кушает оба предложения (до и после точки). У яндекса например – берется текст до точки. Это так, к слову. За пост – спасибо.

  34. Антон says:

    Уже столько лет прошло) Интересно нынешнее поведение SE по отношению к спец. символам

Leave a Reply

Your email address will not be published. Required fields are marked *

*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>