13 Aug
Тэги: Софт, выдача, запросы, Google, keywords, MSN, script, SEO, SEO, Yahoo
На днях Димок опубликовал две заметки-перевода зарубежных публикаций о том, как поисковики интерпретируют подчёркивания в словах и урлах – “SEO для Wordpress от Мэта Катса” и “Подчеркивание. Мнение других поисковиков“. У меня давно была идея публикации на схожую с этой тему, теперь я просто обязан поделиться с вами несколькими идеями.
Пережде всего – всё, что касается интерпретации символов поисковиками элементарно проверяется правильно сформулированными запросами. Если бы Barry Schwartz, на которого ссылается Димок, умел смотреть в выдачу – он бы написал про подчёркивания давно, а не “интересовался у представителей Yahoo, MSN и Ask.com, какое значение они придают подчеркиванию в урлах“.
сравните с
Как вы можете видеть – радоваться рано, пока что ни о каком учёте подчёркиваний речи не идёт. Хорошо-хорошо, допустим, боты уже интерпретируют подчёркивания, не проапдейтили только систему анализа запросов. Делаем произвольный поиск страницы по известному нам урлу с подчёркиваниями:
И… Мы не получаем искомую страницу-оригинал из Википедии, найти её можно только явно задав название с подчёркиваниями, Кац как всегда, прогнал:
Подчёркивания анализируются без проблем.
То же самое.
Однако есть и более интересные вещи, которые можно выяснить подобными “хитрыми” запросами. Несколько месяцев назад я поставил для себя задачу выяснить
Поясню зачем: многие собирают киворды, переданные в рефферерах, многие покупают их. Даже легендарный Вордтрекер отдаёт полные запросы, введённые сёрферами.
В то же время, я слышал, как многие “сжимают” свои базы: удаляют все цифры, все знаки пунктуации, заменяя их на пробелы. Затем заменяют группы пробелов на один.
Согласно такой системе запрос
Превращается в лучшем случае в
а в худшем – просто в
Сразу же скажу тем, кто в танке: цифры в любом случае интерпретируются как буквы, так что удалять их нельзя!
Некоторые идут дальше в своих “сжатиях”, например удаляют стоп-слова. Однако
и
дают две совершенно разных выдачи.
Проверял я поведение спецсимволов в середине, начале и конце слов.
Для спецсимволов в середине я вводил два слова, которые рядом обычно стоять никак не могут, например:
- как видите – выдача пустая, знак “&”, ровно как и “_” – один из двух символов, интерпретируемых Гуглом как буква.
Для спецсимволов в начале и конце слова я делал так:
Как видите, “+” в конце слов интерпретируется как символ, в угоду американской традиции называть новые продукты и аддоны Something+.
В итоге нудного вбивания подобных запросов для всех спецсимволов оказалось, что самый продвинутый механизм анализа запросов у Гугла. Механизм оптимизирован под американский английский, например, корректно проставленные запятые и точки в цифрах учитываются:
Корректно – это значит, запятые – как разделители десятков, а точки – как разделители целой и дробной частей. Т. е. для запросов “10,00″ или “10.000″ – не будут учитываться.
Учитывается знак доллара в начале цифр, апостроф в тех местах, где его юзают англичане – don’t, i’ll и т. п.
Яха и МСН в этом плане нетребовательны, почти все спецсимволы они принимают за пробелы.
В итоге я разработал следующий алгоритм сжатия кивордов (здесь слово “удалить” технически означает “заменить на пробел”):
Вот готовый скрипт: http://with.in/files/compress-keywords.phps
Единственное, что я не реализовал – это сохранение апострофа, т. к. не собрал все конструкции языка с ним.
Конечно, тема анализа запросов далеко не закрыта. Например, из комментов читателей выяснилось, что в Гугле есть автоконверт слов с проряжением (тяжелое наследие аски-редакторов):
Если у вас есть какие-то новые наблюдения на эту тему – поделитесь ими со мною в комментах.
Комментариев: 32
vosemd
August 13th, 2007 at 11:24
1Сам этим вопросом не интересовался, но твой подход наиболее правильный. Помню топик на буржуйском форуме, где буржуй с помощью выдачи пытался доказать что дефис и подчеркивание это одно и то же. Выдачу интерпретировал он в корне неправильно, но все ему поверили.
Закрывающие «кавычки« у тебя глючат в посте.
samlowry
August 13th, 2007 at 16:33
2Кавычки вордпрессовские, я просто заменил символы в движке :-/
служебный пост : Записки шареварного маркетолога
August 13th, 2007 at 19:46
3[...] Рекомендую к прочтению: Мифы об SE. (нет голосов) Loading … [...]
Интересно почитать (13.08.2007) by Блог Димка
August 13th, 2007 at 20:25
4[...] Мифы об SE: «Я удаляю весь мусор – знаки пунктуации и циф…. Интересное мнение. Пережде всего – всё, что касается интерпретации символов поисковиками элементарно проверяется правильно сформулированными запросами. Если бы Barry Schwartz, на которого ссылается Димок, умел смотреть в выдачу – он бы написал про подчёркивания давно, а не “интересовался у представителей Yahoo, MSN и Ask.com, какое значение они придают подчеркиванию в урлах”. [...]
Social Bookmarks
August 13th, 2007 at 22:47
5[...] На Maxsite има страхотен обзор на Drupal, Joomlа i Wordpress, ePavel обяснява как се слагат PHP, Apache, Mysql, Doorway Generator на локална машина в къщи, Artyom Maynas размишлява на плацебо ефекта в бизнеса, а Within: блог samlowry прави експерименти с пунктуация в Google [...]
Buy Viagra Online :: Post » SE мифы
August 14th, 2007 at 00:03
6[...] Интересный пост samlowry о всевозможных спецсимволах, которые учитывают Google, Yahoo и MSN. Анализ проводился с целью определить какие символы неоходимо удалять из своих баз кейвордов, какие заменять, а какие оставлять. В коце статьи подведен алгоритм сжатия баз кейвордов. Читаем. [...]
Eddie
August 14th, 2007 at 22:17
7Radnek, наткнулся на твой блог случайно, ткнув в подпись на известном форуме. Одним благодарным читателем у тебя стало больше, блог однозначно в букмарки.
Спасибо, очень познавательно.
samlowry
August 14th, 2007 at 22:21
8Eddie: ээээ…. А почему ты написал это в моём блоге, а не в блоге Раднека?
Eddie
August 14th, 2007 at 22:23
9Сорри :) Видать перешел с его блога на твой и не заметил. Ну не важно, блог в букмарках – блог понравился.
samlowry
August 14th, 2007 at 22:33
10Eddie: чтобы уж не зря комменты ты эти писал, а мой блог – нравится вообще? Выскажи мнение…
Eddie
August 14th, 2007 at 22:55
11Да, блог действительно интересный, есть что почитать. Как наверное ты понял, я зашел сюда с блога Radnek’a c поста http://radnek.com/post/13, и настолько увлекся чтением, что не заметил смену блога :) Каюсь, бываю невнимателен, но этот пост прочитал от корки до корки.
Конкретно про подчеркивания и тире в словах – эту тему я не изучал, меня больше интересовала выдача со словами AND.
Несмотря на то, что Гугл пиарится, что это слово не обязательно (The “AND” operator is unnecessary — we include all search terms by default), выдача по этим запросам разная:
http://www.google.com/search?hl=en&q=aztec+history+and+culture&btnG=Google+Search
http://www.google.com/search?hl=en&q=aztec+history+culture&btnG=Google+Search
В первом случае у меня Wikipedia на 3-й позиции, во втором – на 2-й.
samlowry
August 14th, 2007 at 23:52
12Eddie: спасибо, не интересовался вообще оператором AND. Может, ещё что-то интересное разведывал?
Кстати, товарищи: кто это прикалывается в запросах? После этой заметки кто-то перешёл на блог по запросу
hello&жопа -”kak eto ne intepretiruet? )”
Прикол отвязный – и правда, теперь есть такое словосочетание в инете :)))
buy viagra online
August 15th, 2007 at 05:49
13Сэм, да ты просто обогащаешь выдачу гугла :)
samlowry
August 15th, 2007 at 13:21
14Раднек: это ты шоль, прикалывался?
buy viagra online
August 15th, 2007 at 14:17
15Нет, не я. Ты ведь сам этот кейворд написал. Тебя и проиндексировали. Ну а кто-то потом просто по твоей ссылке зашел и реферер передался. Где дут прикол-то?
samlowry
August 15th, 2007 at 14:47
16Прикол в том, что кто-то в запросе отминусовал фразу “kak eto ne intepretiruet? )”:
hello&жопа -”kak eto ne intepretiruet? )”
samlowry
August 15th, 2007 at 14:47
17Т. е. это непосредственно к моей статье фраза относится.
Как зарождалось SEO… | MaulNet.ru - для тех, кто умеет зарабатывать в Интернете
August 16th, 2007 at 04:05
18[...] в форум на IPB (на мой взгляд, весьма качественный блог), мифы об SE: «Я удаляю весь мусор – знаки пунктуации и цифры…, секс-бомж вас поимел (мне про подставу сообщили после [...]
Sergey
August 18th, 2007 at 19:42
19Интересный пост, но большой.
Почему тегом more не пользуешься?
samlowry
August 18th, 2007 at 23:13
20Sergey: разъясни, пожалуйста, зачем он? Может, ты читаешь как-то по-особенному, я думал – это от ЖЖ пришло, там-то лента была, и кат юзали, чтобы лента не раздувалась… А тут?
DarkSEO
August 23rd, 2007 at 00:18
21а если кейворд такого типа:
buy mega pill domen.com
то скрипт выводит:
buy mega pill domen com
имхо это не очень хорошо :)
samlowry
August 23rd, 2007 at 01:41
22DarkSEO: ты хорошо читал? Точка=пробелу. Запросы ‘domain.com’ и ‘domain com’ – равнозначны.
Ещё раз повторюсь, в таких вопросах ИМХО – не катит. Всё проверяется легко и непринуждённо на практике.
DarkSEO
August 23rd, 2007 at 01:54
23я не о том, что эти запросы равнозначны или нет :)
я о том, что у тебя не вырезается сам domen.com (или http://www.domen.com)
samlowry
August 23rd, 2007 at 02:12
24А зачем его вырезать? Не пойму. Это такое же ключевое слово, как и все, и поисковики как-то по-особому трепетно к названию домена не относятся. И по нему можно выйти. Например:
“недостатки google.com”
Если идёт _спец_ запрос – site:google.com – вот тогда его надо вырезать.
А домены в качестве кивордов вводят только так.
Гугл даёт подсказку о том, как он воспринимает запросы! [Within: блог samlowry]
August 24th, 2007 at 03:54
25[...] недавно я писал об интерпретации поисковых запросов поисковиками. Только что совершенно случайно я заметил, что Гугл [...]
Stripe
August 26th, 2007 at 13:50
26Зачет! :) Интересная информация.
Ice_sCream
August 31st, 2007 at 18:47
27Замечено, что Google в ссылке с точкой кушает оба предложения (до и после точки). У яндекса например – берется текст до точки. Это так, к слову. За пост – спасибо.
Cruma
August 31st, 2007 at 20:38
28Кстати, если кому нужно собирать киворды, по которым приходят к нему на сайт, советую ознакомиться с возможностями специального сервиса _http://referer.mixed.ru
Особенно будет полезно для тех, кто работает в русском сегменте.
samlowry
August 31st, 2007 at 21:54
29Ice_sCream: странно, почему он должен кушать только до точки? Это уже какая-то фишка Яндекса своя.
Блог оптимистичного оптимизатора » Blog Archive » О важности URL страниц.
September 27th, 2007 at 00:35
30[...] тема, советую ознакомиться со следующими заметками: 1). “Я удаляю весь мусор – знаки пунктуации и цифры – из сво… 2). SEO для Wordpress от Мэта Катса 3). 21 совет Мэта Катса по [...]
О важности URL страниц. » surfer
January 6th, 2008 at 00:12
31[...] тема, советую ознакомиться со следующими заметками: 1). “Я удаляю весь мусор – знаки пунктуации и цифры – из сво… 2). SEO для Wordpress от Мэта Катса 3). 21 совет Мэта Катса по [...]
Важность URL. | AltBlog.ru
March 25th, 2008 at 19:50
32[...] тема, советую ознакомиться со следующими заметками: 1). “Я удаляю весь мусор – знаки пунктуации и цифры – из сво… 2). SEO для Wordpress от Мэта Катса 3). 21 совет Мэта Катса по [...]