Ковыряйте софт: пример тарелочки с голубой каёмочкой

Спонсор блога — Gold-affiliate, партнерская программа по продаже ювелирных изделий в Рунете.

Часто оказывается, что то, что ты делаешь, уже сделано. Банальная истина, не правда ли? Однако многие продолжают делать по-новому в силу личных причин – “сделано, но не так хорошо, как мне хотелось бы”, “сделано, но мне недоступно”, “сделано, но я это вижу по-другому”.

Однако когда то, что сделано, лежит на той самой тарелочке, с голубой каёмочкой, т. е. в очень удобном виде, вполне доступно, более-менее хорошо – возражать не хочется. Хочется знать, где же эта самая тарелочка стоит?

Когда дело касается программирования различных SE-штук, я могу смело ответить: в опенсорс-софте близких тематик – лингвистика и открытые поисковые системы (не пропустите эти ссылки – это не дань блоггерской моде линковать на слова – там действительно есть на что посмотреть).

И это не скучный совет из серии “изучайте чужой код” (сам не люблю это делать). Я советую исследовать состав дистрибутива программ.

Пример: недавно, в одной из дискуссий черно-серо-белых SEO, возник вопрос “где же брать стоп-слова?”. Можно, конечно, просто шерстить Гугл, и, в принципе, решить задачу, но:

  • публичные листы еще надо собрать и привести в нужный вид, а копипастить с веб-страниц, и потом обрабатывать накопипащеное – не самое веселое занятие
  • публичные листы чаще всего ограниченны английским языком, а если и есть другие – то набор слов для них скуден

В голове в тот момент всплыло – в каком-то дистрибутиве я видел довольно внушительный набор листов стопслов из распространенных языков. Пошерстив по винту я нашел дистрибутив – это был mnoGoSearch, кстати – в последних версиях добавились японский и китайский листы.

И все благодаря тому, что я когда-то зачем-то ковырял этот дистрибутив! Кстати, если присмотреться, то в этом же дистрибутиве есть еще две интересные папки – папка с файлами синонимов, правда, объемы для английского скудны, а вот для итальянского (который в последний год довольно интересен многим) – гораздо серьезнее. Вторая папка – langmap, как я понял – самые популярные буквосочетания языка (для индексации?) – такое тоже может для чего-либо пригодиться.

Итак, повторюсь еще раз: ковыряйте софт! И тогда вам не придется собирать вручную различные базы, проводить исследования, которые уже проведены и может быть, это поможет вам быстрее создать ваш очередной инструмент заработка.

Домашнее задание :) : найдите хотя бы одну базу слов английского с указанием, какой частью предложения они являются.

Другие статьи на эту же тему

Сделайте, пожалуйста, репост этой статьи, друзья:

Понравилось? Получайте новые материалы моего блога по RSS каналу, в Facebook, в Google+, а еще лучше - оставьте свой email
и я отправлю вам новые статьи ;):
This entry was posted in Идеи and tagged , , , , , . Bookmark the permalink.

11 Responses to Ковыряйте софт: пример тарелочки с голубой каёмочкой

  1. Maxime says:

    Синонимы для немецкого и польского можно взять на http://www.dataparksearch.org/
    Там же можно разжиться частотными словарями китайского (традиционный и мандарин), тайского и корейского языков.

  2. samlowry says:

    Maxime: спасибо за наводку!

  3. samlowry says:

    Кстати, для синонимов английского там вроде бы самая большая база – 774,663 bytes. Ну и, возможно, в самом дистре что-то интересное есть.

  4. lab says:

    Я даже скажу, что интересного там: кусок кода, который делает автореферирование документа

  5. samlowry says:

    Лаб, где – там?

  6. lab says:

    твои слова: “Ну и, возможно, в самом дистре что-то интересное есть.” – я и отвечаю: там, в дистре. Это одна из фич этого софта, он при построении индекса делает автореферирование документа, а-ля снипетты, вытаскивает 3 самых релевантных предложения

  7. samlowry says:

    lab, это ты про http://www.dataparksearch.org/ ?

    Вообще, автореферирование лично мне интересно для чтения всяких длинных статей. А тебе для чего? Выжимать из статьи новую? Или что-то измерять?

  8. demy says:

    действительно полезные ссылки.. заметна существенная озабоченность качественным контентом в последние полгода со стороны оптимизаторов :) Может в скором времени будет выгоднее содержать несколько качественных ресурсов, чем клепать автоматами тонны бесполезных псевдосайтов ;)

  9. samlowry says:

    demy, после псевдосайтов тяжело привыкнуть к:
    - малому проценту отдачи с полезных белых сайтов. Ведь на дорвеях и серых большая часть серферов направляются напрямую на спонсора или на самостоятельно изготовленные рекламные страницы. В белых на эти страницы так просто серфер не пойдет. И даже не так просто – даже 90% не пойдут.
    - уязвимости небольшого кол-ва сайтов в период роста. Да и потом тоже. От потери дорвеев не умирал никто. А вот седые волосы и убитые нервные клетки даже от возможности потери белого, взлелеяного долгими бессонными ночами родного проекта – это запросто.

  10. demy says:

    ага, еще по последнему высказыванию гугла на эту тему, сайты не должны иметь много рекламы. Тогда возможен другой поворот эволюции, владельцы белых сайтов займутся дорами:)

  11. Pingback: Make Self (Mikhailov Serge) Blog »

Leave a Reply

Your email address will not be published. Required fields are marked *

*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>