Часто оказывается, что то, что ты делаешь, уже сделано. Банальная истина, не правда ли? Однако многие продолжают делать по-новому в силу личных причин – “сделано, но не так хорошо, как мне хотелось бы”, “сделано, но мне недоступно”, “сделано, но я это вижу по-другому”.

Однако когда то, что сделано, лежит на той самой тарелочке, с голубой каёмочкой, т. е. в очень удобном виде, вполне доступно, более-менее хорошо – возражать не хочется. Хочется знать, где же эта самая тарелочка стоит?

Когда дело касается программирования различных SE-штук, я могу смело ответить: в опенсорс-софте близких тематик – лингвистика и открытые поисковые системы (не пропустите эти ссылки – это не дань блоггерской моде линковать на слова – там действительно есть на что посмотреть).

И это не скучный совет из серии “изучайте чужой код” (сам не люблю это делать). Я советую исследовать состав дистрибутива программ.

Пример: недавно, в одной из дискуссий черно-серо-белых SEO, возник вопрос “где же брать стоп-слова?”. Можно, конечно, просто шерстить Гугл, и, в принципе, решить задачу, но:

  • публичные листы еще надо собрать и привести в нужный вид, а копипастить с веб-страниц, и потом обрабатывать накопипащеное – не самое веселое занятие
  • публичные листы чаще всего ограниченны английским языком, а если и есть другие – то набор слов для них скуден

В голове в тот момент всплыло – в каком-то дистрибутиве я видел довольно внушительный набор листов стопслов из распространенных языков. Пошерстив по винту я нашел дистрибутив – это был mnoGoSearch, кстати – в последних версиях добавились японский и китайский листы.

И все благодаря тому, что я когда-то зачем-то ковырял этот дистрибутив! Кстати, если присмотреться, то в этом же дистрибутиве есть еще две интересные папки – папка с файлами синонимов, правда, объемы для английского скудны, а вот для итальянского (который в последний год довольно интересен многим) – гораздо серьезнее. Вторая папка – langmap, как я понял – самые популярные буквосочетания языка (для индексации?) – такое тоже может для чего-либо пригодиться.

Итак, повторюсь еще раз: ковыряйте софт! И тогда вам не придется собирать вручную различные базы, проводить исследования, которые уже проведены и может быть, это поможет вам быстрее создать ваш очередной инструмент заработка.

Домашнее задание :) : найдите хотя бы одну базу слов английского с указанием, какой частью предложения они являются.

Другие посты на эту тему

Подпишитесь на RSSRSS-канал блога!