24 May
Тэги: Идеи, Программирование, базы данных, промышленный шпионаж, софт, хаки, SEO
Часто оказывается, что то, что ты делаешь, уже сделано. Банальная истина, не правда ли? Однако многие продолжают делать по-новому в силу личных причин – “сделано, но не так хорошо, как мне хотелось бы”, “сделано, но мне недоступно”, “сделано, но я это вижу по-другому”.
Однако когда то, что сделано, лежит на той самой тарелочке, с голубой каёмочкой, т. е. в очень удобном виде, вполне доступно, более-менее хорошо – возражать не хочется. Хочется знать, где же эта самая тарелочка стоит?
Когда дело касается программирования различных SE-штук, я могу смело ответить: в опенсорс-софте близких тематик – лингвистика и открытые поисковые системы (не пропустите эти ссылки – это не дань блоггерской моде линковать на слова – там действительно есть на что посмотреть).
И это не скучный совет из серии “изучайте чужой код” (сам не люблю это делать). Я советую исследовать состав дистрибутива программ.
Пример: недавно, в одной из дискуссий черно-серо-белых SEO, возник вопрос “где же брать стоп-слова?”. Можно, конечно, просто шерстить Гугл, и, в принципе, решить задачу, но:
В голове в тот момент всплыло – в каком-то дистрибутиве я видел довольно внушительный набор листов стопслов из распространенных языков. Пошерстив по винту я нашел дистрибутив – это был mnoGoSearch, кстати – в последних версиях добавились японский и китайский листы.
И все благодаря тому, что я когда-то зачем-то ковырял этот дистрибутив! Кстати, если присмотреться, то в этом же дистрибутиве есть еще две интересные папки – папка с файлами синонимов, правда, объемы для английского скудны, а вот для итальянского (который в последний год довольно интересен многим) – гораздо серьезнее. Вторая папка – langmap, как я понял – самые популярные буквосочетания языка (для индексации?) – такое тоже может для чего-либо пригодиться.
Итак, повторюсь еще раз: ковыряйте софт! И тогда вам не придется собирать вручную различные базы, проводить исследования, которые уже проведены и может быть, это поможет вам быстрее создать ваш очередной инструмент заработка.
Домашнее задание
: найдите хотя бы одну базу слов английского с указанием, какой частью предложения они являются.
Комментариев: 11
Maxime
May 24th, 2007 at 20:42
1Синонимы для немецкого и польского можно взять на http://www.dataparksearch.org/
Там же можно разжиться частотными словарями китайского (традиционный и мандарин), тайского и корейского языков.
samlowry
May 25th, 2007 at 09:45
2Maxime: спасибо за наводку!
samlowry
May 25th, 2007 at 09:48
3Кстати, для синонимов английского там вроде бы самая большая база – 774,663 bytes. Ну и, возможно, в самом дистре что-то интересное есть.
lab
May 28th, 2007 at 00:22
4Я даже скажу, что интересного там: кусок кода, который делает автореферирование документа
samlowry
May 28th, 2007 at 00:30
5Лаб, где – там?
lab
May 28th, 2007 at 03:15
6твои слова: “Ну и, возможно, в самом дистре что-то интересное есть.” – я и отвечаю: там, в дистре. Это одна из фич этого софта, он при построении индекса делает автореферирование документа, а-ля снипетты, вытаскивает 3 самых релевантных предложения
samlowry
May 28th, 2007 at 16:00
7lab, это ты про http://www.dataparksearch.org/ ?
Вообще, автореферирование лично мне интересно для чтения всяких длинных статей. А тебе для чего? Выжимать из статьи новую? Или что-то измерять?
demy
May 28th, 2007 at 21:08
8действительно полезные ссылки.. заметна существенная озабоченность качественным контентом в последние полгода со стороны оптимизаторов
Может в скором времени будет выгоднее содержать несколько качественных ресурсов, чем клепать автоматами тонны бесполезных псевдосайтов
samlowry
May 28th, 2007 at 23:07
9demy, после псевдосайтов тяжело привыкнуть к:
- малому проценту отдачи с полезных белых сайтов. Ведь на дорвеях и серых большая часть серферов направляются напрямую на спонсора или на самостоятельно изготовленные рекламные страницы. В белых на эти страницы так просто серфер не пойдет. И даже не так просто – даже 90% не пойдут.
- уязвимости небольшого кол-ва сайтов в период роста. Да и потом тоже. От потери дорвеев не умирал никто. А вот седые волосы и убитые нервные клетки даже от возможности потери белого, взлелеяного долгими бессонными ночами родного проекта – это запросто.
demy
May 29th, 2007 at 13:01
10ага, еще по последнему высказыванию гугла на эту тему, сайты не должны иметь много рекламы. Тогда возможен другой поворот эволюции, владельцы белых сайтов займутся дорами:)
Make Self (Mikhailov Serge) Blog »
December 17th, 2007 at 01:22
11[...] http://with.in/kovyryajte-soft-primer-tarelochki-s-goluboj-kayomochkoj/ – , http://www.mnogosearch.org/ [...]