Автор/Редактор: Aborigen
Опубликовано: 22.02.2007
На странице: aborigen.rybolov.de
Очень интересная и нужная статья.С уважением carpfishener.
Нередко для того, чтобы отыскать нужный сайт, пользователи обращаются к каталогам - например, Rambler Top100. Однако каталог - это, конечно, хорошо, но далеко не всегда пользователя интересует какая-то широкая тематика - кино, музыка и так далее. Значительно чаще пользователь хочет найти в Интернете что-то более конкретное: информацию о творчестве Герберта фон Караяна; личный сайт писателя, актера, музыканта, режиссера; спецификацию клапана типа Г57, жилищный кодекс РФ и так далее. Что делать в этом случае, ведь в Rambler нет отдельного раздела каталога с сайтами, посвященными творчеству Герберта фон Караяна или спецификации клапанов типа Г57? Вот как раз в подобных случаях и нужно пользоваться поисковыми системами, в которых, как гласит рекламный слоган самой популярной российской поисковой системы Яndex, «Найдется все!».
Но прежде чем мы начнем работать с поисковой системой, сначала необходимо хотя бы в общих чертах понять, как именно она работает, точнее, что именно она ищет и в какой последовательности выводит результаты поиска. Потому что поиск в Интернете, при всей его кажущейся простоте, - это своего рода искусство. Чем лучше вы будете понимать, как составляются поисковые запросы и как на них реагируют поисковые системы, тем быстрее вы будете находить то, что вам нужно. С другой стороны, если о поиске в Интернете не знать ничего, то можно сутками перелопачивать тонны сайтов, так и не найдя то, что вас интересует.
Как работает поисковая система
Многие пользователи почему-то считают, что в ответ на их вопрос поисковая система начинает быстро-быстро шерстить весь Интернет, после чего выдает список страниц, где отыскалось что-то похожее на строку поиска, введенную пользователем. Разумеется, в действительности все происходит совершенно не так, потому что если бы поисковая система при каждом запросе шерстила весь Интернет (или даже его маленькую часть), ответа приходилось бы дожидаться годами.
На самом деле почти каждая поисковая система (скажем так - классическая поисковая система) состоит из трех основных компонентов:
1) веб-паук (web spider)
2) индексатор
3) алгоритм поиска и оценки результатов
Веб-паук, несмотря на всю экзотичность подобного названия, - это всего-навсего специальная программа, которая запускается на компьютере (компьютерах), подключенном к Интернету, и ее основная задача - шерстить весь этот Интернет (точнее, интернетовские странички) во всех возможных направлениях. Ведь странички, как мы говорили, состоят из гиперссылок, так вот паук носится как угорелый по гиперссылкам «паутины» сайтов и скачивает полученные таким образом странички для второй компоненты - индексной базы.
Индексатор - это обработчик скачанных веб-пауком страниц. Он извлекает оттуда все слова и складывает их в поисковую базу (индексную базу). При этом индексатор записывает, где именно было найдено то или иное слово, и эта информация потом используется в поиске.
Алгоритм поиска - это главное ноу-хау любой поисковой системы. От алгоритма зависит эффективность полученного результата - то есть насколько быстро и точно пользователь найдет то, что его интересует.
Внимание! Таким образом, когда пользователь вводит свой запрос, поисковая система ищет ответ в своей индексной базе и выводит результаты в соответствии со своим алгоритмом поиска.
Для хорошей работы поисковой системы важны все три компоненты. Причем каждая из них на самом деле весьма сложна, и ее работа подчиняется огромному количеству всевозможных хитрых правил, которые к тому же постоянно корректируются.
Поисковик должен иметь и шустрого паука, и мощную индексную базу, и эффективный алгоритм поиска - только тогда вы будете получать действительно полезные результаты.
Загадочное слово «релевантность»
Когда говорят о поисковых системах, очень часто упоминают загадочно звучащее слово «релевантность». «Да ну его, у него поиск нерелевантный!» - говорят об одной поисковой системе. «Отлично ищет, классная релевантность!» - говорят о другой. Таким образом, можно догадаться, что релевантность - это хорошо, а отсутствие релевантности - плохо. Да, именно так и есть!
Внимание! Релевантность - это степень соответствия документа запросу.
Что значит «степень соответствия»? Вот смотрите. Например, вы студент (школьник, аспирант, кандидат, профессор) и вам нужно написать какой-то реферат. Как продвинутое дитя интернетовского века вы не собираетесь его писать самостоятельно, а надеетесь найти соответствующий текст в Интернете и выдать его за свой. Не берясь оценивать подобное действо с точки зрения морали, будем рассматривать это просто как пример.
Итак, прежде всего вам нужно найти сайт с рефератами. Вы заходите на поисковую систему и вводите слово для поиска «рефераты». Поисковая система заглядывает в свою индексную базу и видит там ссылки примерно на 7 864295 страниц, на которых это слово встречается 31378327 раз. (Цифры абсолютно реальны и предоставлены поисковой системой Яndex.) Причем это слово присутствует как на страницах сайта «Банк рефератов», так и на страницах дневника блондинки Леночки, где дословно написано следующее: «Сегодня пыталась писать реферат. Шесть ногтей покрасила, но так ни черта и не написала. Какой-то сегодня прям нерефератный день, дивчонки, да?»
Так какую ссылку пользователь хочет получить первой: на банк рефератов или на страничку блондинки Леночки, где просто употребляется слово «реферат»? Разумеется, на банк рефератов! Вот это и называется - релевантность, то есть степень соответствия запросу.
Каким образом поисковая система может определить эту релевантность, то есть какие из страничек, где встречается заданная поисковая строка, наиболее интересны и полезны пользователю? В этом как раз и заключается ноу-хау различных поисковиков, однако общий принцип у них достаточно похож, и анализ результатов делается примерно следующим образом:
1. Проверяется, сколько раз заданное слово (словосочетание) встречается на отобранных страничках.
Разумеется, чем больше, тем лучше, потому что больше вероятность того, что эти страницы посвящены именно данной тематике.
2. Проверяется расстояние между словами, если введена целая фраза.
То есть если пользователь ищет «Герберт фон Караян», то страничка, на которой встречается «Герберт фон Караян родился», будет более релевантной, чем страничка с текстом: «Герберт утром встал, побрился, достал из кармана фон дер пшик, а потом включил Караян по телевизору».
3. Количество ссылок на данную страницу (индекс цитируемости).
Чем больше на данную страницу ссылаются (ставят гиперссылку) другие страницы, тем больше вероятность того, что именно эта страница нужна пользователю.
4. Каким шрифтом (стилем) набрана на странице искомая фраза.
Если фраза написана крупным шрифтом (является заголовком) или выделена жирным - это тоже признак более высокой релевантности данной страницы.
5. Возраст сайта.
Чем дольше существует данный сайт, тем лучше это влияет на релевантность.
Таким образом, как видите, уровень релевантности - это целый комплекс всевозможных параметров, которые нужно не только получить и сохранить в поисковой базе, но и правильно интерпретировать.
Поисковый запрос
«Искать нужно уметь!» - гласит народная мудрость. Что означает эта фраза? Она означает то, что, прежде чем задавать строку для поиска, нужно понять, что именно вы хотите найти. Также нужно понять, каким образом следует составить строку, чтобы поисковая система как можно быстрее выдала вам то, что нужно. Потому что при всей продвинутости и интеллектуальности поисковой системы в мозги к вам залезть она не сможет. И если вы хотите найти сайт, посвященный технологии вышивания крестиком по молочным бидонам, то одно только слово «бидоны», введенное в строке поиска, вряд ли приведет к желаемому результату.
Можно долго рассуждать о том, каким образом следует формировать поисковые запросы, однако я предпочитаю основные рекомендации свести к следующим несложным постулатам.
1. Пишите грамотно слова поискового запроса
Вы будете смеяться, но масса людей не могут найти сайты по интересующей их тематике и на все лады костерят поисковые системы, между тем как слово для поиска просто введено с ошибкой, и поисковик протирает жесткие диски до дыр, пытаясь отыскать «ателье по срочному пошиву польтов», тогда как в ателье польты никто не шьет, а шьют пальто.
2. Используйте синонимы
Если поиск нужных результатов не принес, попробуйте переформулировать запрос, используя синонимы. Например, вместо «чоппер» напишите «крутой мотоцикл», вместо «тачка» - «автомобиль», вместо «курсовая работа» - «реферат».
3. Уточняйте запрос
Чем точнее будет построен поисковый запрос, тем больше шансов, что в первых строках результата поиска будет нужный вам ресурс. Поэтому если вы ищете уже упоминавшуюся технологию вышивания крестиком по молочным бидонам, просто и тупо напишите это в строке поиска. Если результат вас не удовлетворит, тогда уже начинайте варьировать строку.
4. Используйте ключевые слова
Если результат поиска вас не удовлетворил, включайте в поисковый запрос как можно больше уточняющих слов. Если вас интересует именно творчество Герберта фон Караяна, то в поисковой строке кроме непосредственно имени великого дирижера обязательно введите слово «творчество». Если вы ищете информацию по автомобилю Honda - так и пишете «автомобиль Honda», а не просто «автомобиль».
5. Не пишите запрос в верхнем регистре
Все запросы желательно писать в нижнем регистре, потому что поиск обычно регистрозависимый, и строку «ПЯТЬ МИЛАНСКИХ КАФЕДРАЛЬНЫХ СОБОРОВ» вам найдут только в том случае, если она где-то на сайте набрана заглавными буквами. Однако если вы ищете какие-то имена собственные - например, группу «Черный кофе», а не продукт питания черный кофе, - тогда пишите их с заглавных букв (именно с заглавных, а не все заглавными).
6. В сложных случаях используйте язык запросов
Практически все поисковые системы поддерживают так называемый язык запросов, позволяющий задавать мощнейшие комбинации различных критериев поиска. Но язык запросов - это отдельная тема, поэтому мы ее рассмотрим в следующем разделе.
Язык запросов
Предположим, вы хотите задать поисковой системе запрос следующим образом: «Найди мне все страницы, где встречается слово «селедка», при этом в любом случае отсутствует слово «картошка», не более чем через два слова от «селедки» расположено слово «водка», чтобы сайт при этом находился в зоне ru и сам документ при этом ссылался на www.exler.ru». Хороший запросик, правда? Душевный...
Между тем вы совершенно спокойно можете составить подобный запрос, используя специальные символы в строке поиска, которые и называются языком запросов.
1.Исключение/включение определенных слов - знаки «+» и «-»
Предположим, вы хотите найти сайты, на которых есть анекдоты про блондинок, но при этом вы не выносите анекдоты, в которых злые люди блондинок называют дурами. Тогда в запросе пишете следующее: «+анекдот +блондинка -дура» - это означает команду искать страницы, на которых в обязательном порядке присутствуют слова «анекдот» и «блондинка», однако отсутствует слово «дура».
2. Перечисление альтернатив - знак «|»
Вертикальная черта позволяет задать альтернативы: система ищет хотя бы одно из перечисленных слов. Например, если вы хотите найти страницы, где встречается одно из слов «папа», «мама», «дочка», «внучка», поисковый запрос будет выглядеть следующим образом: «папа | мама | дочка | внучка».
3. Поиск точного соответствия - знак «!»
Обычно поисковики ищут все словоформы введенного слова, даже если оно задано полностью: например, если в строке введено «блондинка», то первыми будут выведены страницы, где встречается именно «блондинка», но далее в результатах поиска окажутся «блондинки», «блондинкой», «блондинкою», «блондинкам» и так далее. Однако если вам нужно найти только данную конкретную форму - «блондинка», - тогда задавайте поисковую строку так: «!блондинка».
4. Поиск точной фразы - кавычки
Если вам нужна точная фраза «гипервизионный квазиконвертер», а не «гипервизионный анализатор, включающий в себя темно-зеленый квазиконвертер в пупырышках», тогда при поиске заключите фразу в кавычки: «гипервизионный квазиконвертер», и в этом случае поисковик выведет только те страницы, где эти слова располагаются строго рядом.
5. Задание расстояния между слов - «/n»
В случае когда вы хотите найти все варианты фразы «высокая [любое слово] блондинка» - можно отразить это неуемное желание в поисковом запросе с помощью знака «/», означающего «не превышало», и числа, показывающего допустимое количество слов, причем 1 - это значит отсутствие слов. Поясняю. Запрос «высокая /+2 блондинка» означает команду искать все сочетания, где между «высокая» и «блондинка» не больше 1 слова. То есть «высокая блондинка» - подойдет, «высокая длинноногая блондинка» - тоже подойдет, а «высокая длинноногая и страстная блондинка» - уже нет. Значок «+» означает, что слово (слова) должно быть справа, а «-« - слева. То есть запрос «высокая /(-2 4) блондинка» означает, что «высокая» должно находиться от «блондинка» в интервале расстояний от 2 слов слева до 4 слов справа.
6. Ограничение по адресам - команда «#url»
Если вас интересует поиск, например, только на конкретном сервере или по конкретной группе адресов либо же, наоборот, поиск, который исключает конкретные адреса или группы адресов, можно воспользоваться командой #url=»адрес или группа». Например, если вы хотите найти все страницы, на которых встречается слово «квадроид», исключив сайт www.kvadroid.ru, дайте следующую команду: «квадроид ~~#url=»www.kvadroid.ru»».
7. Поиск ссылок - команда «#link»
Иногда (особенно это бывает актуальным для владельцев собственных страничек) бывает очень интересно узнать, какие сайты ссылаются (ставят гиперссылку) на тот или иной адрес. В этом случае достаточно в строке поиска задать следующие данные: «#link=»адрес»». То есть команда «#link=«www.exler.ru»» покажет все страницы, где стоят ссылки на http://www.exler.ru/
Я перечислил только основные возможности языка запросов поисковой системы Яndex. Отмечу, что эти параметры, как правило, весьма похожи и в других поисковых системах, хотя в любом случае перед их использованием желательно посмотреть описание на конкретном поисковике.
Также следует иметь в виду, что практически каждый поисковик позволяет создавать довольно сложные запросы с помощью специальной формы под названием «расширенный поиск», для работы с которой вам уже не нужно знать, как именно работает язык запросов в данном поисковике.
Некоторые тонкости
Когда вы делаете поисковый запрос, нужно быть готовым к тому, что релевантность может сыграть с вами довольно забавную шутку. Пример. Вы хотите найти стихотворение Агнии Барто «Любочка». Но название его вы не помните, а помните только первую строчку «Синенькая юбочка, ленточка в косе». Вводите эту строку для поиска в Yandex. И что получаете? Вовсе не текст стихотворения. А что?..
На первом месте - статья из популярного женского журнала с названием «Синенькая юбочка, ленточка в косе».
На втором - издевательское стихотворение «Любочка» с «Анекдота.ру», где первая строчка - именно такая, как вы запросили, ну а дальше - полный кошмар (Любочка там умерла жуткой смертью).
На третьем - обсуждение с весьма посещаемого форума, которое называется «Синенькая юбочка, ленточка в косе» и посвящено ужасам педофилии.
Что вы на это скажете? «Ах, - скажете, - какой это глупый Яndex, раз он не может найти такую простую ссылку!» И будете совершенно неправы. Потому что Яndex как раз нашел именно то, что вы просили, причем четко учитывая релевантность. Откуда ему знать, что вы ищете именно стихотворение Барто? Мало ли у кого какие юбочки, какие ленточки и какие трещинки!..
Как в данном случае нужно было поступить? Элементарно, Ватсон! Нужно было воспользоваться советом Уточняйте запрос! Вам нужно стихотворение Агнии Барто? Вот и пишите в запросе: «Синенькая юбочка ленточка в косе Барто». И все! Первой же ссылкой Яndex выдает полный текст этого стихотворения!
Алекс Экслер
PS. от Аборигена
Итак, когда вы частично знаете, как искать, или, по крайней мере, знаете, как учиться искать, осталось рассказать, где искать. Я намеренно не буду говорить о популярности или степени релевантности результатов той или иной информационно-поисковой машины. Просто приведу список наиболее достойных, чтобы вы сами выбрали себе поисковик.
Яndex
Рамблер
Апорт
Google
Google(Russia)
Altavista
Yahoo
Search.com