ПОИСК В ИНТЕРНЕТЕ: Самоучитель
Крупник А. Поиск в Интернете: Самоучитель. 3-е изд. СПб.: Питер, 2006. 268 c.: ил.
Прочитав эту книгу, написанную живым, доступным языком, вы научитесь правильно задавать вопросы поисковым системам в Интернете, сможете свободно ориентироваться во Всемирной паутине: находить необходимую информацию, программы, новых друзей. Вы поймете, как искать в Интернете изображения, адреса и телефоны, веб-камеры, списки рассылки, электронные адреса. И самое главное, вы научитесь самостоятельно искать то, о чем нельзя прочитать ни в одной книге. Вам откроется «скрытый Интернет» гигантские хранилища информации, недоступные обычным поисковым системам. Многочисленные примеры, приведенные в книге, помогут освоить не только «технику» поиска, но и овладеть им как искусством.
Содержание | Купить
ФИЛОСОФИЯ ПОИСКА
[отрывок]
Поиск сверху
Основная проблема поиска заключается в том, что мы в точности не знаем, что ищем. Ведь точное знание появляется (да и то не всегда), когда документ уже найден и несколько раз прочитан. А когда знания неполны, наряду с нужными находится куча ненужных документов.
Особенно это касается Интернета, где число страниц увеличивается, по некоторым оценкам, на 7 миллионов ежедневно. И если бы мы располагали только традиционными для бумажных библиотек средствами поиска, такими как алфавитные и тематические каталоги, Интернет был бы кладбищем книг, лежащим рядом и недоступным никому сокровищем, Вавилонской библиотекой, описанной Борхесом задолго до появления Интернета и компьютерных сетей.
Но, как мы уже знаем, в Интернете действуют поисковые системы неутомимые библиотекари, которые переписывают в свои базы данных тексты всех встреченных страниц и показывают адреса тех страниц, где встретились заданные слова и фразы.
Эта фантастическая возможность, однако, только усугубляет проблему, когда мы в точности не знаем, какие слова и фразы искать. Если, например, искать слово «art» в англоязычных документах, надеясь получить общую информацию об искусстве, то стандартный индекс вроде Google выдаст сотни миллионов адресов, а ведь нам достаточно нескольких десятков, больше мы прочесть не в состоянии. А еще лучше всего один документ, но хороший.
Но как найти этот документ среди миллионов? Над этим вопросом бьются уже много лет создатели поисковых систем. Попробуем же перечислить и кратко описать все известные подходы.
Сортировка
Поисковая система пытается расставить документы в порядке убывания «важности». Предполагается, что ответ на запрос будет найдет в числе первых нескольких десятков самых «подходящих» документов. Этот способ исторически самый первый и основан на анализе текста документа. «Хорошим» считается документ, в котором ключевые слова встречаются в заголовке, ближе к началу, в тексте, написанном прописными буквами, и т. д. Способы сортировки большая тайна, известная узкому кругу программистов, поддерживающих и совершенствующих поисковую систему. Слабое место этого подхода в том, что появляющиеся первыми страницы можно проанализировать, понять принципы сортировки и разработать страницу, которая алгоритмом сортировки будет помещена в число первых двух-трех десятков. Поэтому между программистами и владельцами сайтов завязывается борьба, идущая с переменным успехом: побеждает то одна сторона, то другая. В этой борьбе не будет, похоже, победителей, а скорее всего, не будет и самой борьбы, потому что древнейшие способы сортировки заменяются сейчас новыми, гораздо более совершенными.
Оценка по количеству ссылок
Один из новых подходов к оценке «важности» сайта использует поисковая машина Google (см. раздел «PageRank и Google» в главе 2). Этот крупнейший индекс оценивает важность сайта по количеству ссылок, которые делают на него другие сайты. Причем ссылки имеют разный вес. Ссылки с хорошего сайта ценятся выше, с неизвестного ниже. В целом этот подход оправдывает ожидания, и качество отбора сайтов с помощью Google считается очень высоким. Но, как и любой другой, этот подход не лишен недостатков. Понятно, что Google оценит очень низко новый сайт, потому что на него еще нет ссылок. Кроме того, желание оказаться на первых местах в индексе Google вынуждает создателей страницы размещать ссылки на нее везде, где только возможно. Есть специальные сайты, которые содержат только ссылки на другие сайты, безбрежные поля ссылок, созданных для улучшения места в индексе Google. Правда, вряд ли они получат высокую оценку, и вклад их в рейтинг сайта будет невелик. В целом этот подход очень удачен, и основные поисковые системы сейчас тоже используют оценку «важности» сайта по количеству и качеству ссылок на него.
Голосование редакторов
Следующий способ справиться с огромным числом выданных поисковой системой адресов почти так же стар, как и мировая паутина (WWW). Если результатов поиска слишком много, можно искать не во всем Интернете, а в небольшой его части. Число найденных документов при этом уменьшится, и в них легче будет разобраться. Но как обозначить ту часть Интернета, в которой пойдет поиск? Здесь тоже можно выделить несколько подходов. Самый прямолинейный отобрать сайты вручную, для чего придется нанять специальных редакторов, которые будут их просматривать и решать, включать сайт в число избранных или нет (редакторы просматривают только те адреса, которые предложены для включения в каталог хозяевами сайтов).
Если сайт заслуживает внимания, редактору придется отнести его к какой-то определенной теме. Постепенно кропотливым трудом редакторов будет создан каталог сайтов, в котором все они разбиты по темам, а чтобы в списке сайтов легче было ориентироваться, ему следует придать древовидную структуру: отнести каждый сайт к одному (а может, нескольким) из главных разделов, к определенному подразделу и т. д. Поиск в таком каталоге будет напоминать выбор: на каждом этапе нужно принимать решение, в какой подраздел перейти, а если выбор неудачен, вернуться и попробовать другую дорожку.
По такому принципу построены крупнейшие тематические каталоги: Yahoo!, LookSmart, Open Directory. Все они огромные сайты, в каждом миллионы адресов, каждый позволяет не только «гулять» по разделам каталога, но и искать слова и фразы в описаниях сайтов. До определенного момента каталоги прекрасно решали задачу отбора качественных ресурсов. Но теперь темпы роста Интернета превышают возможности даже 70 000 редакторов Open Directory. Отсюда предложения Yahoo! платить деньги (порядка $ 300) за помещение сайта в каталог. Конечно, редакторы не пропустят откровенно плохие сайты, даже если они размещаются за деньги. Но все равно, большая часть некоммерческих сайтов при таком подходе не попадет в каталог.
Каталогостроение
Если нельзя рассмотреть все предложенные для включения в каталог сайты, разумен другой подход: вообще не рассматривать сторонние предложения, а отбирать в каталог только «самые лучшие» сайты. По такому принципу построен каталог Lii.org (см. раздел «Lii.org» в главе 2). Отбором сайтов в каталог занимаются квалифицированные библиотекари, и несмотря на крошечный размер (порядка 16 000 сайтов), а быть может, благодаря ему каталог пользуется большим авторитетом среди тех, кто занимается поиском профессионально.
Другой подход используется в метапоисковой системе SurfWax (см. раздел «SurfWax» в главе 8), где слова и фразы порождают бесконечно ветвящуюся систему понятий (своеобразных разделов каталога), подготовленную экспертами на основе автоматического анализа веб-страниц. SurfWax различает общие и частные понятия, и это может быть крайне полезно для первоначального знакомства с предметом. Кроме того, готовые сочетания слов и фразы, выдаваемые SurfWax, очень полезны иностранцам, плохо владеющим английским языком. Еще дальше идет метапоисковая система Vivisimo (см. раздел «Bravissimo, Vivisimo!» в главе 8), создающая тематические каталоги «на лету». Vivisimo не использует заранее подготовленные экспертами имена разделов каталога. Вместо этого система классифицирует описания найденных сайтов, создает древовидную структуру разделов каталога, куда найденные сайты и помещаются. Как только каталог создан, с ним можно обращаться как с Open Directory или Lii.org: путешествовать по его разделам, искать слова в описаниях сайтов и т. д.
Соответствие запроса и базы данных
То, что делает Vivisimo, можно назвать сужением области поиска, то есть уменьшением количества обрабатываемых документов. Эта задача возникает очень часто, особенно в начальной стадии поиска, когда о предмете практически ничего не известно и приходится использовать какое-то одно слово. В этом случае нужно привести в соответствие запрос и объем базы данных. Детальные запросы нужно делать к большой базе данных. Если размер базы недостаточно велик, поиск закончится ничем.
Наоборот, общий запрос хорош только к базе данных небольшого размера, если она велика, то результаты просто погребут под собой ищущего. В сущности, все изложенное выше есть описание методов, позволяющих преодолеть несоответствие между огромным размером базы данных поисковой системы и недостаточно детальным запросом.
Самый очевидный способ сгладить это несоответствие уменьшить размер базы данных. Этой цели служит, например, префикс intitle в Google. Поиск исключительно в заголовках документов не только сокращает в сотни раз размер базы данных, он в значительной мере повышает ее качество и устраняет «шумы», ведь заголовки создаются для того, чтобы в немногих словах отразить суть документа. Но поиск в заголовках должен идти иначе, чем поиск во всей базе данных. Бессмысленно искать там длинные цитаты, редкие или специальные слова. Гораздо больше шансов найти в заголовке такие слова, как «art», «search», «africa». Выбрав базу данных или какое-то ее подмножество, необходимо экспериментально подобрать запрос так, чтобы его специфичность соответствовала размеру базы данных. Начать следует с самых общих слов и постепенно усложнять запрос, пока в числе первых не покажутся нужные документы. Каждую базу данных и любое ее подмножество необходимо чувствовать, то есть на основании опыта понимать, какие вопросы можно задавать, а какие нет.
Другой разумный способ уменьшить размер базы данных выбрать специализированную поисковую систему, которая ищет только определенного рода документы, например научные отчеты по компьютерным вычислениям. Существует огромное количество специализированных баз данных по медицине, спорту, истории, науке и т. д. Для поиска таких баз данных есть специальные поисковые системы, например превосходный сайт CompletePlanet, описанный в разделе «Скрытый Интернет» главы 8. Если пользоваться специализированной базой данных, то поиск становится двухступенчатым: сначала ищется подходящая база данных, затем в ней подходящие документы. На самом деле поиск идет в несколько этапов и в нескольких направлениях. Он похож на поиск рыбы в океане. Никто не знает, есть ли она там и сколько ее. Корабль бороздит поверхность в разных направлениях, и то, что он поймает, зависит от размера и величины ячеек его сети. В этом разделе описан поиск сверху, то есть поиск с постепенным накоплением знаний. В следующем разделе будет рассказано о том, какую выгоду можно извлечь из этих знаний и как ими распорядиться.
Поиск снизу
Поиск снизу начинается с точного названия файла, с ряда ключевых слов или фраз, которые однозначно определяют документ или небольшое число документов. В любом случае запрос должен быть достаточно конкретным, а количество результатов небольшим. При этом не обязательно искать информацию в каких-то огромных индексах, поиск снизу возможен и в тематических каталогах. Задав какие-то ключевые слова и найдя нужный сайт в разделе каталога, полезно посмотреть сам раздел, ведь в нем, возможно, окажутся похожие сайты, быть может, гораздо лучше найденного.
Предполагается, что при поиске снизу запрос должен быть весьма конкретен, но при этом его форма зависит от поисковой системы. Конкретность запроса к тематическому каталогу будет одной, к метапоисковой системе другой. В любом случае справедлив закон соответствия специфичности запроса и мощности базы данных.
В этой книге есть много примеров поиска снизу. В разделе «Гамлет и Google» главы 3 рассказано о том, как по цитате из одной пьесы найти другую пьесу. Этот пример показывает, что поиск чего-то конкретного может быть использован для поиска каких-то общих сведений. Так, поиск драмы Шекспира кончается тем, что обнаруживается целый сайт, посвященный Шекспиру, содержащий разнообразные сведения о нем, а не только тексты его произведений. Возможно, поиск этого сайта в каком-нибудь тематическом каталоге привел бы к открытию целого ряда сайтов, посвященных этой теме.
Действия при поиске снизу противоположны действиям при поиске сверху. При поиске сверху в тематическом каталоге все начинается с наиболее общего раздела, и на каждом шаге ищущий выбирает нужный подраздел до тех пор, пока, не отыщутся нужные сайты или не выяснится, что поиск зашел в тупик. Тогда придется вернуться назад, на несколько уровней вверх. Наоборот, при поиске снизу ищется конкретный сайт и, если он найден, изучаются сайты, оказавшиеся рядом, в том же разделе, а также соседние разделы каталога, чтобы постепенно расширять круг знаний. Поиск снизу это движение вверх.
Как вариант поиска снизу можно рассматривать поиск найденного. Бывает, например, так, что найден некий архивный файл, содержащий дистрибутив программы, которая сама по себе интереса не представляет. Но знание имени файла наводит на мысль поискать его с помощью системы Filesearch.ru (см. раздел «Поиск файлов» в главе 5) и посмотреть папки, в которых будет найден этот файл. И чем реже встречается этот файл, тем выше вероятность, что он окажется среди множества похожих файлов и там отыщется нужная программа. Если, к примеру, найден клиент электронной почты Becky (он встречается довольно редко), то независимо от того, хорош он или плох, стоит поискать его на других FTP-серверах. При этом велики шансы, что в папках с программой Becky есть десятки других почтовых программ. Кроме того, часто бывает, что в папке оказывается не только нужная программа, но и генератор ключа для ее регистрации. Найдя однажды текст по электронной коммерции, я обнаружил в той же папке две большие книги на ту же тему.
Пример с почтовым клиентом Becky наводит на мысль об удачной «затравке» наборе ключевых слов, который следует использовать для поиска снизу. Иногда «затравку» можно создать, просто вообразив, как должен выглядеть нужный документ. Бывает, что в конференции Usenet развертывается дискуссия, понять смысл которой невозможно, но если взять из сообщения некоторые термины и использовать их в качестве набора ключевых слов, можно найти документ, в котором объясняется, что эти термины означают. Если найдена хорошая статья, стоит попробовать искать ее название в Интернете, и тогда, возможно, будет найдена целая библиография по данной теме, а если повезет и тексты других статей.
Хороший пример «затравок» названия поисковых систем. Предположим, нам известны имена двух систем поиска карт MapBlast и MapQuest. Тогда следующий запрос к Google наверняка выведет нас на обзоры сайтов, посвященных географическим картам: mapblast mapquest.
Если известны названия трех сайтов, то можно продолжить поиск, составляя запрос из трех названий или указывая два названия из трех. Для запроса полезно выбирать самое редкое название. Если, скажем, нас интересует большой список поисковых систем, то вряд ли подойдут такие слова, как «Google» и «Yahoo». Тут нужны редкие названия, например «Exalead».
Слова для запроса добываются поиском сверху или появляются случайно. Например, в статье, посвященной системам тайной переписки, можно найти названия двух сайтов: www.ZipLip.com и www.hushmail.com. Чтобы получить дополнительную информацию и составить собственное мнение о предмете, достаточно такого запроса к индексу Google: ziplip hushmail.
В ответ Google покажет не только адреса других обзоров по данной теме, но и координаты страниц, посвященных более широкой теме, например компьютерной безопасности. Может случиться и так, что найденная страница окажется частью большого документа (быть может, пособия по криптографии). Прелесть поиска снизу заключается в том, что обычно удается найти гораздо больше, чем ожидалось.
В качестве «затравки» можно использовать и характерные фразы, найденные на сайтах. Особенно это помогает при поиске текстов на английском языке, поскольку найденные фразы, скорее всего, грамматически правильны, поэтому их поиск может привести к открытию новых интересных сайтов. Помочь в этом может и раздел Refine системы Теоmа или фокусировка слов, реализованная в метапоисковой системе SurfWax.
В составлении конкретных запросов нельзя слишком усердствовать. Если запрос оказался слишком конкретным, нужно проверить, нет ли орфографических ошибок в словах, и если нет, попробовать метапоиск, например, систему IxQuick или Profusion. Орфографические ошибки, как правило, мешают успешному поиску, но они могут и помогать, потому что неправильно написанное слово, скорее всего, отыщется в большом документе, где вероятность ошибки выше.
Напоследок осталось сказать, что поиск снизу и поиск сверху всего лишь абстрактные составляющие того, что можно назвать «искусством поиска». Как это ни печально, но поиск в Интернете невозможно свести к набору каких-то приемов и к знанию основных поисковых машин. В поиске, как и во всякой творческой деятельности, есть догадки и озарения, есть в нем и неудачи. В этой книге очень мало говорилось о поиске как об искусстве, потому что, говоря так, мы стремимся избежать сложной задачи обучения этому делу. Между тем даже самому одаренному человеку необходимо знание приемов поиска, чтобы овладеть им как искусством.