Поиск информации с помощью поискового сервера. Службы поиска информации, важнейшие русскоязычные и мировые источники информации

Классификация информации (что можно искать в Internet).

С точки зрения потребителя вся информация в Internet может быть разделена на телекоммуникационные информационные рынки (рис. 1.).


Поисковые системы (классификация и сферы использования).

Поиск необходимых сведений в большом объеме достаточно разнообразной информации - задача, которую человечество решает уже многие столетия. По мере роста объема информационных ресурсов были разработаны достаточно совершенные поисковые средства и приемы, позволяющие найти необходимый документ. В качестве основного инструмента для поиска информации в библиотеках используются каталоги (алфавитные, систематические и предметные). Однако каждый инструмент имеет свои недостатки. При больших объемах информации (которые характерны для Internet) поиск информации становится очень сложной процедурой. Для того, чтобы найти нужные сведения в Inernet необходимо иметь специальные знания и навыки. Специалист, обладающий такими знаниями и навыками и осуществляющий поиск информации по поступившим заказам называется информационным брокером. Он знает, как устроены классификаторы, как их интерпретируют систематизаторы, какие существуют инструменты для поиска информации в Inernet , технологические приемы и методики поиска, особенности различных поисковых машин и т.д. В беседе с заказчиком он изучает его информационную потребность и превращает ее в поисковое предписание. В нашей стране специалисты такого профиля - пока редкость, хотя потребность в них уже ощущается.

Мари - профессор документалиста в колледже. В этом году они работают над работой немецкого живописца Отто Дикса. Когда ученики обращаются к Интернету, чтобы завершить информацию, над которой они работают, у них есть рабочие листы в их распоряжении, чтобы отслеживать различные этапы и отметить выбранные источники. Одна из инструкций - варьировать ключевые слова, инструменты и ресурсы, чтобы учащиеся не уменьшали свой поиск до одной веб-страницы. найти порталы в истории искусств или места распространения, написанные учителями.

Итеративный, потому что часто необходимо повторять различные этапы исследования. Кумулятивный, поскольку эффективно отслеживать уже выполненную работу. В случае затруднений с поиском информации можно также использовать расширенный поиск, предоставляемый поисковыми системами: он позволяет правильно сформулировать уравнения поиска и ограничить поиск языком, файловым форматом и т.д.

В Internet доступны информационно-поисковые системы (ИПС) трех типов: классификационные, словарные и предметные.

Классификационные ИПС используют иерархическую организацию информации, которая описывается с помощью классификатора. Разделы классификатора называются рубриками. В библиотечном деле для этой цели используется, например, систематический каталог.

Столкнувшись с неизвестным предметом, первый этап исследования - добиться лучшего понимания темы путем запуска запросов в разных машинах. Целью такого метода является получение ссылочных сайтов, специализирующихся на теме, порталах, базы данных с соответствующей и надежной информацией.

После выбора некоторых справочных ресурсов вы можете просматривать веб-страницы, следуя гипертекстовым ссылкам этих сайтов. Поскольку Интернет является пространством для самостоятельной публикации, разумнее выбирать официальные сайты, а не личные, чтобы собирать информацию. Однако, если персональный сайт окажется релевантным, необходимо будет подумать об информации и сравнить информацию найденные на этом сайте к информации, найденной в другом месте.

Классификатор разрабатывается и совершенствуется коллективом авторов. Затем его использует другой коллектив специалистов, называемых систематизаторами, которые, зная классификатор, читают документы и приписывают им классификационные индексы, указывающие, каким разделам классификатора эти документы соответствуют. В качестве примера классификационной ИПС в Internet можно назвать Yahoo ! , в которой одновременно работает более 100 систематизаторов, Excite , Look Smart , Yellow Web , “Созвездие Интернет”, “Ау”.

Наконец, не забывайте, что Интернет - отличный инструмент для поиска информации за пределами Интернета, и особенно в библиотеках. Консультация каталогов, поиск библиографий с помощью двигателей, допрос информационных служб откроют двери медиа-библиотек.

Серрес, Александр Малиндр, Мари-Лор. . Обеспокоенная публика: учитель документалиста. Тип обучения: курс - презентация. Каталог сайтов, сгруппированных по шести темам: образование и обучение, наука и техника, искусство и культура, гуманитарные и социальные науки, документальные исследования, общество и отдых.

Классификационные ИПС обладают рядом специфических недостатков. Разработка классификатора связана с оценкой относительной важности различных областей человеческой деятельности. Любая оценка является социальным действием - она связана с обществом, культурой, социальной группой, к которой принадлежит производящий оценку человек. Поэтому классификаторы, озданные разными коллективами в разных странах сильно различаются. Кроме того, у систематизаторов возникают сложности с интерпретацией материалов, написанных на иностранных языках (не только исходных документов, но и классификаторов). Поскольку абсолютно строгой классификации не удается сделать никому, всегда существуют документы, которые можно отнести к нескольким разделам классификатора.

Доступ к ресурсам осуществляется либо с помощью доступа к поисковой системе, который будет осуществлять поиск по всему объему описанных ресурсов или путем доступа к тематическим выборам, связанным с новостями образования. Поисковая система, посвященная французским институциональным образовательным сайтам. Это позволяет находить все образовательные, документальные и административные ресурсы, присутствующие на всех этих сайтах.

Это означает, что любой пользователь имеет право воспроизводить для хранения на одном компьютере с целью представления на одном экране и для воспроизведения в одной копии для резервного копирования или печатной копии. Каждый пользователь может делать репродукции на бумаге, поскольку они попадают в область частного копирования для не коллективного использования. Эти права предоставляются в контексте педагогического использования учебными организациями. В контексте этих разрешенных видов использования пользователи обязуются уважать моральные права автора, такие как право на уважение к работе и право на авторство произведения.

Систематизаторы в сложных случаях (когда неясно, к какому из разделов должен быть отнесен документ) применяют два приема: отсылка и ссылка. Отсылка (в Yahoo ! она обозначается знаком @) помещается в тех разделах классификатора, в которые не попал данный документ - в ней указывается, к какой рубрике он отнесен систематизатором. Ссылка используется в тех случаях, когда аналогичная информация может находиться в других разделах классификатора.

Это нарушение может одновременно нарушать авторское право, права производителя базы данных или оба правовых режима. Категорически запрещено, даже если пользователь является частью образовательного сообщества, предоставлять доступ общественности элементов сайта путем продажи, обмена или аренды. Нарушение этих обязательных положений подвергает правонарушителя гражданским и уголовным наказаниям, предусмотренным законом. Используемая информация должна использоваться только в личных или образовательных целях; любое использование в коммерческих или рекламных целях исключается.

Словарные ИПС используют базу данных, построенную из слов, встречающихся в документах Internet а. В такой базе при каждом слове хранится список документов, из которых оно взято. Поскольку все морфологические единицы в словаре упорядочены, поиск нужного слова может выполняться достаточно быстро, без последовательного просмотра.

Без печенья и специального юниорского двигателя

Могут быть реализованы только репродукции и использование товарных знаков и логотипов на сайте для исключительных целей образовательной информации. За последние три года служба не перестала развиваться в ходе своих обновлений и запустила несколько многообещающих нововведений. Удобный графический интерфейс и хорошо продуманная эргономика сайта за пределами экрана с несколькими источниками делают просмотр действительно приятным.

Создав бесплатную учетную запись, вы также можете персонализировать домашнюю страницу и сохранить свои любимые сайты в Раздел «Карнеты», который разделяют пользователи, постепенно развивается и является новым источником интересной информации. Их отличает тот факт, что первый включает в себя на главной странице «тренды дня» с предложениями для педагогических исследований для детей, а второй позволяет учителям сообщать о несоответствующем содержании, таком как классическая версия, поисковая система гарантирует анонимность и не включает в себя какую-либо систему рекламы или отслеживания.

По одному слову найти требуемую информацию довольно сложно. Поэтому, каждая словарная ИПС имеет свой язык запросов, позволяющий комбинировать слова, наиболее полно характеризующие искомую информацию.

К словарным ИПС Internet а относятся такие, как Alta Vista , Rambler , Я ndex , Апорт.

Словарные ИПС способны выдавать списки документов, содержащие миллионы ссылок. Даже простой просмотр таких списков затруднителен. Поэтому многие словарные ИПС предоставляют возможность ранжирования результатов поиска - наиболее важные документы помещаются в начало списка. В языке запросов таких ИПС предусмотрены специальные средства, например, в режиме сложного поиска в Alta Vista можно указать перечень терминов, которые повышают ранг найденного документа (что для этой ИПС особенно актуально, так как она показывает только первые 200 найденных документов). Rambler и Я ndex позволяют указать вес каждого из терминов, что позволяет довольно точно настраивать порядок следования найденных документов.

Система фильтра, как найти на программы родительского контроля от нежелательного контента с участием насилия, порнография, наркотики, расизм и т.д. Для сортировки контента механизм основан, в частности, на черном списке, составленном Тулузским университетом 1, в том числе на неприемлемых сайтах и ​​ключевых словах, которые должны быть изгнаны. Параллельно белый список освещает список образовательных и рекреационных сайтов регулярно обновленный и рекомендованный Министерством образования.

Несмотря на молодость службы, результаты довольно убедительные. Даже если нулевого риска не существует, и вы всегда можете отказаться от этого типа обслуживания в какой-то момент, он уже предлагает очень хорошую защиту. Поисковая система блокирует приложения, которые считаются неприемлемыми для детей, отображая эту страницу.

Прогнозирования являются стержнем любой торговой системы, вот почему компетентно воспроизведенные могут сделать Тебя архи денежным.

В предметных ИПС с поисковым образом связаны списки ресурсов Сети, содержащих нужную информацию и ссылки на близкие по тематике сайты. В таких ИПС создаются кольцевые ссылочные структуры. Так, сервер содержит несколько десятков тысяч тематических колец (средний размер кольца - около 12 серверов, но есть и кольца-гиганты, в состав которых входят тысячи серверов). Пока кольца были небольшими, поиск информации трудностей не представлял. Для облегчения поиска на указанном сервере используются свои классификационная и словарная ИПС, помогающие найти необходимую информацию.

Каталог - это инструмент поиска, в котором перечислены несколько сайтов через описательные листы, которые обычно включают заголовок, адрес и краткое описание длины от 15 до 25 слов максимум, Каждый сайт указан в одной или нескольких категориях - он также называется категорией. Эти инструменты можно рассматривать как желтые страницы Интернета. Когда ключевое слово вводится в предлагаемой форме, каталог ищет вхождения этого термина в его описаниях сайтов, а не в содержании страниц данного сайта. Это самая заметная разница с поисковыми системами.

С помощью информационно-поисковых систем можно искать вполне определенные информационные объекты, список которых приведен на рис. 2.

Описание поисковых систем. Поисковая система Alta Vista .

У каждой поисковой системы существует свой язык запросов, который определяет правила, в соответствии с которыми формулируются запросы на поиск информации.

Но есть много других. Поисковая система, что это такое? Поисковая система работает в системе, радикально отличной от системы в каталоге. В большинстве случаев индексы глобальных движков содержат несколько сотен миллионов веб-страниц. Программный робот возвращается на страницы, которые он предварительно проиндексировал, чтобы сохранить более новую версию. Затем говорится, что она «обновляет свою базу данных». Когда пользователь вводит ключевое слово в предлагаемой форме, движок будет искать вхождения в своем индексе, то есть в текстовом содержимом веб-страниц, сохраненных заранее.

В классификационных и словарных ИПС запрос составляется на основе ключевых слов, которые являются наиболее яркой характеристикой искомой информации (по сути, без этих слов данная информация обойтись не может). Лучше, если эти ключевые слова имеют специфический смысл, присущий только искомому информационному материалу, отличающему данный материал от всех остальных.

После определения «партии» страниц, содержащих запрошенный термин, двигатель оценивает страницы в порядке их соответствия, в соответствии с конкретным порядком и алгоритмом. Поисковая система проводит исследования на веб-страницах, в то время как каталог предложит вам веб-сайты. В этом и заключается разница, которая объясняет, почему абсолютно невозможно сравнивать результаты, представленные двумя типами инструментов.

На уровне франкофонии Вуала и Эксаалед являются одними из самых эффективных. Булевский оператор, что это значит? Когда желательно искать по ключевым словам, в каталоге или в поисковой системе, очень часто и полезно сочетать последовательность слов с так называемыми булевыми операторами. Если документ содержит только одно из двух желаемых слов, это не будет учтено в конечном результате. Если страница содержит слово «волокно», но не слово «оптика», оно не будет приниматься во внимание. Это объединение двух множеств.

Поисковая система AltaVista относится к разряду словарных ИПС и является одной из самых информационно насыщенных. Обратиться к ней можно по адресам:

2) Поисковый образ может состоять из одного или нескольких ключевых слов.

3) В зависимости от способа соединения ключевых слов в поисковом запросе различают простые и сложные запросы.

Если страница содержит только одно из двух слов, она будет учитываться и отображаться. Точно так же будет сообщена страница, содержащая два введенных условия. В этом случае движок будет искать страницы, содержащие слово «волокно», но не будет включать те, которые содержат слово «оптика». Это исключение. Тем не менее, использование скобок в настоящее время не очень распространено в поисковых системах. Тронктура Некоторые двигатели предлагают возможность использования так называемых подстановочных знаков или шутников. укорочения слов, то есть захватить только часть желаемого термина.

4) Сложный запрос отличается от простого тем, что в нем можно указать дату создания искомого документа (чтобы выделить материалы, имеющие последнее обновление после указанной даты), специальную логику поиска (определяемую использованием операторов AND , OR , NOT , NEAR), выбрать один из трех вариантов упорядочивания результатов поиска при их выводе: “только в качестве итога”, “компактная форма”, и “стандартная форма” (последняя используется по умолчанию), и использовать круглые скобки для выделения логически самостоятельных частей запроса.

Усечение часто может выполняться только в конце слова. Однако некоторые службы принимают усечение внутри него. Большинство каталогов и поисковых систем предлагают ссылку под названием «Справка», «Советы» или «Справка» на своей домашней странице. Следуйте за ней, и она перенесет вас на страницу с синтаксисом, специфичным для каждого инструмента. Смотрите: движок, описанный на этом сайте.

У всех инструментов одинаковый синтаксис запросов? Но расширенные синтаксисы отличаются от одного инструмента к другому, когда они существуют, что очень редко. Раздел «Синтаксис ввода» для каждого движка, описанного на этом сайте. Нужно ли знать синтаксис запроса этих инструментов?

5) Ключевые слова могут набираться на разных регистрах клавиатуры - в зависимости от этого поисковая машина будет по- разному проводить поиск.

Наличие в ключевом слове заглавной буквы заставит поисковую машину при простом поиске искать слова именно с таким написанием, как в запросе. Если же заглавные буквы не использовались, то поисковая машина учитывает любые варианты написания этих слов. Например, если поисковое предписание состоит из одного слова Computer , будут найдены информационные материалы, содержащие это слово именно в таком начертании. Если же это слово не будет содержать заглавных букв, то при поиске будут учитываться слова в таких начертаниях, как computer , COMPUTER , COMPuter , и др. Необходимо учитывать, что при использовании поискового образа, состоящего только из одного слова computer , AltaVista предоставляет около 2000 ссылок. Просмотреть такое количество ссылок практически невозможно, а значит, информационный поиск нельзя считать эффективным (при правильно составленном запросе необходимая информация находится в числе первых двух десятков ссылок).

Да, если вы хотите быть эффективным в своем поиске, особенно желательно знать, по крайней мере, как использовать основных операторов вашего любимого инструмента поиска, что сэкономит вам много времени. Для слишком неопределенного запроса эти инструменты быстро дают несколько десятков тысяч ответов, а затем использование операторов необходимо для ограничения поиска.

Знание основных функций уже поможет вам очень рано. Сколько стоит проконсультироваться с этими инструментами? Использование всех веб-каталогов и поисковых систем является бесплатным для пользователя. Экономическая схема этих инструментов чаще всего основана на показе рекламы на всех страницах, поэтому рекламодатели платят напрямую за сайт.

6) В том случае, если неизвестно правильное написание слова, или интерес представляет множество однокоренных слов, используется оператор неопределенности - “*” (звездочка). Поставив этот символ после любой последовательности букв (не менее трех), влияние которых необходимо учесть при поиске, можно произвести широкий поиск, при котором ключевое слово будет модифицироваться: поиск будет весьтись как для жестко указанной до звездочки совокупности букв, так и для слов, содержащих любые буквы (числом до 5) вместо звездочки. Например, если указать ключевое слово comp * , то при поиске будут учитываться, как ключевые - computer , computers , compute , и др.

Какое время обновить индекс движка? Время обновления двигателя - это время, проведенное между двумя проходами его робота, чтобы сохранить более новую версию страницы. Для большинства двигателей это составляет от двух до четырех недель, но может временно быть намного более «эластичным». Метапоиск не лучше, чем двигатель?

Мета-двигатели - это инструменты, которые по одному и тому же запросу одновременно допрашивают несколько двигателей, репатриируют результаты, синтезируют их и предлагают краткое изложение полученных ответов. Тем не менее, недопустимо использовать расширенные функции поиска этих сервисов, просто потому, что они сильно различаются в зависимости от запрашиваемых инструментов. Ясно, что реализация этих функций в Мета-инженеры синтезируют результаты из нескольких разных движков, каждый из которых оценивает свои результаты по-разному, не используя одинаковые критерии релевантности.

7) Для соединения нескольких ключевых слов могут использоваться операторы “пробел”, “кавычки”, логические операторы “+”, “-”, AND , OR , NOT , NEAR .

8) Оператор “пробел” соединяет слова в поисковом предписании таким образом, что для поиска каждое из этих слов используется отдельно. При этом, порядок слов в запросе не имеет значения. В процессе поиска учитывается только расстояние каждого слова от начала документа и частота его использования в документе.

9) Оператор “кавычки” соединяет слова так, что они образуют фразу, в которой все указанные в предписании слова в документе стоят рядом друг с другом и в той же последовательности, как это указано в предписании. Поэтому, если задать поисковое предписание в виде слов “ personal computer ” и в виде “ computer personal ”, то результаты поиска будут разными.

10) Оператор “+”, соединяющий слова, сообщает поисковой машине, что в документе необходимо искать основное слово (первое), но документ надо показывать в результате поиска только если далее в тексте встречаются остальные слова из поискового предписания. Оператор ставится непосредственно перед каждым второстепенным словом. Например, по поисковому образу:

computer + personal + digital будет вестись поиск основного слова computer , но текст будет считаться актуальным только если в нем встречаются так же слова personal и digital .

11) Оператор “-”, стоящий перед словом, обозначает, что основное слово должно использоваться в тексте без второстепенного. Например, поисковое предписание computer - personal сообщает поисковой машине, что надо искать основное слово computer , но в тексте не должно встречаться слово personal (т.е. интересуют материалы о компьютерах, но не персональных).

12) Операторы AND , OR , NOT , NEAR используются в сложных запросах.

13) Оператор AND (вместо него можно использовать символ &) определяет, что соединяемые им слова должны встречаться вместе (т.е. в простых запросах он эквивалентен знаку “+”).

14) Оператор OR (вместо него можно использовать знак “|”) определяет, что соединяемые им слова независимы друг от друга (в простых запросах он эквивалентен пробелу).

15) Оператор NOT обозначает отрицание (в простых запросах он эквивалентен знаку “-”).

16) Оператор NEAR (вместо него можно использовать символ “~”) определяет, что в искомом тексте указанное им ключевое слово отстоит от основного не далее, чем на 10 слов (например, в поисковом предписании:

провайдер* NEAR “очень дешево” предусматривается, что в искомом тексте слово “провайдер” и словосочетание “очень дешево” находятся не в разных концах текста, а рядом друг с другом - между ними может находиться не более 10 слов).

17) Для ограничения поиска используются специальные команды (тэги): anchor , applet , title , url , host , link , image , from , subject .

18) Команда anchor позволяет найти в Сети слово, содержащееся в “теле” ссылки. Для этого после команды anchor через двоеточие указывается искомое слово. Например, поисковый образ содержит:

anchor: home По этому запросу будет найдено все множество страниц, содержащих внутри ссылок слово home , в том числе - и в такой ссылке: “ If you would like go home , press here ”.

19) Команда applet позволяет найти заданный названием модуль Java . Например, если модуль Java называется word , то найти его можно, записав поисковый образ: applet: word .

20) Команда title используется в том случае, если искомое слово находится в заголовке текста. Например, по запросу вида: title: links будут найдены документы, содержащие слово links в заглавии, в том числе текст с заглавием “ Cool Links ”.

21) Команда url предписывает искать url -адрес, содержащий заданное слово. Например, если неизвестно, в каком корневом домене находится host -компьютер МЭСИ, можно задать поисковое предписание: url: mesi . Среди множества адресов с таким словом будет и адрес.

22) Команда host позволяет узнать, какие Web -сайты есть на заданном host -компьютере. Например, для того, чтобы узнать, какие сайты есть на хосте необходимо набрать запрос: host: intel . ru . Если же в запросе указать только часть имени, то в результате поиска будут найдены сайты, имеющие другие адреса, но содержащие заданную часть имени.

Используя эту команду, можно вести поиск в заданной стране. Например, по запросу host:*. ru + kreml будет найдена информация о Московском, Рязанском и других Кремлях. При этом нужно помнить, что поиск ведется только для сайтов, зарегистрированных в поисковой системе AltaVista , другие сайты ей недоступны.

23) Команда link позволяет найти адреса страниц (сайтов), содержащих ссылку на конкретную (заданную в поисковом образе) Web - страницу. Например, для того, чтобы узнать, кто ссылается на сайт необходимо задать предписание: link: . Результатом будет список страниц, на которых содержатся ссылки на сайт mesi . ru .

24) Команда image позволяет найти иллюстрацию в Internet . Для этого надо знать название файла, в котором она хранится. Формат команды тот же.

25) Команда from позволяет искать в телеконференциях Usenet почтовое сообщение, отправленное конкретным человеком, имя которого указывается после двоеточия в команде. Например: from: Иван +Федоров (или Ivan +Fedorov).

26) Команда subject позволяет искать сообщения в телеконференциях Usenet на конкретную, заданную в поисковом предписании тему.

Поисковая система AltaVista может работать (и вести поиск) на разных языках, в том числе и на русском.

Описанные принципы управления поисковой системой во многом аналогичны используемым и в других поисковых системах.

Поисковая система Yandex .

В 1997г. по адресу: открылась новая российская поисковая машина Yandex (или Я ndex). По набору своих поисковых возможностей она не уступает самым сложным поисковым машинам Запада, специально рассчитана на русскоязычные запросы и учитывает особенности русской лексики, предлагает несколько больше возможностей для интеллектуального поиска.

Аналогично AltaVista , Yandex различает заглавные и прописные буквы. Если ключевое слово написано прописными буквами, то поисковая машина не различает прописные и заглавные буквы, т.е при задании ключевого слова computer в поиске будут учитываться и Computer , и COMPUTER , и др. Тогда, как если в поисковом образе будет содержаться хотя бы одна заглавная буква, при поиске будут приниматься во внимание только слова, имеющие данное начертание.

В Yandex нет необходимости использовать оператор неопределенности (аналогичный звездочке в AltaVista), так как при задании ключевого слова прописными буквами в процессе поиска будут использоваться и слова, стоящие в других падежах, в различных склонениях, в единственном и множественном числе.

В Yandex так же, как в AltaVista можно строить простые и сложные запросы. Но построение сложных запросов требует более высокой квалификации лица, проводящего поиск.

Для соединения ключевых слов в простых запросах используются операторы, обозначаемые символами: &, |, ~, (,). Среди них только тильда (~) имеет другое назначение - в Yandex она обозначает отрицание (и эквивалентна знаку “- ” в AltaVista). Однако, указанные операторы имеют существенную особенность: ключевые слова, соединяемые ими, должны находиться в пределах одного абзаца.

Удваивание оператора связи указывает, что слова должны находиться в пределах всего текста (а не только одного абзаца).

В Yandex предусмотрен “поиск с расстоянием” - можно указать, что ключевые слова в искомом тексте должны находиться на расстоянии не более, например, трех слов (и в одном абзаце). Расстояние задается символом /, за которым следует цифра, определяющая расстояние. Например, задав предписание:

круглый /3шар поисковая машина будет искать документы, содержащие в пределах одного абзаца слова “круглый” и “шар”, причем, разделены они могут быть не более, чем тремя словами. Если расстояние задано отрицательным числом, это значит, что второе слово предшествует первому.

Вместо одного слова в поисковом предписании можно использовать целые выражения. Логически самостоятельные элементы этих выражений могут заключаться в скобки.

Особенности поиска информации в Интернет.

Интернет как глобальное средство обмена информацией нередко используется для поиска необходимых данных. Способов поиска информации множество (в скобках указаны случаи, когда такой способ поиска наиболее применим): Поиск с помощью поисковых машин (конкретные вещи) Каталоги и коллекции ссылок (более общие понятия) Рейтинги (самые популярные ресурсы) Конференции, чаты и страницы ссылок на тематических сайтах (редкие, специализированные вещи). Ограниченные временные, физические и финансовые возможности людей вынуждают чаще всего применять для этого специальные каталоги и поисковые машины (поисковики) – своего рода библиотекари, индексирующие доступный им массив информации в Интернет. В данном разделе выделены особенности и рассмотрены общие правила работы наиболее известных каталогов и поисковых систем.

Каталоги представляют собой систематизированные группы адресов, объединенные, как правило, по тематике. К удобству их применения можно отнести то, что, если пользователю известна тема искомого документа, он будет исследовать соответствующую ветвь каталога, не отвлекаясь на посторонние, не относящиеся к делу документы. Однако, объем каталога ограничен физическими возможностями редакторской группы и ее субъективностью в выборе материала. В них отсутствует информация на узкие, специальные темы, да и саму тематику искомого документа не всегда можно сформулировать в пределах классификации каталога. Ниже приведены возможности зарубежных и российских каталогов.

Yahoo ! - Самый популярный каталог, содержащий обширную информацию о десятках тысяч Web -узлов. Первый уровень иерархии содержит 14 тематических категорий, которые разветвляются еще на 4 -5 подуровней. Имеет собственную машину поиска, позволяющую: 1) искать по базе Yahoo !, по Usenet или по адресам электронной почты; 2) ограничить поиск материалами, размещенными за последний день, неделю, месяц, год или 3 года; 3) выдать статьи, содержащие хотя бы одно ключевое слово или все ключевые слова; 4) искать по однокоренным словам или только по указанным ключевым; 5) выдать результаты по 10, 25, 50 или 100 на одной странице (подробнее ниже). Excite Reviews - Содержит обзоры 60 тыс. узлов Интернет (иерархический каталог) City . Net - сведения о странах и городах.

Galaxy - Иерархический каталог с подробным описанием тематических категорий на первой странице. Осуществляет поиск по категории поиска, по одному или нескольким ключевым словам, краткий и подробный вывод результатов поиска, переход на страницы Gopher и Telnet .

Yellow Pages - Поиск информации о 16 млн. американских компаниях в различных областях деятельности, а также персональные данные и электронные адреса частных лиц.

Russia on the Net - Первый каталог русских ресурсов.

Созвездие Интернет - Охватывает около 400 серверов. Возможность усечения терминов. Содержит названия и краткие характеристики серверов. Привлекательная графика. Небольшая зона поиска, слабая иерархия.

Желтые страницы Интернет - Около 1200 Web -серверов. Большой объем информации, хорошо продуманная структура.

Сокровища Интернет - Каталог Web -ресурсов на сервере Relcom . АУ! - Молодой, быстроразвивающийся каталог.


Поисковых серверов всего известно более 150, различающихся по регионам охвата, принципам проведения поиска (а следовательно, по


входному языку и характеру воспринимаемых запросов), объему индексной базы, скорости обновления информации, способности искать "нестандартную" информацию и тому подобное. Основными критериями выбора поисковых серверов являются объем индексной базы сервера и степень развитости самой поисковой машины, то есть уровень сложности воспринимаемых ею запросов. Традиционно поисковые системы имеют три элемента:

1. Робот (кроулер, паук, агент), который перемещается по Сети и собирает информацию; Кроулеры просматривают заголовки и возвращают только первую ссылку.

Пауки – программы, осуществляющие общий поиск информации в Сети и сообщающие о содержании найденного документа, индексируя его и извлекая итоговую информацию.

Агенты - самые "интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать c айты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных.

Интернет-сообщество приняло "Стандарт исключений для роботов". Этот стандарт описывает использование простого структурированного текстового файла, доступного в известном месте на сервере ("/ robots . txt ") и используемого для того, чтобы определить, какая из частей ссылок сервера должна игнорироваться роботами. Все "умные" поисковые машины сначала обращаются к этому файлу, который должен присутствовать на каждом сервере. На сегодняшний день этот файл обязательно запрашивается поисковыми роботами только таких систем как Altavista , Excite , Infoseek , Lycos , OpenText и WebCrawler . Это средство может быть также использовано для того, чтобы предупредить роботов о черных дырах. Каждому типу роботов можно передавать определенные команды, если известно, что данный робот специализируется в конкретной области. Этот стандарт является свободным, но его очень просто осуществить и в нем имеется значительное давление на роботов с попыткой их подчинения.

1. База данных , которая содержит всю информацию, собираемую роботами.

Проиндексировать произвольный документ, находящийся в Сети, очень сложно. Первые роботы просто сохраняли название документа и якори (anchor) в самом тексте, но новейшие роботы уже используют более продвинутые механизмы и вообще рассматривают полное содержание документа. Проиндексированная информация отсылается базе данных (БД) поискового механизма. Вид построенного индекса определяет, какой поиск может быть сделан пользователем поискового механизма и как полученная информация будет интерпретирована. Люди могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, в который они хотели бы поместить свою информацию. БД автоматически обновляются за определенный период времени с тем, чтобы мертвые ссылки были обнаружены и удалены.

2. Пользовательский интерфейс для взаимодействия с БД поисковика. Когда пользователь ищет информацию в Интернет, он заполняет поисковую форму на странице поисковика. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в поисковой форме должны соответствовать критериям, используемым агентами при индексации ресурсов Сети. Как формат, так и семантика запросов варьируются в зависимости от применяемой поисковой машины и конкретной предметной области. Запросы составляются так, чтобы область поиска была максимально конкретизирована и сужена. Предпочтение отдается использованию нескольких узких запросов по сравнению с одним расширенным. Языки запроса различных машин поиска в основном являются сочетанием следующих функций (Таблица 3).

Операторы булевой алгебры AND , OR , NOT :


На основе введенной пользователем поисковой строки в БД отыскивается предмет запроса и выводится список соответствующих ссылок. Число документов, полученных в результате поиска по запросу,


может быть огромно. Однако, благодаря ранжированию документов, применяемому в большинстве поисковых машин, на первых страницах списка практически все документы окажутся релевантными (в идеале). Основные принципы определения релевантности следующие:

1. Количество слов запроса в текстовом содержимом документа (в html - коде).

2. Тэги, в которых эти слова располагаются.

3. Местоположение искомых слов в документе.

4. Удельный вес слов (густота), относительно которых определяется релевантность, в общем количестве слов документа.

Эти принципы применяются всеми поисковыми системами. А представленные ниже используются некоторыми, но достаточно известными (вроде AltaVista , HotBot).

5. Время - как долго страница находится в базе поискового сервера. Множество сайтов живут максимум месяц. Если же сайт существует довольно долго, это означает, что владелец весьма опытен в данной теме.

6. Индекс цитируемости - число ссылок на данную страницу с других страниц, зарегистрированных в БД.

Существуют особенности показа полученного списка - некоторые поисковики показывают только ссылки; другие выводят ссылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ссылкой.

Результат запроса (список ссылок) обрабатывается в два этапа. На первом этапе (автоматическая обработка) производится отсечение очевидно нерелевантных источников, попавших в выборку в силу несовершенства поисковой машины или недостаточной "интеллектуальности" запроса. Дальнейшая (ручная) обработка производится пользователем путем последовательного обращения на каждый из найденных ресурсов и анализа находящейся там информации. Когда пользователь щелкает на ссылку из списка, то перед запросом соответствующего документа у того сервера, на котором он находится, поисковики заносят в свою БД отметку о пользовательском предпочтении. Собранная информация о поведении пользователей (формулировки запросов и выбранные из списка ресурсы) успешно используется в рекламных компаниях в Сети.

Ниже сравниваются наиболее известные не-россиские поисковики.

AltaVista . Охватывает более 30 млн. страниц на 225000 серверах, обеспечивает доступ к 3 млн. статей в 14000 телеконференциях Usenet . Имеет два режима: Simple query и Advanced query . В режиме Simple можно вводить шаблоны для поиска не менее чем с тремя указанными символами в начале слова. Если слово содержит хотя бы одну заглавную букву, ведется поиск с учетом регистра. Ниже строки ввода выдаются советы по поиску. В режиме Advanced можно создавать сложные запросы, основанные на логических операторах AND , OR , NOT , NEAR и указывать критерии сортировки полученных результатов. Можно указывать диапазон дат опубликования. Предоставляет возможность поиска изображений. Удобный интерфейс. Высокое быстродействие, многовариантное поисковое предписание, возможность поиска на русском языке с учетом морфологии. Система не упорядочивает результаты поиска, поэтому ее целесообразно применять для специфического или исчерпывающего поиска. Индексирование в этой системе осуществляется при помощи робота. При этом робот имеет следующие приоритеты:

Ключевые фразы в < Meta > тэгах;

Ключевые фразы, находящиеся в начале странички;

Ключевые фразы по количеству вхожденийприсутствия словфраз; Если тэгов на странице нет, использует первые 30 слов, которые индексирует и показывает вместо описания (tag description) Наиболее интересная возможность AltaVista - это расширенный поиск. Здесь стоит сразу оговориться, что, в отличие от многих других систем AltaVista поддерживает одноместный оператор NOT . Кроме этого, имеется еще и оператор NEAR , который реализует возможность контекстного поиска, когда термины должны располагаться рядом в тексте документа. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой фразеологический словарь. Кроме всего прочего, при поиске в AltaVista можно задать имя поля, где должно встретиться слово: гипертекстовая ссылка, applet , название образа, заголовок и ряд других полей. К сожалению, подробно процедура ранжирования в документации по системе не описана, но видно, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Реально эту систему можно отнести к системе с расширенным булевым поиском.

HotBot - Охватывает 54 млн. страниц. Возможен поиск на русском языке. Является популярным поисковым средством благодаря наличию механизмов построения сложных поисковых запросов. В основном, 1-я страница результатов, полученных в ответ на поисковый запрос, приходит из Direct Hit , затем берутся результаты из Inktomi . Список каталогов предоставляется Open Directory . HotBot начал предоставлять свои услуги в мае 1996 года, а в октябре 1998 года он был куплен Lycos .

Infoseek . Охватывает 1,5 млн. страниц. Язык запросов позволяет использовать все возможные варианты логических выражений. Менее полные, чем на других серверах, результаты поиска, неудобный интерфейс. В этой системе индекс создает робот, но он индексирует не


весь сайт, а только указанную страницу. При этом робот имеет такие приоритеты:

Слова в заголовке < title > имеют наивысший приоритет;

Слова в теге keywords , description и частота вхожденийповторений в самом тексте;

При повторении одинаковых слов рядом выбрасывает из индекса

Допускает до 1024 символов для тега keywords , 200 символов для тэга description ;

Если тэги не использовались, индексирует первые 200 слов на странице и использует как описание;

Система Infoseek обладает довольно развитым информационно-поисковым языком, позволяющим не просто указывать, какие термины должны встречаться в документах, но и своеобразно взвешивать их. Достигается это при помощи специальных знаков "+" - термин обязан быть в документе, и "-" - термин должен отсутствовать в документе. Кроме этого, Infoseek позволяет проводить то, что называется контекстным поиском. Это значит, что, используя специальную форму запроса, можно потребовать последовательной совместной встречаемости слов. Также можно указать, что некоторые слова должны совместно встречаться не только в одном документе, а даже в отдельном параграфе или заголовке. Имеется возможность указания ключевых фраз, представляющих собой единое целое, вплоть до порядка слов. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Подводя итоги, можно сказать, что Infoseek относится к традиционным системам с элементом взвешивания терминов при поиске.

Infoseek Ultra - 50 млн. страниц WWW , возможен поиск на русском языке, поиск изображений.

Lycos . Охватывает 68 млн. страниц. Можно выбрать параметры поиска: одно, несколько ключевых слов или фраза; усечение терминов; ограничения на число совпадений; степень соответствия результатов поиска ключевым словам; форму вывода результатов (краткую или подробную); количество найденных терминов на каждой странице. Невысокие быстродействие и оперативность обновления информации. В Lycos используется следующий механизм индексации:

Слова в < title > заголовке имеют высший приоритет;

Слова в начале страницы;

Как и большинство систем, Lycos дает возможность применять простой запрос и более изощренный метод поиска. В простом запросе в качестве поискового критерия вводится предложение на естественном языке, после чего Lycos производит нормализацию запроса, удаляя из него так называемые stop -слова, и только после этого приступает к его выполнению. Почти сразу выдается информация о количестве документов на каждое слово, а позже и список ссылок на формально релевантные документы. В списке против каждого документа указывается его мера близости запросу, количество слов из запроса, попавших в документ, и оценочная мера близости, которая может быть больше или меньше формально вычисленной. Пока нельзя вводить логические операторы в строке вместе с терминами, но использовать логику через систему меню Lycos позволяет. Такая возможность применяется для построения расширенной формы запроса, предназначенной для искушенных пользователей, уже научившихся работать с этим механизмом. Таким образом, видно, что Lycos относится к системе с языком запросов типа " Like this ", но намечается его расширение и на другие способы организации поисковых предписаний. В октябре 1998 Lycos приобрел HotBot , который, в настоящее время, используется как отдельная служба.

WAIS является одной из наиболее изощренных поисковых систем Internet . В ней не реализованы лишь поиск по нечетким множествам и вероятностный поиск. В отличие от многих поисковых машин, система позволяет строить не только вложенные булевые запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и осуществлять коррекцию запроса по релевантности. Система также позволяет использовать усечения терминов, разбиение документов на поля и ведение распределенных индексов. Не случайно именно эта система была выбрана в качестве основной поисковой машины для реализации энциклопедии "Британика" на Internet .

Yahoo . Секрет успеха Yahoo заключается в людях. Yahoo имеет около 150 редакторов, для того, чтобы составлять и редактировать содержимое своих каталогов. Yahoo имеет базу данных в более чем 1 млн. проиндексированных сайтов. Также, в случае нехватки своей собственной базы данных, Yahoo использует базу данных Google (до июля 2000 года Yahoo пользовался базой данных Inktomi). Yahoo является старейшей поисковой системой, которая начала предоставлять свои услуги в 1994 году. Язык Yahoo достаточно прост: все слова следует вводить через пробел, они соединяются связкой AND либо OR . При выдаче не указывается степень соответствия документа запросу, а только подчеркиваются слова из запроса, которые встретились в документе. При этом не производится нормализация лексики и не проводится анализ на "общие" слова. Хорошие результаты поиска получаются только тогда, когда пользователь знает, что в базе данных Yahoo информация есть наверняка. Ранжирование производится по числу терминов запроса в документе. Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.



Перспективы развития средств поиска в Интернет

Несомненными являются следующие тенденции Интернет:

Рост объема доступной информации и информационных потребностей пользователей

Расширение границ Интернет за счет присоединения новых стран

Усиление коммерциализации сервисов

Увеличение скорости, пропускной способности и числа способов доступа в Сеть

Углубление дифференциации сервисов по целевым аудиториям (кружки по интересам)

Объединение однородных сервисов в единые порталы (места массового обслуживания)

Влияния “дай”- протокола отразиться на развитии средств сбора информации о поведении пользователей в Сети

Все это подтолкнет автоматизацию средств поиска и семантической обработки информации таких, как:

Персональные автономные интеллектуальные агенты (типа “ Search +”)

Персонализация и интеллектуализация поисковых механизмов на поисковых порталах (настройка способа вывода списка ссылок, использование механизма Cookies , заполнение специальных анкет и “подписка на запрос”, семантическое ранжирование результатов запроса)

Зарубежные поисковые серверы:

Для поиска на русском языке лучше подходят российские серверы, на иностранном – зарубежные, хотя, например, Google неплохо справляется с поиском на многих языках. Подробнее о наиболее популярных поисковых системах поговорим позже, рассматривая расширенные возможности поиска, так как у каждой из этих систем есть свои особенности. Сейчас остановимся на некоторых базовых правилах построения поисковых запросов, общих для всех поисковиков.

Несмотря на заявления многих владельцев поисковых серверов, что запросы могут быть написаны практически на языке, который люди используют для общения между собой, это далеко не так. По всей видимости еще не скоро наступит время, когда компьютер и человек смогут общаться на естественном (для человека) языке. Впрочем, нужно отдать должное поисковым серверам: в последнее время они стали гораздо лучше понимать пользователя, и результаты поиска теперь больше соответствуют ожиданиям, чем это было несколько лет назад. Произошло это во многом благодаря внедрению новых языковых технологий.

Из вышесказанного следует, что на практике рядовому пользователю находить нужную информацию стало проще. Поисковики теперь ищут не только запрашиваемое слово, но и его словоформы, что позволяет делать результаты поиска более точными. Например, если в поисковом запросе присутствует слово умный, то его результаты будут содержать не только это слово, но и его производные: умного, умная, а также ум и даже разум. Конечно, страницы со словоформами будут не в числе первых результатов поиска, но элементы искусственного интеллекта налицо. Этот факт полезно учитывать при построении поисковых запросов. Теперь расскажу еще о нескольких таких фактах.

Поисковые серверы при обработке запроса не учитывают регистр символов. Поэтому запросы Отдых в Турции и отдых в турции с точки зрения поисковика идентичны.

Также следует помнить, что применять знаки препинания в поисковых запросах вовсе не обязательно, точнее, даже не нужно, так как они также игнорируются поисковыми серверами. Зато многие традиционные знаки препинания могут быть использованы при построении сложных расширенных запросов, результаты поиска по которым обычно гораздо ближе к ожидаемым.

Большинство поисковых серверов (кроме, пожалуй, Google) также игнорирует короткие слова, не несущие смысловой нагрузки. В русском языке это предлоги, союзы и т. д., в иностранных, например, артикли.

Многие поисковые серверы позволяют бороться с опечатками и неправильной раскладкой клавиатуры. Наверняка многим читателям часто случалось набрать при включенной английской раскладке клавиатуры русское слово, и получалось, например, gfhjdjp вместо паровоз. Тот же «Яндекс» сразу определит, что здесь что-то не так и вверху страницы с результатами поиска выдаст ссылку: Быть может, вы искали: паровоз , перейдя по которой можно получить страницу с правильными результатами. Аналогично можно бороться с опечатками. Если поисковому серверу покажется, что в слове допущена ошибка или опечатка, то он предупредит об этом той же фразой: Быть может, вы искали .

Поговорим о том, какие слова лучше взять для запроса поисковому серверу. Во-первых, из интересующей пользователя темы нужно взять самые важные по смыслу слова, отражающие только суть вопроса. Например, если необходим материал по теме «Ловля пингвинов в Антарктиде в условиях полярной ночи», то вовсе не обязательно писать фразу целиком, результаты поиска в этом случае, скорее всего, не устроят запрашивающего, так как будет много лишнего. Есть выражение «Машина должна работать, человек – думать», и сказано оно как раз о такой ситуации. Задача пользователя при составлении поискового запроса – выделить ключевые слова, задача поискового сервера – наилучшим образом обработать введенный запрос. В рассматриваемом примере ключевыми можно считать слова ловля пингвинов. Ведь известно, что кроме Антарктиды они нигде больше не водятся, ну а «полярную ночь» стоит отбросить хотя бы потому, что в реальности в таких условиях работать достаточно сложно.

Этот ироничный пример иллюстрирует, что пользователь, основываясь на своих знаниях и логике, должен выделить только необходимые ключевые слова, не перегружая запрос лишними терминами.

Рассмотрим пример, иллюстрирующий типичные ошибки начинающих пользователей при поиске в Интернете. На запрос загадки о музыкальных инструментах поисковик не выдал полезных результатов. Тогда пользователь решает исправить запрос, дополнив его и написав: загадки для детей о музыкальных инструментах – результаты поиска оказались еще хуже предыдущего. В такой ситуации говорят, что условия запроса стали более жесткими в отличие от более мягких, установленных в предыдущем случае. Для данного примера неплохим решением, как показала практика, явился поиск по ключевому слову загадки. В Интернете много таких сайтов, а зайдя на сам сайт и немного поискав по его разделам, вполне можно найти интересующую информацию.

Рассуждая о том, какие слова нужно использовать в поисковом запросе, можно сформулировать несколько правил:

Выбирайте только самые важные ключевые слова, касающиеся рассматриваемой темы;

Слов не должно быть слишком много или слишком мало; некоторые считают оптимальным запрос, состоящий из трех-четырех слов, однако в разных случаях это количество может различаться;

При неудовлетворительных результатах поиска попробуйте применить более мягкие условия для запроса, но ни в коем случае не более жесткие;

Если вы не удовлетворены результатами поиска на одном поисковом сервере, то попробуйте поискать на другом; механизмы работы у серверов неодинаковые, так что результаты могут различаться коренным образом.

Надеюсь, что вышеизложенная информация поможет читателям находить в Сети необходимые сведения. Если найти что-то все равно никак не удается, то на помощь придут расширенные методы поиска.

Для обеспечения более эффективного поиска в Интернете поисковые серверы предоставляют возможность расширенного поиска, а также поиска с использованием языка запросов. Чтобы разграничить эти понятия, дам их определения.

Расширенный поиск – возможность поиска с указанием множества различных параметров. Для этого в поисковиках предусмотрены отдельные страницы, на которых можно задать такие параметры. Принципы работы расширенного поиска схожи у большинства поисковиков.

Язык запросов – система команд, позволяющая изменять параметры запроса из основной строки поиска с помощью специальных команд. Ориентирован на опытных пользователей.

Рассмотрим дополнительные возможности поиска на примерах поисковиков «Яндекс» и Google. Почему именно на них? Потому что «Яндекс» – самый популярный поисковый сервер в русскоязычном Интернете, а Google – самый популярный поисковик в мире. Впрочем, с успехом можно пользоваться и другими поисковыми системами, но мы пока остановимся на двух упомянутых.

Поисковый сервер «Яндекс»

Этот поисковик – один из старейших в русскоязычном сегменте Сети. «Яндекс» начал свою деятельность еще в 1997 году, когда Интернет только начал развиваться на постсоветском пространстве. Постепенно набирая обороты, «Яндекс» сегодня стал самым популярным поисковым сервером в русскоязычном Интернете, его ежедневная аудитория составляет более 4 000 000 человек. Около половины всех русскоязычных пользователей Интернета пользуются его услугами. При поиске в Интернете «Яндекс» одним из первых стал учитывать морфологию русского языка, то есть использовать различные формы слова, о чем говорилось выше.

Следует упомянуть об еще одной интересной функции поискового сервера Google, вызываемой кнопкой Мне повезет . Ее нажатие приводит к тому, что результатом поиска будет не страница со списком ссылок, а переход на первый найденный сайт. Данную кнопку удобно использовать при поиске, например, сайтов крупных организаций. Если набрать в строке поиска МГУ и нажать кнопку Мне повезет , то сразу откроется сайт Московского государственного университета.

Альтернативные средства поиска

Несмотря на то что в сегодняшнем Интернете поисковые серверы являются главным способом поиска информации, существуют и другие методы ее поиска. Такие альтернативные способы порой помогают найти то, что не удалось отыскать с помощью поискового сервера.

Метапоиск

Несмотря на универсальность поисковых серверов, результаты поиска у каждого из них практически всегда разные. Искать отдельно на каждом поисковике интересующую информацию достаточно трудно и утомительно. Проще найти необходимые сведения с помощью метапоиска, который позволяет искать введенные пользователем ключевые слова сразу по нескольким поисковым серверам в автоматическом режиме. Затем полученные результаты группируются по следующему принципу: чем больше поисковиков нашло конкретный сайт и чем выше его позиция в результатах поиска, тем выше он будет и в метапоиске. Работа с сервером метапоиска, с точки зрения пользователя, практически ничем не отличается от поиска на обычном поисковом сервере: тот же ввод ключевых слов, то же нажатие кнопки Найти .

Наиболее мощные серверы метапоиска в русскоязычном Интернете – Nigma.ru (www.nigma.ru ) и MetaBot.ru (www.metabot.ru ).

Поисковик Nigma.ru поддерживает поиск по следующим поисковым серверам: Google, Yahoo!, Msn, «Яндекс», «Рамблер», Altavista, Aport. Можно искать на русском или английском языке. Предусмотрен простой язык поисковых запросов, а также расширенный поиск. Nigma.ru (рис. 3.3) ищет документы с учетом русской орфографии, а также корректирует возможные ошибки. Кроме традиционного поиска веб-страниц возможен поиск по разделам: Картинки , Библиотеки , Музыка и даже Подарки .



Рис. 3.3. Метапоисковик Nigma.ru


Метапоисковик MetaBot.ru (рис. 3.4) поддерживает поиск по большому количеству поисковиков, среди которых есть малоизвестные, можно сказать даже экзотические: Alltheweb, Google, Inktomi, «Яндекс», Northernlight, Altavista, Lycos, Webtop, Aport, Euroseek, «Рамблер», Links2go, Excite.



Рис. 3.4. Главное окно сервера метапоиска MetaBot.ru


Однако, по заявлению администрации MetaBot.ru, количество и состав опрашиваемых поисковых систем может меняться. При поиске с помощью данного сервера можно выбрать один из его видов:

РУССКИЙ ПОИСК – поиск в русскоязычном Интернете;

ВЕСЬ МИР – поиск по всему Интернету;

ПОИСК ФАЙЛОВ – поиск собственно информации;

MP3/VIDEO – поиск музыки и видео.

Как и Nigma.ru, MetaBot.ru имеет несложный язык поисковых запросов, а вот возможности расширенного поиска у него, к сожалению, нет.

Веб-каталоги

Еще один альтернативный способ поиска – веб-каталоги. Это по сути интернет-сайт, на котором собраны ссылки на различные ресурсы Сети. Эти ссылки сгруппированы по разделам, которые могут иметь подразделы, те, в свою очередь, также разбиваются на подразделы и т. д. Зайдя, например, в раздел «Бизнес и финансы», можно увидеть подразделы «Менеджмент», «Валюта», «Юристы», «Безопасность», «Банки», «Налоги» и др. Обычно в веб-каталоге существует внутренний поиск по ресурсам каталога. Ссылки на конкретные веб-сайты, как правило, сопровождаются небольшим описанием ресурса, что делает поиск более удобным.

На заре Интернета, когда количество сайтов в Сети было сравнительно невелико, поиск по веб-каталогам являлся основным средством поиска информации во Всемирной паутине. Со временем Интернет разрастался, и администраторам таких каталогов становилось все труднее обеспечивать их работоспособность и поддерживать актуальность представленной информации на должном уровне. Веб-мастерам, которые создавали свои сайты, предоставлялась возможность самим добавлять ссылки на свой ресурс в веб-каталог. Однако отслеживать корректность добавляемых ссылок и описаний администраторам веб-каталогов становилось все труднее. Поэтому постепенно веб-каталоги уступали место поисковым серверам, которые могли автоматически индексировать содержимое интернет-сайтов, и участие человека там было минимальным, а получаемые результаты зачастую больше соответствовали требованиям.

Тем не менее веб-каталоги живы и поныне. Многие крупные интернет-порталы имеют в своем составе веб-каталоги. Многие владельцы поисковых серверов считают хорошим тоном иметь свой веб-каталог. Вот некоторые из действующих веб-каталогов:

Каталог Российских Веб-Серверов – www.weblist.ru/russian ;

Часто с помощью веб-каталогов можно найти интересные и информативные ресурсы, которые не удавалось отыскать с помощью поисковых серверов.

Поиск ответов на вопросы

Строго говоря, то, о чем сейчас пойдет речь, не является поиском в чистом виде. Однако, рассматривая способы поиска в Интернете, нельзя не упомянуть экспертные узлы. Как уже говорилось, люди пока не научили компьютеры понимать живой человеческий язык. Иногда возникает ситуация, когда найти ответ на интересующий вопрос невозможно, формулируя этот самый вопрос одними лишь ключевыми словами: требуется изложить суть проблемы на живом языке. Например, вы купили на рынке неизвестный фрукт и не у кого спросить, что это такое (спрашивается, зачем тогда покупали, но это уже неважно). Важно, что, как бы вы ни старались, традиционные да и многие альтернативные способы поиска в Интернете тут помочь не смогут. Вот в этом-то случае и придет на помощь экспертный узел – специализированный веб-сайт, своего рода информационный центр, поддерживаемый знаниями и суждениями живых людей.

Работа экспертного узла во многом напоминает работу форума (о форумах подробнее см. в гл. 9 разд. «Знакомства, общение, поиск друзей») и строится следующим образом: один человек задает вопрос на обычном «человеческом» языке, а другие посетители ресурса дают ответ опять же на обычном языке. В рассматриваемом примере с фруктом вопрос можно сопоставить примерно так: «Кто знает, как называется фрукт такого-то цвета, такого-то запаха, такого-то размера, внешне похожий на то-то?»

Поскольку количество посетителей экспертных узлов велико, то, как правило, ответ находится в течение нескольких минут. Чаще всего результатом вопроса бывает весьма квалифицированный и индивидуальный ответ или совет, какой не способна дать ни одна поисковая система. Все вопросы разделены по категориям, почти как в веб-каталогах, что облегчает участникам общение между собой.

Для русскоязычного Интернета такое явление, как экспертные узлы, пока не очень распространено. Из более-менее крупных можно назвать разве что проект Ответы@Mail.Ru (otvet.mail.ru ). Проект насчитывает более 7,5 000 000 участников, и их количество постоянно растет (рис. 3.5).



Рис. 3.5. Проект Ответы@Mail.Ru, позволяющий найти ответ на любой вопрос


Пользователи, готовые задать вопрос на английском языке и на нем же получить ответ, могут прибегнуть к услугам зарубежных экспертных узлов, таких, как AskMe (askme.com ) или LookSmart Live.

Разобравшись в целом с поиском веб-страниц и документов, следует обратить внимание на поиск файлов всех форматов, так как он имеет некоторые особенности по сравнению с поиском текстов. Под файлами подразумеваются именно файлы в чистом виде: картинки, аудио– и видеофайлы, программы, архивы и т. д. (по сути, веб-страница – это тоже множество файлов). Рассмотрим некоторые тонкости поиска картинок, музыкальных и иных файлов.

Поиск рисунков в Интернете

Миллиарды картинок, хранящихся в Сети, могут быть использованы с самыми разными целями: в качестве рисунка Рабочего стола , как иллюстрация к научной или другой работе, для создания собственных открыток или презентаций и т. д. Искать рисунки сложнее, чем текст, поскольку индексация картинок для поисковика проблематичнее, чем индексация текста, ведь компьютеры пока не научились распознавать образы.

Какими бы умными ни казались компьютеры, как бы ни поражала их вычислительная мощь, но современные вычислительные машины пока не в состоянии справиться с задачей, которую под силу выполнить пятилетнему ребенку, например отличить изображение кошки от изображения собаки. Причем несмотря на то, что конечный пользователь при поиске рисунка описывает его именно словами, а не образами. Определение списка ключевых слов для конкретного изображения в Сети является главной проблемой, стоящей перед поисковыми серверами.

Для ее решения анализируются следующие параметры: слова, встречающиеся на странице рядом с картинкой; название ссылки, ведущей на рисунок; имя файла изображения; название сайта и др. Как бы там ни было, но находить рисунки в Интернете можно.

Однако при поиске картинок необходимо учитывать наличие описанных выше проблем по их поиску. Далеко не всегда на найденном рисунке будет изображено то, что ожидалось. Об этом нужно помнить и при построении поискового запроса. Одно дело, когда требуется найти изображение велосипеда (то есть конкретного предмета), и совсем другое, когда необходима картинка на абстрактную тему, например «бег трусцой». В последнем случае придется поэкспериментировать и попробовать, например, следующие варианты ключевых слов: «пробежка», «бегун», «спортсмен» и т. п. Таким образом, в отличие от поиска текста при поиске рисунков, если их не удается найти сразу, нужно использовать смежные, а порой и отдаленные понятия.

Рассмотрим средства, применяемые для поиска картинок в Сети. Как упоминалось выше, используя серверы метапоиска, можно искать картинки, просто введя ключевые слова в поисковую строку и выбрав функцию поиска по картинкам. Кстати, обычные поисковые серверы тоже предоставляют возможность поиска рисунков. На главной странице практически любого поисковика есть ссылка Картинки или Рисунки , перейдя по которой можно искать рисунки. Например, сервис поиска картинок «Яндекса» находится по адресу www.images.yandex.ru , соответствующей услугой, предоставляемой Google, можно воспользоваться на странице www.images.google.com . Результатом запроса будет страница с уменьшенными копиями найденных рисунков (рис. 3.6).



Рис. 3.6. Результаты поиска картинок по запросу поросенок в Google


Щелкнув на любом из таких миниатюрных изображений, можно увидеть его полноразмерный вариант и, конечно, сохранить рисунок на винчестере компьютера.

Кроме обычных поисковых серверов для поиска картинок можно использовать специализированные службы, задача которых заключается исключительно в поиске изображений. Среди них – GoGraph.com (www.gograph.com ) и Picsearch (www.picsearch.com ). Общий недостаток этих сервисов – их англоязычный интерфейс. Вкратце охарактеризую оба эти поисковика.

Данный сервер, скорее, не поисковик, а веб-каталог рисунков с функцией поиска. Как и в обычном веб-каталоге, на GoGraph.com (рис. 3.7) все рисунки структурированы по категориям, что позволяет искать изображения вручную, не прибегая к функциям поиска.



Рис. 3.7. Каталог-поисковик GoGraph.com


Искать можно по всем типам файлов или выбрав один или несколько из предложенных: Animated GIFs (GIF-анимация), Photos (фотографии), Icons (значки), Clip Art (клипарт). Некоторые изображения, в частности картинки с большим разрешением, будут доступны только за деньги.

Picsearch – удобный в использовании сервис с простым интерфейсом, возможностью расширенного поиска по различным параметрам и даже собственным мини-языком поисковых запросов (поддерживаются команды + (обязательно включать слово) и – (исключить слово)). Как заявлено на главной странице сервиса, искать можно по более чем 2 000 000 000 картинок. Picsearch (рис. 3.8) довольно быстро работает и, несмотря на свой англоязычный интерфейс, неплохо справляется с обработкой русскоязычных запросов.



Рис. 3.8. Главная страница сервера поиска картинок Picsearch


Если ввести на странице запрос велосипед, то после обработки и выдачи результата сервер предложит попробовать и другие часто используемые запросы: детский велосипед , водный велосипед , горный велосипед . Такой подход подтверждает, что понимание русского языка у Picsearch организовано на высоком уровне.

Пожалуй, это вся основная информация, касающаяся поиска рисунков в Сети. Рассмотрим не менее полезные и интересные возможности интернет-поиска – поиск файлов мультимедиа.

Поиск музыки и видео

Как и поиск картинок, поиск мультимедийных файлов имеет особенности. С точки зрения поисковиков, мультимедийные файлы индексируются проще, чем изображения. Во-первых, большинство современных аудио– и видеоформатов поддерживают возможность хранить внутри самого файла текстовую информацию, которая и считывается поисковым сервером, а затем используется при поиске таких файлов. Во-вторых, в отличие от картинок мультимедиафайлы обычно размещаются в Сети специально для того, чтобы их скачивали. Поэтому такие файлы обычно имеют название, соответствующее содержанию (файл называется так же, как и представленная им музыкальная композиция или фильм), а также ссылку, которая указывает на адрес такого файла и содержит в себе название произведения.

В связи с этим для поиска мультимедиафайлов часто используются обычные поисковые серверы, которые приносят неплохие результаты. Причем искать можно без использования специальных средств поисковика, то есть мультимедийный файл ищется так же, как и обычная веб-страница.

Вопрос о присутствии аудио– и видеопроизведений в Интернете очень волнует правообладателей таких продуктов, ведь часто мультимедиафайлы распространяются нелегально, что наносит ущерб законным владельцам авторских прав. В последние годы оборот в Интернете аудио– и видеопродукции приобретает все более цивилизованный облик. Некоторые крупные порталы, предлагавшие раньше загрузить MP3-музыку (причем, как правило, бесплатно), сейчас прекратили свое существование или переквалифицировались и перевели свою деятельность в законное русло.

Примером тому может служить крупный музыкальный портал MP3Search.ru (www.mp3search.ru ), который изначально задумывался создателями как система для поиска бесплатных музыкальных файлов в Сети. Однако со временем проект вынужден был сменить тактику работы, и сегодня это один из крупнейших ресурсов в русскоязычном Интернете, занимающихся законным распространением музыкальных композиций (естественно, за соответствующую плату). На портале MP3Search.ru представлено большое количество музыки разных стилей и направлений, искать можно вручную по принципу веб-каталога или с использованием строки поиска.

При поиске видео также наблюдается схожая ситуация. Нелегальные сайты постепенно прекращают свое существование, уступая место легальным. Стоит упомянуть о поисковом сервере GoGo.ru (www.gogo.ru ), который одним из первых в русскоязычном Интернете предоставил сервис поиска видео. Искать требуемое видео на данном сервисе просто: нужно всего лишь набрать ключевые слова в строке поиска и выбрать категорию Видео . В результатах поиска будут исключительно ресурсы, распространяющие видео на законных основаниях.

Поиск по FTP-серверам

На действующих сегодня FTP-серверах можно найти самые разные типы файлов, в том числе музыку и видео. Значительная часть FTP-ресурсов имеет платный или ограниченный доступ, тем не менее многие из них являются общедоступными. Набравшись немного опыта и определив для себя наиболее предпочтительные ресурсы, пользователь может искать на них файлы, просто переходя из папки в папку. Однако гораздо удобнее воспользоваться услугами FTP-поисковиков, которые ищут файлы на различных FTP-серверах.

Особенность поиска файлов в том, что они, кроме имени и типа, не имеют каких-либо признаков, которые могли бы их идентифицировать. Это даже не картинки, содержимое которых можно определить, используя специальные алгоритмы. Содержимое файла никак нельзя классифицировать. Правда, мультимедийные файлы часто содержат в себе некоторую информацию, скажем, о названии композиции или исполнителе. Однако архивы, программы и многие другие типы файлов не поддаются классификации. Вследствие этого основным признаком, по которому можно найти файл, остается его имя.

С учетом этой специфики и работают FTP-поисковики. Возможность поиска по FTP-серверам в качестве дополнительной функции предоставляют некоторые обычные поисковые серверы. Например, «Рамблер» (http://ftpsearch.rambler.ru/db/ftpsearch/ ) или уже упоминавшийся в контексте поиска веб-страниц метапоисковый сервер MetaBot.ru (www.metabot.ru ). Кроме того, существуют специализированные поисковые системы, ориентированные исключительно на поиск по FTP-серверам. Самая известная из российских – FileSearch.ru (www.filesearch.ru ). Один из наиболее мощных зарубежных FTP-поисковиков – FreewareWeb (www.freewareweb.com ).

Рассмотрим возможности таких поисковых серверов на примере FileSearch.ru (работа остальных FTP-поисковиков, в том числе англоязычных, строится схожим образом).

Главная страница FileSearch.ru, как и большинства поисковиков, выглядит достаточно просто, правда, изобилует рекламой. Кроме собственно строки поиска присутствует раскрывающийся список, в котором можно выбрать тип файлов для поиска из следующих вариантов:

файл/каталог – поиск по всем файлам и папкам;

музыка (mp3) – поиск MP3-музыки;

изображения – поиск картинок;

видео – поиск видеофайлов;

сервер – поиск FTP-сервера.

Еще в одном раскрывающемся списке можно выбрать географические границы поиска: в России или по всем (то есть по всему миру). Задав необходимые параметры, следует набрать имя нужного файла или его часть и нажать кнопку Найти – результаты поиска появляются практически мгновенно.

Совет

Имя файла можно задавать, используя спецсимволы * и?, которые означают соответственно любую группу символов и любой одиночный символ.

На главной странице поискового сервера есть также ссылка Драйверы , перейдя по которой можно попасть на страницу поиска драйверов для различных устройств компьютера. Выбрав тип устройства и его производителя, нужно будет указать конкретную модель, в результате чего появятся ссылки на найденные драйверы, хранящиеся на FTP-серверах.

Как и большинство уважающих себя поисковиков, FileSearch.ru обеспечивает возможность расширенного поиска. Перейдя на главной странице поиска по ссылке Расширенный поиск , можно попасть на страницу (рис. 3.9), где можно изменять некоторые параметры поиска файлов.



Рис. 3.9. Страница расширенного поиска сервера FileSearch.ru


Данная страница практически не содержит настроек, требующих пояснения. Среди возможностей следует отметить отключение показа в результатах поиска файлов, предназначенных для использования на системах семейства Unix. Целесообразно пользоваться этой возможностью, когда нужно найти файлы для Windows, чтобы не перегружать результаты поиска лишними данными. Полезной иногда бывает возможность ограничения размера файла, если, например, известно, что искомый файл не может быть менее определенного размера или чтобы отбросить слишком большие файлы, загрузка которых на компьютер может потребовать больших временных затрат.

Есть на FileSearch.ru и свой язык поисковых запросов, который в общих чертах похож на языки традиционных поисковиков, поэтому подробно на нем останавливаться не будем. Ознакомиться с перечнем команд языка можно по адресу www.filesearch.ru/help/regexp.html .

Напомню, что для загрузки файлов с FTP-сервера понадобится одна из программ FTP-клиентов (см. гл. 2, разд. «Загрузка и выгрузка файлов посредством FTP»).

Подводя итог рассказу о возможностях поиска в Интернете, стоит упомянуть еще об одном новом явлении в Сети – визуальном поиске, суть которого в наглядном и красочном представлении результатов поиска.

Отмечу также, что для успешного поиска от пользователя требуется приобретение некоторых навыков. Кроме того, помните: «Кто ищет, тот всегда найдет!»