Лекция Информационно-поисковые системы (дисциплины Информационные технологии, Основы компьютерного моделирования)
Чтобы посмотреть этот PDF файл с форматированием и разметкой, скачайте файл и откройте на своем компьютере.
Подготовила: Киселева И.В.
1
Теория по теме
«Информационно
-
поисковые системы»
С каждым годом объемы сети Интернет увеличиваются в разы, поэтому в
е-
роятность найти необходимую информацию резко возрастает. Интернет объед
и-
няет миллионы компьютеров, множество разных сетей, число поль
зователей ув
е-
личивается на 15
-
80% ежегодно. И, тем не м
е
нее, все чаще при обращении к сети
Интернет основной проблемой оказывается не отсутствие искомой информации, а
возможность ее найти. Как правило, обычный человек в силу разных обстоятел
ь-
ств не может и
ли не хочет тратить на поиск нужного ему ответа больше 15
-
20 м
и-
нут. Поэтому особенно актуально правильно и грамотно научиться, где и как и
с-
кать, чтобы получать жела
е
мые ответы.
Чтобы найти нужную информацию, необходимо найти её адрес. Для этого
существуют
специализированные поисковые сервера (роботы индексов (поиск
о-
вые системы), тематические Интернет
-
каталоги, системы мета
-
поиска, службы
поиска людей и т.д.). Рассмотрим основные технологии поиска информации в И
н-
тернете, общие черты поиск
о
вых инструментов, с
труктуры поисковых запросов
для наиболее популярных русскоязычных и англоязычных поисковых с
и
стем.
1.
Понятие и виды информационно
-
поисков
ых
систем
ИПС (информационно
-
поисковая система)
-
это система, обесп
е-
чивающая поиск и отбор необходимых данных в спец
иальной базе с описани
я-
ми источников информации (
индексе
) на о
с
нове информационно
-
поискового
языка и соответствующих правил пои
с
ка.
Главной задачей любой ИПС является поиск информации
,
релевантной информацио
н-
ным потребностям пользователя. Очень важно в ре
зультате проведенн
о
го поиска ничего не
потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего.
Поэтому вводится качественная характеристика процедуры поиска
–
реле
вантность
-
это соо
т-
ветствие результатов поиска сформулирова
нному запр
о
су.
Основными показателями ИПС для WWW являются пространственный масштаб и сп
е-
циализация. По пространственному масштабу ИПС можно разделить на локальные, глобал
ь-
ные, региональные и специализированные.
2
|
Страница
Локальные
поисковые системы могут быть ра
з
р
аботаны для быстрого поиска страниц
в масштабе отдельного сервера.
Региональные
ИПС описывают информационные ресурсы определенного региона,
например, русскоязычные страницы в Интернете.
Глобальные
поисковые системы в отличие от локальных стремятся по воз
можности
наиболее полно описать ресурсы всего информационного пр
о
странства сети Интернет.
2.
Поисковые инструменты
Web
-
технология World Wide Web (WWW) считается специальной технолог
и-
ей по
д
готовки и размещения документов в сети Интернет. В состав WWW входят
web
-
страницы, электронные библиотеки, каталоги, вирту
альные музеи и т.д.
При
таком обилии инфо
р
мации остро встает вопрос: «Как сориентироваться в столь
огромном и масштабном информационном пространстве
?
»
В решении данной
проблемы
используются
поисковые и
н
струменты.
Поисковые инструменты
-
это особое программное обеспечение, о
с-
новная цель которого
–
обеспечить наиболее оптимальный и качественный
поиск информации для пол
ь
зователей Интернета.
Поисковые инструменты размещаются на специальных веб
-
серверах,
каждый из кот
о-
рых выполняет определенную фун
к
цию:
1.
Анализ веб
-
страниц и занесение результатов анализа на тот или иной уровень базы
данных поискового сервера.
2.
Поиск информации по запросу пользователя.
3.
Обеспечение удобного интерфейса для поиска информации и
просмотра резул
ь
тата
поиска пользоват
е
лем.
Интерфейс поискового инструмента
-
страниц
а
с гиперссылками,
строкой подачи запроса (строкой поиска) и инструментами активизации
запр
о
са.
Индекс поисковой системы
–
это информационная база, содерж
а-
щая резуль
тат анализа
Web
-
страниц, составленная по определенным прав
и-
лам.
Запрос
–
это ключевое слово или фраза, которую вводит пользов
а-
тель в строку поиска.
3
|
Страница
Для формирования различных запросов используются специальные симв
о-
лы ("", , ~), м
а
тематические симв
олы (*, +, ?).
Схема поиска информации в сети Интернет проста. Пользователь набирает
ключ
е
вую фразу и активизирует поиск, тем самым получает подборку документов
по сформулированному (заданному) запросу. Этот список документов ранжируе
т-
ся по определенным кр
итериям так, чтобы вверху списка оказались те документы,
которые наиболее соответствуют запросу пользователя. Каждый из поисковых и
н-
струментов использует различные критерии ранжирования документов, как при
анализе результатов поиска, так и при формировании
индекса (наполнении и
н-
дексной базы данных web
-
страниц).
Таким образом, если указать в строке поиска для каждого поискового и
н-
струмента одинаковой конструкции запрос, можно получить различные результ
а-
ты поиска. Для пользователя имеет большое значение, каки
е документы окажутся
в первых двух
-
трех д
е
сятках документов по результатам поиска и насколько эти
документы соответствуют ож
и
даниям пользователя.
Большинство поисковых инструментов предлагают два способа поиска
–
simple search
(простой поиск) и
advanced se
arch
(расширенный поиск) с использ
о-
ванием специальной формы запр
о
са и без нее.
Освоение критериев уточнения запроса и приемов расширенного поиска,
позволяет увеличивать эффективность поиска и достаточно быстро найти необх
о-
димую информацию. Прежде вс
е
го, у
величить эффективность поиска
можно
за
счет использования в запросах логических операторов (операций) Or, And, Near,
Not, математических и спец
и
альных символов.
В общем случае, можно выделить следующие
поисковые инструменты
для WWW: кат
а-
логи, поисковые
системы, метапоисковые системы.
Каталог
-
поисковая система с классифицированным по темам списком
аннотаций со ссылками на
Web
-
ресурсы (классификация, как правило, пров
о-
дится людьми).
Поиск в каталоге очень удобен и проводится посредством последовательн
ого уточнения
тем. Тем не менее, каталоги поддерживают возможность быстрого поиска определенной кат
е-
гории или страницы по ключевым словам с помощью локальной поисковой машины. База
данных ссылок (индекс) каталога обычно имеет ограниченный объем, заполняетс
я вручную
персоналом каталога. Некоторые каталоги используют автоматическое обно
в
ление индекса.
Результат поиска в каталоге представляется в виде списка, состоящего из краткого оп
и-
сания (аннотации) документов с гипертекстовой ссылкой на первоисточник.
4
|
Страница
Прим
ером тематического русскоязычного каталога можно назвать ресурс
http://www.ulitka.ru/
.
На главной странице данного сайта расположен тематический рубрик
а-
тор, с помощью которого польз
о
ватель попадает в рубрику со ссылками на интересующую его
продукцию.
Кр
оме того, некоторые тематические каталоги позволяют искать по ключевым словам.
Пол
ь
зователь вводит необходимое ключевое слово в строку поиска
и получает список ссылок с
описаниями сайтов, которые наиболее полно соответствуют его запросу.
5
|
Страница
Поисковая машин
а
-
поисковая система с формируемой роботом б
а-
зой данных, соде
р
жащей информацию об информационных ресурсах
.
Отличительной чертой поисковых машин является тот факт, что база данных, содерж
а-
щая информацию об Web
-
страницах, статьях Usenet и т.д., формируется
програ
м
мой
-
роботом.
Поиск в такой системе проводится по запросу, составляемому пользователем, состоящ
е
му из
набора ключевых слов или фразы, заключенной в кавычки. Индекс формируется и поддерж
и-
вается в актуальном состоянии роботами
-
индексировщиками.
В опис
ании документа чаще всего содержится несколько первых предложений или в
ы-
держки из текста документа с выделением ключевых слов. Как правило, указана дата обновл
е-
ния (проверки) документа, его размер в килобайтах, некоторые системы определяют язык д
о-
ку
мента и его кодировку (для русскоязы
ч
ных документов).
Если название и описание документа соответствует требованиям
пользователя
, можно
перейти к его первоисточнику по ссылке. Это удобнее делать в новом окне, чтобы иметь во
з-
можность далее анализировать резу
льтаты выдачи. Многие поисковые системы позволяют
проводить поиск в найденных документах, причем
можно
уточнить запрос введением допо
л-
нительных терминов. Если интеллектуальность системы высока,
может быть
предлож
ена
усл
у-
г
а
поиска похожих документов. Некото
рые поисковики позволяют провести пересортировку
результатов.
К наиболее известным машинам веб
-
поиска относятся Google, Yahoo, Alta Vista, Excite,
Hot Bot, Lycos. Среди русскоязычных можно выделить Яndex, Rambler.
М
етапоисковые системы
(поисковые службы)
-
системы, спосо
б-
ные послать запросы пользователя одновременно нескольким поисковым се
р-
верам, затем объединить полученные результаты и представить их польз
о-
вателю в виде документа со ссылками.
Наиболее популярная в мире система мета
-
поиска
Search.com
.
6
|
Страница
Объединенный поисковый сервер Search.com компании CNET, Inc. включает в себя п
о-
чти два десятка пои
с
ковых систем
.
О
трицательной стороной
метапоисковых
систем мо
ж
но назвать их нестабильность.
Кроме основных поисковых инструментов можно представить еще нескол
ько:
Подборки ссылок
–
это отсортированные по темам ссылки. Они достаточно сильно
отличаются друг от друга по наполнению, поэтому чтобы найти подборку, наиболее полно о
т-
вечающую интересам
пользователя
, необходимо ходить по ним самостоятельно,
чтобы
сост
а-
ви
ть собственное мнение.
Преимуществом такого вида поисковых инструментов является их целенаправле
н
ность
.
О
бы
ч
но подборка включает в себя редкие интернет
-
р
есурсы, подобранные конкретным
Web
-
мастером или хозяином интернет
-
странички.
Базы данных адресов
–
это
специальные поисковые сервера, которые обычно и
с-
польз
у
ют классификации по роду деятельности, по выпускаемой продукции и оказываемым
услугам, по географическому признаку. Иногда они дополнены поиском по алфавиту. В зап
и-
сях базы данных хранится информация о
сайтах, которые предоставляют информацию об
электронном а
д
ресе, организации и почтовом адресе за определенную плату.
Крупнейшей англоязычной базой данных адресов можно назвать
http://www.lookup.com/
-
пред
ставляет собой рубрикатор со множеством поддиректорий
, п
о-
падая в
которые
, пользователь обнаруживает ссылки на сайты, которые и предлагают интер
е-
сующую его и
н
формацию.
Gopher
–
это взаимосвязанная система серверов (Gopher
-
пространство), распределе
н-
ная по
Интернет.
В пространстве Gopher собрана богатейшая литературная библиотека, однако
материалы недоступны для просмотра в удаленном режиме: пользователь может только пр
о-
сматривать иерархически организованное оглавление и выбирать файл по названию. С пом
о-
щью
специальной программы (Veronica) такой поиск можно сделать и автоматически, испол
ь-
зуя запросы, п
о
строенные на ключевых словах.
До 1995 года Gopher являлся самой динамичной технологией Интернет: темпы роста
числа соответствующих серверов опережали темпы ро
ста серверов всех других типов Инте
р-
нет.
7
|
Страница
Система поиска FTP
-
файлов
–
это особый тип средств поиска в Internet, который
позволяет находить файлы, доступные на «анонимных» FTP
-
серверах. Протокол FTP предн
а-
значен для передачи по сети файлов, и в этом смысле о
н функционально является своеобра
з-
ным ан
а
логом Gopher.
Основным критерием поиска является название файла, задаваемое разными способами
(точное соотве
т
ствие, подстрока, регулярное выражение и т.д.). Данный тип поиска не может
соперничать по возможностям с п
оисковыми машинами, так как содержимое файлов никак не
учитывается при поиске, а файлам
можно давать произвольные имена. Тем не менее, если тр
е-
буется найти какую
-
нибудь известную программу или описание стандарта, то с большой долей
вероятности файл, его со
держащий, будет иметь соответствующее имя, и
можно
найти его при
п
о
мощи одного из серверов
FTP Search
:
File
Search ищет файлы на FTP
-
серверах по именам самих файлов и каталогов. Если
пользователь ищет
какую
-
либо программу или еще что
-
то, то на WWW
-
серверах
он
на
ходит
их
описание, а с FTP
-
серверов
можно
перекачать их к себе.
–
это система телеконференций сообщества сетей Интернет.
С точки
зрения абонента телеконференции, USENET представляют из себя доску объя
в
лений, в кот
о-
рой есть разделы, где можно найти статьи на любую тему
-
от политики до сад
о
водства. Эта
доска о
бъявлений доступна через компьютер, подобно электронной почте. Не о
т
ходя от ко
м-
пьютера, можно читать или пом
е
щать статьи в ту или иную конференцию, найти полезный с
о-
вет или вступать в дискуссии. Естественно, статьи занимают место на компьют
е
рах, поэтому не
хранятся вечно, а периодически уничтожаются, освобо
ж
дая место для новых. Во всем мире
лучшим сервисом для поиска информации в конференциях Usenet является се
р
вер
Google
Groups
(Google Inc.).
Группы Google
–
это бесплатное интерактивное сообщество и служба
групп обсуждений,
которая предлагает самый обширный в Интернете архив сообщений сети Usenet (более ми
л-
лиарда сообщений).
Среди русскоязычных выделяется сервер
Всемирная система USENET
и
телеконфере
н-
ции Relcom
. Точно также как и в других поисковых службах, пользователь набирает строку
з
а-
проса, а сервер формирует список конференций, содержащих ключевые слова. Далее надо
подп
и
саться на отобранные конференции в программе работы с новостями. Также имеет место
аналогичный российский сервер FidoNet Online:
конфере
н
ции Fido
на WWW.
8
|
Страница
Системы поиска людей
–
это специальные сервера, которые позволяют осуществлять
поиск людей в Интернет, пользователь может указать Ф.И.О. человека и получить его адрес
электронной почты и URL
-
адрес. Однако
следует отметить, что системы пои
ска людей, в о
с-
новном, берут информацию об электронных адресах из открытых источников, таких как ко
н-
ференции Usenet. Среди самых известных сис
тем поиска людей можно выделить
WhoWhere?
-
поиск адресов e
-
mail
.
Итак,
единой опт
и
мальной схемы поиска информации в Интернет не существует. В з
а-
в
и
с
и
мости от специфики нужной
информации
пользователь
может
использовать соотве
т
ств
у-
ю
щие п
о
и
с
ковые инструмен
ты и службы. А от того, как грамотно будут подобраны пои
с
ковые
слу
ж
бы, з
а
висит качество р
е
зультатов поиска.