Лекция Информационно-поисковые системы (дисциплины Информационные технологии, Основы компьютерного моделирования)


Чтобы посмотреть этот PDF файл с форматированием и разметкой, скачайте файл и откройте на своем компьютере.
Подготовила: Киселева И.В. 1 Теория по теме «Информационно - поисковые системы» С каждым годом объемы сети Интернет увеличиваются в разы, поэтому в е- роятность найти необходимую информацию резко возрастает. Интернет объед и- няет миллионы компьютеров, множество разных сетей, число поль зователей ув е- личивается на 15 - 80% ежегодно. И, тем не м е нее, все чаще при обращении к сети Интернет основной проблемой оказывается не отсутствие искомой информации, а возможность ее найти. Как правило, обычный человек в силу разных обстоятел ь- ств не может и ли не хочет тратить на поиск нужного ему ответа больше 15 - 20 м и- нут. Поэтому особенно актуально правильно и грамотно научиться, где и как и с- кать, чтобы получать жела е мые ответы. Чтобы найти нужную информацию, необходимо найти её адрес. Для этого существуют специализированные поисковые сервера (роботы индексов (поиск о- вые системы), тематические Интернет - каталоги, системы мета - поиска, службы поиска людей и т.д.). Рассмотрим основные технологии поиска информации в И н- тернете, общие черты поиск о вых инструментов, с труктуры поисковых запросов для наиболее популярных русскоязычных и англоязычных поисковых с и стем. 1. Понятие и виды информационно - поисков ых систем ИПС (информационно - поисковая система) - это система, обесп е- чивающая поиск и отбор необходимых данных в спец иальной базе с описани я- ми источников информации ( индексе ) на о с нове информационно - поискового языка и соответствующих правил пои с ка. Главной задачей любой ИПС является поиск информации , релевантной информацио н- ным потребностям пользователя. Очень важно в ре зультате проведенн о го поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска – реле вантность - это соо т- ветствие результатов поиска сформулирова нному запр о су. Основными показателями ИПС для WWW являются пространственный масштаб и сп е- циализация. По пространственному масштабу ИПС можно разделить на локальные, глобал ь- ные, региональные и специализированные. 2 | Страница Локальные поисковые системы могут быть ра з р аботаны для быстрого поиска страниц в масштабе отдельного сервера. Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете. Глобальные поисковые системы в отличие от локальных стремятся по воз можности наиболее полно описать ресурсы всего информационного пр о странства сети Интернет. 2. Поисковые инструменты Web - технология World Wide Web (WWW) считается специальной технолог и- ей по д готовки и размещения документов в сети Интернет. В состав WWW входят web - страницы, электронные библиотеки, каталоги, вирту альные музеи и т.д. При таком обилии инфо р мации остро встает вопрос: «Как сориентироваться в столь огромном и масштабном информационном пространстве ? » В решении данной проблемы используются поисковые и н струменты. Поисковые инструменты - это особое программное обеспечение, о с- новная цель которого – обеспечить наиболее оптимальный и качественный поиск информации для пол ь зователей Интернета. Поисковые инструменты размещаются на специальных веб - серверах, каждый из кот о- рых выполняет определенную фун к цию: 1. Анализ веб - страниц и занесение результатов анализа на тот или иной уровень базы данных поискового сервера. 2. Поиск информации по запросу пользователя. 3. Обеспечение удобного интерфейса для поиска информации и просмотра резул ь тата поиска пользоват е лем. Интерфейс поискового инструмента - страниц а с гиперссылками, строкой подачи запроса (строкой поиска) и инструментами активизации запр о са. Индекс поисковой системы – это информационная база, содерж а- щая резуль тат анализа Web - страниц, составленная по определенным прав и- лам. Запрос – это ключевое слово или фраза, которую вводит пользов а- тель в строку поиска. 3 | Страница Для формирования различных запросов используются специальные симв о- лы ("", , ~), м а тематические симв олы (*, +, ?). Схема поиска информации в сети Интернет проста. Пользователь набирает ключ е вую фразу и активизирует поиск, тем самым получает подборку документов по сформулированному (заданному) запросу. Этот список документов ранжируе т- ся по определенным кр итериям так, чтобы вверху списка оказались те документы, которые наиболее соответствуют запросу пользователя. Каждый из поисковых и н- струментов использует различные критерии ранжирования документов, как при анализе результатов поиска, так и при формировании индекса (наполнении и н- дексной базы данных web - страниц). Таким образом, если указать в строке поиска для каждого поискового и н- струмента одинаковой конструкции запрос, можно получить различные результ а- ты поиска. Для пользователя имеет большое значение, каки е документы окажутся в первых двух - трех д е сятках документов по результатам поиска и насколько эти документы соответствуют ож и даниям пользователя. Большинство поисковых инструментов предлагают два способа поиска – simple search (простой поиск) и advanced se arch (расширенный поиск) с использ о- ванием специальной формы запр о са и без нее. Освоение критериев уточнения запроса и приемов расширенного поиска, позволяет увеличивать эффективность поиска и достаточно быстро найти необх о- димую информацию. Прежде вс е го, у величить эффективность поиска можно за счет использования в запросах логических операторов (операций) Or, And, Near, Not, математических и спец и альных символов. В общем случае, можно выделить следующие поисковые инструменты для WWW: кат а- логи, поисковые системы, метапоисковые системы. Каталог - поисковая система с классифицированным по темам списком аннотаций со ссылками на Web - ресурсы (классификация, как правило, пров о- дится людьми). Поиск в каталоге очень удобен и проводится посредством последовательн ого уточнения тем. Тем не менее, каталоги поддерживают возможность быстрого поиска определенной кат е- гории или страницы по ключевым словам с помощью локальной поисковой машины. База данных ссылок (индекс) каталога обычно имеет ограниченный объем, заполняетс я вручную персоналом каталога. Некоторые каталоги используют автоматическое обно в ление индекса. Результат поиска в каталоге представляется в виде списка, состоящего из краткого оп и- сания (аннотации) документов с гипертекстовой ссылкой на первоисточник. 4 | Страница Прим ером тематического русскоязычного каталога можно назвать ресурс http://www.ulitka.ru/ . На главной странице данного сайта расположен тематический рубрик а- тор, с помощью которого польз о ватель попадает в рубрику со ссылками на интересующую его продукцию. Кр оме того, некоторые тематические каталоги позволяют искать по ключевым словам. Пол ь зователь вводит необходимое ключевое слово в строку поиска и получает список ссылок с описаниями сайтов, которые наиболее полно соответствуют его запросу. 5 | Страница Поисковая машин а - поисковая система с формируемой роботом б а- зой данных, соде р жащей информацию об информационных ресурсах . Отличительной чертой поисковых машин является тот факт, что база данных, содерж а- щая информацию об Web - страницах, статьях Usenet и т.д., формируется програ м мой - роботом. Поиск в такой системе проводится по запросу, составляемому пользователем, состоящ е му из набора ключевых слов или фразы, заключенной в кавычки. Индекс формируется и поддерж и- вается в актуальном состоянии роботами - индексировщиками. В опис ании документа чаще всего содержится несколько первых предложений или в ы- держки из текста документа с выделением ключевых слов. Как правило, указана дата обновл е- ния (проверки) документа, его размер в килобайтах, некоторые системы определяют язык д о- ку мента и его кодировку (для русскоязы ч ных документов). Если название и описание документа соответствует требованиям пользователя , можно перейти к его первоисточнику по ссылке. Это удобнее делать в новом окне, чтобы иметь во з- можность далее анализировать резу льтаты выдачи. Многие поисковые системы позволяют проводить поиск в найденных документах, причем можно уточнить запрос введением допо л- нительных терминов. Если интеллектуальность системы высока, может быть предлож ена усл у- г а поиска похожих документов. Некото рые поисковики позволяют провести пересортировку результатов. К наиболее известным машинам веб - поиска относятся Google, Yahoo, Alta Vista, Excite, Hot Bot, Lycos. Среди русскоязычных можно выделить Яndex, Rambler. М етапоисковые системы (поисковые службы) - системы, спосо б- ные послать запросы пользователя одновременно нескольким поисковым се р- верам, затем объединить полученные результаты и представить их польз о- вателю в виде документа со ссылками. Наиболее популярная в мире система мета - поиска Search.com . 6 | Страница Объединенный поисковый сервер Search.com компании CNET, Inc. включает в себя п о- чти два десятка пои с ковых систем . О трицательной стороной метапоисковых систем мо ж но назвать их нестабильность. Кроме основных поисковых инструментов можно представить еще нескол ько: Подборки ссылок – это отсортированные по темам ссылки. Они достаточно сильно отличаются друг от друга по наполнению, поэтому чтобы найти подборку, наиболее полно о т- вечающую интересам пользователя , необходимо ходить по ним самостоятельно, чтобы сост а- ви ть собственное мнение. Преимуществом такого вида поисковых инструментов является их целенаправле н ность . О бы ч но подборка включает в себя редкие интернет - р есурсы, подобранные конкретным Web - мастером или хозяином интернет - странички. Базы данных адресов – это специальные поисковые сервера, которые обычно и с- польз у ют классификации по роду деятельности, по выпускаемой продукции и оказываемым услугам, по географическому признаку. Иногда они дополнены поиском по алфавиту. В зап и- сях базы данных хранится информация о сайтах, которые предоставляют информацию об электронном а д ресе, организации и почтовом адресе за определенную плату. Крупнейшей англоязычной базой данных адресов можно назвать http://www.lookup.com/ - пред ставляет собой рубрикатор со множеством поддиректорий , п о- падая в которые , пользователь обнаруживает ссылки на сайты, которые и предлагают интер е- сующую его и н формацию. Gopher – это взаимосвязанная система серверов (Gopher - пространство), распределе н- ная по Интернет. В пространстве Gopher собрана богатейшая литературная библиотека, однако материалы недоступны для просмотра в удаленном режиме: пользователь может только пр о- сматривать иерархически организованное оглавление и выбирать файл по названию. С пом о- щью специальной программы (Veronica) такой поиск можно сделать и автоматически, испол ь- зуя запросы, п о строенные на ключевых словах. До 1995 года Gopher являлся самой динамичной технологией Интернет: темпы роста числа соответствующих серверов опережали темпы ро ста серверов всех других типов Инте р- нет. 7 | Страница Система поиска FTP - файлов – это особый тип средств поиска в Internet, который позволяет находить файлы, доступные на «анонимных» FTP - серверах. Протокол FTP предн а- значен для передачи по сети файлов, и в этом смысле о н функционально является своеобра з- ным ан а логом Gopher. Основным критерием поиска является название файла, задаваемое разными способами (точное соотве т ствие, подстрока, регулярное выражение и т.д.). Данный тип поиска не может соперничать по возможностям с п оисковыми машинами, так как содержимое файлов никак не учитывается при поиске, а файлам можно давать произвольные имена. Тем не менее, если тр е- буется найти какую - нибудь известную программу или описание стандарта, то с большой долей вероятности файл, его со держащий, будет иметь соответствующее имя, и можно найти его при п о мощи одного из серверов FTP Search : File Search ищет файлы на FTP - серверах по именам самих файлов и каталогов. Если пользователь ищет какую - либо программу или еще что - то, то на WWW - серверах он на ходит их описание, а с FTP - серверов можно перекачать их к себе. – это система телеконференций сообщества сетей Интернет. С точки зрения абонента телеконференции, USENET представляют из себя доску объя в лений, в кот о- рой есть разделы, где можно найти статьи на любую тему - от политики до сад о водства. Эта доска о бъявлений доступна через компьютер, подобно электронной почте. Не о т ходя от ко м- пьютера, можно читать или пом е щать статьи в ту или иную конференцию, найти полезный с о- вет или вступать в дискуссии. Естественно, статьи занимают место на компьют е рах, поэтому не хранятся вечно, а периодически уничтожаются, освобо ж дая место для новых. Во всем мире лучшим сервисом для поиска информации в конференциях Usenet является се р вер Google Groups (Google Inc.). Группы Google – это бесплатное интерактивное сообщество и служба групп обсуждений, которая предлагает самый обширный в Интернете архив сообщений сети Usenet (более ми л- лиарда сообщений). Среди русскоязычных выделяется сервер Всемирная система USENET и телеконфере н- ции Relcom . Точно также как и в других поисковых службах, пользователь набирает строку з а- проса, а сервер формирует список конференций, содержащих ключевые слова. Далее надо подп и саться на отобранные конференции в программе работы с новостями. Также имеет место аналогичный российский сервер FidoNet Online: конфере н ции Fido на WWW. 8 | Страница Системы поиска людей – это специальные сервера, которые позволяют осуществлять поиск людей в Интернет, пользователь может указать Ф.И.О. человека и получить его адрес электронной почты и URL - адрес. Однако следует отметить, что системы пои ска людей, в о с- новном, берут информацию об электронных адресах из открытых источников, таких как ко н- ференции Usenet. Среди самых известных сис тем поиска людей можно выделить WhoWhere? - поиск адресов e - mail . Итак, единой опт и мальной схемы поиска информации в Интернет не существует. В з а- в и с и мости от специфики нужной информации пользователь может использовать соотве т ств у- ю щие п о и с ковые инструмен ты и службы. А от того, как грамотно будут подобраны пои с ковые слу ж бы, з а висит качество р е зультатов поиска.