Реферат: Автоматизированные информационно – поисковые системы
Министерство образования Российской Федерации.
Адыгейский Государственный университет
Курсовая.
На тему «Автоматизированные информационно – поисковые системы».
Выполнил
студент группы
Проверил
2004г.
СОДЕРЖАНИЕ
Введение ……………………………………………………………………3
1. Информационные системы…………………………………….4
Понятие информационных систем………………………………………4
Структура информационных систем……………………………………4
Классификация информационных систем……………………………..6
2. Информационно поисковые системы…………………………7
Исторические предпосылки развития поисковых систем……………7
Понятие поисковых систем………………………………………………..9
Особенности поисковых систем…………………………………………10
· структура сети…………………………………………………….11
· структура работы поисковых систем…………………………..13
3. Характеристика поисковых систем……………………………17
4. проблемы и возможности поисковых систем…………………24
Заключение………………………………………………………………….25
Список литературы…………………………………………………………26
ВВЕДЕНИЕ.
Современный этап развития цивилизации характеризуется переходом наиболее развитой части человечества от индустриального общества к информационному. Одним из наиболее ярких явлений этого процесса является возникновение и развития глобальной информационной компьютерной сети.
В данной курсовой работе рассматриваются теоретические основы информационного поиска, классификация и разновидности информационно поисковых систем. Представлен материал по применяемым в настоящее время информационно – поисковым каталогом полнотекстовыми и гипертекстовым поисковым системам.
При появлении сети Интернет проблема поиска становилась более актуальной. Интернет – всемирная компьютерная сеть, представляющая собой единую информационную среду и позволяющая получить информацию в любое время. Но с другой стороны в Интернете храниться очень много полезной информации, но для поиска её требуется затрачивать много времени. Эта проблема послужила поводом к появлению поисковых машин. В данной курсовой работе будут рассмотрены поисковые машины в Интернете.
ИНФОРМАЦИОННЫЕ СИСТЕМЫ
Понятие информационных систем
Под Информационная системой понимается организованная совокупность программно – технических и других вспомогательных средств, технологических процессов и функционально – определенных групп работников, обеспечивающих сбор, представление и накопление информационных ресурсов в определённой предметной области, поиск и выдачу сведений необходимых для удовлетворения информационных потребностей пользователей. Информационных системы являются основным средством, инструментарием решения задач информационного обеспечения различных видов деятельности и наиболее бурно развивающейся отраслью индустрии информационных технологий.
Структура информационной системы
В составе информационной системы можно выделить три подсистемы:
1.Организационно – технологическая подсистема сбора информации обеспечивает информационную систему и включает совокупность источников информации, организационно – технологической цепочки отбора информации для накопления в системе. Без правильного организованной подсистемы сбора информации невозможна эффективная организация функционирования все информационной системы в целом.
2. Подсистема предоставления и обработки информации составляет ядро информационной системы и является отражением представления разработчиками и абонентами системы структуры и картины предметной области, сведения о которой должна отражать информационная система. Подсистема представления и обработки информации является одним из наиболее сложных компонентов при разработке информационной системы.
3. Нормативно – функциональная подсистема выдачи информации определяет пользователей, или иначе абонентов системы, реализует целевой аспект назначения и выполнения задач информационной системы.
Основой всех поисковых систем составляют базы данных – совокупность данных организованных по предельным правилам, предусматривающим общие принципы описания, хранения и манипулирования данными, независимо от прикладных программ.
Можно выделить следующие элементы функционирования информационных систем:
*Сбор информации – организованный в специальном порядке процесс сбора и отображения информации:
получение информации
оценка относимости информации
порядок отбора и фиксации информации.
*Комплектование – процесс сложения информации из множества частей в единое целое и доведения её до пользователя.
*Поиск и выдача информации – установление специального технологического порядка удовлетворения информационных потребностей абонентов информационной системы в управленческой деятельности и технологических процессах.
*Поддержание целостности и сохранения информации – пересмотр, ревизия и отсеивание утратившей актуальность информации являются неотъемлемой функцией информационных подразделений. Сохранность информации осуществляется с помощью нормативно – инструктивных документов.
Классификация информационных систем
По характеру предоставления логической организации хранимой информации разделяются на фактографические, документальные и геоинформационные.
Фактографические накапливают и хранят данные в виде множества экземпляров одного или нескольких типов структурных элементов. Каждый из таких экземпляров структурных элементов или некоторая их совокупность отражают сведения, по какому – либо факту, событию. Структура каждого типа информационного объекта состоит из конечного набора реквизитов, отражающих основные аспекты и характеристики сведений для объектов данной предметной области.
В документальных единичным элементом информации является нерасчлененный на более мелкие элементы документ и информация при вводе, как правило, не структурируются, или структурируются в ограниченном виде. Для вводимого документа могут устанавливаться некоторые формализованные позиции – дата изготовления, исполнитель, тематика. Некоторые виды документальных информационных систем обеспечивают установление логической взаимосвязи вводимых документов – соподчиненность по смысловому содержанию.
В геоинформационных данные организованы в виде отдельных информационных объектов привязанных к общей электронной топографической основе. Геоинформационные системы применяются для информационного обеспечения в тех предметных областях, структура информационных объектов и процессов в которых имеется географический компонент.
Другим критерием классификации поисковых систем являются функции или решаемые задачи.
Справочные являются наиболее распространенным типом функций информационных систем, и заключается в предоставлении абонентам системы возможностей получения установочных данных на определённые классы объектов.
Поисковые являются наиболее распространённым классом информационных систем. В общем, виде можно рассматривать как некое информационное пространство, задаваемое в терминах информационно – логического описания предметной области.
Расчетные заключается в обработке информации, находящейся в системе, по определённым расчётным алгоритмам для различных целей.
Технологические функции информационных систем заключаются в автоматизации всего технологического цикла или отдельных его компонентов, производственной или организационной структуры.
ИНФОРМАЦИОННЫЕ ПОИСКОВЫЕ СИСТЕМЫ
Исторические предпосылки развития поисковых систем.
Обратимся к истории возникновения сети Internet, которая была создана в связи с возникшей необходимостью совместного использования информационных ресурсов, распределенных между различными компьютерными системами. Большинство первых приложений, включая FTP и электронную почту, были разработаны исключительно для обмена данными между хост-компьютерами Internet.
Другие приложения, такие как Telnet, создавались для того, чтобы пользователь получил возможность доступа не только к информации, но и к рабочим ресурсам удаленной системы. По мере развития Internet (увеличения пользователей и хост-компьютеров) прежние методы обмена данными перестали отвечать возросшим потребностям пользователей. Возникла необходимость разработки новых способов поиска сетевых ресурсов и доступа к ним, которые позволяли бы использовать информацию независимо от ее формата и расположения.
Для удовлетворения таких потребностей сначала были созданы поисковая система Archie, решающая задачу локализации ресурсов на FTP-сервере, и система Gopher, упрощающая доступ к различным сетевым ресурсам. Затем были разработаны сетевые информационные системы WWW и WAIS, предлагающие абсолютно новые методы получения информации. Принципы работы этих систем позволяют легко ориентироваться в огромном количестве информационных ресурсов без необходимости предоставления механизмов работы самой сети Internet. Такой подход позволяет говорить уже не просто о ресурсах взаимосвязанных компьютерных систем, а об особых информационных пространствах сети.
Система Archie представляет собой комплекс программных средств, работающих со специальными базами данных. В этих базах данных содержится постоянно пополняющаяся информация о файлах, к которым можно получить доступ через сервис FTP. Пользуясь услугами системы Archie, можно осуществить поиск файла по шаблону его имени. При этом пользователь получит список файлов с точным указанием места их хранения в сети, а также с информацией о типе, времени создания и размере файлов. Доступ к информационно-поисковой системе Archie может осуществляться различными путями, начиная от запросов по электронной почте и с помощью сервиса Telnet и заканчивая использованием графических Archie-клиентов.
Система Gopher была разработана для упрощения процесса локализации FTP-ресурсов Internet и для более удобного представления сведений о содержании хранящихся на FTP-серверах файлов. Система Gopher дает возможность в удобной форме (в виде меню) представлять пользователям об имеющихся файлах и их содержании. Меню Gopher-серверов могут содержать ссылки на другие Gopher- и FTP-серверы. Таким образом, пользователь получает возможность “путешествовать” по Internet, не обращая внимания на местонахождение интересующих его ресурсов, и получать доступ к этим ресурсам.
Система Veronica используется для поиска информации в Gopher-пространстве по заголовкам пунктов меню. После ввода ключевого слова, система Veronica выясняет, встречается ли оно в меню на каком-либо Gopher-сервере, и в качестве результатов поиска выдает список заголовков пунктов меню, содержащих ключевое слово. Поскольку система Veronica не является автономной поисковой программой, а тесно связана с системой Gopher, она обладает тем же, что и система Gopher, недостатком: далеко не всегда по заголовку можно сказать, что собой представляет тот или иной информационный ресурс. Достоинства системы заключается в том, что нет необходимости узнавать, где расположена найденная информация, достаточно выбрать требуемую запись из списка.
Понятие информационных поисковых систем.
Автоматизированная поисковая система – система, состоящая из персонала и комплекса средств автоматизации его деятельности, реализующая информационную технологию выполнения установленных функций.
Опыт и практика создания систем в различных сферах деятельности позволяет дать более широкое и универсальное определение, которое полнее отражает все аспекты их сущности.
Под информационной системой в дальнейшем понимается – организованная совокупность программно – технических и других вспомогательных средств, технологических процессов и функционально – определённых групп работников, обеспечивающих сбор, представление и накопление информационных ресурсов в определённой предметной области, поиск и выдачу сведений, необходимых для удовлетворения информационных потребностей установленного контингента пользователей – абонентов системы.
Особенности поисковых систем.
В работе поисковый процесс представлен четырьмя стадиями: формулировка (происходит до начала поиска); действие (начинающийся поиск); обзор результатов (результат, который пользователь видит после поиска); и усовершенствование (после обзора результатов и перед возвращением к поиску с иной формулировкой той же потребности). Более удобная нелинейная схема поиска информации состоит из следующих этапов:
1. Фиксация информационной потребности на естественном языке;
2. Выбор поисковых сервисов сети и формализация записи информационной потребности на конкретных информационно-поисковых языках (ИПЯ);
3. Выполнение созданных запросов;
4. Предварительная обработка полученных списков ссылок на документы;
5. Обращение по выбранным адресам за искомыми документами;
6. Предварительный просмотр содержимого найденных документов;
7.Сохранение релевантных документов для последующего изучения;
8. Извлечение из релевантных документов ссылок для расширения запроса;
9. Изучение всего массива сохраненных документов;
10. Если информационная потребность не полностью удовлетворена, то возврат к первому этапу.
Процесс поиска имеет чрезвычайно глубокий дидактический аспект – так, установлено что применение диалоговых информационных систем приводит к формированию у рядовых пользователей такого стиля информационно-поисковой деятельности, который обычно свойственен наиболее выдающимся ученым.
В большинстве случаев информационная потребность возникает после изучения какой-либо новой информации, полученной пользователем. Часто возникает ситуация, когда пользователь уже обладает некоторым массивом документов по искомой тематике. Предлагается использовать эти документы для автоматизированного составления поискового запроса с помощью специализированной системы управления документами (СУД) [6] (система находится в стадии разработки).
Система должна осуществлять индексацию всех документов пользователя. В процессе индексации все слова, содержащиеся в документах, разбиваются по следующим семантическим классам: стоп-слова; наиболее частотные слова бытового (разговорного) языка; общекультурная терминология; общенаучная терминология; известные системе термины предметной области; неизвестные слова. Разбиение осуществляется на основе соответствующих словарей, которые должны быть составной частью системы. К неизвестным словам будут отнесены в первую очередь многие специальные слова предметной области. Туда же попадут новообразованные термины и слова, содержащие ошибки.
На основе индекса осуществляется построение векторного представления документов, после чего СУД производит иерархическую кластеризацию множества документов, в результате чего получается разбиение этого множества на тематические группы. В ходе диалога с пользователем происходит выбор одного или нескольких наиболее релевантных кластеров документов и задание характеристик поискового процесса.
Поисковый запрос следует строить на основе вектора центроида выбранного кластера. Оптимальный размер запроса составляет от 8-12 до 25-30 терминов [7]. Последняя подготовительная операция, осуществляемая СУД заключается в записи запроса на ИПЯ.
Структура сети.
Как известно, наиболее простой способ расширения информационного поиска в сети Интернет применен в метапоисковых системах и заключается в увеличении количества используемых первичных ИПС. Этот механизм должен быть реализован в любой разрабатываемой системе. Задача распределения ресурсов поисковой системы по различным ИПС глобальной сети должна решаться адаптивно, на основании учета доли ссылок признанных релевантными во время предыдущих сеансов поиска.
Второй блок автоматизированной поисковой системы отправляет созданный запрос и осуществляет сортировку и отбор полученных ссылок, после чего обращается по выбранным адресам и получает из сети некоторое множество документов, также содержащих гиперссылки.
В исследовании [8] показано, что распространенное мнение о хаотичности информационного наполнения глобальной сети и об отсутствии какой-либо структуры связей является заблуждением. Выявлено наличие так называемых “сообществ” – хорошо связанных групп сайтов, содержащих материалы близкой тематики. Выделяются “центральные” страницы – содержащие большие списки ссылок и страницы, на которые ведут многие ссылки, – “авторитетные” страницы. Таким образом, целью 8-го этапа поиска является обнаружение таких групп и выявление среди их членов наиболее “авторитетных”. Как показано в [9], алгоритм решения этой задачи достаточно прост.
Обработка результатов поиска.
После получения в результате поиска в сети некоторого множества документов, среди них необходимо выделить наиболее релевантные. Наличие “сообществ” не облегчает эту задачу. Можно выделить следующие несколько классов наиболее частых ситуаций.
1. Отсутствие в исследуемом сегменте сети искомой информации. Подобная ситуация описана в [10]. В этом случае следует перейти к другому сегменту, т. е. обычно исследовать ресурсы, созданные на других языках.
2. Найденные “сообщества” содержат информацию не по требуемой тематике, а главным образом по другим, близким к искомой.
3. Обнаружено слишком большое количество информационных ресурсов.
В последних двух случаях необходимо осуществить автоматический перебор всех найденных документов и определить степень близости их к исходному запросу. Более 20 метрических мер близости, пригодных для сравнения документов в векторном представлении, рассмотрены в работе [11]. Оптимальное решение задачи ранжирования достигается путем применения системы, основанной на агентно-ориентированном подходе.
Во многих случаях поиска в новой области, когда общий уровень пользователя недостаточно высок, желательно осуществлять фильтрацию выдаваемой информации по стилю текста так, чтобы начальное ознакомление с материалом происходило с использованием популярных и научно-популярных текстов.
Для уменьшения объема рассматриваемых материалов следует также осуществить фильтрацию результатов поиска по типу источников. Так очевидно, что документы, расположенные на научных сайтах, на коммерческих, или на серверах СМИ будут существенно различаться по своему характеру.
Структура работы поисковых систем.
Работа поискового указателя происходит в три этапа, из которых два первых являются подготовительными и незаметны для пользователя. Сначала поисковый указатель собирает информацию из World Wide Web . Для этого используют специальные программы, аналогичные браузеры. Они способны скопировать заданную Web-страницу на сервер поискового указателя, просмотреть ее, найти все гипетэссылки, которые на ней имеютте ресурсы, которые найдены там, снова разыскать имеющиеся в них гиперссылки и т. д. Подобные программы называют червяками, пауками, гусеницами, краулерами, спайдерами и другими подобными именами.’ Каждый поисковый указатель эксплуатирует для этой цели свою уникальную программу, которую нередко сам и разрабатывает. Многие современные поисковые системы родились из экспериментальных проектов, связанных с разработкой и внедрением автоматических программ, занимающихся мониторингом Сети. Теоретически, при удачном входе спайдер способен прочесать все Web-пространство за одно погружение, но на это надо очень много времени, а ему еще необходимо периодически возвращаться к ранее посещенным ресурсам, чтобы контролировать происходящие там изменения и выявлять «мертвые» ссылки, т. е. потерявшие актуальность.
После копирования разысканных Web-ресурсов на сервер поисковой системы начинается второй этап работы — индексация. В ходе индексации создаются специальные базы данных, с помощью которых можно установить, где и когда в Интернете встречалось, то или иное слово. Считайте, что индексированная база данных — это своего рода словарь. Она необходима для того, чтобы поисковая система могла очень быстро отвечать на запросы пользователей. Современные системы способны выдавать ответы за доли секунды, но если не подготовить индексы заранее, то обработка одного запроса будет продолжаться часами.
На третьем этапе происходит обработка запроса клиента и выдача ему результатов поиска в виде списка гиперссылок. Допустим, клиент хочет узнать, где в Интернете имеются Web-страницы, на которых упоминается известный голландский механик, оптик и математик Христиан Гюйгенс. Он вводит слово Гюйгенс в поле набора ключевых слов и нажимает кнопку. Найти (Search). По своим базам указателей поисковая система в доли секунды разыскивает подходящие Web-ресурсы и формирует страницу результатов поиска, на которой рекомендации представлены в виде гиперссылок. Далее клиент может пользоваться этими ссылками для перехода к интересующим его ресурсам.
Все это выглядит достаточно просто, но на самом деле здесь есть проблемы. Основная проблема современного Интернета связана с изобилием Web-страниц. Достаточно ввести в поле поиска такое простое слово, как, например, футбол, и российская поисковая система выдаст несколько тысяч ссылок, сгруппировав их по 10-20 штук на отображаемой странице.
Несколько тысяч — это еще не так много, потому что зарубежная поисковая система в аналогичной ситуации выдала бы сотни тысяч ссылок. Попробуйте найти среди них нужную! Впрочем, для рядового потребителя совершенно все равно, выдадут ему тысячу результатов поиска или миллион. Как правило, клиенты просматривают не более 50 ссылок, стоящих первыми, и что там делается дальше, мало кого беспокоит. Однако клиентов очень и очень беспокоит качество самых первых ссылок. Клиенты не любят, когда в первом десятке встречаются ссылки, утратившие актуальность, их раздражает, когда подряд идут ссылки на соседние файлы одного и того же сервера. Самый же плохой вариант — когда подряд идут несколько ссылок, ведущих к одному и тому же ресурсу, но находящемуся на разных серверах.
Клиент вправе ожидать, что самыми первыми будут стоять наиболее полезные ссылки. Вот здесь и возникает проблема. Человек легко отличает полезный ресурс от бесполезного, но как объяснить это программе?! Поэтому лучшие поисковые системы проявляют чудеса искусственного интеллекта в попытке отсортировать найденные ссылки по качественности их ресурсов. И делать это они должны быстро — клиент не любит ждать.
Строго говоря, все поисковые системы черпают исходную информацию из одного и того же Web-пространства, поэтому исходные базы данных у них могут быть относительно похожи. И лишь на третьем этапе, при выдаче результатов поиска, каждая поисковая система начинает проявлять свои лучшие (или худшие) индивидуальные черты. Операция сортировки полученных результатов называется ранжированием. Каждой найденной Web-странице система присваивает какой-то рейтинг, который должен отражать качество материала. Но качество — понятие субъективное, а программе нужны объективные кри терии, которые можно выразить числами, пригодными для сравнения.
Высокие рейтинги получают Web-страницы, у которых ключевое слово, использованное в, запросе, входит в заголовок. Уровень рейтинга повышается, если это слово встречается на Web-странице несколько раз, но не слишком часто. Благоприятно влияет на рейтинг вхождение нужного слова в первые 5-6 абзацев текста — они считаются самыми важными при индексации. По этой причине опытные Web-мастера избегают давать в начале своих страниц таблицы. Для поисковой системы каждая ячейка таблицы выглядит, как абзац, и потому содержательный основной текст как бы далеко отодвигается назад (хотя на экране это и не заметно) и перестает играть решающую роль для поисковой системы.
Очень хорошо, если ключевые слова, использованные в запросе, входят в альтернативный текст, сопровождающий иллюстрации. Для поисковой системы это верный признак того, что данная страница точно соответствует запросу. Еще одним признаком качества Web-страницы является тот факт, что на нее есть ссылки с каких-то других Web-страниц. Чем их больше, тем лучше. Значит, эта Web-страница популярна и обладает высоким показателем цитирования. Самые совершенные поисковые системы следят за уровнем цитирования зарегистрированных ими Web-страниц и учитывают его при ранжировании.
Создатели Web-страниц всегда заинтересованы в том, чтобы их просматривало больше людей, поэтому они специально готовят страницы так, чтобы поисковые системы давали им высокий рейтинг. Хорошая, грамотная работа Web-мастера способна значительно поднять посещаемость Web-страницы, однако есть и такие «мастера», которые пытаются обмануть поисковые системы и придать своим Web-страницам значимость, которой в них на самом деле нет. Они многократно повторяют на Web-странице какие-то слова или группы слов, а для того чтобы те не попадались на глаза читателю, либо делают их исключительно мелким шрифтом, либо применяют цвет текста, совпадающий с цветом фона. За такие «хитрости» поисковая система может и наказать Web-страницу, присвоив ей штрафной отрицательный рейтинг.
В последние годы сложилась и практика коммерческого рейтингования. Технически они оснащены самыми современными средствами, соответствующими уровню 2000 года, а общий размер Рунета (российского сектора Интернета) сегодня примерно таков, каким был западный сектор в 1994-1995 гг. Поэтому сегодня в России особых проблем с поиском информации нет и в ближайшее время они не предвидятся. А в западном секторе проблемы с поиском очень большие, и разные поисковые системы пытаются по-разному их преодолеть. О том, как это происходит, мы и расскажем.
Из поисковых указателей в России сегодня действуют три «кита» (есть и более мелкие системы, но мы останавливаться на них не будем). Это «Рамблер» (www.rambler. ru), «Яндекс» (www.yandex. ru) и «Апорт2000» (www.aport. ru).
Исторически наиболее популярной поисковой системой является «Рамблер». Она начала работать раньше других и долгое время лидировала по размеру поискового указателя и качеству услуг поиска. Увы, сегодня эти достижения в прошлом. Несмотря на то, что размер поискового указателя «Рамблер» примерно равен 12 миллионам Web-страниц, он давно толком не обновлялся и выдает устаревшие результаты. Сегодня «Рамблер» -это популярный портал, лучшая в России классификационно-рейтинговая система (о том, что это такое, мы расскажем ниже) плюс рекламная площадка. Традиционно эта система держит первое место в России по посещаемости и имеет хорошие доходы от рекламы. Но в развитие средств поиска средства, как мы покажем ниже, не вкладываются.
Самый большой указатель лежит в основе системы «Яндекс» -примерно 27 миллионов Web-страниц, но дело не только в размере. Это не просто указатель на ресурсы, а указатель на самые актуальные ресурсы. По уровню актуальности «Яндекс» сегодня — безусловный лидер (рис. 7.3).
Система «Апорт» выигрывает на третьем этапе: в момент представления информации клиенту. Она не стремится к созданию самого большого указателя автоматическими средствами, а вместо этого широко использует информацию из каталога @Rus, проходящую ручную обработку. Поэтому система выдает не так много результатов, как ее ближайшие конкуренты, но зато эти результаты, как правило, точны и наглядно представлены.
Характеристика поисковых систем.
Начиная поиск чего-либо в Internet и имея минимум информации, а так же пытаясь огранить потери времени, для получения наиболее общей информации возможно обращение к следующей базе данных.
База данных: предмет ведет к Межсетевым ресурсам, построенным библиотекарями.
Содержание: Свыше 2,500 связей с Internet ресурсами, кратко аннотируемыми, с указанными предметными заголовками.
Поиск: Поиски могут быть ограничены названием ресурса, описанием его, или с указанными предметными заголовками.
Результаты: Результаты показаны в алфавитном порядке названиями ресурса.
Адрес: sunsite.berkeley.edu/InternetInd ex/
Частота Модернизации: ежедневно
Yahoo!
Yahoo! – самая известная поисковая машина. Её сайты разбиты по категориям и ключевым словам. Она содержит полезную информацию на своей домашней странице. Может подключаться к другим поисковым машинам
Базы данных: в ведении находится служба поиска Internet-ресурсов, новостей, карт, рекламных информаций, спортивная информация, бизнес, номера телефонов, персональные WWW-страницы, и email-адреса (отдельная база данных).
Содержание: Основная директория содержит: адреса (URLs) для Internet-ресурсов и краткое описание для этих связей.
Поиск: Все Yahoo страницы предлагают не только простое поисковое окно, но и опции для этого поиска, а так же поиск Usenet или Email-адреса. Поиск может ограничиваться указанием определённого промежутка времени. Boolean операторы (и, или) и последовательный поиск также поддержаны. Отметим: если поиск в Yahoo! не привёл к положительному результату, то процесс поиска автоматически переходит на Alta Vista, которая продолжает поиск, и в случае положительных результатов автоматически возвращает найденную информацию в Yahoo!.
Если Yahoo! не может установить связь достаточно быстро с Alta Vista, то в этом случае Yahoo! будет обеспечивать страницу связи с набором инструментов поиска. После того как одна из этих связей выбирается, ключевые слова передаются к поисковой машине на ваше усмотрение.
Средством, облегчающим поиск, является наличие “tip search”(TS) — поиск с помощью “намека”: Yahoo! Является подчиненным справочником, что означает, что система не имеет так много страниц, как поисковые машины, однако задание наиболее общих ключевых слов позволит найти необходимую тему на странице высокого уровня (первая страница, которая возникает перед пользователем при посещении сайта) для организации или компании.
Результаты: Связи отображаются в соответствии с очерёдностью задаваемых слов последовательностью поиска наряду с их описательным текстом и подчиненной иерархией.
Адрес: www.yahoo.com/
Частота Модернизации: ежедневно
Alta Vista
Alta Vista поддерживает поиск по ключевому набору слов и для определения языка конкретной страницы использует методы искусственного интеллекта. Пользователи могут настроить опции поиска и выбирать тип поиска – сложный или упрощенный, а также воспользоваться различными способами предоставления информации. В отличие от машин, которые индексируют только ключевые слова, она индексирует весь текст, что позволяет осуществлять полный поиск. Однако из — за этого пользователь может просто утонуть в информации.
Базы данных: Расположенные по всему миру WWW-страницы и Usenet News (новости).
Содержание: 31 миллион WWW-страниц (на май 1997 г.) и полный текст более чем 14,000 newsgroups обновленный в реальном масштабе времени.
Поиск: Предлагает простой(simple (S)) поиск или (much more advanced (MMS)), т.е. более передовой, способ. S — поиск стоит в основном использовать для общих вопросов, MMS — поиск использует специфический поисковый синтаксис. Для облегчения выполнения процедуры имеется подсказка(Simple Search Help). MMS — поиск, используя булинь(boolean), т.е. с помощью ключевых союзов, используя (and, or, not — (и, или, не)) и простую смежность (near — (около)) позволяет употреблять несколько слов, чередование слов, словосочетание в качестве ключевых для проведения поиска.
TS — поиск: Введением ключа типа: ” Ваша Фраза ” как первое направление поиска, который будет ограничивать число найденных WWW — документов с заголовками типа ” Ваша Фраза “.
Результаты: Предлагает три выбора результатов (но два дают тот же самый результат):
1) «Стандартные»(«Standard») — результаты, полученные машиной в виде списка параграфов, резюмируемые ей, с наличием URL — адреса, размером файла и последней датой модернизации. Результаты возвращаются как десять пунктов на экране,
2) «Компактный»(«Compact») помещают каждый пункт в одной строке с последней датой модернизации картотеки,
3) «Детальный»(«Detailed»), который является таким же самым, как и «Стандартный».
Адрес: altavista.digital.com
Частота модернизации: Постоянно WWW-роботом.
Excite
Для анализа информации Excite использует поисковую технологию IntelligentConceptExtraction, что позволяет делать запросы по образцу. Это самая популярная поисковая система в Америке. Для каждой найденной страницы она оценивает степень соответствия запросу.
Базы данных: WWW-страницы по всему миру, новости, карты, «yellow pages» («желтые страницы»), свободно распространяемое программное обеспечение, основные цитаты, программы телевидения, погоду, E — mail адреса, рейсы авиалиний.
Содержание: 50 миллионов WWW-страниц и больше чем двухнедельный запас Usenet новостей.
Поиск: Предлагает только S — поиск, который поддерживает некоторые опции MMS — поиска.
TS — поиск: используйте плюс (+) чтобы определить, что все документы имеют данное слово, или используют минус (-) что бы уточнить, что ни один из документов не имеет данного слова. Возможно так же поддержка вoolean-операторами.
Вы можете использовать «AND», «OR» and «AND NOT»(И, ИЛИ и. И НЕ) операторы и круглые скобки для группировки. Например: (digital or virtual or electronic) AND library.
(цифровой или виртуальный или электронный) И библиотека.
Результаты: Результаты показаны с названием документа, разряд уместности в процентах, URL — адрес, резюме программного обеспечением документа, и опция, чтобы восстановить «More Like This»(” Скорее Этот “), которая позволяет использовать документ как ваш вопрос.
Адрес: www.excite.com/
Частота Модернизации: Постоянно — WWW-роботом.
Hot Bot
Для поиска в Интернете использует многопроцессорную параллельную обработку 10. млн. страниц ежедневно. Полезная сторона Hot Bot ограничение на тип страниц по средствам выбора кнопок.
База данных: Расположенные по всему миру WWW-страницы.
Содержание: 54 миллиона WWW-страниц (на сентябрь 1996 г.).
Поиск: Предлагает S — поиск и Эксперт(Expert (Е))- поиск, поддерживает boolean-операторы (И и ИЛИ), поиск фразы, и выбор ” человек «или» URL “. Е-поиск также поддерживает задание даты, местоположение (страна и т.д.)
TS — поиск: использует заключение фразы в двойные кавычки (например, ” слова фразы “).
Результаты: Результаты показаны с названием документа, разряд уместности в проценте, URL, размер документа.
Адрес: www.hotbot.com/
Частота модернизации: Постоянно WWW-роботом («Slurp»).
Infoseek
Infoseek самая популярная поисковая машина в компьютерной индустрии. В мае 1996 она была признана как самая достоверно предоставляющая информацию машина. Привлекательность машины в том, что после отсеивания информации можно проверить найденную информацию ещё раз.
Базы данных: расположенные по всему миру WWW-страницы, новости, запасает цитаты, карты, желтые страницы(«yellow pages»), e mail адреса, и т.д.
Содержание: Главный база данных: 50 миллионов URL-адресов. (на сентябрь 1996 г.)
Поиск: предлагает только простой S — поиск, но ключевые слова поиска могут быть ограничены специфическими полями (типа в пределах заголовков документа), поиск с использованием возможностей либо с исключением определённого слова (данному слову предшествует минус”-“) или с включением требуемого слова (данному слову предшествует ” + “). Для дополнительной информации относительно выбора поиска, используется. Infoseek-Помощь(Infoseek Help).
Результаты: Включает название документа, размер картотеки, URL, краткое резюме, извлеченное из документа, и разряд уместности в процентах.
Адрес: www.infoseek.com/
Частота Модернизации: Постоянно WWW-роботом.
Дополнительная информация: в случае большого количества информации см. info.infoseek.com/.
Lycos
Lycos – одна из первых поисковых машин. Машина удобна для работы с поиском и для одновременного просмотра сайтов. При выводе информации показывает краткий обзор, и найденные адреса.
Базы данных: расположенные по всему миру WWW-страницы, звуки, картины, «top 5% sites»
Содержание: 70 миллионов URL-адресов (на март 1997г.).
Поиск: предлагает S — поиск и клиентурный(Custom (С)) поиск. С-поиск поддерживает boolean-операторы AND и OR (И и ИЛИ), также как некоторые другие назначения.
Результаты: результаты внесены в упорядоченный список; информация включает адрес документа (URL), название, размер файла, и выдержки из файла.
Адрес: www.lycos.com/
Частота модернизации: постоянно WWW-роботом.
ПРОБЛЕМЫ И ВОЗМОЖНОСТИ ПОИСКОВЫХ СИСТЕМ.
Работа многих поисковых машин считается вполне успешной. Однако все современные поисковые системы страдают некоторыми серьёзными недостатками:
1. поиск по ключевым словам даёт слишком много ссылок и многие из них бесполезны.
2. огромное количество поисковых машин с разными пользовательскими интерфейсами порождает проблему когнитивной перегрузки.
3. методы индексирования баз данных, как правило, не связаны с информационным содержанием.
4. часто выдаются ссылки на информацию, которой в Интернете уже давно нет.
5. машины ещё не столь совершены, чтобы понимать естественный язык
в последнее время потребности в интеллектуальной помощи быстро растут. Это привело к появлению интеллектуальных агентов.
Обычно интеллектуальные агенты являются основной частью поисковой машины для поиска используется искусственный интеллект. Пользователь учит агента, а затем он выходит в Интернет для поиска.
Интеллектуальные агенты выполняют инструкции от имени пользователя, имеют некоторую самостоятельность. После поиска они оповещают пользователя о результатах. Агенты учатся в результате своей деятельности.
Интеллектуальность – обучение на основе обратной связи по примерам ошибкам и по средствам взаимодействия с другими агентами.
Простота использования – можно тренировать агента используя естественный язык.
Индивидуальный подход – адаптация к предпочтениям пользователей.
Интегрированность – непрерывное обучение применение уже имеющих знаний к новым ситуациям.
Автономность – ощущение окружающей среды, и анализ выводов.
ЗАКЛЮЧЕНИЕ.
Рассмотренные мною поисковые машины далеки от совершенства. Считается, что идеальная поисковая машина должна отвечать следующим требованиям:
1. простота в использовании
2. чётко организованный и обновляемый индекс.
3. быстрый поиск в базе данных и быстрое реагирование.
4. надёжность и точность результатов поиска.
Масштабы информационных ресурсов и их количество постоянно расширяется. Становится ясно, что база данных не является совершенной. Интеллектуальные агенты – новое направление лежащее в основе нового поколения поисковых машин, которые могут фильтровать информацию и получать более точный результат. Internet продолжает развиваться с неослабевающей интенсивностью, по сути дела стирая ограничение на распространение и получение информации в мире. Однако в этом информационном океане бывает не очень легко найти необходимый документ следует также иметь в виду, что в сети наряду с давно действующими серверами возникают новые.
Информационные системы, в которых представлены хранение, и обработка информации осуществляются с помощью вычислительной техники, называют автоматизированными, различные виды деятельности и наиболее буро развивающиеся отраслью индустрии информационных технологий.
Список литературы.
1. Э.А. Якубайтис «Информатика-электроника-сети». М., «Финансы и статистика», 1989.
2.. А. В. Гаврилов «Локальные сети ЭВМ», Москва, Изд-во «Мир», 1990.
3. Н.А. Гайдамакин «Автоматизированные информационные системы, базы и банки данных», М.: «Гелиос», 2002.
Автоматизированные информационно поисковые системы
Контрольная работа
Калининградская высшая школа управления
Калининград 200_
Введение
Современный этап развития цивилизации характеризуется переходом наиболее развитой части человечества от индустриального общества к информационному. Одним из наиболее ярких явлений этого процесса является возникновение и развития глобальной информационной компьютерной сети.
В данной контрольной работе рассматриваются теоретические основы информационного поиска, классификация и разновидности информационно поисковых систем. Представлен материал по применяемым в настоящее время информационно – поисковым каталогом полнотекстовыми и гипертекстовым поисковым системам.
При появлении сети Интернет проблема поиска становилась более актуальной. Интернет – всемирная компьютерная сеть, представляющая собой единую информационную среду и позволяющая получить информацию в любое время. Но с другой стороны в Интернете храниться очень много полезной информации, но для поиска её требуется затрачивать много времени. Эта проблема послужила поводом к появлению поисковых машин. В данной работе будут рассмотрены поисковые машины в Интернете.
1. Понятие автоматизированных информационных поисковых систем
Автоматизированная поисковая система – система, состоящая из персонала и комплекса средств автоматизации его деятельности, реализующая информационную технологию выполнения установленных функций.
Опыт и практика создания систем в различных сферах деятельности позволяет дать более широкое и универсальное определение, которое полнее отражает все аспекты их сущности.
Под информационной системой в дальнейшем понимается – организованная совокупность программно – технических и других вспомогательных средств, технологических процессов и функционально – определённых групп работников, обеспечивающих сбор, представление и накопление информационных ресурсов в определённой предметной области, поиск и выдачу сведений, необходимых для удовлетворения информационных потребностей установленного контингента пользователей – абонентов системы.
1.1.Особенности автоматизированных поисковых систем
В работе поисковый процесс представлен четырьмя стадиями:
1. формулировка (происходит до начала поиска);
2. действие (начинающийся поиск);
3. обзор результатов (результат, который пользователь видит после поиска);
4. усовершенствование (после обзора результатов и перед возвращением к поиску с иной формулировкой той же потребности).
Более удобная нелинейная схема поиска информации состоит из следующих этапов:
Фиксация информационной потребности на естественном языке;
Выбор поисковых сервисов сети и формализация записи информационной потребности на конкретных информационно-поисковых языках (ИПЯ);
Выполнение созданных запросов;
Предварительная обработка полученных списков ссылок на документы;
Обращение по выбранным адресам за искомыми документами;
Предварительный просмотр содержимого найденных документов;
7. Сохранение релевантных документов для последующего изучения;
8. Извлечение из релевантных документов ссылок для расширения запроса;
9. Изучение всего массива сохраненных документов;
10. Если информационная потребность не полностью удовлетворена, то возврат к первому этапу.
Процесс поиска имеет чрезвычайно глубокий дидактический аспект – так, установлено что применение диалоговых информационных систем приводит к формированию у рядовых пользователей такого стиля информационно-поисковой деятельности, который обычно свойственен наиболее выдающимся ученым.
В большинстве случаев информационная потребность возникает после изучения какой-либо новой информации, полученной пользователем. Часто возникает ситуация, когда пользователь уже обладает некоторым массивом документов по искомой тематике. Предлагается использовать эти документы для автоматизированного составления поискового запроса с помощью специализированной системы управления документами (СУД).
1.2.Структура сети
Как известно, наиболее простой способ расширения информационного поиска в сети Интернет применен в метапоисковых системах и заключается в увеличении количества используемых первичных ИПС. Этот механизм должен быть реализован в любой разрабатываемой системе. Задача распределения ресурсов поисковой системы по различным ИПС глобальной сети должна решаться адаптивно, на основании учета доли ссылок признанных релевантными во время предыдущих сеансов поиска.
Второй блок автоматизированной поисковой системы отправляет созданный запрос и осуществляет сортировку и отбор полученных ссылок, после чего обращается по выбранным адресам и получает из сети некоторое множество документов, также содержащих гиперссылки.
Обработка результатов поиска.
После получения в результате поиска в сети некоторого множества документов, среди них необходимо выделить наиболее релевантные. Наличие “сообществ” не облегчает эту задачу. Можно выделить следующие несколько классов наиболее частых ситуаций.
Отсутствие в исследуемом сегменте сети искомой информации. В этом случае следует перейти к другому сегменту, т. е. обычно исследовать ресурсы, созданные на других языках.
Найденные “сообщества” содержат информацию не по требуемой тематике, а главным образом по другим, близким к искомой.
Обнаружено слишком большое количество информационных ресурсов.
В последних двух случаях необходимо осуществить автоматический перебор всех найденных документов и определить степень близости их к исходному запросу.
Во многих случаях поиска в новой области, когда общий уровень пользователя недостаточно высок, желательно осуществлять фильтрацию выдаваемой информации по стилю текста так, чтобы начальное ознакомление с материалом происходило с использованием популярных и научно-популярных текстов.
Для уменьшения объема рассматриваемых материалов следует также осуществить фильтрацию результатов поиска по типу источников. Так очевидно, что документы, расположенные на научных сайтах, на коммерческих, или на серверах СМИ будут существенно различаться по своему характеру.
2. Структура работы автоматизированных систем
Работа поискового указателя происходит в три этапа, из которых два первых являются подготовительными и незаметны для пользователя. Сначала поисковый указатель собирает информацию из World Wide Web. Для этого используют специальные программы, аналогичные браузеры. Они способны скопировать заданную Web-страницу на сервер поискового указателя, просмотреть ее, найти все гипетэссылки, которые на ней имеют те ресурсы, которые найдены там, снова разыскать имеющиеся в них гиперссылки и т. д. Подобные программы называют червяками, пауками, гусеницами, краулерами, спайдерами и другими подобными именами. Каждый поисковый указатель эксплуатирует для этой цели свою уникальную программу, которую нередко сам и разрабатывает. Многие современные поисковые системы родились из экспериментальных проектов, связанных с разработкой и внедрением автоматических программ, занимающихся мониторингом Сети. Теоретически, при удачном входе спайдер способен прочесать все Web-пространство за одно погружение, но на это надо очень много времени, а ему еще необходимо периодически возвращаться к ранее посещенным ресурсам, чтобы контролировать происходящие там изменения и выявлять «мертвые» ссылки, т. е. потерявшие актуальность.
После копирования разысканных Web-ресурсов на сервер поисковой системы начинается второй этап работы — индексация. В ходе индексации создаются специальные базы данных, с помощью которых можно установить, где и когда в Интернете встречалось, то или иное слово. Считайте, что индексированная база данных — это своего рода словарь. Она необходима для того, чтобы поисковая система могла очень быстро отвечать на запросы пользователей. Современные системы способны выдавать ответы за доли секунды, но если не подготовить индексы заранее, то обработка одного запроса будет продолжаться часами.
На третьем этапе происходит обработка запроса клиента и выдача ему результатов поиска в виде списка гиперссылок. Допустим, клиент хочет узнать, где в Интернете имеются Web-страницы, на которых упоминается известный голландский механик, оптик и математик Христиан Гюйгенс. Он вводит слово Гюйгенс в поле набора ключевых слов и нажимает кнопку. Найти (Search). По своим базам указателей поисковая система в доли секунды разыскивает подходящие Web-ресурсы и формирует страницу результатов поиска, на которой рекомендации представлены в виде гиперссылок. Далее клиент может пользоваться этими ссылками для перехода к интересующим его ресурсам.
Все это выглядит достаточно просто, но на самом деле здесь есть проблемы. Основная проблема современного Интернета связана с изобилием Web-страниц. Достаточно ввести в поле поиска такое простое слово, как, например, футбол, и российская поисковая система выдаст несколько тысяч ссылок, сгруппировав их по 10-20 штук на отображаемой странице.
Несколько тысяч — это еще не так много, потому что зарубежная поисковая система в аналогичной ситуации выдала бы сотни тысяч ссылок. Попробуйте найти среди них нужную! Впрочем, для рядового потребителя совершенно все равно, выдадут ему тысячу результатов поиска или миллион. Как правило, клиенты просматривают не более 50 ссылок, стоящих первыми, и что там делается дальше, мало кого беспокоит. Однако клиентов очень и очень беспокоит качество самых первых ссылок. Клиенты не любят, когда в первом десятке встречаются ссылки, утратившие актуальность, их раздражает, когда подряд идут ссылки на соседние файлы одного и того же сервера. Самый же плохой вариант — когда подряд идут несколько ссылок, ведущих к одному и тому же ресурсу, но находящемуся на разных серверах.
Клиент вправе ожидать, что самыми первыми будут стоять наиболее полезные ссылки. Вот здесь и возникает проблема. Человек легко отличает полезный ресурс от бесполезного, но как объяснить это программе?! Поэтому лучшие поисковые системы проявляют чудеса искусственного интеллекта в попытке отсортировать найденные ссылки по качественности их ресурсов. И делать это они должны быстро — клиент не любит ждать.
Строго говоря, все поисковые системы черпают исходную информацию из одного и того же Web-пространства, поэтому исходные базы данных у них могут быть относительно похожи. И лишь на третьем этапе, при выдаче результатов поиска, каждая поисковая система начинает проявлять свои лучшие (или худшие) индивидуальные черты. Операция сортировки полученных результатов называется ранжированием. Каждой найденной Web-странице система присваивает какой-то рейтинг, который должен отражать качество материала. Но качество — понятие субъективное, а программе нужны объективные критерии, которые можно выразить числами, пригодными для сравнения.
Высокие рейтинги получают Web-страницы, у которых ключевое слово, использованное в запросе, входит в заголовок. Уровень рейтинга повышается, если это слово встречается на Web-странице несколько раз, но не слишком часто. Благоприятно влияет на рейтинг вхождение нужного слова в первые 5-6 абзацев текста — они считаются самыми важными при индексации. По этой причине опытные Web-мастера избегают давать в начале своих страниц таблицы. Для поисковой системы каждая ячейка таблицы выглядит, как абзац, и потому содержательный основной текст как бы далеко отодвигается назад (хотя на экране это и не заметно) и перестает играть решающую роль для поисковой системы.
Очень хорошо, если ключевые слова, использованные в запросе, входят в альтернативный текст, сопровождающий иллюстрации. Для поисковой системы это верный признак того, что данная страница точно соответствует запросу. Еще одним признаком качества Web-страницы является тот факт, что на нее есть ссылки с каких-то других Web-страниц. Чем их больше, тем лучше. Значит, эта Web-страница популярна и обладает высоким показателем цитирования. Самые совершенные поисковые системы следят за уровнем цитирования зарегистрированных ими Web-страниц и учитывают его при ранжировании.
Создатели Web-страниц всегда заинтересованы в том, чтобы их просматривало больше людей, поэтому они специально готовят страницы так, чтобы поисковые системы давали им высокий рейтинг. Хорошая, грамотная работа Web-мастера способна значительно поднять посещаемость Web-страницы, однако есть и такие «мастера», которые пытаются обмануть поисковые системы и придать своим Web-страницам значимость, которой в них на самом деле нет. Они многократно повторяют на Web-странице какие-то слова или группы слов, а для того чтобы те не попадались на глаза читателю, либо делают их исключительно мелким шрифтом, либо применяют цвет текста, совпадающий с цветом фона. За такие «хитрости» поисковая система может и наказать Web-страницу, присвоив ей штрафной отрицательный рейтинг.
Из поисковых указателей в России сегодня действуют три «кита» (есть и более мелкие системы, но мы останавливаться на них не будем). Это «Рамблер» (www.rambler.ru), «Яндекс» (www.yandex.ru) и «Апорт2000» (www.aport.ru).
Исторически наиболее популярной поисковой системой является «Рамблер». Она начала работать раньше других и долгое время лидировала по размеру поискового указателя и качеству услуг поиска. Увы, сегодня эти достижения в прошлом. Несмотря на то, что размер поискового указателя «Рамблер» примерно равен 12 миллионам Web-страниц, он давно толком не обновлялся и выдает устаревшие результаты. Сегодня «Рамблер» – это популярный портал, лучшая в России классификационно-рейтинговая система плюс рекламная площадка. Традиционно эта система держит первое место в России по посещаемости и имеет хорошие доходы от рекламы. Но в развитие средств поиска средства, как мы покажем ниже, не вкладываются.
Самый большой указатель лежит в основе системы «Яндекс» – примерно 27 миллионов Web-страниц, но дело не только в размере. Это не просто указатель на ресурсы, а указатель на самые актуальные ресурсы. По уровню актуальности «Яндекс» сегодня — безусловный лидер.
Система «Апорт» выигрывает на третьем этапе: в момент представления информации клиенту. Она не стремится к созданию самого большого указателя автоматическими средствами, а вместо этого широко использует информацию из каталога @Rus, проходящую ручную обработку. Поэтому система выдает не так много результатов, как ее ближайшие конкуренты, но зато эти результаты, как правило, точны и наглядно представлены.
3. Характеристика автоматизированных поисковых систем
Начиная поиск чего-либо в Internet и, имея минимум информации, а так же пытаясь ограничить потери времени, для получения наиболее общей информации возможно обращение к следующей базе данных.
База данных: предмет ведет к Межсетевым ресурсам, построенным библиотекарями.
Содержание: Свыше 2, 500 связей с Internet ресурсами, кратко аннотируемыми, с указанными предметными заголовками.
Поиск: Поиски могут быть ограничены названием ресурса, описанием его, или с указанными предметными заголовками.
Результаты: Результаты показаны в алфавитном порядке названиями ресурса.
Адрес: http://sunsite.berkeley.edu/InternetInd ex/
Частота Модернизации: ежедневно
Например,
1. Yahoo!
Yahoo! – самая известная поисковая машина. Её сайты разбиты по категориям и ключевым словам. Она содержит полезную информацию на своей домашней странице. Может подключаться к другим поисковым машинам
Базы данных: в ведении находится служба поиска Internet-ресурсов, новостей, карт, рекламных информаций, спортивная информация, бизнес, номера телефонов, персональные WWW-страницы, и e-mail-адреса (отдельная база данных).
Содержание: Основная директория содержит: адреса (URLs) для Internet-ресурсов и краткое описание для этих связей.
Поиск: Все Yahoo страницы предлагают не только простое поисковое окно, но и опции для этого поиска, а так же поиск Usenet или Email-адреса. Поиск может ограничиваться указанием определённого промежутка времени. Boolean операторы (и, или) и последовательный поиск также поддержаны. Отметим: если поиск в Yahoo! не привёл к положительному результату, то процесс поиска автоматически переходит на Alta Vista, которая продолжает поиск, и в случае положительных результатов автоматически возвращает найденную информацию в Yahoo!.
Если Yahoo! не может установить связь достаточно быстро с Alta Vista, то в этом случае Yahoo! будет обеспечивать страницу связи с набором инструментов поиска. После того как одна из этих связей выбирается, ключевые слова передаются к поисковой машине на ваше усмотрение.
Средством, облегчающим поиск, является наличие “tip search”(TS) – поиск с помощью “намека”: Yahoo! Является подчиненным справочником, что означает, что система не имеет так много страниц, как поисковые машины, однако задание наиболее общих ключевых слов позволит найти необходимую тему на странице высокого уровня (первая страница, которая возникает перед пользователем при посещении сайта) для организации или компании.
Результаты: Связи отображаются в соответствии с очерёдностью задаваемых слов последовательностью поиска наряду с их описательным текстом и подчиненной иерархией.
Адрес: http://www.yahoo.com/
Частота Модернизации: ежедневно
2. Alta Vista
Alta Vista поддерживает поиск по ключевому набору слов и для определения языка конкретной страницы использует методы искусственного интеллекта. Пользователи могут настроить опции поиска и выбирать тип поиска – сложный или упрощенный, а также воспользоваться различными способами предоставления информации. В отличие от машин, которые индексируют только ключевые слова, она индексирует весь текст, что позволяет осуществлять полный поиск. Однако из – за этого пользователь может просто утонуть в информации.
Базы данных: Расположенные по всему миру WWW-страницы и Usenet News (новости).
Содержание: 31 миллион WWW-страниц (на май 1997 г.) и полный текст более чем 14, 000 newsgroups обновленный в реальном масштабе времени.
Поиск: Предлагает простой(simple (S)) поиск или (much more advanced (MMS)), т.е. более передовой, способ. S – поиск стоит в основном использовать для общих вопросов, MMS – поиск использует специфический поисковый синтаксис. Для облегчения выполнения процедуры имеется подсказка(Simple Search Help). MMS – поиск, используя булинь(boolean), т.е. с помощью ключевых союзов, используя (and, or, not – (и, или, не)) и простую смежность (near – (около)) позволяет употреблять несколько слов, чередование слов, словосочетание в качестве ключевых для проведения поиска.
TS – поиск: Введением ключа типа: ” Ваша Фраза ” как первое направление поиска, который будет ограничивать число найденных WWW – документов с заголовками типа ” Ваша Фраза “.
Результаты: Предлагает три выбора результатов (но два дают тот же самый результат):
1) “Стандартные”(“Standard”) – результаты, полученные машиной в виде списка параграфов, резюмируемые ей, с наличием URL – адреса, размером файла и последней датой модернизации. Результаты возвращаются как десять пунктов на экране,
2) “Компактный”(“Compact”) помещают каждый пункт в одной строке с последней датой модернизации картотеки,
3) “Детальный”(“Detailed”), который является таким же самым, как и “Стандартный”.
Адрес: http://altavista.digital.com
Частота модернизации: Постоянно WWW-роботом.
4. Проблемы и возможности автоматизированных поисковых систем
Работа многих поисковых машин считается вполне успешной. Однако все современные поисковые системы страдают некоторыми серьёзными недостатками:
поиск по ключевым словам даёт слишком много ссылок и многие из них бесполезны.
огромное количество поисковых машин с разными пользовательскими интерфейсами порождает проблему когнитивной перегрузки.
методы индексирования баз данных, как правило, не связаны с информационным содержанием.
часто выдаются ссылки на информацию, которой в Интернете уже давно нет.
машины ещё не столь совершены, чтобы понимать естественный язык
в последнее время потребности в интеллектуальной помощи быстро растут. Это привело к появлению интеллектуальных агентов.
Преимущества:
– Обычно интеллектуальные агенты являются основной частью поисковой машины. Для поиска используется искусственный интеллект. Пользователь учит агента, а затем он выходит в Интернет для поиска.
– Интеллектуальные агенты выполняют инструкции от имени пользователя, имеют некоторую самостоятельность. После поиска они оповещают пользователя о результатах. Агенты учатся в результате своей деятельности.
– Интеллектуальность – обучение на основе обратной связи по примерам ошибкам и по средствам взаимодействия с другими агентами.
– Простота использования – можно тренировать агента используя естественный язык.
– Индивидуальный подход – адаптация к предпочтениям пользователей.
– Интегрированность – непрерывное обучение применение уже имеющих знаний к новым ситуациям.
– Автономность – ощущение окружающей среды, и анализ выводов.
Заключение
Рассмотренные мною автоматизированные поисковые машины далеки от совершенства. Считается, что идеальная поисковая машина должна отвечать следующим требованиям:
простота в использовании
чётко организованный и обновляемый индекс.
быстрый поиск в базе данных и быстрое реагирование.
надёжность и точность результатов поиска.
Масштабы информационных ресурсов и их количество постоянно расширяется. Становится ясно, что база данных не является совершенной. Интеллектуальные агенты – новое направление лежащее в основе нового поколения поисковых машин, которые могут фильтровать информацию и получать более точный результат. Internet продолжает развиваться с неослабевающей интенсивностью, по сути дела стирая ограничение на распространение и получение информации в мире. Однако в этом информационном океане бывает не очень легко найти необходимый документ, следует также иметь в виду, что в сети наряду с давно действующими серверами возникают новые.
Информационные системы, в которых представлены хранение, и обработка информации осуществляются с помощью вычислительной техники, называют автоматизированными, различные виды деятельности и наиболее буро развивающиеся отраслью индустрии информационных технологий.
Список литературы
Васкевич Д. Стратегии клиент/сервер. – К:”Диалектика”, 2003
Дейт К. Введение в системы баз данных. – К:”Диалектика”, 199
Н.А. Гайдамакин «Автоматизированные информационные системы, базы и банки данных», М.: «Гелиос», 2002.
http://www.refcity.ru/content/30119.html
http://depozit.biz/a/AVTOMATIZI2.html
Для подготовки данной работы были использованы материалы с сайта http://referat.ru/
Дата добавления: 07.11.2012
Министерство
образования и науки Краснодарского края ГБОУ СПО
«Лабинский
Медицинский Колледж»
По информатике по теме :
Информационно-поисковые системы
выполнила:
Александрова Татьяна
группа: 1 СД «Г»
проверила:
Аванесова Э.А
Содержание
1.
Введение…………………………………………… 3
2.
Информационно-поисковая система……………….
5
3.
Источники информации …………………………… 6
4.
ИПС (информационно-поисковая система)……… 7
5.
Релевантность…………………………………………
7
6.
Каталог………………………………………………… 8
7.
Адреса популярных каталогов…………………… 10
8.
Метапоисковая машина…………………………… 11
9.
Поиск источников информации…………………… 12
10. Архитектура
современных ИПС для WWW……… 14
11. Информационные ресурсы ……………………….…… 16
12.Индекс поиска……………………………………………. 19
13.Информационно-поисковый
язык системы………….. 21
12. Заключение………………………………………………
24
13. Список используемой литературы…………………… 25
Введение
Актуальность. Современный этап развития
цивилизации характеризуется переходом наиболее развитой части человечества от
индустриального общества к информационному. Одним из наиболее ярких явлений
этого процесса является возникновение и развития глобальной информационной
компьютерной сети.
Проблема поиска и сбора информации – одна из
важнейших проблем информационно поисковых систем. Конечно, нельзя сравнивать в
этом отношении, скажем, средние века, когда поиск информации был проблемой
потому, что этой информации было мало, и требовались усилия только для того,
чтобы найти хоть что-то по более или менее значительному интересующему вопросу.
Так, сначала появилась возможность пойти в библиотеку и, потратив там время на
выбор нужной книги по каталогу, найти необходимую информацию. Но каталоги не
решают полностью проблем поиска информации даже в рамках одной библиотеки, так
как в каталожную запись входит относительно мало информации: заголовок, автор,
место издания. Проблема поиска информации приобрела новый характер в 20-м
столетии, с началом развития века информационных технологий. Теперь она
заключается не в том, что информации мало и поэтому ее трудно найти, а в том,
что ее теперь наоборот становится все больше и больше, и от этого найти ответ
на интересующий вопрос может оказаться тоже довольно сложной задачей. Проблема
поиска информации значительно усложняется при использовании виртуальных
источников. Здесь используется технология онлайновых каталогов, в результате
применения которой пользователь имеет возможность выполнять поиск в каталогах
сразу нескольких библиотек, чем, на самом деле, еще больше усложняет себе
задачу, но, с другой стороны, увеличивает шансы решить ее.
На современном этапе все информационное
пространство, в котором мы живем, все больше погружается в Internet. Internet
становится основной формой существования информации, не отменив традиционных,
такие как журналы, радио, телевидение, телефон, всевозможные справочные службы.
Целью исследования является изучение
автоматизированных информационно – поисковых систем.
Задачей в данной курсовой работе рассматриваются
теоретические основы автоматизированного информационного поиска, классификация
и разновидности информационно поисковых систем. Также анализируется материал по
применяемым в настоящее время информационно – поисковым каталогам
полнотекстовых и гипертекстовых поисковых систем.
При появлении сети Internet проблема поиска
становилась более актуальной. Internet – всемирная компьютерная сеть,
представляющая собой единую информационную среду и позволяющая получить
информацию в любое время. Но с другой стороны в Интернете хранится очень много
полезной информации, но для поиска её требуется затрачивать много времени. Эта
проблема послужила поводом к появлению поисковых систем. В данной курсовой
работе будут рассмотрены поисковые системы в сети Internet.
Информационно-поисковая
система
Информационно-поисковая система (ИПС) – это прикладная компьютерная среда для обработки, хранения, сортировки,
фильтрации и поиска больших массивов структурированной информации.
Каждая ИПС предназначена для решения определенного класса задач,
для которых характерен свой набор объектов и их признаков. ИПС бывают двух типов: 1.
Документографические. В документографических ИПС все хранимые документы индексируются
специальным образом, т. е. каждому документу присваивается индивидуальный код,
составляющий поисковый образ. Поиск идет не по самим документам, а по их
поисковым образам. Именно так ищут книги в больших библиотеках. Сначала отыскивают
карточку в каталоге, а затем по номеру, указанному на ней, отыскивается и сама
книга.
2. Фактографические. В фактографичеких ИПС хранятся не документы, а
факты, относящиеся к какой-либо предметной области. Поиск осуществляется по
образцу факта. Каждая ИПС состоит
из двух частей: базы данных (БД) и системы управления базами данных (СУБД). База
данных – это поименованная
совокупность структурированных данных, относящихся к определенной предметной
области.
Система управления базами данных – это комплекс
программных и языковых средств, необходимых для создания баз данных,
поддержания их в актуальном состоянии и организации поиска в них необходимой
информации.
На настоящий момент существует множество различных СУБД. Наиболее
широкую известность получили такие как Dbase, Clipper, FoxPro, Paradox, Microsoft Access.
Источники информации
Это такие популярные
ресурсы Интернет, как WWW, группы новостей, списки рассылки и FTP-серверы.
Безусловно, можно искать нужные источники информации вручную, узнавать адреса
из специализированных журналов по информатике и Интернету, использовать
специальные бумажные справочники с классифицированными по категориям адресами.
Однако для такого изменчивого пространства как Интернет необходимо научиться
пользоваться специальными инструментами, цель которых – собирать данные об
информационных ресурсах и предоставлять пользователям услугу быстрого поиска.
ИПС (информационно-поисковая система)
ИПС (информационно-поисковая система) – это система,
обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями
источников информации (индексе)
на основе информационно-поискового языка и соответствующих правил поиска.
Главной задачей любой ИПС
является поиск информации релевантной информационным потребностям пользователя.
Очень важно в результате проведенного поиска ничего не потерять, то есть найти
все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому
вводится качественная характеристика процедуры поиска – релевантность.
Релевантность – это
соответствие результатов поиска сформулированному запросу. Далее мы будем, в
основном, рассматривать ИПС для всемирной паутины (WWW). Основными показателями
ИПС для WWW являются пространственный масштаб и специализация. По
пространственному масштабу ИПС можно разделить на локальные, глобальные,
региональные и специализированные. Локальные поисковые системы могут быть
разработаны для быстрого поиска страниц в масштабе отдельного сервера.
Региональные ИПС описывают информационные ресурсы определенного региона,
например, русскоязычные страницы в Интернете. Глобальные поисковые системы в
отличие от локальных стремятся объять необъятное – по возможности наиболее
полно описать ресурсы всего информационного пространства сети Интернет.
В общем случае, можно
выделить следующие поисковые инструменты для WWW: каталоги, поисковые системы,
метапоисковые системы.
Каталог – поисковая система с
классифицированным по темам списком аннотаций со ссылками на web-ресурсы.
Классификация, как правило, проводится людьми. Поиск в каталоге очень удобен и
проводится посредством последовательного уточнения тем. Тем не менее, каталоги
поддерживают возможность быстрого поиска определенной категории или страницы по
ключевым словам с помощью локальной поисковой машины. База данных ссылок
(индекс) каталога обычно имеет ограниченный объем, заполняется вручную
персоналом каталога. Некоторые каталоги используют автоматическое обновление
индекса. Результат поиска в каталоге представляется в виде списка, состоящего
из краткого описания (аннотации) документов с гипертекстовой ссылкой на
первоисточник.
Поисковая машина –
поисковая система с формируемой роботом базой данных, содержащей информацию об
информационных ресурсах. Отличительной чертой поисковых машин является тот
факт, что база данных, содержащая информацию об Web-страницах, статьях Usenet и
т.д., формируется программой-роботом. Поиск в такой системе проводится по
запросу, составляемому пользователем, состоящему из набора ключевых слов или
фразы, заключенной в кавычки. Индекс формируется и поддерживается в актуальном
состоянии роботами-индексировщиками. В описании документа чаще всего содержится
несколько первых предложений или выдержки из текста документа с выделением
ключевых слов. Как правило, указана дата обновления (проверки) документа, его
размер в килобайтах, некоторые системы определяют язык документа и его
кодировку (для русскоязычных документов). Что можно делать с полученными
результатами? Если название и описание документа соответствует вашим
требованиям, можно немедленно перейти к его первоисточнику по ссылке. Это
удобнее делать в новом окне, чтобы иметь возможность далее анализировать
результаты выдачи. Многие поисковые системы позволяют проводить поиск в
найденных документах, причем вы можете уточнить ваш запрос введением
дополнительных терминов. Если интеллектуальность системы высока, вам могут предложить
услугу поиска похожих документов. Для этого вы выбираете особо понравившийся
документ и указываете его системе в качестве образца для подражания. Однако,
автоматизация определение похожести – весьма нетривиальная задача, и зачастую
эта функция работает неадекватно вашим надеждам. Некоторые поисковики позволяют
провести пересортировку результатов. Для экономии вашего времени можно
сохранить результаты поиска в виде файла на локальном диске для последующего
изучения в автономном режиме.
Адреса популярных поисковых машин за рубежом и в России.
Зарубежные поисковые машины:
Google – www.google Altavista
– www.altavista Excite – www.excite HotBot
– www.hotbot
Nothern Light – www.northernlight Go (Infoseek) – www.go (infoseek) Fast –www.alltheweb
Российские
поисковые системы:
www.yandex (или www.ya) Рэмблер – www.rambler Апорт – www.aport
Метапоисковая машина
Обратите внимание на то,
что различные поисковые системы описывают разное количество источников
информации в Интернет. Поэтому нельзя ограничиваться поиском только в одной из
указанных поисковых системах. Теперь познакомимся с инструментами поиска, которые
не формируют собственный индекс, но умеют использовать возможности других
поисковых систем. Это метапоисковые системы (поисковые службы) – системы,
способные послать запросы пользователя одновременно нескольким поисковым
серверам, затем объединить полученные результаты и представить их пользователю
в виде документа со ссылками.
Адреса известных метапоисковых систем:
MetaCrawler – www.metacrawler SavvySearch
– www.savvysearch
Поиск источников информации
Обсудим проблему поиска
такого источника информации, как статьи в группах новостей. Инструментами
поиска в данном случае могут являться рассмотренные поисковые машины WWW,
которые индексируют не только пространство WWW, но и статьи в телеконференциях
и имеют специальный режим поиска именно в этом ресурсе. Поиск в группах
новостей поддерживает, например, поисковый сервер Altavistа. Следует отметить,
что поисковые системы WWW весьма оперативно индексируют группы новостей и
содержат информацию о статьях, реально существующих в сети. Для поиска в
архивах новостей существую специализированные системы, самой известной из
которых является система Deja (www.deja). Эта система позволяет проводить как поиск
отдельных статей, содержащих введенный термин, так и поиск определенных групп
новостей, посвященных обсуждению заданной темы. Можно зарегистрироваться в Deja
и подписаться на определенные группы новостей.
Теперь рассмотрим
инструменты, позволяющие проводить поиск файлов. Многие поисковые системы WWW
стали оказывать услугу поиска мультимедийных файлов (Altavista, Aport). Для
этого вовсе нет необходимости знать специальные операторы, а достаточно перейти
с домашней страницы по ссылкам Картинки (Images), MP3/Audio или Video к
специальному режиму поиска. Поиск проводится по возможному имени файла или по
тексту в комментарии к ссылке на мультимедийный файл.
Что касается поиска
программного обеспечения, во всемирной паутине существуют поисковые Web-серверы
с коллекциями условно-бесплатного ПО, некоторые из них специализируются на
поиск программного обеспечения для Интернета или для конкретной операционной системы.
Эти системы в конечном итоге приведут вас к конкретному серверу, с которого и
можно скачать искомый программный продукт. Следует упомянуть серверы Archie,
также оказывающие услугу поиска файлов на FTP-серверах, однако пользоваться
Web-серверами гораздо удобнее.
Рассмотрим поисковые
инструменты для поиска адресной информации. Введем понятие Белого(White) и
Желтого (Yellow) поиска.
White-поиск – поиск
адресной информации по заранее известному собственному имени адресата (имя
человека или организации)
Yellow-поиск – поиск
собственного имени по дополнительным признакам (по роду деятельности, по
географическому признаку), а затем поиск его адресной информации.
Обычно Yellow Pages системы фактически сразу включают в себя и
White Pages – у найденного адресата сразу видны его телефон и почтовый адрес.
Кроме того, некоторые Yellow Pages позволяют искать просто в алфавитном списке
своих абонентов (white-поиск). С другой стороны, White pages также содержат
элементы yellow-поиска – кроме задания собственного имени они обычно позволяют
указать название города, штата и другие, сужающие поиск, данные (что необходимо
в случае многих однофамильцев). Возможно, именно поэтому многие on-line телефонные
справочники, выполняющие, фактически white-поиск, называют себя Yellow pages.
Архитектура современных ИПС для WWW
Прежде чем описать проблемы построения информационно-поисковых
систем Web и пути их решения рассмотрим типовую схему такой системы. В
различных публикациях, посвященных конкретным системам, например [5,6],
приводятся схемы, которые отличаются друг от друга только способом применения
конкретных программных решений, а не принципом организации различных
компонентов системы. Поэтому рассмотрим эту схему на примере, взятом из работы.
Рис 1. Типовая схема информационно-поисковой системы.
Client (клиент) на этой схеме – это программа просмотра конкретного
информационного ресурса. Наиболее популярны сегодня мультипротокольные
программы типа Netscape Navigator. Такая программа обеспечивает просмотр
документов WWW, Gopher, Wais, FTP-архивов, почтовых списков рассылки и групп
новостей Usenet. В свою очередь все эти информационные ресурсы являются
объектом поиска информационно-поисковой системы.
User interface (пользовательский интерфейс) – это не просто программа просмотра, в случае
информационно-поисковой системы под этим словосочетанием понимают также способ
общения пользователя с поисковым аппаратом: системой формирования запросов и
просмотров результатов поиска.
Search engine (поисковая машина) – служит для трансляции
запроса на информационно-поисковом языке (ИПЯ), в формальный запрос системы,
поиска ссылок на информационные ресурсы Сети и выдачи результатов этого поиска
пользователю.
Index database (индекс базы данных) – индекс, который является основным массивом данных ИПС и
служит для поиска адреса информационного ресурса. Архитектура индекса устроена
таким образом, чтобы поиск происходил максимально быстро и при этом можно было
бы оценить ценность каждого из найденных информационных ресурсов сети.
Queries (запросы пользователя) – сохраняются в его
(пользователя) личной базе данных. На отладку каждого запроса уходит достаточно
много времени, и поэтому чрезвычайно важно запоминать запросы, на которые
система дает хорошие ответы.
Index robot (робот-индексировщик) – служит для сканирования Internet и поддержания базы данных
индекса в актуальном состоянии. Эта программа является основным источником
информации о состоянии информационных ресурсов сети.
WWW sites – это весь Internet
или точнее – информационные ресурсы, просмотр которых обеспечивается
программами просмотра.
Рассмотрим теперь
назначение по принципу построения каждого из этих компонентов, более подробно и
определим, в чем отличие данной системы от традиционной ИПС локального типа.
Информационные ресурсы и их
представление в ИПС
Как видно из рис. 1,
документальным массивом ИПС Internet является все множество документов шести
основных типов: WWW-страницы, Gopher-файлы, документы Wais, записи архивов FTP,
новости Usenet и статьи почтовых списков рассылки. Все это довольно разнородная
информация, которая представлена в виде различных, никак несогласованных друг с
другом форматов данных: тексты, графическая и аудиоинформация и вообще все, что
имеется в указанных хранилищах. Естественно возникает вопрос – как
информационно-поисковая система должна со всем этим работать?
В традиционных системах
используется понятие поискового образа документа – ПОД. Обычно, этим термином
обозначают нечто, заменяющее собой документ и использующееся при поиске вместо
реального документа. Поисковый образ является результатом применения некоторой
модели информационного массива документов к реальному массиву. Наиболее популярной
моделью является векторная модель, в которой каждому документу приписывается
список терминов, наиболее адекватно отражающих его смысл. Если быть более
точным, то документу приписывается вектор размерности, равный числу терминов,
которыми можно воспользоваться при поиске. При булевой векторной модели элемент
вектора равен 1 или 0, в зависимости от наличия или отсутствия термина в ПОД. В
более сложных моделях термины взвешиваются – элемент вектора равен не 1 или 0,
а некоторому числу (весу), отражающему соответствие данного термина документу.
Именно последняя модель стала наиболее популярной в ИПС Internet.
Вообще говоря, существуют
и другие модели описания документов: вероятностная модель информационных
потоков и поиска и модель поиска в нечетких множествах. Не вдаваясь в
подробности, имеет смысл обратить внимание на то, что пока только линейная
модель применяется в системах Lycos, WebCrawler, AltaVista, OpenText и AliWeb.
Однако ведутся исследования по применению и других моделей, результаты которых отражены
в работах. Таким образом, первая задача, которую должна решить ИПС, – это
приписывание списка ключевых слов документу или информационному ресурсу. Именно
эта процедура и называется индексированием. Часто, однако, индексированием
называют составление файла инвертированного списка, в котором каждому термину
индексирования ставится в соответствие список документов в которых он
встречается. Такая процедура является только частным случаем, а точнее,
техническим аспектом создания поискового аппарата ИПС. Проблема, связанная с
индексированием, заключается в том, что приписывание поискового образа
документу или информационному ресурсу опирается на представление о словаре, из
которого эти термины выбираются, как о фиксированной совокупности терминов. В
традиционных системах существовало разбиение на системы с контролируемым
словарем и системы со свободным словарем. Контролируемый словарь предполагал
ведение некоторой лексической базы данных, добавление терминов в которую
производилось администратором системы, и все новые документы могли быть
заиндексированы только теми терминами, которые были в этой базе данных.
Свободный словарь пополнялся автоматически по мере появления новых документов.
Однако на момент актуализации словарь также фиксировался. Актуализация предполагала
полную перезагрузку базы данных. В момент этого обновления перегружались сами
документы, и обновлялся словарь, а после его обновления производилась
переиндексация документов. Процедура актуализации занимала достаточно много
времени и доступ к системе в момент ее актуализации закрывался.
Теперь представим себе
возможность такой процедуры в анархичном Internet, где ресурсы появляются и
исчезают ежедневно. При создании программы Veronica для GopherSpace
предполагалось, что все серверы должны быть зарегистрированы, и таким образом
велся учет наличия или отсутствия ресурса. Veronica раз в месяц проверяла
наличие документов Gopher и обновляла свою базу данных ПОД для документов
Gopher. В World Wide Web ничего подобного нет. Для решения этой задачи
используются программы сканирования сети или роботы-индексировщики. Разработка
роботов – это довольно нетривиальная задача; существует опасность зацикливания
робота или его попадания на виртуальные страницы. Робот просматривает сеть,
находит новые ресурсы, приписывает им термины и помещает в базу данных индекса.
Главный вопрос заключается в том, что за термины приписывать документам, откуда
их брать, ведь ряд ресурсов вообще не является текстом. Сегодня роботы обычно
используют для индексирования следующие источники для пополнения своих
виртуальных словарей: гипертекстовые ссылки, заголовки, аннотации, списки
ключевых слов, полные тексты документов, а также сообщения администраторов о
своих Web-страницах. Для индексирования telnet, gopher, ftp, нетекстовой
информации используются главным образом URL, для новостей Usenet и почтовых
списков поля Subject и Keywords. Наибольший простор для построения ПОД дают
HTML документы. Однако не следует думать, что все термины из перечисленных
элементов документов попадают в их поисковые образы. Очень активно применяются
списки запрещенных слов (stop-words), которые не могут быть употреблены для
индексирования, общих слов (предлоги, союзы и т.п.). Таким образом даже то, что
в OpenText, например, называется полнотекстовым индексированием реально
является выбором слов из текста документа и сравнением с набором различных
словарей, после которого термин попадает в ПОД, а потом и в индекс системы. Для
того чтобы не раздувать словарей и индексов (индекс системы Lycos уже сегодня
равен 4 Тбайт), применяется такое понятие, как вес термина. Документ обычно
индексируется через 40 – 100 наиболее “тяжелых” терминов.
Индекс поиска
После того как ресурсы
заиндексированы и система составила массив ПОД, начинается построение
поискового аппарата. Совершенно очевидно, что лобовой просмотр файла или файлов
ПОД займет много времени, что абсолютно не приемлемо для интерактивной системы
WWW. Для ускорения поиска строится индекс, которым в большинстве систем
является набор связанных между собой файлов, ориентированных на быстрый поиск
данных по запросу. Структура и состав индексов различных систем могут
отличаться друг от друга и зависят от многих факторов: размер массива поисковых
образов, информационно-поисковый язык, размещения различных компонентов системы
и т.п. Рассмотрим структуру индекса на примере системы, для которой можно
реализовывать не только примитивный булевый, но и контекстный и взвешенный
поиск, а также ряд других возможностей, отсутствующие во многих поисковых
системах Internet, например Yahoo. Индекс рассматриваемой системы состоит из
таблицы идентификаторов страниц (page-ID), таблицы ключевых слов (Keyword-ID),
таблицы модификации страниц, таблицы заголовков, таблицы гипертекстовых связей,
инвертированного (IL) и прямого списка (FL).
Page-ID отображает
идентификаторы страниц в их URL, Keyword-ID – каждое ключевое слов в уникальный
идентификатор этого слова, таблица заголовков – идентификатор страницы в
заголовок страницы, таблица гипертекстовых ссылок – идентификатор страниц в
гипертекстовую ссылку на эту страницу. Инвертированный список ставит в
соответствие каждому ключевому слову документа список пар – идентификатор
страницы, позиция слова в странице. Прямой список – это массив поисковых
образов страниц. Все эти файлы так или иначе используются при поиске, но
главным среди них является файл инвертированного списка. Результат поиска в
данном файле – это объединение и/или пересечение списков идентификаторов страниц.
Результирующий список, который преобразовывается в список заголовков,
снабженных гипертекстовыми ссылками возвращается пользователю в его программу
просмотра Web. Для того чтобы быстро искать записи инвертированного списка, над
ним надстраивается еще несколько файлов, например, файл буквенных пар с
указанием записей инвертированного списка, начинающихся с этих пар. Кроме
этого, применяется механизм прямого доступа к данным – хеширование. Для
обновления индекса используется комбинация двух подходов. Первый можно назвать
коррекцией индекса “на ходу” с помощью таблицы модификации страниц.
Суть такого решения довольно проста: старая запись индекса ссылается на новую,
которая и используется при поиске. Когда число таких ссылок становится
достаточным для того, чтобы ощутить это при поиске, то происходит полное
обновление индекса – его перезагрузка. Эффективность поиска в каждой конкретной
ИПС определяется исключительно архитектурой индекса. Как правило, способ
организации этих массивов является “секретом фирмы” и ее гордостью.
Информационно-поисковый язык системы
Индекс – это только часть
поискового аппарата, скрытая от пользователя. Второй частью этого аппарата
является информационно-поисковый язык (ИПЯ), позволяющий сформулировать запрос
к системе в простой и наглядной форме. Уже давно осталась позади романтика
создания ИПЯ, как естественного языка, – именно этот подход использовался в
системе Wais на первых стадиях ее реализации. Если даже пользователю
предлагается вводить запросы на естественном языке, то это еще не значит, что
система будет осуществлять семантический разбор запроса пользователя. Проза
жизни заключается в том, что обычно фраза разбивается на слова, из которых
удаляются запрещенные и общие слова, иногда производится нормализация лексики,
а затем все слова связываются либо логическим AND, либо OR. Таким образом, запрос типа:
>Software that is used on Unix Platform будет преобразован в:
>Unix AND Platform AND Software
что будет означать
примерно следующее: “Найди все документы, в которых слова Unix, Platform и
Software встречаются одновременно”. Возможны и варианты. Так, в
большинстве систем фраза “Unix Platform” будет опознана как ключевая
фраза и не будет разделяться на отдельные слова. Другой подход заключается в
вычислении степени близости между запросом и документом. Именно этот подход
используется в Lycos. В этом случае в соответствии с векторной моделью
представления документов и запросов вычисляется их мера близости. Сегодня
известно около дюжины различных мер близости. Наиболее часто применяется
косинус угла между поисковым образом документа и запросом пользователя. Обычно
эти проценты соответствия документа запросу и выдаются в качестве справочной
информации при списке найденных документов.
Наиболее развитым языком
запросов из современных ИПС Internet обладает Alta Vista. Кроме обычного набора
AND, OR, NOT эта система позволяет использовать еще и NEAR, позволяющий
организовать контекстный поиск. Все документ в системе разбиты на поля, поэтому
в запросе можно указать, в какой части документа пользователь надеется увидеть
ключевое слово: ссылка, заглавие, аннотация и т.п. Можно также задавать поле
ранжирования выдачи и критерий близости документов запросу.
Теория
информационного поиска начиналась с исследования особенностей документальных
информационно-поисковыхсистем (ИПС). Под информационным поиском в
таких системах понимается некоторая последовательность операций, выполняемых с
целью отыскания документов (статей, научно-технических отчетов, описаний к
авторским свидетельствам и патентам, книг и т.д.), содержащих определенную
информацию (с последующей выдачей самих документов или их копий), или с целью
выдачи фактических данных, представляющих собой ответы на заданные вопросы.
Массив
элементов информации, в котором производится информационный поиск, называется
поисковым массивом. Существующие виды информационного обслуживания представлены
втаблице:
Признак классификации |
Вид обслуживания |
По источнику инициативы |
· принудительное; · по |
По типам документов |
· обслуживание · обслуживание |
По направленности или адресности |
· информационные · избирательное |
По периодичности или срочности |
· текущее · ретроспективный |
По способу доведения документов до потребителя |
· непосредственная · двухступенчатое |
Заключение
Рассмотренные
мною поисковые машины далеки от совершенства. Считается, что идеальная
поисковая машина должна отвечать следующим требованиям:
a.
. быстрый поиск в базе данных и быстрое
реагирование.
b.
. надёжность и точность результатов
поиска.
c.
. простота в использовании
d.
. чётко организованный и обновляемый
индекс.
Масштабы
информационных ресурсов и их количество постоянно расширяется. Становится ясно,
что база данных не является совершенной. Интеллектуальные агенты – новое
направление лежащее в основе нового поколения поисковых машин, которые могут
фильтровать информацию и получать более точный результат. Internet продолжает
развиваться с неослабевающей интенсивностью, по сути дела стирая ограничение на
распространение и получение информации в мире. Однако в этом информационном
океане бывает не очень легко найти необходимый документ, следует также иметь в
виду, что в сети наряду с давно действующими серверами возникают новые.
Список используемой
литературы
1.
Ашманов, И. С. Продвижение сайта в поисковых системах / И. С. Ашманов. – М. :
«Вильямс», 2007. – 304 с.
2.
Байков, В. Д. Интернет. Поиск информации. Продвижение сайтов / В. Д. Байков. –
СПб.: БХВ- Петербург, 2000. – 288 с.
3.
Ландэ, Д. В. Поиск знаний в Internet / Д. В. Ландэ. – М. : «Диалектика», 2005.
– 272 с.
4.
Чурсин, Н. А. Популярная информатика / Н. А. Чурсин.- М.: «Вильямс», 2007.- 300
с.
5.
Схемы и рисунки ИПС [Электронный ресурс]. – Режим доступа :
http://ssofta.narod.ru/bd/ets2.htm
6.
Структура и классификация автоматизированных информационных систем Режим
доступа: http://do.rksi.ru/library/courses/opais/tema1_3.dbk
7. Схемы
и рисунки ИПС [Электронный ресурс]. – Режим доступа: http://ssofta.narod.ru/bd/ets2.htm
Информационно-поисковые системы
ФГБОУ ВПО
«АРКТИЧЕСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ ИСКУССТВ И КУЛЬТУРЫ»
ФАКУЛЬТЕТ
ИНФОРМАЦИОННЫХ, БИБЛИОТЕЧНЫХ ТЕХНОЛОГИЙ И МЕНЕДЖМЕНТА КУЛЬТУРЫ
ИНФОМАЦИОННО-ПОИСКОВЫЕ
СИСТЕМЫ
КУРСОВАЯ
РАБОТА
Выполнила Синичкина Анастасия Александровна, студентка 2 курса
Специальность: 071201 «Библиотечно- информационная деятельность»
Научный руководитель: Леверьева О.В., преп.
Якутск
Содержание
Введение
Глава 1. Информационно-поисковые системы
.1 Понятие информационно-поисковых систем
.2 История развития ИПС
.3 Структура ИПС
.4 Виды ИПС
Глава 2. Современные информационно-поисковые системы
.1 Сферы использования современных ИПС
.2 Архитектура современных ИПС
.3 Популярные ИПС
Заключение
Список использованной литературы
Введение
Актуальность. Современный этап развития цивилизации характеризуется
переходом наиболее развитой части человечества от индустриального общества к
информационному. Одним из наиболее ярких явлений этого процесса является
возникновение и развития глобальной информационной компьютерной сети.
Проблема поиска и сбора информации – одна из важнейших проблем
информационно поисковых систем. Конечно, нельзя сравнивать в этом отношении,
скажем, средние века, когда поиск информации был проблемой потому, что этой
информации было мало, и требовались усилия только для того, чтобы найти хоть
что-то по более или менее значительному интересующему вопросу. Так, сначала
появилась возможность пойти в библиотеку и, потратив там время на выбор нужной
книги по каталогу, найти необходимую информацию. Но каталоги не решают
полностью проблем поиска информации даже в рамках одной библиотеки, так как в
каталожную запись входит относительно мало информации: заголовок, автор, место
издания. Проблема поиска информации приобрела новый характер в 20-м столетии, с
началом развития века информационных технологий. Теперь она заключается не в
том, что информации мало и поэтому ее трудно найти, а в том, что ее теперь
наоборот становится все больше и больше, и от этого найти ответ на интересующий
вопрос может оказаться тоже довольно сложной задачей. Проблема поиска
информации значительно усложняется при использовании виртуальных источников.
Здесь используется технология онлайновых каталогов, в результате применения
которой пользователь имеет возможность выполнять поиск в каталогах сразу
нескольких библиотек, чем, на самом деле, еще больше усложняет себе задачу, но,
с другой стороны, увеличивает шансы решить ее.
На современном этапе все информационное пространство, в котором мы живем,
все больше погружается в Internet. Internet становится основной формой
существования информации, не отменив традиционных, такие как журналы, радио,
телевидение, телефон, всевозможные справочные службы.
Целью исследования является изучение автоматизированных информационно –
поисковых систем.
Задачей в данной курсовой работе рассматриваются теоретические основы
автоматизированного информационного поиска, классификация и разновидности
информационно поисковых систем. Также анализируется материал по применяемым в
настоящее время информационно – поисковым каталогам полнотекстовых и
гипертекстовых поисковых систем.
При появлении сети Internet проблема поиска становилась более актуальной. Internet – всемирная компьютерная сеть,
представляющая собой единую информационную среду и позволяющая получить
информацию в любое время. Но с другой стороны в Интернете хранится очень много
полезной информации, но для поиска её требуется затрачивать много времени. Эта
проблема послужила поводом к появлению поисковых систем. В данной курсовой
работе будут рассмотрены поисковые системы в сети Internet.
Глава 1. Информационно-поисковые системы
.1 Понятие информационных поисковых систем
Поиск информации – задача, которую человечество решает уже многие
столетия. По мере роста объема информационных ресурсов, потенциально доступных
одному человеку (например, посетителю библиотеки), были выработаны все более
изощренные и совершенные поисковые средства и приемы, позволяющие найти
необходимый документ.
Автоматизированная поисковая система – система, состоящая из персонала и
комплекса средств автоматизации его деятельности, реализующая информационную
технологию выполнения установленных функций [12, c. 2].
Опыт и практика создания систем в различных сферах деятельности позволяет
дать более широкое и универсальное определение, которое полнее отражает все
аспекты их сущности.
Информационно-поисковая система – это система, обеспечивающая поиск и
отбор необходимых данных в специальной базе с описаниями источников информации
(индексе) на основе информационно-поискового языка и соответствующих правил
поиска [14].
Главной задачей любой ИПС является поиск информации релевантной
информационным потребностям пользователя. Очень важно в результате проведенного
поиска ничего не потерять, то есть найти все документы, относящиеся к запросу,
и не найти ничего лишнего. Поэтому вводится качественная характеристика
процедуры поиска – релевантность.
Релевантность – это соответствие результатов поиска сформулированному
запросу.
Далее мы будем, в основном, рассматривать ИПС для всемирной паутины (WorldWideWeb).
Основными показателями ИПС для WWW являются пространственный масштаб и
специализация. По пространственному масштабу ИПС можно разделить на локальные,
глобальные, региональные и специализированные. Локальные поисковые системы
могут быть разработаны для быстрого поиска страниц в масштабе отдельного
сервера. Региональные ИПС описывают информационные ресурсы определенного
региона, например, русскоязычные страницы в Интернете. Глобальные поисковые
системы в отличие от локальных стремятся объять необъятное – по возможности
наиболее полно описать ресурсы всего информационного пространства сети
Интернет. [7, c. 3]
.2 История развития ИПС
Обратимся к истории возникновения сети Internet, которая была создана в
связи с возникшей необходимостью совместного использования информационных
ресурсов, распределенных между различными компьютерными системами. Большинство
первых приложений, включая FTP и электронную почту, были разработаны
исключительно для обмена данными между хост- компьютерами Internet. [1, c. 3]
Другие приложения, такие как Telnet, создавались для того, чтобы
пользователь получил возможность доступа не только к информации, но и к рабочим
ресурсам удаленной системы. По мере развития Internet (увеличения пользователей
и хост- компьютеров) прежние методы обмена данными перестали отвечать возросшим
потребностям пользователей. Возникла необходимость разработки новых способов
поиска сетевых ресурсов и доступа к ним, которые позволяли бы использовать
информацию независимо от ее формата и расположения [12, c. 10].
Для удовлетворения таких потребностей сначала были созданы поисковая
система Archie, решающая задачу локализации ресурсов на FTP-сервере, и система
Gopher, упрощающая доступ к различным сетевым ресурсам. Затем были разработаны
сетевые информационные системы World Wide Web и WAIS, предлагающие абсолютно новые методы получения
информации. Принципы работы этих систем позволяют легко ориентироваться в
огромном количестве информационных ресурсов без необходимости предоставления
механизмов работы самой сети Internet. Такой подход позволяет говорить уже не
просто о ресурсах взаимосвязанных компьютерных систем, а об особых
информационных пространствах сети [1, c. 4].
Система Archie представляет собой комплекс программных средств,
работающих со специальными базами данных. В этих базах данных содержится
постоянно пополняющаяся информация о файлах, к которым можно получить доступ
через сервис FTP. Пользуясь услугами системы Archie, можно осуществить поиск
файла по шаблону его имени. При этом пользователь получит список файлов с
точным указанием места их хранения в сети, а также с информацией о типе,
времени создания и размере файлов. Доступ к информационно-поисковой системе
Archie может осуществляться различными путями, начиная от запросов по
электронной почте и с помощью сервиса Telnet и заканчивая использованием
графических Archie-клиентов.
Система Gopher была разработана для упрощения процесса локализации
FTP-ресурсов Internet и для более удобного представления сведений о содержании
хранящихся на FTP-серверах файлов. Система Gopher дает возможность в удобной
форме (в виде меню) представлять пользователям об имеющихся файлах и их
содержании. Меню Gopher-серверов могут содержать ссылки на другие Gopher- и
FTP-серверы. Таким образом, пользователь получает возможность “путешествовать”
по Internet, не обращая внимания на местонахождение интересующих его ресурсов,
и получать доступ к этим ресурсам. [6, c. 75]
Система Veronica используется для поиска информации в Gopher-пространстве
по заголовкам пунктов меню. После ввода ключевого слова, система Veronica
выясняет, встречается ли оно в меню на каком-либо Gopher-сервере, и в качестве
результатов поиска выдает список заголовков пунктов меню, содержащих ключевое
слово. Поскольку система Veronica не является автономной поисковой программой,
а тесно связана с системой Gopher, она обладает тем же, что и система Gopher,
недостатком: далеко не всегда по заголовку можно сказать, что собой
представляет тот или иной информационный ресурс. Достоинства системы
заключается в том, что нет необходимости узнавать, где расположена найденная
информация, достаточно выбрать требуемую запись из списка. [6, c. 76]
.3 Структура ИПС
В основу построения структуры информационно-поисковой системы легло её
функциональное назначение, область применения и особенности описываемой ею
предметной области.
Функционально ИПС предназначена для быстрого и удобного поиска и выборки
данных из больших массивов информации по шаговым двигателям как для внутренней
работы с данными, так и для подготовки их для различных САПР. Это накладывает
определённые требования на построение пользовательского интерфейса и на форму
предоставления информации. При построении структуры ИПС учитывается также
потребность потенциального пользователя в доступе к системе
контекстно-зависимой подсказке. [5, c. 23]
Реализация вышеперечисленных требований возложена на следующий ряд
структурных компонентов, так называемых блоков:
проверки БД на целостность;
просмотра;
редактирования;
защиты паролем;
поиска;
вывода результата;
хранения параметров поиска;
помощи.
В основе выбора именно такой структуры информационно-поисковой системы по
шаговым двигателям лежит очень простая логика – любой блок системы должен
получать данные, обрабатывать их и выдавать пользователю в определенном
порядке, обеспечивая логику процесса. [5, c. 25]
Рассмотрим каждый блок более подробно (рис. 1) [13]:
Блок проверки БД на целостность осуществляет проверку всех составных
частей базы данных.
Блок просмотра позволяет начать работу в системе с просмотра БД и далее
выбрать другой режим работы.
Блок редактирования производит редактирование только числовых полей БД и
позволяет изменять характеристики, вводить новые и удалять старые записи в
таблицы БД. Здесь также можно произвести смену режима работы.
Блок защиты паролем осуществляет блокировку доступа к редактированию
данных путем ввода шестизначного пароля.
Блок поиска предназначен для осуществления поиска по введенному
техническому заданию (ТЗ) и перехода к другим режимам работы.
Блок вывода результатов поиска выводит на экран в определенном порядке
все найденные шаговые двигатели и их характеристики в соответствии с ТЗ поиска.
Блок хранения параметров поиска записывает и хранит информацию до следующего
этапа поиска.
Блок помощи выполняет роль подсказки в различных режимах работы системы.
Рисунок 1. Структура ИПС.
Область применения ИПС, как было указано выше, – это внутренняя работа с
информацией и обработка информации для использования её в работе САПР, включающей
в свой состав ИПС как один из модулей. Из этого вытекают очень высокие
требования к надёжности функционирования системы, поскольку любая САПР – это
достаточно сложное построение с заданными параметрами надежности, и каждая
структура, включаемая в такое построение, должна обладать надежностью по
крайней мере не меньшей, чем вся система в целом. Обеспечение нужных
показателей надежности, в свою очередь, во многом определяется структурой
построения системы. Для организации БД ИПС необходимо полное исследование
предметной области. В данной ИПС предметной областью является широкий класс
шаговых двигателей. [5, c. 26]
информационный поиск база данное
Информационно-поисковые системы (ИПС) Интернет, при всем их внешнем
разнообразии, также попадают в один из этих классов. Поэтому, прежде чем
знакомиться с этими ИПС, рассмотрим абстрактные алфавитные (словарные),
систематические и предметные ИПС. Для этого дадим определение некоторым
терминами из теории информационного поиска. [1, c. 3]
Классификационные информационно-поисковые системы
В классификационных ИПС используется иерархическая (древовидная)
организация информации, которая называется КЛАССИФИКАТОРОМ. Разделы
классификатора называются РУБРИКАМИ. Библиотечный аналог классификационной ИПС
– систематический каталог. Классификатор разрабатывается и совершенствуется
коллективом авторов. Затем его использует другой коллектив специалистов,
называемых СИСТЕМАТИЗАТОРАМИ. Систематизаторы, зная классификатор, читают
документы и приписывают им классификационные индексы, указывающие, каким
разделам классификатора эти документы соответствую. [3, c. 120]
Предметная ИПС Web-кольца
Предметная ИПС с точки зрения пользователя устроена наиболее просто. Ищи
название нужного предмета своего интереса (предметом может быть и нечто
невещественное, например, индийская музыка), а с названием связаны списки
соответствующих ресурсов Интернет. Это было бы особенно удобно, если полный
перечень предметов невелик.
Словарные ИПС
Культурные проблемы, связанные с использованием классификационных ИПС,
привели к созданию ИПС словарного типа, с обобщенным англоязычным названием
search engines. Основная идея словарной ИПС – создать словарь из слов,
встречающихся в документах Интернет, в котором при каждом слове будет храниться
список документов, из которых взято данное слово. [11, c. 42]
Теория информационного поиска предполагает два основных алгоритма работы
словарных ИПС: с использованием ключевых слов и с использованием дескрипторов.
В первом случае, для оценки содержимого документа используются только те слова,
которые в нем встречаются, и по запросу ИПС сопоставляет слова из запроса со
словами документа, определяя по количеству, расположению, весу слов из запроса
в документе его релевантность. Все работающие ИПС по историческим причинам
используют этот алгоритм, в различных модификациях. [14]
При работе с дескрипторами индексируемые документы переводятся на
некоторый дексрипторный информационный язык. Дескрипторный информационный язык,
как и любой другой язык, состоит из алфавита (символов), слов, средств
выражения парадигматических и синтагматических отношений между словами.
Парадигматика предусматривает выявление скрытых в естественном языке лексико-
семантических отношений между понятиями. [11, c. 44] В рамках парадигматических отношений можно
рассматривать, например, синонимию, омонимию. Синтагматика исследует такие
отношения между словами, которые позволяют объединять их в словосочетания и
предложения. Синтагматика включает правила построения слов из элементов
алфавита (кодирование лексических единиц), правила построения предложений
(текстов) из лексических единиц (грамматика). [15]
То есть, запрос пользователя переводится в дескрипторы и обрабатывается
ИПС уже в этой форме. Такой подход более затратен по вычислительным ресурсам,
но и потенциально более продуктивен, так как позволяет отказаться от критерия
релевантности и работать непосредственно с пертинентностью документов. [3, c. 121]
Ранжирование результатов поиска
Словарные ИПС способны выдавать списки документов, содержащие миллионы
ссылок. Даже просто просмотреть такие списки невозможно, да и не нужно. Было бы
удобно иметь возможность задать формальные критерии (хотя бы относительной)
важности (с точки зрения пертинентности) документов с тем, чтобы наиболее
важные документы попадали бы в начало списка. Все ИПС в настоящее время уделяют
основное внимание именно алгоритму ранжирования полученных ссылок. [10, c. 122]
Наиболее часто используемыми критериями при ранжировании в ИПС являются
наличие слов из запроса в документе, их количество, близость к началу
документа, близость к друг другу;
Наличие слов из запроса в заголовках и подзаголовках документов
(заголовки должны быть специально отформатированы);
Количество ссылок на данный документ с других документов;
«рекспектабельность» ссылающихся документов. [10, c. 123]
Глава 2. Современные ИПС
.1 Сферы использования современных ИПС
Современные ИПС характерны для так называемой информационной индустрии –
новейшей области экономики и социальной сферы, занятой обработкой,
систематизацией, накоплением и распространением информации. Бурное развитие ИПС
связано с успехами информатики (Информатика). Предметами запроса в ИПС могут
быть библиографические данные, управленческая и фактографическая информация,
экспертные оценки, ретроспективный опыт, результаты исследования моделей и т.д.
Такой широкий круг задач обусловливает большое разнообразие типов ИПС. Они
различаются своими целями, объемом содержащихся сведений, видами информации,
способами доведения ее до потребителя. [2, c. 14] Наряду с локальными ИПС, действующими в рамках одного
учреждения (например, поликлиники или больницы), существуют национальные и
интернациональные центры информационного обслуживания (например, в области
охраны окружающей среды). Широкое распространение получили библиографические
ИПС (например, содержащие библиографию по всем областям медицины и
медико-биологических наук). Массовое производство персональных ЭВМ, развитие
средств коммуникаций, возможность объединения ЭВМ в информационные сети и
обращения со своего рабочего места к сведениям, находящимся в памяти других
ЭВМ, существенно расширили диапазон применения информации, широту и глубину ее
поиска. Качественно новый этап развития ИПС связан с формированием баз данных
на машиночитаемых носителях. Такие базы данных позволяют обращаться к ним
дистанционно, одновременно по многим запросам, получая результаты поиска
оперативно и в удобном виде. [2, c. 15]
Медицина и здравоохранение являются чрезвычайно специфической областью
внедрения ИПС. Это связано со сложной структурой и многообразием форм
медико-санитарной информации, которая включает трудно формализуемые понятия и
категории, а также значительные массивы подлежащих учету данных. Особенностью
медицинской информации является и то, что результаты единичных клинических или
экспериментальных наблюдений по мере накопления и обобщения становятся основой
для осуществления крупных здравоохранительных и социальных мероприятий.
Медико-санитарная информация является базой принятия управленческих решений –
от выбора наиболее важных направлений научно-исследовательской работы до
проведения экстренных санитарно-профилактических мероприятий. В массивы
информации, на основании анализа которой осуществляется управление
здравоохранением, входят статистика (демографическая и популяционная,
статистика кадров, данные о заболеваемости и смертности и пр.), обобщенные
данные о состоянии и достижениях медицинской и ряда смежных научных дисциплин,
опыт предшествующих лет. Именно комплексный характер сведений послужил причиной
разработки единой концепции ИПС. Она включает поэтапное создание отдельных
подсистем, объединение которых достигается как на уровне обмена базами данных,
так и (или) с помощью средств коммуникаций. [9, c. 50]
Процесс разработки и интеграции подсистем в ИПС может осуществляться по
вертикали и по горизонтали по мере их создания. Подсистемы, являющиеся
вспомогательными (например, учет и движение кадров, планирование и
финансирование), могут создаваться независимо от других. На нижнем уровне
учреждения здравоохранения (больницы, клиники, НИИ) пользуются ИПС для ведения
историй болезни, контроля эффективности лечебных мероприятий, сбора и обработки
первичных статистических данных, а также для решения управленческих задач
своего уровня компетенции (использование коечного фонда и
лабораторно-диагностического оборудования, лекарственное обеспечение и др.).
Осуществляя оперативные функции, эти ИПС одновременно накапливают, а затем
передают необходимую информацию на более высокий уровень (городской, областной).
Отдельно создаются подсистемы справочно-информационного обслуживания (в области
библиографии и научных исследований, нормативных материалов, стандартов). В
рамках общей ИПС могут разрабатываться подсистемы для поддержки и развития
отдельных служб (например, психиатрической, онкологической) или целевых
программ (например, побочное действие лекарственных препаратов). [1, c. 60]
.2 Архитектура современных ИПС для WWW
Прежде чем описать проблемы построения информационно-поисковых систем Web
и пути их решения рассмотрим типовую схему такой системы (рис. 2). [13]
Рисунок 2. Типовая схема информационно-поисковой системы.
(клиент) на этой схеме – это программа просмотра конкретного
информационного ресурса. Наиболее популярны сегодня мультипротокольные
программы типа Netscape Navigator. Такая программа обеспечивает просмотр
документов WWW, Gopher, Wais, FTP-архивов, почтовых списков рассылки и групп
новостей Usenet. В свою очередь все эти информационные ресурсы являются
объектом поиска информационно-поисковой системы.interface (пользовательский
интерфейс) – это не просто программа просмотра, в случае
информационно-поисковой системы под этим словосочетанием понимают также способ
общения пользователя с поисковым аппаратом: системой формирования запросов и
просмотров результатов поиска.engine (поисковая машина) – служит для трансляции
запроса на информационно-поисковом языке (ИПЯ), в формальный запрос системы,
поиска ссылок на информационные ресурсы Сети и выдачи результатов этого поиска
пользователю.database (индекс базы данных) – индекс, который является основным
массивом данных ИПС и служит для поиска адреса информационного ресурса.
Архитектура индекса устроена таким образом, чтобы поиск происходил максимально
быстро и при этом можно было бы оценить ценность каждого из найденных информационных
ресурсов сети.(запросы пользователя) – сохраняются в его (пользователя) личной
базе данных. На отладку каждого запроса уходит достаточно много времени, и
поэтому чрезвычайно важно запоминать запросы, на которые система дает хорошие
ответы.robot (робот- индексировщик) – служит для сканирования Internet и
поддержания базы данных индекса в актуальном состоянии. Эта программа является
основным источником информации о состоянии информационных ресурсов сети.sites –
это весь Internet или точнее – информационные ресурсы, просмотр которых
обеспечивается программами просмотра. [3, c. 200]
2.3 Популярные поисковые системы
Согласно данным LiveInternet об охвате русскоязычных поисковых запросов:
Всеязычные:(37,2 %)(0,8 %)! (0,2 %) и принадлежащие этой компании поисковые
машины:
Англоязычные и международные:(механизм Teoma)
Русскоязычные – большинство «русскоязычных» поисковых систем индексируют
и ищут тексты на многих языках – украинском, белорусском, английском, татарском
и др. Отличаются же они от «всеязычных» систем, индексирующих все документы
подряд, тем, что в основном индексируют ресурсы, расположенные в доменных
зонах, где доминирует русский язык или другими способами ограничивают своих
роботов русскоязычными сайтами. [8, c. 99]
Яндекс (48,1 %).ru (5,9 %)
Рамблер (1,2 %)
Нигма (0,3 %)
Некоторые из поисковых систем используют внешние алгоритмы поиска. Так,
Qip.ru использует поисковый механизм Яндекса, а Nigma сочетает в себе как свой
алгоритм, так и сборную выдачу от других поисковиков. [7, c. 100]
Заключение
Рассмотренные мною поисковые машины далеки от совершенства. Считается,
что идеальная поисковая машина должна отвечать следующим требованиям:
. простота в использовании
. чётко организованный и обновляемый индекс.
. быстрый поиск в базе данных и быстрое реагирование.
. надёжность и точность результатов поиска.
Масштабы информационных ресурсов и их количество постоянно расширяется.
Становится ясно, что база данных не является совершенной. Интеллектуальные
агенты – новое направление лежащее в основе нового поколения поисковых машин,
которые могут фильтровать информацию и получать более точный результат.
Internet продолжает развиваться с неослабевающей интенсивностью, по сути дела
стирая ограничение на распространение и получение информации в мире. Однако в
этом информационном океане бывает не очень легко найти необходимый документ,
следует также иметь в виду, что в сети наряду с давно действующими серверами
возникают новые.
Список использованной литературы
1. Ашманов,
И. С. Продвижение сайта в поисковых системах / И. С. Ашманов. – М. : «Вильямс»,
2007. – 304 с.
. Байков, В. Д. Интернет. Поиск информации. Продвижение сайтов / В. Д.
Байков. – СПб.: БХВ- Петербург, 2000. – 288 с.
.Гаврилов, А.
В. Локальные сети ЭВМ / А. В. Гаврилов.- М. : «Мир», 1990.- 154 с.
. Гайдамакин,
Н. А. Автоматизированные информационные системы, базы и банки данных / Н. А.
Гайдамакин.- М. : «Гелиос», 2002.- 280 с.
. Кадеев, Д.
Н. Информационные технологии и электронные коммуникации / Д. Н. Кадеев.- М.:
«Электро», 2005.- 250 с.
. Колисниченко,
Д. Н. Поисковые системы и продвижение сайтов в Интернете / Д. Н. Колисниченко.
– М. : «Диалектика», 2007. – 272 с.
. Ландэ, Д.
В. Поиск знаний в Internet / Д. В. Ландэ. – М. : «Диалектика», 2005. – 272 с.
. Маннинг, К.
Введение в информационный поиск / К. Маннинг. – М.: «Вильямс», 2011.- 200 с.
. Чурсин, Н.
А. Популярная информатика / Н. А. Чурсин.- М.: «Вильямс», 2007.- 300 с.
. Якубайтис,
Э. А. Информатика- электроника- сети / Э. А. Якубайтис.- М.: «Финансы и
статистика», 1989.- 300 с.
. Информатика.
Базовый курс: учебник / под ред. С. В. Симоновича. – СПб.: «Питер», 2007.- 110
с.
. Сахарова,
Е. В. Информатика. Методические указания / Е. В. Сахарова.- Ставрополь: СТИС,
2006.- 200 с.
. Схемы и
рисунки ИПС [Электронный ресурс]. – Режим доступа : http://ssofta.narod.ru/bd/ets2.htm
(дата обращения: 10.12.2011).
. Структура и
классификация автоматизированных информационных систем [Электронный ресурс].-
Режим доступа: http://do.rksi.ru/library/courses/opais/tema1_3.dbk (дата
обращения: 8. 12. 2011).
. Терехов, И.
В. Автоматизированные информационные системы в образовании и науке [Электронный
ресурс]: семинар / И. В. Терехов.: М.-2009. – Режим доступа:
http://ou.tsu.ru/seminars/sem13/tezis/section6.htm (дата обращения: 8. 12.
2011).
Автоматизированные
информационно-поисковые системы.
Автоматизированная информационно-поисковая
система (АИПС) – многоцелевая, сложная
система, осуществляющая многоаспектный
поиск необходимых сведений, хранящихся
в электронной памяти автоматизированных
банков данных, технической базой которой
является компьютер.
АИПС работают преимущественно по
принципу «запрос – ответ», поэтому
обработка информации в них связана в
основном не с преобразованием первичных
данных, а с их поиском.
В АИПС вся поступающая информация
учитывается и систематизируется таким
образом, что позволяет, во-первых,
организовать неоднократное обращение
к ней различных аппаратов и служб органов
внутренних дел и, во-вторых, постоянно
пополнять ее новой и удалять устаревшую
информацию. При этом необходимо
подчеркнуть важнейшую характеристику
автоматизированных информационных
систем: однократный ввод информации и
последующее многократное ее использование.
Информация концентрируется, обрабатывается,
хранится и выдается пользователям в
строгом соответствии с нормативными
актами, регламентирующими ведение
оперативно-розыскных и профилактических
учетов органов внутренних дел.
Первые автоматизированные информационные
системы появились в полиции США в начале
50-х гг. и предназначались для обеспечения
розыска угнанных автомашин. В Европе
АИПС стали эксплуатироваться с середины
50-х гг. в полиции ФРГ. В настоящее время
во всех развитых странах компьютерные
системы применяются для решения широкого
круга полицейских задач.
Автоматизированные информационно –
поисковые системы принято подразделять
на документальные и фактографические.
Такое деление основано на различии
объектов поиска. В документальных
объектами поиска являются документы,
их копии или библиографическое описание.
В фактографических искомыми объектами
могут быть записи, характеризующие
конкретные факты или явления.
В системе органов внутренних дел АИПС
решают задачи сбора, хранения, поиска
и выдачи оперативно-розыскной и справочной
информации.
Ниже приводится характеристика основных
видов АИПС и АИС, функционирующих в
настоящее время в России.
1. АИПС “Опознание” обеспечивает
выдачу информации о лицах, пропавших
без вести, о неопознанных трупах, о
неизвестных больных и детях – гражданах
Российской Федерации, СНГ и лицах без
гражданства.
2. АИПС “ФР-Оповещение” обеспечивает
учет преступников, разыскиваемых по
искам предприятий и организаций
(госдолжников), или граждан- неплательщиков
алиментов; пропавших без вести;
отрабатывает запросы на лиц, находящихся
в федеральном розыске, а также готовит
циркуляры на объявление или прекращение
розыска.
3. АИПС “Автопоиск” выдает сведения
о легковых и грузовых автомобилях,
автобусах, полуприцепах отечественного
и иностранного производства по следующим
установочным данным: государственный
номер, номера двигателя, кузова и шасси.
В информационных центрах МВД дополнительно
осуществляется регистрация мотоциклов,
мотороллеров и мотоколясок.
4. АИПС “Антиквариат” выдает сведения
об утраченных и выявленных предметах,
представляющих историческую, художественную
или научную ценность. К таким предметам
относят: археологические находки;
предметы древности; антропологические
и этнографические предметы; исторические
реликвии; художественные произведения
и предметы искусства.
5. АИПС “Вещь” обеспечивает сведениями
о похищенных и изъятых номерных вещах,
а также документах, ценных бумагах
общегосударственного обращения.
6. АИПС “Сейф” позволяет осуществлять
сбор, обработку и выдачу сведении о
преступлениях, при совершении которых
взламывались металлические хранилища.
7. АИПС “Досье” позволяет получить
следующие сведения об особо опасных
рецидивистах, ворах в законе и других
криминальных авторитетах: установочные
данные, приметы, место работы и жительства,
связи, привычки и т.д.
8. АИПС “Насилие” обеспечивает
такими сведениями о тяжких нераскрытых
и раскрытых преступлениях, связанных
с насилием против личности, как место,
время и способ совершения, описание
изъятых следов, предмет посягательства
и др.
9. АИПС “Административная практика”
предназначена для обеспечения
заинтересованных служб информацией о
лицах, привлеченных к административной
ответственности, и ведется в целях
обеспечения общественного порядка в
каждом городе и районе республики,
своевременного принятия эффективных
мер правового характера и общественного
воздействия на основе соблюдения
законности. Объектами учета АИПС
“Административная практика”
являются физические лица, привлеченные
к административной ответственности.
Основанием постановки лица на учет в
АИПС “Административная практика”
является вынесенное решение по делу об
административном правонарушении, а в
случае направления дела в суд или иной
уполномоченным орган, не входящий в
систему МВД, – составленный компетентным
должностным лицом зарегистрированный
в установленном порядке протокол об
административном правонарушении.
10. АИПС “Криминал И ДТП” содержит
сведения об участниках ДТП, происшедших
на территории России.
11. АИПС “Криминал И Розыск” содержит
сведения о находящихся в розыске или
разысканных иностранных гражданах.
12. АИПС “Криминал И Наказание”
обеспечивает сведениями об иностранных
гражданах, находящихся под следствием,
арестованных или отбывающих наказание
в России.
13. АИС “Учет объектов” предназначена
для автоматизации учета поступивших
объектов (патронов, пуль, гильз). Система
позволяет вводить, хранить, изменять,
просматривать и выводить на печать
информацию об учитываемых объектах.
Данные можно выводить на дисплей как в
виде таблицы, так и в виде карточки для
каждого объекта. Программа позволяет
выдавать на печать статистические
отчеты об объектах, заведенных в базу.
14. АИС “Учет фальшивых денежных знаков”
предназначена для автоматизированного
учета денежных билетов, поступивших на
проверку по картотеке поддельных
денежных знаков. Система позволяет
редактировать ранее введенную информацию,
производить поиск и создавать отчеты
по заданным условиям. Программа позволяет
выдавать на печать статистические
отчеты о фальшивых купюрах, заведенных
в базу.
15. АИПС «Оружие – МВД».
Объектами учета являются: гражданское,
служебное, боевое ручное стрелковое
оружие, находящееся в обороте на
территории Российской Федерации, начиная
с момента его производства, ввоза на
территорию Российской Федерации, включая
информацию об утилизации, или вывоза
из Российской Федерации; субъекты,
имеющие право на приобретение оружия;
работники юридических лиц с особыми
уставными задачами, в том числе
подразделений ведомственной охраны
федеральных органов исполнительной
власти; выданные бланки лицензий и
разрешений.
16. АИПС «Дорожное движение» (ДД) состоит
из нескольких подсистем:
а) «Автомобиль» – содержит данные о всех
средствах автомототранспорта (АМТ), на
которые ГАИ выдала документы (учет
местный)
б) «Водитель» — содержит данные о лицах,
которым ГАИ выдала права на вождение
средств АМТ. Специально выделены данные
о водителях, привлекавшихся к
ответственности (учет местный);
в) «ДТП» — содержит данные о
дорожно-транспортных происшествиях
(учет местный);
г) «Дорога» — содержит классификацию
дорог в регионе и данные об их обустроенности
дорожными знаками (учет местный);
д) «Техдокумент» — содержит данные о
похищенных или утерянных технических
паспортах, бланках-счетах на приобретение
средств АМТ (учет местный).
е) АИПС «Ограничения» – основанием для
занесения в базу данных является
признание регистрации транспортного
средства недействительной (регистрация
аннулирована) или наложение в установленном
порядке ограничений на проведение
регистрационных действий.
ж) АИПС «Розыск» – основанием для
постановки (снятия) на оперативный учет
является заявление (сообщение) в органы
внутренних дел в районах, городах и иных
муниципальных образованиях, в том числе
в нескольких муниципальных образованиях,
о хищении, неправомерном завладении
транспортным средством без цели хищения,
а также о его причастности к совершению
преступления.
17. АИПС «ОВИР — криминал» — в банке
данных содержатся сведения об иностранцах
и лицах без гражданства, в том числе
совершивших преступления или
административное правонарушение; в
отношении которых совершены преступления;
находящихся в розыске или разысканных;
находящихся под следствием, арестованных
или отбывающих наказание; участвовавших
в дорожно-транспортных происшествиях.
18. АИПС «Грузы — ТМ» обеспечивает
автоматизированный учет, обработку,
хранение и выдачу данных о хищениях,
недостачах груза и багажа на железнодорожном
транспорте, в том числе: о наиболее
вероятных пунктах маршрута, где могло
быть совершено хищение груза из подвижного
состава; о нераскрытых кражах груза и
багажа, по факту которых возбуждено
уголовное дело; о раскрытых хищениях
груза и багажа, имеющих сходство с
расследуемым (раскрываемым) преступлением.
19. АИПС «Аэропорт-2» — функционирует
в аэропортах, оснащенных автоматизированной
системой реализации мест на авиарейсы,
и предназначена для выявления на основе
паспортных данных разыскиваемых
преступников и других лиц, представляющих
оперативный интерес, а также утраченных
паспортов.
20. АИПС «Сопровождение проектов НПА МВД
России». Основные задачи:
формирование и ведение автоматизированного
банка данных проектов нормативных
правовых актов, разрабатываемых и (или)
сопровождаемых МВД России, а также
отзывов и заключений на данные проекты;
формирование, ведение и использование
автоматизированного банка данных
правоподготовительных работ и
организационных мероприятий,
предусмотренных планами, протоколами,
распоряжениями, другими ненормативными
актами управления;
обеспечение контроля за разработкой и
сопровождением в системе МВД России
проектов нормативных правовых (правовых)
актов;
обеспечение контроля за исполнением
плановых мероприятий;
обеспечение формирования необходимых
для анализа состояния правоподготовительной
работы в системе МВД России отчетных
форм по результатам разработки и
сопровождения проектов нормативных
правовых (правовых) актов и по результатам
выполнения плановых мероприятий.
АИПС “Сопровождение проектов НПА”
состоит из следующих подсистем: “Контроль
прохождения проектов нормативных
правовых актов” и
“Контроль плановых мероприятий”.
21. АДИС «Папилон» обеспечивает создание,
хранение и функционирование электронной
базы данных дактилокарт и следов и
автоматизацию процесса дактилоскопической
идентификации для решения ряда задач:
установление личности по отпечаткам и
следам пальцев рук и ладоней; идентификация
неопознанных трупов; установление
причастности лица к ранее совершенным
преступлениям; объединение преступлений,
совершенных одним и тем же лицом.
22. АБИС «Арсенал» – система идентификации
огнестрельного оружия. Задачи, решаемые
АБИС «Арсенал» – создание автоматизированных
баз данных пуль, гильз, снарядов от
зарегистрированного оружия; создание
автоматизированных баз данных пуль,
гильз, снарядов, изъятых с мест
происшествий; автоматизация проверок
пуль, гильз, снарядов по всему объему
баз данных для выявления объектов,
выстреленных из одной и той же единицы
оружия; автоматизация трасологических
экспертиз пуль, гильз, снарядов и их
фрагментов; раскрытие и объединение
преступлений, совершенных с применением
огнестрельного и травматического
оружия; построение многоуровневых
территориально-распределенных систем
идентификации оружия с возможностью
удаленного доступа к базам данных.
Соседние файлы в папке кримрегистрация
- #
- #
- #