Язык запросов поисковых систем интернет реферат

Реферат: Язык запросов русскоязычных поисковых систем

Реферат подготовила ученица 11 класса Зимина Марина

МОУ Коробовская СОШ

Управления образования Администрации Шатурского района Московской области

2005 год

Введение.

При проведении поиска информации в службе www, когда тема задана достаточно широко, целесообразно использовать поисковые каталоги и поисковые указатели. Знание основных понятий и терминов позволяет провести углубленный поиск с применением ключевых слов, наиболее точно характеризующих искомую тему. При этом следует различать приемы простого, расширенного и контекстного поиска.

Под простым поиском понимается поиск Web-ресурсов по ключевому слову. Недостаток этого вида поиска заключается в том, что обычно он выдает слишком много документов, причем наряду с ценной информацией попадается много «мусора».

При использовании расширенного поиска ключевые слова связываются между собою операторами логических отношений(так называемый язык запросов). При помощи логических отношений поисковое задание формулируется так, чтобы более точно детализировать задание и ограничить область отбора.

Контекстный поиск – это поиск по точной фразе. К сожалению доступен не во всех поисковых системах. К тому же эта операции достаточно медленная.

Язык запросов – язык манипулирования данными, позволяющий описывать условия поиска информации, не задавая для этого последовательность действий, нужных для получения ответа.

Порядок действий логических операторов: сначала выполняются действия в скобках ( ), потом операторы AND, NOT и лишь потом OR.

В разных поисковых системах используются различные приемы связывания между собой ключевых слов при помощи логических операторов. В дальнейшем будут приведены правила построения запросов в трех наиболее распространенных русскоязычных системах.

Язык запросов в поисковой системе РАМБЛЕР [1]

Написано Результат поиска Примечания и примеры
идти Все формы по правилам русского языка найдётся идти, идёт, шёл, шла и т.д.
Регистр (shift) Если подряд идёт не менее чем два, три или четыре слова с большой буквы, то будет производиться только по имени собственному ДОМ и дом, nOt и Not воспринимаются одинаково

слово1 пробел слово 2

слово 1 & слово 2

слово 1 AND слово 2

Будут найдены все документы, где в одном предложении есть оба слова

машина самолёт

машина & самолёт

машина AND самолёт

Слово 1 or слово 2

Слово 1 | слово 2

Будут найдены документы, содержащие или одно слово, или другое

самолёт or аэродром

самолет | аэродром

Слово 1 not слово 2

Слово 1! слово 2

Будут найдены документы, содержащие первое слово, но без второго

машина not самолёт

машина! самолёт

” “ Слова, заключенные в двойные кавычки, ищутся в документах именно в том порядке и в тех формах, в которых они указаны в запросе* самолёт «заправился» посадка не будет найдено: самолёт совершил посадку, чтобы заправиться
(X,Y) Будут найдены документы, в которых расстояние между словами не более Х слов (2, красная армия) между словами не стоит ни одного слова, поскольку лишь в случае непосредственного их соседства разница в порядковых номерах слов меньше 2, по умолчанию максимальное расстояние – 40 слов

Оформление запросов в поисковой системе Яндекс [2]

Написано Результат поиска Примечания и примеры
идти Все формы по правилам русского языка найдётся идти, идёт, шёл, шла и т.д.

Путина

путина

Если вы набрали слово с большой буквы, будут найдены только слова с большой буквы, в противном случае будут найдены как слова с большой, так и с маленькой буквы по запросу ‘путина’ найдется и президент, и сезон интенсивного рыболовства. А по запросу ‘Путина’ – президент и те случаи рыболовного сезона, когда он написан с большой буквы.

слово 1 && слово 2

слово 1 & слово 2

+слово 1 +слово 2

Будут найдены документы, в которых есть оба слова

лечебная & физкультура

+лечебная +физкультура

одинарный оператор ищет в пределах предложения, двойной – в пределах документа

слово 1 ~~ слово 2

слово 1 ~ слово 2

слово 1 –слово 2

Будут найдены документы с первым словом, но без второго

руководство Visual C ~~ цена

рак -гороскоп

одинарный оператор ищет в пределах предложения, двойной – в пределах документа

именно знак минус, а не тире и не дефис через пробел от предыдущего и слитно с последующим словом

слово 1 пробел слово 2 пробел слово 3 Будет найдено много документов с этими словами

частные объявления продажа

велосипедов

несколько слов, разделённые пробелами, означают, что все они должны входить в одно предложение искомого документа

слово 1 | слово 2 Будут найдены документы либо с первым словом, либо со вторым фото | фотография
Таблица «Оформление запросов в поисковой системе «Яндекс» (продолжение)
” “ Будут найдены документы, в которых слова, заключенные в кавычки, идут подряд

«красная шапочка»

контекст «а шапочка у неё была красная» найден не будет

! слово Будут найдены документы, содержащие это слово ! Лужкову
слово 1 /число слово 2 Будут найдены документы, в которых первое слово находится на расстоянии заданного числа от второго

поставщики /2 кофе

найдутся «поставщики колумбийского кофе», «поставщики кофе из Колумбии» и т.д.

слово 1 /(+n –n)

слово 2

Будут найдены документы, в которых известны расстояния между словами

+n – это минимальное число слов, а –n – максимальное

музыкальное /(-2 4) образование

музыкальное должно находиться от образования в интервале от 2 слов слева до 4 слов справа

если знаки ограничения стоят после двойных операторов, то употреблённые там числа – это расстояние не в словах, а в предложениях

$title X Будут найдены документы с заголовком Х

$title Comp Tek

ищет в заголовках документов слово Comp Tek

$anchor (X | Y) Будут найдены документы, в ссылках которых есть одно из слов Х или Y

$anchor (Comp Tek | Dialogic)

#url=«www.X.ru» Ограничить поиск информации сервером Х

Comp Tek

#url=www.comptek.ru

упоминание компании Comp Tek на сервере www.comptek.ru и в адресах начинающихся с данной последовательности символов

#linkl=«www.x.ru/*» Будут найдены документы, содержащие ссылки на определённые URL

#linkl=www.comptek.ru*

найдутся документы, которые сослались на сервер компании

#image=«X*» Будут найдены документы, содержащие ссылки на документы с изображениями Х

#image=«tort*»

найдутся ссылки на документы с изображением тортов

возможно, найдётся и портрет черепахи Тортиллы

#hint=(X) Будут найдены документы, содержащие изображение с подписью Х

#hint=(кино)

документы, содержащие изображение с подписью кино

Таблица. «Оформление запросов в поисковой системе Яндекс» (окончание)

#keywords=(X Y Z)

#abstrakt=(X Y Z)

Будут найдены документы по ключевым словам и аннотациям X Y Z keywords – краткое описание содержания страницы. Эта служебная информация и она не видима на странице
Х <- Y Будут найдены документы, содержащие слова Х и Y, при этом будут выданы первыми документы, содержащие слово Y

компьютер <- телефон

первыми будут выданы документы, содержащие слово телефон

Оформление запросов в поисковой системе Апорт [3]

Написано Результат поиска Примечания и примеры
идти

Все формы по правилам

русского языка

найдётся идти, идёт, шёл,

шла и т.д.

Регистр(shift) Если вы набрали слово с большой буквы, будут найдены только слова с большой буквы красная площадь

слово 1 AND слово 2

слово 1 + слово 2

слово 1 и слово 2

слово 1 & слово 2

Будут найдены документы, в которых есть оба слова

лечебная & физкультура

лечебная и физкультура

лечебная + физкультура

лечебная AND физкультура

слово 1оr слово 2

слово 1│ слово 2

слово 1 или слово 2

Будут найдены документы, содержащие любое из указанных слов или оба слова одновременно фото | фотография

слово 1 не слово 2

слово 1 not слово 2

слово 1 — слово 2

Будут найдены документы с первым словом, но без второго

рак — гороскоп

рак не гороскоп

рак not гороскоп

” ” Будут найдены документы с данными словосочетанием или близкое к нему

”яблоки на снегу ”

будут найдены ”яблоки на снегу”, ”яблоки и снег”, ”яблокам под снегом”, ”яблоко снег”

слХ(слова)

сХ(слова)

wX(слова)

[Х, слова]

Будут найдены документы, где между словами стоит не более двух других слов

сл5(папа мама сын)

между словами ”папа”, ”мама” и ”сын” стоит не более двух других слов, т.е. общее число слов во фрагменте не более 5

Таблица «Оформление запросов в поисковой системе Апорт» (продолжение)

url:

url=

Ограничение поиска одним или несколькими серверами, или даже частью сервера

url=www.intel.ru

документы, на сервере www.intel.ru. В случайном порядке

url=www.intel.ru & soft & условия

все документы, сервера www.intel.ru, содержащие слова ”soft” и ”условия”

url=www.intel.ru/soft/*

все документы, на сервере www.intel.ru в каталоге soft и его подкаталогах

url=*.agama.com

все документы, на серверах www.agama.com, russia.agama.com и т.д.

дата:

дата=

date=

date:

Поиск по датам

папа дата=01/01/97-01/02/97

документы, содержащие слово папа, и имеющие дату от 1 января 1997 года до 1 февраля 1997 года

date=01/01/97 папа

документы, содержащие слово папа, и имеющие дату 1 января 1997 года

дата:<01/02/97 папа

дата:-01/02/97 папа

все документы, содержащие слово папа, и имеющие дату не позже 1 февраля 1997 года

title=

t=

title( )

заг=

з=

Поиск в заголовках

title(папа │мама)

будут найдены документы, содержащие в заголовке слово папа или слово мама, или оба одновременно

перед круглыми скоками знак равенства можно опустить

keywords=

kw=

клсл=

кл=

Поиск в поле МЕТА KEYWORDS

kw(папа мама)

будут найдены документы, для которых автор в ключевых словах указал оба слова: папа и мама

Таблица «Оформление запросов в поисковой системе Апорт» (окончание)

alt=

a=

рис=

р=

Поиск в комментариях к картинкам

alt=(Билл Гейтс)

документы, в которых есть картинка с комментарием, содержащим как минимум два слова: Билл и Гейтс

anchor= Поиск в тексте ссылок

anchor=(ненавижу Интернет)

документы, в тексте ссылок на которые, встречаются оба слова: ненавидеть и Интернет

description= Поиск в тексте описаний сайтов и в поле DESRIPTION

description=(”уксусная кислота”)

будут найдены корневые документы сайтов, в тексте описаний которых встречается словосочетание уксусная кислота

text=(оглавление или содержание)

x=(оглавление или содержание)

текст=(оглавление или содержание)

т=(оглавление или содержание)

Поиск в обычном тексте.

Будут найдены документы, в которых любое из указанных слов встречается в пределах основного текста документа

текст=(Последний звонок)
* Произвольное число любых букв

зелен*

найдутся: зеленка, зелень, зеленый, Зеленоград

! слово Будут найдены документы, содержащие это слово ! Лужкову

Список литературы

1. www.rambler.ru/doc

2. www.yandex.ru/info/syntax

3. www.glossary.ru

Поисковые системы Интернета

Содержание

Введение

1. История развития поисковых систем

2. Как работают механизмы поиска

3. Сравнительный обзор справочно-поисковых систем

3.1 Gopher

3.2 WAIS

3.3 WWW

3.4 AltaVista

3.5 OpenText

3.6 Infoseek

4. Поисковые роботы

5. Наиболее популярные русскоязычные справочно-поисковые системы в интернет

5.1 Rambler

5.2 Yandex

5.3 Aport

6. Наиболее популярные зарубежные поисковики для русскоязычного пользователя

6.1 Googlе

6.2 Yahoo

7. Рынок поисковых систем в Китае

7.1 Поисковая система Baidu

8. Перспективы развития поисковых систем

Заключение

Список литературы

Введение

Каждый пользователь в Интернете может найти массу разнообразной и интереснейшей информации, а также использовать все богатейшие возможности сети. Выбранная тема реферата очень актуальна на сегодняшний день, т.к. поисковые системы не заменимы на сегодняшний день, в силу чрезвычайно частого посещения всемирной сети. Ресурсы Интернета превратившись в инструмент для повседневной работы людей многих профессий. Быстрый рост информации в сети сделали его океаном разнообразнейших данных, важность которых растет пропорционально их объему. По оценке экспертов объем информации, передаваемой по каналам Интернет, удваивается каждые полгода. Ежедневно в сети появляются миллионы новых документов, и естественно, что без систем поиска они в подавляющем своем большинстве остались бы не востребованными, вообще не были бы не кем найдены, и все то огромное количество информации оказалось бы никому не нужным. Возникла необходимость создания таких средств, которые позволили бы легко ориентироваться в информационных ресурсах глобальных сетей, быстро и надежно находить нужные сведения. В интернете появились специальные поисковые средства. Еще несколько лет назад бытовало такое мнение: в Интернете есть все, но найти там ничего невозможно. Однако с появлением и быстрым развитием поисковых каталогов, поисковых машин, и всевозможных поисковых программ ситуация изменилась, и теперь в Сети срочно понадобившуюся информацию иногда можно найти быстрее, чем в книге, лежащей на столе [1].

К сожалению, поисковые системы часто не способны точно и справедливо интерпретировать ресурсы. Как результат, на первых позициях поиска зачастую оказываются сайты “далекие” от решаемого вопроса. При этом ресурсы представляющие реальную пользу оказываются “за бортом” поиска.

поисковая система интернет робот

Причина такого положения проста и кроется в технологии получения и представления результатов поисковыми системами. Как это не парадоксально, но это вина не поисковых систем, поскольку они обязаны скрывать правила построения поисковых индексов. Это вина самой технологии при организации поиска

Поисковая система – это программное обеспечение, предоставляющее доступ к коллекции слабоструктурированной информации. Ориентация на слабоструктурированные данные, т.е. данные, которые нельзя представить в виде реляционной таблицы, отличает поисковую систему от СУБД.

В данном определении поисковой системы подразумевается информация различного рода, т.е. текст, аудио, видео, изображения и т.п. Однако следует отметить, что именно текстовые данные идеально подходят для описания полной функциональности поисковой системы, т.к. алгоритмы поиска мультимедийной информации, прежде всего, основываются на алгоритмах поиска текста.

Основная задача поисковой системы – минимизировать время, затрачиваемое пользователем на поиск нужной информации [2]. Вопрос заключается в том, какую информацию пользователь посчитает нужной? В некоторых обстоятельствах релевантную информацию можно определить как всю информацию из базы, имеющую отношение к запросу. Традиционно к поисковой системе применяют две основные характеристики: точность и полнота, а точнее, их зависимость. Каждый раз, когда пользователь задает системе запрос, тем самым инициализируя поиск, все документы в коллекции поисковой системы делятся на четыре части. Точность определяет один аспект поиска, а именно, насколько хорошо поисковая система способна минимизировать время, затрачиваемое пользователем на поиск релевантной данному запросу информации. В то время как полнота определяет другой аспект – насколько хорошо система способна найти релевантную данному запросу информацию. Можно подобрать оптимальный запрос (ы), когда каждый найденный документ будет релевантным, и каждый релевантный документ будет найден.

Поисковые системы при использовании Интернет играют очень важную роль. В Интернете сосредоточено такое количество информации, что ее поиск уже превращается в отдельную задачу и отнимает очень много времени. Поисковые серверы выдают на запрос тысячи ссылок вместо нескольких страниц, где действительно имеется нужная информация. Пользователи всемирной сети Интернет, осознав преимущества, предоставляемые возможностью анализа пространственных данных, нуждаются в инструменте, позволяющем осуществлять быстрый и удобный поиск и доступ к цифровым снимкам местности и другой пространственной информации, сосредоточенной во многих правительственных, коммерческих и академических организациях.

1. История развития поисковых систем

Одним из первых способов организации доступа к информационным ресурсам сети стало создание каталогов сайтов, в которых ссылки на ресурсы группировались согласно тематике. Первым таким проектом стал сайт Yahoo, открывшийся в апреле 1994 года. После того, как число сайтов в каталоге Yahoo значительно увеличилось, была добавлена возможность поиска информации по каталогу. Это, конечно же, не было поисковой системой в полном смысле, так как область поиска была ограничена только ресурсами, присутствующими в каталоге, а не всеми ресурсами сети Интернет [4].

Каталоги ссылок широко использовались ранее, но практически утратили свою популярность в настоящее время. Причина этого очень проста – даже современные каталоги, содержащие огромное количество ресурсов, представляют информацию лишь об очень малой части сети Интернет. Самый большой каталог сети DMOZ (или Open Directory Project) содержит информацию о 5 миллионах ресурсов, в то время как база поисковой системы Google состоит из более чем 8 миллиардов документов.

Первой полноценной поисковой системой стал проект WebCrawler появившийся в 1994 году.

В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в Интернет.

В 1997 году Сергей Брин и Лари Пейдж создали Google самую популярную на сегодняшний момент поисковую систему в мире.

сентября 1997 года была официально анонсирована поисковая система Yandex, самая популярная в русскоязычной части Интернет.

В настоящее время существует 3 основных международных поисковых системы – Google, Yahoo и MSN Search, имеющих собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих можно насчитать очень много) использует в том или ином виде результаты 3 перечисленных. Например, поиск AOL (search. aol.com) и Mail.ru используют базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.

В России основной поисковой системой является Яндекс, за ним идут Rambler, Google.ru, Aport, Mail.ru и КМ.ru

AltaVista – поисковая система. Название “AltaVista” буквально переводится как “взгляд сверху”.

Изначально, поисковая система AltaVista была настоящим новатором по созданию поисковых технологий. В 1995 году Альта виста создавалась как один из элементов оборудования исследовательской лаборатории Digital Equipment Corporation (DEC). Появившись, поисковая система AltaVista быстро получила признание пользователей и стала лидером среди себе подобных. Основной заслугой системы AltaVista считается обеспечение поддержки множества языков, в том числе китайского, японского и корейского. Действительно, в 1997 году ни одна поисковая машина в Сети не работала с несколькими языками, тем более с редкими.

В 1998 году корпорация Compaq Computer купила DEC (вместе с AltaVista). И уже в начале 1999 года AltaVista получила статус самостоятельного подразделения. В этом же году Microsoft лицензировала поисковую систему AltaVista для использования на своем узле MSN. Множество желающих сразу же стали пользоваться услугами по индексации больших объемов информации и возможностью мгновенного поиска в огромных базах данных. При этом адрес поисковой системы оставался прежним – altavista. digital.com.

А набор в адресной строке altavista.com приводил к попаданию на сайт компании AltaVista Technology. В результате, известность поисковой системы привела к огромному притоку посетителей на сайт AltaVista Technology и потере потенциальных пользователей поисковой системой. В итоге, домен altavista.com был выкуплен Compaq за 3,35 миллиона долларов в августе 1998 года (крупнейшая сделка подобного рода на тот момент). Несмотря на это, Compaq так и не удалось получить прибыль от поисковой системы. Поэтому в июне 1999 года начались переговоры Compaq и корпорации CMGI о формировании стратегического сетевого альянса, в рамках которого AltaVista была продана CMGI. 19 августа 1999 года было объявлено о приобретении корпорацией CMGI у Compaq 83 % акций AltaVista.

В феврале 2003 AltaVista была куплена Overture Services, Inc., которая в июле 2003 была приобретена Yahoo. С мая 2011 AltaVista перешла на поисковую технологию Yahoo.

Поисковая система AltaVista же стремилась стать универсальным порталом, включавшим онлайновый магазин, радиостанцию, форумы, чаты, персональные фотоальбомы и прочее. Но, из-за громадных денежных вливаний, из-за конкуренции с другими гигантскими порталами и опубликованной критики со стороны тех же конкурентов, 2001 год проходит для компании под девизом отказа от претензий на статус портала и “возвращения к истокам.

Компания повернула свою деятельность в другое русло. Теперь www.altavista.com продвигает свою поисковую систему среди индивидуальных пользователей Интернета и лицензирует технологии поиска предприятиям, в том числе для использования во внутренних сетях. Основным же источником финансирования потребительской версии поисковой системы AltaVista стали доходы от рекламы, получаемые, в том числе и от наиболее популярных. Например, сейчас реальные результаты поиска помещаются после ссылки, за размещение которой, компании AltaVista платит владелец соответствующего ресурса.

Одновременно, с попытками стать порталом, AltaVista продолжала совершенствовать свои поисковые технологии.

Также еще одним источником прибыли AltaVista является разработка корпоративных поисковых систем внутреннего пользования.

Несмотря на явное отставание от конкурентов, www.altavista.com абсолютно уверена в своих силах. Надеемся, что компания Альта виста выполнит все намеченное и с успехом “вернется к своим корням. Поисковая система AltaVista (www.altavista.com) завоевала сердца всех пользователей Интернета на раннем этапе его существования. Ее история – классический пример сочетания хорошей технологии с невнятным позиционированием.

2. Как работают механизмы поиска

Средства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Средства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как находить и обрабатывать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют cсылки к ресурсам типа баз данных WAIS; другие проинструктированы, что нужно просматривать прежде всего наиболее популярные страницы.

. Агенты – самые “интеллектуальные” из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.

. Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.

. Кроулеры просматривают заголовки и возвращают только первую ссылку.

. Роботы могут быть запрограммированы так, чтобы переходить по различным cсылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети, однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

Агенты извлекают и индексируют различные виды информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Вид построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.

Агенты могут также перемещаться по Интернет и находить информацию, после чего помещать ее в базу данных поискового механизма. Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано выше.

Люди могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, в который они хотели бы поместить свою информацию. Эти данные передаются базе данных.

Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.

База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:

. Количество слов запроса в текстовом содержимом документа (т.е. в html-коде).

. Тэги, в которых эти слова располагаются.

. Местоположение искомых слов в документе.

. Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.

Эти принципы применяются всеми поисковыми системами. А представленные ниже используются некоторыми, но достаточно известными (вроде AltaVista, HotBot).

. Время – как долго страница находится в базе поискового сервера. Поначалу кажется, что это довольно бессмысленный принцип. Но, если задуматься, как много существует в Интернете сайтов, которые живут максимум месяц! Если же сайт существует довольно долго, это означает, что владелец весьма опытен в данной теме и пользователю больше подойдет сайт, который пару лет вещает миру о правилах поведения за столом, чем тот, который появился неделю назад с этой же темой.

. Индекс цитируемости – как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика.

Когда Вы щелкаете на ссылке к одному из документов, который вас интересует, этот документ запрашивается у того сервера, на котором он находится.

3. Сравнительный обзор справочно-поисковых систем

3.1 Gopher

Gopher – был широко распространен в интернете и являлся предшественником World Wide Web. По некоторым данным, до 1995 года Gopher был самой динамично развивающейся технологией интернета. Темпы роста числа соответствующих серверов опережали темпы роста серверов всех других типов. В 1993 году в мире было более полутора тысяч gopher-серверов [5].фактически являлся системой распределенного поиска и передачи документов одновременно. Причем эти возможности реализовывались не как дополнительные сервисы-надстройки, подобно современным поисковым машинам, а были встроены в систему как ее базовые функции.

С помощь специальной программы Veronica непосредственно в системе Gopher осуществлялся поиск с использованием специального языка запросов, построенного на ключевых словах. Эта система работала не только задолго до появления GOPHER (RFC-1436) представляет собой систему для поиска и доставки документов, хранящихся в распределенных хранилищах-депозитариях. Система была разработана в университете штата Миннесота (на гербе этого штата изображен хомяк, по-английски gopher). Программа Gopher предлагает пользователю последовательность меню, из которых он может выбрать интересующую его тему или статью. Объектом поиска может быть текст или двоичный файл (во многих депозитариях даже текстовые файлы хранятся в архивированном, а следовательно, двоичном виде), графический или звуковой образ. Gopher кроме того предлагает шлюзы в другие поисковые системы WWW, Wais, Archie, Whois, а также в сетевые утилиты типа telnet или FTP. Gopher может предложить больше удобств для работы с оглавлением файлов (directory), чем FTP. Для доступа в глобальную сеть Gopher использует модель клиент-сервер. Система Gopher в настоящее время устарела, многие ее серверы интегрированы в сеть WEB. Но gopher явился прототипом современных интерфейсов WWW и именно делает его интересным.

3.2 WAIS

WAIS является одной из наиболее изощренных поисковых систем Internet. В ней не реализован лишь поиск по нечетким множествам и вероятностный поиск. В отличие от многих поисковых машин, система позволяет строить не только вложенные булевые запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и осуществлять коррекцию запроса по релевантности. Система также позволяет использовать усечения терминов, разбиение документов на поля и ведение распределенных индексов. Не случайно именно эта система была выбрана в качестве основной поисковой машины для реализации энциклопедии “Британика” на Internet.

Распределенная информационная система WAIS была задумана как сетевой аналог традиционных информационно-поисковых систем (ИПС), позволяющий пользователям сети осуществлять поиск в полнотекстовых базах данных с использованием традиционного для ИПС информационно-поискового языка, поисковые предписания которого строятся на основе ключевых слов и/или их усечений, связанных между собой логическими операторами 0R или AND.

Первоначально система WAIS разрабатывалась четырьмя фирмами: Dow Jones й Со. (деловые базы данных); Think Machines Corporation (информационно-поисковые системы); Apple Computer (интерфейс пользователя) и KPMG Peat Maverick (работа с большим числом пользователей). Первый прототип WAIS был полукоммерческой полуисследовательской системой с большими ограничениями по использованию как со стороны пользователей, так и со стороны администраторов баз данных. Прототип WAIS неплохо понимал естественный английский язык и переводил его в поисковые предписания системы. Реально WAIS стала широко применяться только с появлением версии FreeWAIS для операционных систем UNIX. Сегодня существует большое количество реализаций WAIS, главным образом коммерческих, а система стала своеобразным стандартом информационно-поисковой машины на сети Internet.

При работе с WAIS пользователям не нужно тратить много времени, чтобы найти необходимые им материалы.

В сети Internet существует более 300 WAIS – библиотек. Но поскольку информация представляется преимущественно сотрудниками академических организаций на добровольных началах, большая часть материалов относится к области исследований и компьютерных наук.

3.3 WWW

WWW – система для работы с гипертекстом. Потенциально она является наиболее мощным средством поиска. Гипертекст соединяет различные документы на основе заранее заданного набора слов. Например, когда в тексте встречается новое слово или понятие, система, работающая с гипертекстом, дает возможность перейти к другому документу, в котором это слово или понятие рассматривается более подробно [11].часто используется в качестве интерфейса к базам данных WAIS, но отсутствие гипертекстовых связей ограничивает возможности WWW до простого просмотра, как у Gopher.

Пользователь со своей стороны может задействовать возможность WWW работать с гипертекстом для связи между своими данными и данными WAIS и WWW таким образом, чтобы собственные записи пользователя как бы интегрировались в информацию для общего доступа. На самом деле этого, конечно, не происходит, но воспринимается именно так.

3.4 AltaVista

Индексирование в этой системе осуществляется при помощи робота. При этом робот имеет следующие приоритеты:

слова содержащиеся в теге <title> имеют высший приоритет; ключевые фразы в <Meta> тэгах;

ключевые фразы, находящиеся в начале странички;

ключевые фразы в ALT – ссылках

ключевые фразы по количеству вхожденийприсутствия словфраз;

Если тэгов на странице нет, использует первые 30 слов, которые индексирует и показывает вместо описания (tag description)

Наиболее интересная возможность AltaVista – это расширенный поиск. Здесь стоит сразу оговориться, что, в отличие от многих других систем AltaVista поддерживает одноместный оператор NOT. Кроме этого, имеется еще и оператор NEAR, который реализует возможность контекстного поиска, когда термины должны располагаться рядом в тексте документа. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой фразеологический словарь. Кроме всего прочего, при поиске в AltaVista можно задать имя поля, где должно встретиться слово: гипертекстовая ссылка, applet, название образа, заголовок и ряд других полей. К сожалению, подробно процедура ранжирования в документации по системе не описана, но видно, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Реально эту систему можно отнести к системе с расширенным булевым поиском.

3.5 OpenText

Информационная система OpenText представляет собой самый коммерциализированный информационный продукт в Сети. Все описания больше похожи на рекламу, чем на информативное руководство по работе. Система позволяет провести поиск с использованием логических коннекторов, однако размер запроса ограничен тремя терминами или фразами. В данном случае речь идет о расширенном поиске. При выдаче результатов сообщается степень соответствия документа запросу и размер документа. Система позволяет также улучшить результаты поиска в стиле традиционного булевого поиска. OpenText можно было бы отнести к разряду традиционных информационно-поисковых систем, если бы не механизм ранжирования.

3.6 Infoseek

В этой системе индекс создает робот, но он индексирует не весь сайт, а только указанную страницу. При этом робот имеет такие приоритеты:

слова в заголовке <title> имеют наивысший приоритет;

слова в теге keywords, description и частота вхожденийповторений в самом тексте;

при повторении одинаковых слов рядом выбрасывает из индекса

допускает до 1024 символов для тега keywords, 200 символов для тэга description;

если тэги не использовались, индексирует первые 200 слов на странице и использует как описание;

Система Infoseek обладает довольно развитым информационно-поисковым языком, позволяющим не просто указывать, какие термины должны встречаться в документах, но и своеобразно взвешивать их. Достигается это при помощи специальных знаков “+” – термин обязан быть в документе, и “-” – термин должен отсутствовать в документе. Кроме этого, Infoseek позволяет проводить то, что называется контекстным поиском. Это значит, что используя специальную форму запроса, можно потребовать последовательной совместной встречаемости слов. Также можно указать, что некоторые слова должны совместно встречаться не только в одном документе, а даже в отдельном параграфе или заголовке. Имеется возможность указания ключевых фраз, представляющих собой единое целое, вплоть до порядка слов. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Подводя краткое резюме, можно сказать, что Infoseek относится к традиционным системам с элементом взвешивания терминов при поиске.

4. Поисковые роботы

За последние годы Всемирная паутина стала настолько популярной, что сейчас Интернет является одним из основных средств публикации информации. Когда размер Сети вырос из нескольких серверов и небольшого числа документов до огромных пределов, стало ясно, что ручная навигация по значительной части структуры гипертекстовых ссылок больше не представляется возможной, не говоря уже об эффективном методе исследования ресурсов [8].

Эта проблема побудила исследователей Интернет на проведение экспериментов с автоматизированной навигацией по Сети, названной “роботами”. Веб-робот – это программа, которая перемещается по гипертекстовой структуре Сети, запрашивает документ и рекурсивно возвращает все документы, на которые данный документ ссылается. Эти программы также иногда называют “пауками”, ” странниками”, или ” червями” и эти названия, возможно, более привлекательны, однако, могут ввести в заблуждение, поскольку термин “паук” и “странник” cоздает ложное представление, что робот сам перемещается, а термин “червь” мог бы подразумевать, что робот еще и размножается подобно интернетовскому вирусу-червю. В действительности, роботы реализованы как простая программная система, которая запрашивает информацию из удаленных участков Интернет, используя стандартные cетевые протоколы.

5. Наиболее популярные русскоязычные справочно-поисковые системы в интернет

5.1 Rambler

Поисковая система Рамблер начала свое существование с 1996 года. На сегодняшний день она является одной из самых популярных в РуНете, уступая лишь Яндексу (по популярности). По оценкам SpyLog на Рамблер приходится 20-25% от всех поисковых запросов РуНета.

Поисковая система Рамблер при поиске учитывает морфологию русского языка, что дает больше возможностей для эффективного поиска информации. Реализована также система так называемых “перевязок”, которая позволяет выдавать в результатах поиска не только страницы содержащие запрос, но и слова, которые являются синонимами запроса. Еще одной функцией “перевязок”, думаю более значимой, является выдача контекстной рекламы не только по конкретному запросу, но и по запросам, которые тесно связаны с исходным, это позволяет перекрыть большее количество целевой аудитории.

Компания Рамблер по праву считается первой крупной рекламной площадкой российского Интернета и стоит у истоков классического сетевого рекламного бизнеса.

5.2 Yandex

На сегодняшний день имеет самую большую базу данных, которая имеет кластерную структуру и размещена на нескольких серверах [3].

В 1996 году компанией CompTek, созданной со стопроцентным американским участием, на выставке Internetcom было официально объявлено о существовании “Яндекса”. Это была морфологическая приставка к “Альтависте”, которую отличало быстродействие и умение строить гипотезы. Пословный индекс для незнакомых слов организован также, как и для словарных – этим “Яндекс” отличается от других поисковиков.

сентября 1997 года “Яндекс” стал интернет-проектом. Релевантность документов вычислялась в зависимости от частотных характеристик искомых слов, веса слова или выражения, близости искомых слов в тексте документа друг к другу и так далее. И главное нововведение этой поисковой системы, которое потребовало неизбежной перестройки ядра, – ранжирование по ссылкам. Другие нововведения относятся, главным образом, к переформулированию системой запросов пользователя: “что такое предмет” преобразуется в “предмет – это.”, а если запрос начинается на слово “как”, то в результатах в первую очередь пытаются выдать FAQ или иной справочный документ. Новый “Яндекс” стал “понимать” альтернативную лексику, которая входит в 5 процентов запросов. Только в последней версии Яндекса индекс цитируемости стал непосредственно использоваться поисковой машиной.

В настоящее время “Яндекс” обладает самой полной базой документов среди русских искалок, а также самой узнаваемой маркой.

5.3 Aport

Поисковая машина “Апорт” была впервые продемонстрирована в феврале 1996 года на пресс-конференции “Агамы” по поводу открытия “Русского клуба”. Тогда она искала только по сайту russia. agama.com. Создателем системы выступила компания “Агама” – разработчик программного обеспечения для платформы Windows, главным из которых являлся корректор орфографии “Пропись”. Лингвистические разработки “Агамы” использовались при создании поисковой машины, в которой, скажем, в отличие от “Рамблера”, изначально учитывалась морфология слов и осуществлялась по желанию клиента проверка орфографии запроса [13].

Важнейшими свойствами первой версии “Апорта” являлся перевод запроса и результатов поиска на английский язык и обратно, а также реконструкция всех проидексированных страниц из собственной базы (что означает возможность просмотра страниц, уже несуществующих в оригинале).

“Апорт 2000” стал первым русским поисковиком, построенным на основе выдачи результатов по отдельно взятым сайтам. Для разделения ресурсов на сайты используется информация, которую “Апорту” предоставляет каталог AtRus или сведения, введенные в “Апорт” владельцами ресурсов. На худой конец, приходится опираться на алгоритм, который позволяет по некоторым формальным признакам выделить отдельные сайты.

Пользователи “Апорта” (в отличие завсегдатаев “Яндекса”) мало пользуются расширенным поиском (на 8000 загрузок простой страницы приходится 300 вызовов страницы “Расширенный поиск”).

6. Наиболее популярные зарубежные поисковики для русскоязычного пользователя

6.1 Googlе

Название поисковой системы Google было образовано в результате игры букв в слове “googol”. Этим компания хочет подчеркнуть их намерение индексировать и обрабатывать большие объемы информации [6].

Вы можете искать в Google на 10 различных языках. Вы также можете настроить интерфейс на нужный вам язык. Например, если вы ищите немецкий сайт, то вы можете вводить запрос на немецком языке, и все вспомогательные надписи интерфейса будут на немецком языке.

Очень удобной функцией является “cache”. Благодаря этой функцией пользователь может просмотреть проиндексированную страницу даже если эта страница удалена или сервер, на котором расположена страница недоступен. Вы также можете использовать эту функцию для исследования ваших конкурентов, это также помогает лучше понять принцип индексирования страницы поисковым пауком (роботом).

С помощью Google можно найти страницы, которые не содержаться в его базе данных. Это возможно потому что поисковый паук индексирует текст ссылок со страниц.

6.2 Yahoo

Удивительно, но эта невероятно популярная система, обслуживающая миллионы запросов ежедневно, зародилась как простая коллекция закладок, которую пополняли всего 2 человека – Дэвид Фило и Джерри Янг. На сегодняшний день Yahoo, это уже не просто каталог, это целая группа разнообразных сервисов, среди которых такие как каталог Yahooligans – Yahoo для детей, система персональных каналов My Yahoo, бесплатный E-mail сервис, система “Shop with Yahoo” (покупайте с Yahoo), совместный с MTV проект MTV unfURLed и многое другое. Среди всех рассмотренных систем, Yahoo – единственная чисто каталоговая, на Yahoo нет собственной поисковой машины. Зато список категорий на Yahoo является наиболее полным и простым – в отличие от других каталогов, на Yahoo всегда легко определить, в каком разделе находится нужная информация [2]. Заглавная страничка Yahoo грузится очень быстро – хотя на ней очень много ссылок, но все они текстовые. Центральная часть страницы, конечно, занята окном поиска и списком категорий. Ссылки вверху страницы (графические) обеспечивают доступ к такой информации, как “что нового”, “что хорошего”, “More Yahoos”. Последнюю ссылку рекомендуется посетить – она приводит на страницу с огромным количеством ссылок на разнообразные Yahoo-каталоги и сервисы. При задании критериев поиска для Yahoo нужно помнить, что Yahoo ищет эти слова только в названии и описании страницы, поскольку полнотекстового индекса на Yahoo нет. Поэтому не следует указывать при поиске слишком много терминов или синонимов – количество результатов с Yahoo снизится или даже будет нулевым. Количество результатов поиска на Yahoo, естественно, невелико, зато большинство из них являются релевантными. Для расширенного поиска Yahoo предлагает не очень большой, но очень полезный набор инструметов. Чтобы попасть на страничку расширенного поиска, надо перейти по ссылке “options” с основной страницы Yahoo.

7. Рынок поисковых систем в Китае

7.1 Поисковая система Baidu

Компания Baidu была основана в 2000 г. – много позже мировых лидеров веб-поиска, однако, она буквально ворвалась в первую десятку самых посещаемых сайтов мира, этому способствует стремительный рост аудитории пользователей Интернета в Китае (на январь 2010 г. – 360 млн.!) [12].

Сайт Baidu.com в Китае известен всем интернетчикам: это не только самый популярный китайский поисковик, но и самый посещаемый в Поднебесной сайт (по статистике Alexa the Web Information Company, на начало марта 2010 г. Baidu – 8-й по посещаемости сайт в миреВ индексе Baidu содержится около 800 млн. веб-страниц (в том числе более 100 млн. – на китайском языке), около 100 млн. изображений и свыше 15 млн. медиафайлов.

По данным агентства ComCore, Baidu ежемесячно обрабатывает свыше 10 млрд. поисковых запросов (для сравнения: “Яндекс” обрабатывает за месяц около 3 млрд. запросов).

Согласно данным шанхайского агентства Iresearch, Baidu контролирует 63% китайского рынка интернет-поиска (на 2-м месте Google – 33%).

Кроме своего основного предназначения – поиска – Baidu предоставляет пользователям следующие сервисы:

Байдупедия – свободная и “правильная” энциклопедия;

Байду. Посты – многочисленные форумы на всевозможные темы;

Байду. Пространство – блог и фотоальбом;

Байду. Деньги – платежная система;

Байду. Закачка – собственная файлообменная система;

Байду. Знакомства;

Байду. Знаю – сервис вопросов и ответов;

Байду. Игры – многопользовательские онлайн-RPG, стратегии, гонки;

Байду. Индекс – индекс ценных бумаг;

Байду. Карты – картографический сервис (“правильный”, без всяких секретных военных баз, считающий, например, Тибет – китайской территорией и т.д.);

Байду. Новости – новостной RSS-агрегатор;

Байду. Финансы – финансовые сервисы;

Название поисковика 百度 (можно перевести как “Поиск Мечты”, переводят и более прозаично – “100 раз”) заимствовано из стихотворной поэмы времен династии Сун (XII в.), в которой рассказывается о том, как мужчина ищет свою прекрасную возлюбленную в праздничной толпе.

8. Перспективы развития поисковых систем

Исследования показывают, что поисковые средства постоянно развиваются. Совершенствование идет по всем главным аспектам: рост объемов баз данных, возможности составления запроса и дружественность интерфейса, выдача результатов и наличие дополнительных сервисных функций. Системы которые долгое время не внедряют новых элементов и не оптимизируют уже имеющиеся функции постепенно выводятся из активного использования [14].

Ведущая тенденция последнего времени заключается в расширении числа обследуемых документов и одновременном увеличении глубины просмотра источника. Несколько лет назад поисковые средства были способны индексировать только несколько миллионов источников, которые на тот период включали web-страницы, статьи конференций Usenet, файлы Gopher и FTP серверов. Современные системы в среднем индексируют порядка 50 миллионов документов. При этом скорость работы не только не снизилась, но даже увеличилась за счет использования новейшего программного и аппаратного обеспечения.

Однако даже более важным является то, что поисковые механизмы последнего поколения индексируют все слова на web-странице или в статье из конференции, в то время как ранее область индексирования ограничивалась как правило названием, заголовками, первыми несколькими строками и адресом документа. Это существенно ограничивало возможность выявления материалов по узкой тематике, поскольку результаты поиска не всегда отражали реально существующие данные. Устранив этот недостаток, современные поисковые системы стали намного более надежными, чем их предшественники.

В ближайшем будущем полнотекстовое индексирование утвердится в качестве неотъемлемой характеристики поисковых средств, которые собираются серьезно конкурировать. На мой взгляд, это один из ключевых параметров будущего развития поисковых инструментов.

Следующая важнейшая черта – совершенствование внутреннего поискового механизма, выражающееся в увеличении числа операторов и других элементов составления запросов. Общепринятой становится возможность искать данные на любых языках. Все это дает возможность составлять поисковое предписание с большой степенью точности, что, конечно же, повышает релевантность получаемых результатов.

Немаловажное значение имеет также ясно проявляющаяся тенденция совершенствования интерфейса. Графические браузеры типа Netscape Navigator, Internet Explorer и им подобные практически полностью вытеснили текстовой Lynx, что само по себе позволило в значительной степени повысить дружественность интерфейса [14]. Разработчики первых поисковых систем не слишком заботились о комфорте пользователей. В тот период гораздо важнее было просто заставить систему работать. Поэтому желающих воспользоваться услугами поисковых серверов встречали зачастую лишь строки для ввода запроса, без каких-либо экранов помощи или примеров употребления булевых операторов. По этой причине пользователи часто испытывали затруднения, пытаясь точно выразить свой запрос. Системы последнего поколения во многих случаях имеют детализированное многоуровневое меню, которое делает составление запроса максимально простым. За счет его применения пользователи освобождается от необходимости знать принципы работы булевой логики – они просто комбинируют искомые термины с имеющимися условиями поиска. Нынешние поисковые средства предоставляют также детализированную “помощь”, примеры составления запросов, файлы “часто задаваемых вопросов”. В зависимости от полученных результатов генерируются подсказки и рекомендации, направленные на устранение типичных ошибок, допускаемых при составлении запроса. Таким образом, сегодняшний пользователь уже не должен обладать какими-либо специальными знаниями и опытом для обращения к поисковым средствам.

Еще одной немаловажной тенденцией является оптимизация выдачи результатов поиска. В данном случае можно с уверенностью утверждать, что поисковые средства становятся более интеллектуальными. Программа анализирует расположение слов в документе, их повторяемость и общее количество. На этой основе перечень ссылок выдается в порядке соответствия запросу, причем ссылки на наиболее ценные источники, выдаются в начале списка.

В перспективе работа над тем, как сделать поисковые средства еще более интеллектуальными будет продолжаться, поскольку только системы с мощной интеллектуальной базой будут способны переработать стремительно расширяющийся океан полнотекстовых данных. В частности, именно системам искусственного интеллекта предстоит решить проблему информационного шума или “мусорных данных”, которая становится все острей в связи с ростом в Интернет материалов низкой содержательной ценности.

Последняя тенденция – появление дополнительных сервисных функций, которые делают пользование поисковыми системами более привлекательным. Некоторые из навигационных средств формируют добавочные базы данных по определенным направлениям (электронные адреса частных лиц, справочники компаний, перечни последних новостей и т.д.). Другие размещает на своих страницах ссылки на наиболее популярные справочные ресурсы Интернет, как например электронные словари, тезаурусы, энциклопедии, интерактивные карты и т.п. источники, что превращает интерфейс поисковых систем в хорошую отправную точку для любого, работающего с Интернет.

Помимо технологических перемен, стратегические изменения в сфере поискового сервиса также очевидны. Среди них наиболее заметным является дробление поисковых средств, выделение поисковых инструментов региональной или отраслевой направленности, учитывающих материалы по отдельным странам или на определенном языке (только чисто русскоязычных систем насчитывается не менее десятка) или по определенной тематике (пока это в основном юриспруденция). Эти локальные поисковые средства призваны решить задачу исчерпывающего учета информации по отдельным странам и наиболее актуальным темам.

Нет сомнений, что все перечисленные тенденции эволюции поисковых средств найдут свое продолжение в ближайшем будущем. С ростом ресурсов Интернет их потенциал будет также расширяться. С уверенностью можно прогнозировать и появление совершенно новых средств, созданных на базе последних технологических достижений.

Реальной базой для дальнейшего усовершенствования поисковых орудий является расширение деловой активности в Интернет. Предприимчивые компании уже осознали, что создание и поддержка поисковых серверов является доходным бизнесом. Так как к их услугам прибегает огромное число пользователей, интерфейсы систем становятся наиболее выгодным местом для размещения рекламы. Поэтому разработчики поисковых орудий постоянно заботятся о том, чтобы сделать свой продукт максимально привлекательным. Добиться же этого можно только путем неуклонного повышения качества работы систем по всем рассмотренным показателям.

Заключение

Поисковые системы уже давно стали неотъемлемой частью Интернета. Поисковые системы сейчас – это огромные и сложные механизмы, представляющие собой не только инструмент поиска информации, но и заманчивые сферы для бизнеса.

Самой лучшей иностранной поисковой системой по последним данным является Google, так как основное значение имеет точность и полнота предоставляемых данных. Но можно заключить также что, каждая поисковая система, будь то Российская или зарубежная предоставляет различные возможности поиска, из различных баз данных, поэтому сказать точно какой именно лучше пользоваться было бы не правильно. Поэтому для удобства поиска и полноты информации следует пользоваться несколькими поисковиками вводя в них нужные запросы. Из многих Российских поисковиков выделяются Яндекс и Рамблер, для них характерно постоянное обновление баз данных что, обеспечивает именно актуальность и точность предоставляемой информации.

Список литературы

1. Экслер, А.Б., “Самоучитель работы в Интернете” – Москва.: NT Press, 2010г.

. Кузьмин А.В. Золотарева Н.Н. Поиск в Интернете – Санкт – Петербург.: Издательство НиТ, 2011г.

. Гусев, В.С., “Яндекс. Эффективный поиск” – Москва, Санкт – Петербург, Киев.: Диалектика, 2010г.

. Егоров, А.Б., ” Поиск в Интернете” – Санкт – Петербург.: НиТ, 2010г.

. Гусев, В.С., “Поиск, Internet” – Москва, Санкт – Петербург, Киев.: Диалектика, 2010г.

. Гусев, В.С., “Google. Эффективный поиск” – Москва, Санкт – Петербург, Киев.: Диалектика, 2010г.

. www.citforum.ru – CIT forum. Поисковые системы в сети Интернет

. Андрей Аликберов. “Несколько слов о том, как работают роботы поисковых машин”. #”justify”>. www.clx.ru – Описание зарубежных поисковых систем

10. www.seop.ru – Search engine optimization project, рейтинг основных поисков

11. Куприянова, Г.И., “Информационные ресурсы Internet” – М., 2012

. www.baidu.com – Поисковая система Вaidu.

. Павел Храмцов, “Поиск и навигация в Internet”. #”justify”>. www.gpntb.ru – Перспективы развития поисковых систем

Обновлено: 04.05.2023

Интернет – это информационное пространство, в котором можно отыскать ответ практически на любой интересующий пользователя вопрос. Это огромная глобальная сеть, в которую как информационные ручейки стекаются потоки более мелких сетей. Любой пользователь, располагающий ПК и соответствующими программами, сможет подключиться к сети, используя её возможности для самых разных целей – проведения досуга, обучения, чтения научных работ, отправки электронной почты и т.д. По различным данным, в 2004 г. количество пользователей глобальной системы Интернет составило от 600 до 900 миллионов человек. Это число продолжает стремительно расти и уже в 2006 г. оно достигло миллиарда человек. Сегодня глобальная сеть превращается в важный социальный и политический фактор современного информационного общества. С развитием Интернет-технологий появился новый гигантский источник информационных ресурсов, доступ к которым является не только относительно дешевым, но и очень быстрым.

Поиск в компьютерных сетях становится искусством и требует вполне определённых знаний, которыми современному человеку необходимо овладеть. Я выбрала данную тему реферата, так как считаю что одной из составляющей грамотной работы в Интернет является умение работать в глобальной сети. И для того, чтобы не утонуть во всём изобилии информации необходимо научиться не только её искать, но и находить.

Задачи и стратегии поиска

Дать общий рецепт эффективной стратегии поиска информации в Интернет, пожалуй, невозможно. Есть лишь некоторые принципы, позволяющие тратить меньше времени. Вот некоторые из них. Например, вам необходимо узнать, где обитает трёхлапый ленивец, то вряд ли вы пойдете в алфавитный каталог библиотеки. Может быть, вы найдете нужную литературу с помощью систематического каталога. С несколько большей вероятностью – с помощью предметного. Но, скорее всего, ни один из библиотечных каталогов вам не поможет. Но, зайдя в информационно-библиографический отдел крупной библиотеки, дежурный библиограф достанет библиографический указатель по животным или какую-то похожую книжицу, из которой вы и найдете ответ на свой вопрос. Подобную стратегию можно с успехом применять и в Интернет. В ИПС(информационно-поисковых сетях) общего назначения можно утонуть в тысячах ссылок, выданных вам на простой запрос. Целью использования универсальной ИПС общего назначения может быть поиск специализированной ИПС, посвященной тематике вашего поиска. Такая ИПС может быть распознана по наличию слов “информация (information)”, “документ (document)” и т.п. Но часто специализированная ИПС может скрываться на сервере общественной, профессиональной или специализированной организации, издательства.

Этот пример иллюстрирует еще один элемент стратегии: читайте найденные документы в поисках наиболее точных терминов и связей между терминами. Возможно, вы мыслите в совершенно не тех терминах, которые используют авторы искомых документов (ведь большую роль играют культурные различия!).

Третий элемент стратегии: используйте несколько ИПС. Если вы регулярно занимаетесь поиском информации по какой-то тематике, отметьте те ИПС. которые для вас наиболее эффективны.

Средства поиска информации в глобальной сети

По принципу организации и использования средства поиска можно разделить на каталоги (справочники, директории) и поисковые машины.

  1. число, стоящее в круглых скобках около категории, указывает на количество ссылок в категории.;
  2. обозначение @ говорит о том, что подкатегория входит в состав нескольких категорий;
  3. слово new свидетельствует о том, что ссылка была добавлена недавно;
  4. значок с изображением очков указывает на интересную или полезную, по мнению администрации сайта, ссылку.

Механизм поиска Yahoo! Можно активизировать на любой из страниц каталога. Для поиска в пределах всего каталога или одной из страниц используются специальные переключатели и поисковое окно. Поиск в Yahoo! Производится в соответствии с типом адресов, выбираемых с помощью опций меню (размещённого под поисковым окном). Кроме системы адресации, используемой тематическим каталогом, существует возможность обращения по адресам информационной службы Usenet, а также электронной почты. При выборе опций меню Yahoo! Поиск ведётся среди Web-узлов, включённых в каталог служб новостей, относящихся к данной тематике.

В Internet размещаются узлы и других каталогов, снабжённых поисковыми системами, подобными поисковым системам Yahoo!

Ниже перечислены некоторые поисковые каталоги:

Главный недостаток поисковых каталогов Web-ресурсов в том, что их поисковые системы извлекают огромное число документов, не соответствующих вводимому запросу. Как правило, документы, которые находятся в конце списка, содержат мало полезной информации. Ключевые слова могут быть истолкованы системой поиска совершенно в ином контексте либо отвечают нескольким толкованием.

Поисковые машины. Для детального поиска документов используются специализированные поисковые системы – поисковые машины. Действие поисковых машин заключается в постоянном последовательном исследовании всех узлов Интернет, доступных данной системе поиска, со всеми их связями и ответвлениями. В связи с постоянным обновлением информации машина поиска регулярно возвращается через определенный срок (порядка месяца) к уже изученным узлам, чтобы обнаружить и зарегистрировать изменения. Вся прочитанная информация индексируется, то есть создается специализированная база данных, в которой закодированы все исследованные системой страницы Интернет.

При поступлении запроса от пользователя машина поиска рассматривает всю индексированную информацию и выдает список документов, соответствующих задаче поиска. Найденные документы ранжируются в зависимости от местоположения ключевых слов (в заголовке, в начале текста, в первых параграфах) и частоты их появления в тексте.

Несмотря на схожий принцип работы, машины поиска различаются по языкам запроса, зонам поиска, глубине поиска внутри документа, методам ранжирования и приоритетов, поэтому применение разных поисковых машин дает различные результаты.

В настоящее время в отечественных ресурсах действует довольно много поисковых машин. Есть фирменные и даже индивидуальные сайты, которые включают те или иные поисковые машины. Поисковые элементы существуют практически на всех Интернет-газетах и учебных порталах.

Наиболее распространённые из поисковых машин представлены ниже:

Впрочем, есть возможность программно запретить регистрацию всего сайта, или отдельных элементов его, как всеми, так и определёнными поисковыми системами. Для подобных целей служат так называемые мета-теги или мета-определители. Однако это отдельный разговор, кем и с какой целью подобное запрещение делается.

Язык поисковых запросов. Применение языка запросов.

Поисковый запрос может состоять из одного или нескольких слов, в нем могут присутствовать различные знаки препинания. Составлять самые простые запросы можно и не вдаваясь в тонкости языка запросов. Так, если ввести в поисковую строку несколько слов без знаков препинания и логических операторов, будут найдены документы, содержащие все эти слова, да ещё и если они находятся на строго ограниченном расстоянии друг от друга. Такой поиск с довольно большой вероятностью закончится отрицательным результатом. И здесь о понятии успешности не может быть и речи. Знание и правильное применение языка запросов поисковой машины поможет сделать поиск быстрым и эффективным.

Что касается регистра, то в общем случае, регистр написания поисковых слов и операторов значения не имеет, то есть слова “реферат”, “Реферат”, рефеРАт, “РЕФЕРАТ” и “РеФерАт” – все будут восприниматься одинаково. Это полностью касается и латиницы. Так, “Yas” и “yES”, и даже “yeS”, “yes” и “YES” все они для поиска однообразны. И лишь иногда, в целях повышения качества поиска, регистр поискового запроса принимается во внимание. Если в запросе задано слово с большой буквы, то будут найдены только слова в таком написании, а если с маленькой – оба варианта. Если запрос состоит из двух, трех или четырех слов, каждое из которых написано с большой буквы, то предполагается поиск по имени собственному, и автоматически производится изменение ограничения расстояния между словами запроса со значения по умолчанию на величину (n-1)*2, где n – количество слов запроса. Это позволяет находить группу слов запроса, внутри которой есть не более одного “лишнего” слова или знака препинания, например: “М. Лермонтов”, “Баден-Баден”, “Шарль де Голь”, “Федор Михайлович Достоевский” и т.п.

Современные поисковые машины используют операторы для поиска в компьютерных сетях. Под оператором здесь понимается инструкция поиска. По этой причине запрос, включающий несколько слов, может содержать операторы. Поиск указанных операторов в документе не производится. Они служат лишь инструкцией поисковой машине. По этой причине они имеют свою орфографию и синтаксис. Рассмотрим их подробнее.

Логические операторы. Два запроса, соединенные оператором AND (логическое И) образуют сложный запрос, которому удовлетворяют только те документы, которые одновременно удовлетворяют обоим этим запросам, т.е. по запросу “телефон AND мобильный” найдутся только те документы, которые содержат и слово “телефон”, и слово “мобильный” одновременно. Если эти слова встретятся в текстах отдельно, поисковая машина эти тексты не покажет или покажет в конце списка найденных материалов, как только частично отвечающие запросу. Необходимо помнить, что если оператор в явном виде не указан, используется по умолчанию оператор AND. В результате будут выведены документы, содержащие все слова запроса.

Сложному запросу, состоящему из двух запросов, соединенных оператором OR (логическое ИЛИ) соответствуют все документы, удовлетворяющие хотя бы одному из этих двух запросов. Например, “телефон OR мобильный” будут найдены документы, в которых присутствует хотя бы одно из этих двух слов, либо оба эти слова вместе.

Оператор NOT (логическое И-НЕ) образует запрос, которому отвечают документы, удовлетворяющие левой части запроса и не удовлетворяющие правой. Так, результатом поиска по запросу “телефон NOT мобильный” будут показаны все документы, в которых есть слово “телефон” и при этом в данном документе на установленном расстоянии отсутствует слово “мобильный”.

Каждый из операторов имеет своё сокращенное обозначение, соответствие их приведено в таблице.

В языке запросов обычно один значок оператора означает его действие в пределах абзаца, а два подряд – в пределах всего текста.

Скобки. При построении запросов иногда возникает необходимость объединения слов запроса в группы, которые будут аргументами некоторого оператора. Такие группы заключаются в скобки. Как правило, в большинстве поисковых машин используют только скобки вида ( ). Часть запроса, заключенная в скобки, сама является запросом, и на нее распространяются все правила языка построения запросов. Использование скобок позволяет строить вложенные запросы и передавать их операторам в качестве аргументов, а также перекрывать приоритеты операторов, принятые по умолчанию.

Кавычки. Для поиска цитат можно использовать типовые (двойные) кавычки, вида « или “. Слова запроса, заключенного в двойные кавычки, ищутся в документах именно в том виде и в том порядке, как они были заданы в запросе. Это весьма эффективный способ поиска. Его применение обеспечивает успешность более 60%. Здесь важно учитывать только два момента. Во-первых, цитирование должно быть точным, т.е. без изменения по падежам, числам и лицам, во-вторых, материал, который вы ищите, как минимум должен быть в Интернете. Если при такой форме поиска будет допущена грамматическая ошибка, поиск даст отрицательный результат.

Таким образом, двойные кавычки можно использовать и просто для поиска слова в заданной форме (по умолчанию слова находятся во всех формах). Например, запросу: удовлетворяет документ, содержащий текст ‘. поезд прибыл для осуществления посадки пассажиров . ‘, и не удовлетворяют документы: с ‘.. поезд подошел к платформе для посадки пассажиров . ‘, или ‘… поезд был подан для проведения посадки пассажиров…’ и т.п.

Метасимволы или маски. Далеко не всякая поисковая машина может поддерживать поиск строк с использованием метасимволов (‘*’, ‘?’), которые обычно используются в значении “любая подстрока” и “произвольный (любой) одиночный символ” соответственно. Тем не менее, эти операторы нередко бывают зарезервированы для подобного использования в будущем.

Яndex также позволяет использовать вместо слов целые логические выражения, при этом его необходимо заключить в скобки. Используя наш пример, введём в поле поиска следующее выражение: (информатика учебники) тесты CD-ROM. В результате поиска будет найдено 3564 страниц и не менее 701 сайта, содержащие в себе такую группу слов как (информатика учебники).

Также существуют некоторые слова и символы, которые по умолчанию исключаются из запроса в связи с их малой информативностью. Это – самые частотные слова русского и английского языков, например, предлоги, частицы и артикли. Очень часто опускаются апострофы и тире. Большинство поисковых машин их знают и сами освобождают от них сформулированный Вами запрос. Это связано с тем, что факт присутствия этих слов может заметно замедлить поиск и отрицательно повлиять на его результат и полноту, а, в конечном итоге, и успешность. В тоже время есть возможность обозначить необходимость этих слов в запросе. Для этого, следует взять запрос в двойные кавычки или воспользовавшись поиском точной фразы в расширенном поиске.

Существует также поиск, с помощью ограничения расстояния. Например, если запрос составлен из нескольких слов без применения операторов и конструкций языка запросов, то машина будет пытаться найти документы, в которых встречаются все слова запроса. При этом для каждого запроса всегда вводится так называемое ограничение контекста – положительное число. По умолчанию принимается расстояние равное 40 словам. Документ, в котором встретились все слова запроса, будет выдан только в том случае, если расстояние между словами запроса будет меньше этого числа. В поисковых системах есть возможность задавать порядок следования и расстояние между словами. Расстояние между словами А и В равно: 1 ( В следует сразу за А ), 2 ( В следует за А через одно слово ) и т. д. Или -1 ( В стоит перед А ), -2 … Знак “/” между словами, за которым стоит число, означает, что расстояние между ними не должно превышать этого числа слов.

Если же мы немного изменим наш запрос – информатика/(+1+4)учебники – то мы получим документы, в которых данные ключевые слова будут идти друг за другом в таком порядке на расстоянии от 1 до 4 слов.

Очень часто приходиться также проводить поиск уже в найденной информации, т.е. можно осуществить поиск по документам, найденным по предыдущему запросу. Для этого в конце запроса нужно поставить “$$” или просто сделать отметку в окошке “поиск в найденном”, расположенном на странице запроса. Эта функция очень удобна для последовательного сужения поиска.

Язык поисковой машины Яndex обладает наиболее полным набором возможностей в русскоязычном поиске, поэтому, освоив его, вы без труда сориентируетесь в языке запроса любого другого средства поиска.

Владение пользовательскими инструментами и техникой

Заключение

В заключении хотелось бы определить базовый алгоритм поиска.

  1. Прежде всего, определите, к какому разделу относится искомая информация.
  2. Определитесь какую именно поисковую машину лучше использовать. Учитывайте её специфику.
  3. Выявите основные слова (или словосочетания), которые характерны для той информации, которую ищите. Попробуйте выявить ключевые слова.
  4. Задавая отдельные слова и фразы, учитывайте язык запросов, операторы поиска, логические связки искомых слов и т.п. элементы, которые делают поиск значительно более эффективным.
  5. Если вам известна точная фраза из искомых материалов, используйте её как цитату.
  6. После проведения предварительного поиска (или первой ступени поиска), если выдано довольно большое количество документов, воспользуйтесь элементом уточнения: “Искать в избранном”. При этом задание поиска следует обязательно уточнить, введя хотя бы одно новое слово или ограничение, которое по вашему мнению поможет провести правильный отбор требуемого материала.
  7. Грамотно располагайте материал и проводите его сортировку по удобным для вас признакам. Это заметно ускорит последующую обработку материала.
  8. Фиксируйте все интересные для вас найденные адреса документов в Интернете (например, с помощью программы Блокнот). Затем выберите среди них нужные для выполнения конкретной работы.
Содержание

Введение
1.Общие принципы организации поиска информации в сети интернет
1.1 Поиск информации в Интернет: стратегия и методика
1.2 Принцип работы, преимущества и недостатки каталогов
1.3 Электронные каталоги глобального масштаба
1.4 Российские каталоги ресурсов Интернет
2. Поиск с помощью поисковых машин
2. 1 Принцип работы, преимущества и недостатки поисковых машин
2.2 Глобальные поисковые машины
2.3 Российские поисковые машины
3.Язык поисковых запросов. применение языка запросов.
4.Владение пользовательскими инструментами и техникой
Заключение
Библиографический список

Вложенные файлы: 1 файл

курсовая работа.doc

Практически все всемирно известные каталоги и поисковые машины в настоящее время превратились во внушительные информационные корпорации с многомиллионными доходами. Заработав авторитет наиболее посещаемых мест в Сети, они предоставляют свои страницы для размещения рекламной информации, доходы от которой и составляют основу их бюджета. Постепенно поисковые сервера превращаются в многофункциональные порталы, в которых поисковый сервис остается главной приманкой для пользователей, но далеко не единственной и даже не основной из предоставляемых услуг. Помимо разыскания информации, такие сервера обычно предоставляют пользователям бесплатную электронную почту, возможность бесплатно размещать собственные страницы, сведения о погоде, текущих новостях, биржевые котировки, карты местности и т.д.

3.ЯЗЫК ПОИСКОВЫХ ЗАПРОСОВ. ПРИМЕНЕНИЕ ЯЗЫКА ЗАПРОСОВ.

Т а б л и ц а 1. Сокращенные обозначения операторов.

В языке запросов обычно один значок оператора означает его действие в пределах абзаца, а два подряд – в пределах всего текста.

Скобки. При построении запросов иногда возникает необходимость объединения слов запроса в группы, которые будут аргументами некоторого оператора. Такие группы заключаются в скобки. Как правило, в большинстве поисковых машин используют только скобки вида ( ). Часть запроса, заключенная в скобки, сама является запросом, и на нее распространяются все правила языка построения запросов. Использование скобок позволяет строить вложенные запросы и передавать их операторам в качестве аргументов, а также перекрывать приоритеты операторов, принятые по умолчанию. Кавычки.Для поиска цитат можно использовать типовые (двойные) кавычки, вида « или “. Слова запроса, заключенного в двойные кавычки, ищутся в документах именно в том виде и в том порядке, как они были заданы в запросе. Это весьма эффективный способ поиска. Его применение обеспечивает успешность более 60%. Здесь важно учитывать только два момента. Во-первых, цитирование должно быть точным, т.е. без изменения по падежам, числам и лицам, во–вторых, материал, который вы ищите, как минимум должен быть в Интернете. Если при такой форме поиска будет допущена грамматическая ошибка, поиск даст отрицательный результат.

Пример: Яndex также позволяет использовать вместо слов целые логические выражения, при этом его необходимо заключить в скобки. Используя наш пример, введём в поле поиска следующее выражение: (информатика учебники) тесты CD-ROM. В результате поиска будет найдено 3564 страниц и не менее 701 сайта, содержащие в себе такую группу слов как (информатика учебники).

Пример: Если же мы немного изменим наш запрос – информатика/(+1+4)учебники – то мы получим документы, в которых данные ключевые слова будут идти друг за другом в таком порядке на расстоянии от 1 до 4 слов.

Язык поисковой машины Яndex обладает наиболее полным набором возможностей в русскоязычном поиске, поэтому, освоив его, вы без труда сориентируетесь в языке запроса любого другого средства поиска.

4.ВЛАДЕНИЕ ПОЛЬЗОВАТЕЛЬСКИМИ ИНСТРУМЕНТАМИ

Не забывайте о команде Find браузера. Если ваш браузер имеет в меню Файл, Правка или Вид команду Find (Найти), используйте ее для обнаружения трудноуловимых ключевых слов страницы. Чтобы отыскать слово, которое вам нужно, воспользуйтесь комбинацией клавиш CTRL+F в вашем браузере и введите искомое ключевое слово.

Сохраняйте копии важных документов. Активно используйте команды контекстного меню Сохранить объект как… и Сохранить рисунок как… и команду меню Файл – Сохранить как… для создания копий необходимой вам информации из сети Интернет на локальном ресурсе вашего ПК. Этим вы решите некоторые проблемы: изменчивости и недолговечности WWW , концентрации внимания исключительно на целях определенного этапа поиска, экономии времени on–line подключения и перевод изучения отобранных материалов в режим off-line.

При работе над данной курсовой работой я определила для себя базовый алгоритм поиска.

Придерживаясь этого алгоритма поиск информации в сети интернета становится проще и быстрее.

При проведении поиска информации в службе www, когда тема задана достаточно широко, целесообразно использовать поисковые каталоги и поисковые указатели. Знание основных понятий и терминов позволяет провести углубленный поиск с применением ключевых слов, наиболее точно характеризующих искомую тему. При этом следует различать приемы простого, расширенного и контекстного поиска.

При использовании расширенного поиска ключевые слова связываются между собою операторами логических отношений(так называемый язык запросов). При помощи логических отношений поисковое задание формулируется так, чтобы более точно детализировать задание и ограничить область отбора.

Контекстный поиск – это поиск по точной фразе. К сожалению доступен не во всех поисковых системах. К тому же эта операции достаточно медленная.

Язык запросов – язык манипулирования данными, позволяющий описывать условия поиска информации, не задавая для этого последовательность действий, нужных для получения ответа.

Порядок действий логических операторов: сначала выполняются действия в скобках ( ), потом операторы AND, NOT и лишь потом OR.

В разных поисковых системах используются различные приемы связывания между собой ключевых слов при помощи логических операторов. В дальнейшем будут приведены правила построения запросов в трех наиболее распространенных русскоязычных системах.

слово1 пробел слово 2

слово 1 & слово 2

слово 1 AND слово 2

Будут найдены все документы, где в одном предложении есть оба слова

машина AND самолёт

Слово 1 or слово 2

Слово 1 | слово 2

Будут найдены документы, содержащие или одно слово, или другое

самолёт or аэродром

Слово 1 not слово 2

Слово 1! слово 2

Будут найдены документы, содержащие первое слово, но без второго

машина not самолёт

Оформление запросов в поисковой системе Яндекс [2]

слово 1 && слово 2

слово 1 & слово 2

+слово 1 +слово 2

одинарный оператор ищет в пределах предложения, двойной – в пределах документа

слово 1 ~~ слово 2

слово 1 ~ слово 2

слово 1 –слово 2

Будут найдены документы с первым словом, но без второго

руководство Visual C ~~ цена

одинарный оператор ищет в пределах предложения, двойной – в пределах документа

именно знак минус, а не тире и не дефис через пробел от предыдущего и слитно с последующим словом

частные объявления продажа

несколько слов, разделённые пробелами, означают, что все они должны входить в одно предложение искомого документа

контекст “а шапочка у неё была красная” найден не будет

поставщики /2 кофе

найдутся “поставщики колумбийского кофе”, “поставщики кофе из Колумбии” и т.д.

Будут найдены документы, в которых известны расстояния между словами

+n – это минимальное число слов, а –n – максимальное

музыкальное /(-2 4) образование

музыкальное должно находиться от образования в интервале от 2 слов слева до 4 слов справа

если знаки ограничения стоят после двойных операторов, то употреблённые там числа – это расстояние не в словах, а в предложениях

Содержимое работы – 1 файл

Язык запросов SQL.docx

Язык запросов SQL.

SQL является непроцедурным языком и не содержит операторов управления, организации подпрограмм, ввода-вывода и т.п. В связи с этим SQL автономно не используется, обычно он погружен в среду встроенного языка программирования СУБД (например, FoxPro СУБД Visual FoxPro, ObjectPAL СУБД Paradox, Visual Basic for Applications СУБД Access).

В современных СУБД с интерактивным интерфейсом можно создавать запросы, используя другие средства, например QBE. Однако применение SQL зачастую позволяет повысить эффективность обработки данных в базе. Например, при подготовке запроса в среде Access можно перейти из окна Конструктора запросов (формулировки запроса по образцу на языке QBE) в окно с эквивалентным оператором SQL. Подготовку нового запроса путем редактирования уже имеющегося в ряде случае проще выполнить путем изменения оператора SQL. В различных СУБД состав операторов SQL может несколько отличаться.

Язык SQL не обладает функциями полноценного языка разработки, а ориентирован на доступ к данным, поэтому его включают в состав средств разработки программ. В этом случае его называют встроенным SQL. Стандарт языка SQL поддерживают современные реализации следующих языков программирования: PL/1, Ada, С, COBOL, Fortran, MUMPS и Pascal.

В специализированных системах разработки приложений типа клиент-сервер (данную архитектуру мы рассмотрим позже) среда программирования, кроме того, обычно дополнена коммуникационными средствами (установление и разъединение соединений с серверами БД, обнаружение и обработка возникающих в сети ошибок и. т. д.), средствами разработки пользовательских интерфейсов, средствами проектирования и отладки.

Различают два основных метода использования встроенного SQL: статический и динамический.

При статическом использовании языка (статический SQL) в тексте программы имеются фиксированные по структуре вызовы функций языка SQL, включаемые в выполняемый модуль в процессе компиляции. Параметры запросов (обычно представляют константные значения, с которыми сравниваются значения полей в таблицах), являющиеся переменными языка программирования, позволяют добиться некоторой гибкости статических запросов.

При динамическом использовании языка (динамический SQL) предполагается динамическое построение запроса в форме текстовой строки. Данная строка используется как параметр для функции выполнения SQL-запросов, которая выполняет синтаксический анализ строки запроса и формирует на его основе последовательность команд БД. Динамический метод обычно применяется в случаях, когда в приложении заранее неизвестен вид SQL-вызова.

Для удобства работы с представлениями в язык SQL введено понятие курсора. Курсор представляет собой своеобразный указатель на набор записей в представлении, обеспечивающий в каждый момент доступ лишь к некоторой небольшой части строк представления. С помощью операторов перемещения курсора по записям можно получить доступ ко всем строкам таблицы.

История. Первые разработки.

Целью разработки было создание простого непроцедурного языка, которым мог воспользоваться любой пользователь, даже не имеющий навыков программирования. Собственно разработкой языка запросов занимались Дональд Чэмбэрлин (Donald D Chamberlin) и Рэй Бойс (Ray Boyce). Пэт Селинджер (Pat Selinger) занималась разработкой стоимостного оптимизатора (cost – based optimizer), Рэймонд Лори (Raymond Lorie) занимался компилятором запросов.

Стоит отметить, что SEQUEL был не единственным языком подобного назначения. В Калифорнийском Университете Беркли была разработана некоммерческая СУБД Ingres (являвшаяся, между прочим, дальним прародителем популярной сейчас некоммерческой СУБД PostgreSQL ), которая являлась реляционной СУБД, но использовала свой собственный язык QUEL , который, однако, не выдержал конкуренции по количеству поддерживающих его СУБД с языком SQL.

Первыми СУБД, поддерживающими новый язык, стали в 1979 году Oracle V2 для машин VAX от компании Relational Software Inc. (впоследствии ставшей компанией Oracle ) и System/38 от IBM, основанная на System/R.

Стандартизация.

Поскольку к началу 80-х годов существовало несколько вариантов СУБД от разных производителей, причём каждый из них обладал собственной реализацией языка запросов, то было принято решение разработать стандарт языка, который будет гарантировать переносимость ПО с одной СУБД на другую (естественно, обе из которых в полной мере будут поддерживать этот стандарт).

Стандарт SQL1 разделялся на два уровня. Первый уровень представлял собой подмножество второго уровня, описывавшего весь документ в целом. То есть, такая структура предусматривала, что не все спецификации стандарта SQL1 будут относиться к Уровню 1. Тем самым, поставщик, заявлявший о поддержке данного стандарта, должен был заявлять об уровне, которому соответствует его реализация языка SQL. Это значительно облегчило принятие и поддержку стандарта, поскольку производители могли реализовывать его поддержку в два этапа.

Сразу после завершения работы над стандартом SQL1 в 1987 году была начата работа над новой версией стандарта, который должен был заменить стандарт SQL89, получив название SQL2, поскольку дата принятия документа на тот момент была неизвестна. Таким образом, фактически SQL89 и SQL2 разрабатывались параллельно. Новая версия стандарта была принята в 1992 году, заменив стандарт SQL89. Новый стандарт, озаглавленный как SQL92, представлял собой по сути расширение стандарта SQL1, включив себя множество дополнений имевшихся в предыдущих версиях инструкций.

SQL1 Уровень 1 -> SQL1 Уровень 2 -> SQL92 “Начальный” -> SQL92 “Средний” -> SQL92 “Полный”.

SQL является, прежде всего, информационно – логическим языком , предназначенным для описания, изменения и извлечения данных, хранимых в реляционных базах данных . SQL нельзя назвать языком программирования .

Изначально, SQL был основным способом работы пользователя с базой данных и позволял выполнять следующий набор операций:

  • создание в базе данных новой таблицы;
  • добавление в таблицу новых записей;
  • изменение записей;
  • удаление записей;
  • выборка записей из одной или нескольких таблиц (в соответствии с заданным условием);

а, также, изменение структур таблиц. Со временем, SQL усложнился – обогатился новыми конструкциями, обеспечил возможность описания и управления новыми хранимыми объектами (например, индексы, представления, триггеры и хранимые процедуры) и стал приобретать черты, свойственные языкам программирования.

При всех своих изменениях, SQL остаётся единственным механизмом связи между прикладным программным обеспечением и базой данных. В то же время, современные СУБД, а, также, информационные системы, использующие СУБД, предоставляют пользователю развитые средства визуального построения запросов.

Каждое предложение SQL – это запрос или обращение к базе данных, которое приводит к изменению в базе данных. В соответствии с тем, какие изменения происходят в базе данных, различают следующие типы запросов:

  • запросы на создание или изменение в базе данных новых или существующих объектов (при этом в запросе описывается тип и структура создаваемого или изменяемого объекта);
  • запросы на получение данных;
  • запросы на добавление новых данных (записей)
  • запросы на удаление данных;
  • обращения к СУБД.

Основным объектом хранения реляционной базы данных является таблица, поэтому все SQL-запросы – это операции над таблицами. В соответствии с этим, запросы делятся на:

При проведении поиска информации в службе www, когда тема задана достаточно широко, целесообразно использовать поисковые каталоги и поисковые указатели. Знание основных понятий и терминов позволяет провести углубленный поиск с применением ключевых слов, наиболее точно характеризующих искомую тему. При этом следует различать приемы простого, расширенного и контекстного поиска.

При использовании расширенного поиска ключевые слова связываются между собою операторами логических отношений(так называемый язык запросов). При помощи логических отношений поисковое задание формулируется так, чтобы более точно детализировать задание и ограничить область отбора.

Контекстный поиск – это поиск по точной фразе. К сожалению доступен не во всех поисковых системах. К тому же эта операции достаточно медленная.

Язык запросов – язык манипулирования данными, позволяющий описывать условия поиска информации, не задавая для этого последовательность действий, нужных для получения ответа.

Порядок действий логических операторов: сначала выполняются действия в скобках ( ), потом операторы AND, NOT и лишь потом OR.

В разных поисковых системах используются различные приемы связывания между собой ключевых слов при помощи логических операторов. В дальнейшем будут приведены правила построения запросов в трех наиболее распространенных русскоязычных системах.

Язык запросов в поисковой системе РАМБЛЕР [1]

слово1 пробел слово 2

слово 1 & слово 2

слово 1 AND слово 2

Будут найдены все документы, где в одном предложении есть оба слова

машина AND самолёт

Слово 1 or слово 2

Слово 1 | слово 2

Будут найдены документы, содержащие или одно слово, или другое

самолёт or аэродром

Слово 1 not слово 2

Слово 1! слово 2

Будут найдены документы, содержащие первое слово, но без второго

машина not самолёт

Оформление запросов в поисковой системе Яндекс [2]

слово 1 && слово 2

слово 1 & слово 2

+слово 1 +слово 2

одинарный оператор ищет в пределах предложения, двойной – в пределах документа

слово 1 ~~ слово 2

слово 1 ~ слово 2

слово 1 –слово 2

Будут найдены документы с первым словом, но без второго

руководство Visual C ~~ цена

одинарный оператор ищет в пределах предложения, двойной – в пределах документа

именно знак минус, а не тире и не дефис через пробел от предыдущего и слитно с последующим словом

частные объявления продажа

несколько слов, разделённые пробелами, означают, что все они должны входить в одно предложение искомого документа

контекст “а шапочка у неё была красная” найден не будет

поставщики /2 кофе

найдутся “поставщики колумбийского кофе”, “поставщики кофе из Колумбии” и т.д.

Будут найдены документы, в которых известны расстояния между словами

+n – это минимальное число слов, а –n – максимальное

музыкальное /(-2 4) образование

музыкальное должно находиться от образования в интервале от 2 слов слева до 4 слов справа

если знаки ограничения стоят после двойных операторов, то употреблённые там числа – это расстояние не в словах, а в предложениях

Читайте также:

      

  • Реферат на тему передача давления жидкостями и газами закон паскаля
  •   

  • Баяндама реферат тан айырмашылығы
  •   

  • Реферат система методов вокальной работы с детьми
  •   

  • Реферат кутузов и наполеон в романе война и мир
  •   

  • История психофизиологии профессиональной деятельности реферат

Введение

Интернет – это информационное пространство, в котором можно отыскать ответ практически на любой интересующий пользователя вопрос. Это огромная глобальная сеть, в которую как информационные ручейки стекаются потоки более мелких сетей. Любой пользователь, располагающий ПК и соответствующими программами, сможет подключиться к сети, используя её возможности для самых разных целей – проведения досуга, обучения, чтения научных работ, отправки электронной почты и т.д. По различным данным, в 2004 г. количество пользователей глобальной системы Интернет составило от 600 до 900 миллионов человек. Это число продолжает стремительно расти и уже в 2006 г. оно достигло миллиарда человек. Сегодня глобальная сеть превращается в важный социальный и политический фактор современного информационного общества. С развитием Интернет-технологий появился новый гигантский источник информационных ресурсов, доступ к которым является не только относительно дешевым, но и очень быстрым.

Поиск в компьютерных сетях становится искусством и требует вполне определённых знаний, которыми современному человеку необходимо овладеть. Я выбрала данную тему реферата, так как считаю что одной из составляющей грамотной работы в Интернет является умение работать в глобальной сети. И для того, чтобы не утонуть во всём изобилии информации необходимо научиться не только её искать, но и находить.

Задачи и стратегии поиска

Прежде чем начать поиск следует четко сформулировать задачу. До тех пор, пока задача не будет сформулирована об успешности, а тем более оптимизации поиска, не может быть и речи. Объем информации в Интернете слишком велик, и как нигде здесь верна поговорка «Время – деньги». Поэтому в здесь нельзя искать по принципу «Пойди туда, не знаю куда. Возьми то, не знаю что». Иначе результат будет плачевный.

Дать общий рецепт эффективной стратегии поиска информации в Интернет, пожалуй, невозможно. Есть лишь некоторые принципы, позволяющие тратить меньше времени. Вот некоторые из них. Например, вам необходимо узнать, где обитает трёхлапый ленивец, то вряд ли вы пойдете в алфавитный каталог библиотеки. Может быть, вы найдете нужную литературу с помощью систематического каталога. С несколько большей вероятностью – с помощью предметного. Но, скорее всего, ни один из библиотечных каталогов вам не поможет. Но, зайдя в информационно-библиографический отдел крупной библиотеки, дежурный библиограф достанет библиографический указатель по животным или какую-то похожую книжицу, из которой вы и найдете ответ на свой вопрос. Подобную стратегию можно с успехом применять и в Интернет. В ИПС(информационно-поисковых сетях) общего назначения можно утонуть в тысячах ссылок, выданных вам на простой запрос. Целью использования универсальной ИПС общего назначения может быть поиск специализированной ИПС, посвященной тематике вашего поиска. Такая ИПС может быть распознана по наличию слов “информация (information)”, “документ (document)” и т.п. Но часто специализированная ИПС может скрываться на сервере общественной, профессиональной или специализированной организации, издательства.

Этот пример иллюстрирует еще один элемент стратегии: читайте найденные документы в поисках наиболее точных терминов и связей между терминами. Возможно, вы мыслите в совершенно не тех терминах, которые используют авторы искомых документов (ведь большую роль играют культурные различия!).

Третий элемент стратегии: используйте несколько ИПС. Если вы регулярно занимаетесь поиском информации по какой-то тематике, отметьте те ИПС. которые для вас наиболее эффективны.

Средства поиска информации в глобальной сети

По принципу организации и использования средства поиска можно разделить на каталоги (справочники, директории) и поисковые машины.

Каталоги являются справочниками, содержащими списки адресов Интернет, сгруппированные по определенным признакам. Как правило, они объединяются по тематике (наука, искусство, новости и т.д.), где каждая тема разветвляется на несколько подуровней. Особенность этих средств поиска информации состоит в том, что создание структуры, базы данных и их постоянное обновление осуществляется “вручную”, коллективом редакторов и программистов, и сам процесс поиска требует непосредственного участия пользователя, самостоятельно переходящего от ссылки к ссылке. Основное достоинство поисковых каталогов ресурсов в том, что накапливаемая в них информация тщательно отбирается, сортируется, разбивается на отдельные категории.

Все каталоги построены по единому принципу. Страницы каталогов содержат тематические классификаторы. На стартовой странице располагается тематический каталог высшего уровня. Под каждой категорией каталога могут быть развёрнуты подкатегории. Посредством щелчка на одной из тематических ссылок открывается страница с тематическими категориями более низкого уровня, которые, в свою очередь, тоже разбиваются на подкатегории. Все категории и подкатегории соответствующим образом выделяются.

Каталоги организованы по иерархическому принципу и устроены в виде тематического дерева, корнем которого служит начальная страница каталога, содержащая определённое количество тематических ветвей. Перемещаться по тематическому дереву вверх или вниз можно посредством щелчков на именах страниц. Страницы большинства каталогов содержат специальные элементы – индексы, на которых расположены ссылки на узлы, относящиеся к данной тематике. Если щёлкнуть на одной из ссылок, то появится окно, в котором продемонстрирована организация данной ветви тематического дерева. Это ускоряет просмотр тематических категорий и подкатегорий.

Одним из наиболее известных каталогов является Yahoo! Страницы этого каталога содержат множество тематических категорий, организованных по иерархическому принципу. Категории на всех уровнях разветвляются на подкатегории. Корнем служит начальная страница каталога, содержащая 14 тематических ветвей. Перемещаться по тематическому дереву вверх или вниз можно посредством щелчков на именах страниц. На страницы Yahoo! встроены индексы всех Web-ресурсов, относящихся к данной теме. Все каталоги и подкатегории выделены полужирным шрифтом, а гиперссылки на существующие Web-сайты выделены подчёркиванием. На каждую страницу Yahoo! Вмонтированы специальные символы:

  1. число, стоящее в круглых скобках около категории, указывает на количество ссылок в категории.;
  2. обозначение @ говорит о том, что подкатегория входит в состав нескольких категорий;
  3. слово new свидетельствует о том, что ссылка была добавлена недавно;
  4. значок с изображением очков указывает на интересную или полезную, по мнению администрации сайта, ссылку.

Механизм поиска Yahoo! Можно активизировать на любой из страниц каталога. Для поиска в пределах всего каталога или одной из страниц используются специальные переключатели и поисковое окно. Поиск в Yahoo! Производится в соответствии с типом адресов, выбираемых с помощью опций меню (размещённого под поисковым окном). Кроме системы адресации, используемой тематическим каталогом, существует возможность обращения по адресам информационной службы Usenet, а также электронной почты. При выборе опций меню Yahoo! Поиск ведётся среди Web-узлов, включённых в каталог служб новостей, относящихся к данной тематике.

В Internet размещаются узлы и других каталогов, снабжённых поисковыми системами, подобными поисковым системам Yahoo!

Ниже перечислены некоторые поисковые каталоги:

  • Excite (www.excite.com);
  • Брама (www.brama.com);
  • Everyday (www.everyday.com.ua);
  • UP.RU (www.up.ru);
  • Elvisti (www.el.visti.net);
  • @Rus (www.atrus.ru);
  • List.ru (www.list.ru);
  • Weblist (www.weblist.ru);
  • Созвездие (www.stars.ru);
  • Улитка (www.ulitka.ru);
  • Иван Сусанин (www.susanin.ru);
  • MavicaNet (www.mavikanet.ru).

Главный недостаток поисковых каталогов Web-ресурсов в том, что их поисковые системы извлекают огромное число документов, не соответствующих вводимому запросу. Как правило, документы, которые находятся в конце списка, содержат мало полезной информации. Ключевые слова могут быть истолкованы системой поиска совершенно в ином контексте либо отвечают нескольким толкованием.

Поисковые машины.Для детального поиска документов используются специализированные поисковые системы – поисковые машины. Действие поисковых машин заключается в постоянном последовательном исследовании всех узлов Интернет, доступных данной системе поиска, со всеми их связями и ответвлениями. В связи с постоянным обновлением информации машина поиска регулярно возвращается через определенный срок (порядка месяца) к уже изученным узлам, чтобы обнаружить и зарегистрировать изменения. Вся прочитанная информация индексируется, то есть создается специализированная база данных, в которой закодированы все исследованные системой страницы Интернет.

При поступлении запроса от пользователя машина поиска рассматривает всю индексированную информацию и выдает список документов, соответствующих задаче поиска. Найденные документы ранжируются в зависимости от местоположения ключевых слов (в заголовке, в начале текста, в первых параграфах) и частоты их появления в тексте.

Несмотря на схожий принцип работы, машины поиска различаются по языкам запроса, зонам поиска, глубине поиска внутри документа, методам ранжирования и приоритетов, поэтому применение разных поисковых машин дает различные результаты.

В настоящее время в отечественных ресурсах действует довольно много поисковых машин. Есть фирменные и даже индивидуальные сайты, которые включают те или иные поисковые машины. Поисковые элементы существуют практически на всех Интернет-газетах и учебных порталах.

Наиболее распространённые из поисковых машин представлены ниже:

  • Яndex (www.yandex.ru);
  • Апорт (www.aport.ru);
  • МЕТА (www.meta-ukraine.com);
  • Rambler (www.rambler.ru);
  • UANET (www.uanet.com.ua);
  • EIVisti (www.el.visti.net);
  • SEARCH (www.search.kiev.ua);
  • Pathfinder (www.pups.kiev.ua);
  • Tela-поиск (www.tela.dux.ru);
  • Openweb (www.openweb.ru);
  • АУ (www.au.ru).

Существует некоторые причины, по которым документ не может быть обнаружен. Прежде всего, требуемое не будет обнаружено поисковой машиной, если на ней данные ресурсы не прописаны. Необходимо запомнить, что недостаточно разместить что-либо в Интернете, необходимо прописать это на соответствующих поисковых машинах. Можно расположить материал в Интернете, знать его адрес. Однако, пока он не «прописан» на одной из поисковых машин, найти его будет очень сложно, конечно, если ему не дан адрес. Через некоторое время и этот сайт будет обнаружен так называемыми «поисковыми роботами» или «пауками-поисковиками» и, только тогда, возможно, он начнёт посещаться.

Впрочем, есть возможность программно запретить регистрацию всего сайта, или отдельных элементов его, как всеми, так и определёнными поисковыми системами. Для подобных целей служат так называемые мета-теги или мета-определители. Однако это отдельный разговор, кем и с какой целью подобное запрещение делается.

Следующее – это специализация поисковых машин. Так, например, top100 относится к поисковым машинам специализированного типа и больше предназначена для поиска технических элементов компьютеров и справок по ним. Поисковые машины km.ru, yandex.ru, rambler.ru, относятся к группе общего назначения. Именно с них следует начинать поиск в Интернете. Причем, поисковая система «Кирилл и Мефодий» на km.ru все же чаще используется для розыска материалов в разного рода энциклопедиях и учебных пособиях, словарях, которые вышли после 1990 г. На AltaVista – пожалуй наиболее полно представлены материалы, связанные с коммерческой деятельностью, Google – более специализируется на оперативных новостях. На машинах Fast, Инфоарт, Русский интернет и Aпорт часто можно бывает найти информацию, связанную с куплей-продажей. Следует также учитывать, что полностью адрес поисковых машин обычно включает префикс и выглядит примерно так: http://www.dig.ru. Некоторые поисковые системы используют чужие поисковые системы. Так система поиска mail.ru на сегодняшний день использует поисковую машину rambler.ru, но выводит информацию в собственном интерфейсе.

Язык поисковых запросов. Применение языка запросов.

Поисковый запрос может состоять из одного или нескольких слов, в нем могут присутствовать различные знаки препинания. Составлять самые простые запросы можно и не вдаваясь в тонкости языка запросов. Так, если ввести в поисковую строку несколько слов без знаков препинания и логических операторов, будут найдены документы, содержащие все эти слова, да ещё и если они находятся на строго ограниченном расстоянии друг от друга. Такой поиск с довольно большой вероятностью закончится отрицательным результатом. И здесь о понятии успешности не может быть и речи. Знание и правильное применение языка запросов поисковой машины поможет сделать поиск быстрым и эффективным.

Что касается регистра, то в общем случае, регистр написания поисковых слов и операторов значения не имеет, то есть слова “реферат”, “Реферат”, рефеРАт, “РЕФЕРАТ” и “РеФерАт” – все будут восприниматься одинаково. Это полностью касается и латиницы. Так, “Yas” и “yES”, и даже “yeS”, “yes” и “YES” все они для поиска однообразны. И лишь иногда, в целях повышения качества поиска, регистр поискового запроса принимается во внимание. Если в запросе задано слово с большой буквы, то будут найдены только слова в таком написании, а если с маленькой – оба варианта. Если запрос состоит из двух, трех или четырех слов, каждое из которых написано с большой буквы, то предполагается поиск по имени собственному, и автоматически производится изменение ограничения расстояния между словами запроса со значения по умолчанию на величину (n-1)*2, где n – количество слов запроса. Это позволяет находить группу слов запроса, внутри которой есть не более одного “лишнего” слова или знака препинания, например: “М. Лермонтов”, “Баден-Баден”, “Шарль де Голь”, “Федор Михайлович Достоевский” и т.п.

Современные поисковые машины используют операторы для поиска в компьютерных сетях. Под оператором здесь понимается инструкция поиска. По этой причине запрос, включающий несколько слов, может содержать операторы. Поиск указанных операторов в документе не производится. Они служат лишь инструкцией поисковой машине. По этой причине они имеют свою орфографию и синтаксис. Рассмотрим их подробнее.

Логические операторы.
Два запроса, соединенные оператором AND (логическое И) образуют сложный запрос, которому удовлетворяют только те документы, которые одновременно удовлетворяют обоим этим запросам, т.е. по запросу “телефон AND мобильный” найдутся только те документы, которые содержат и слово “телефон”, и слово “мобильный” одновременно. Если эти слова встретятся в текстах отдельно, поисковая машина эти тексты не покажет или покажет в конце списка найденных материалов, как только частично отвечающие запросу. Необходимо помнить, что если оператор в явном виде не указан, используется по умолчанию оператор AND. В результате будут выведены документы, содержащие все слова запроса.

Сложному запросу, состоящему из двух запросов, соединенных оператором OR (логическое ИЛИ) соответствуют все документы, удовлетворяющие хотя бы одному из этих двух запросов. Например, “телефон OR мобильный” будут найдены документы, в которых присутствует хотя бы одно из этих двух слов, либо оба эти слова вместе.

Оператор NOT (логическое И-НЕ) образует запрос, которому отвечают документы, удовлетворяющие левой части запроса и не удовлетворяющие правой. Так, результатом поиска по запросу “телефон NOT мобильный” будут показаны все документы, в которых есть слово “телефон” и при этом в данном документе на установленном расстоянии отсутствует слово “мобильный”.

Каждый из операторов имеет своё сокращенное обозначение, соответствие их приведено в таблице.

Оператор Полное обозначение Сокращённое обозначение
ИЛИ OR | , пробел
И AND & +
НЕ NOT ~

В языке запросов обычно один значок оператора означает его действие в пределах абзаца, а два подряд – в пределах всего текста.

Скобки.При построении запросов иногда возникает необходимость объединения слов запроса в группы, которые будут аргументами некоторого оператора. Такие группы заключаются в скобки. Как правило, в большинстве поисковых машин используют только скобки вида ( ). Часть запроса, заключенная в скобки, сама является запросом, и на нее распространяются все правила языка построения запросов. Использование скобок позволяет строить вложенные запросы и передавать их операторам в качестве аргументов, а также перекрывать приоритеты операторов, принятые по умолчанию.

Кавычки.Для поиска цитат можно использовать типовые (двойные) кавычки, вида « или “. Слова запроса, заключенного в двойные кавычки, ищутся в документах именно в том виде и в том порядке, как они были заданы в запросе. Это весьма эффективный способ поиска. Его применение обеспечивает успешность более 60%. Здесь важно учитывать только два момента. Во-первых, цитирование должно быть точным, т.е. без изменения по падежам, числам и лицам, во-вторых, материал, который вы ищите, как минимум должен быть в Интернете. Если при такой форме поиска будет допущена грамматическая ошибка, поиск даст отрицательный результат.

Таким образом, двойные кавычки можно использовать и просто для поиска слова в заданной форме (по умолчанию слова находятся во всех формах). Например, запросу: <поезд “прибыл” посадка> удовлетворяет документ, содержащий текст ‘… поезд прибыл для осуществления посадки пассажиров …’, и не удовлетворяют документы: с ‘.. поезд подошел к платформе для посадки пассажиров …’, или ‘… поезд был подан для проведения посадки пассажиров…’ и т.п.

Метасимволы или маски.Далеко не всякая поисковая машина может поддерживать поиск строк с использованием метасимволов (‘*’, ‘?’), которые обычно используются в значении “любая подстрока” и “произвольный (любой) одиночный символ” соответственно. Тем не менее, эти операторы нередко бывают зарезервированы для подобного использования в будущем.

Рассмотрим конкретный пример. Откроем в браузере начальную страницу поискового сервера Яндекс. В поле поиска введём ключевые слова, например, «информатика учебники тесты CD-ROM», либо «информатика&учебники&тесты&CD-ROM». В результате проведённого поиска было найдено 202 страницы, содержащие данный запрос и не менее 81 сайта. В статистике поиска можно ознакомиться с количеством сайтов, содержащих каждое из ключевых слов: информатика – 55813, учебники – 189860, тесты – 498394, CD – 348167? ROM – 34315.

ПРИМЕР

Теперь зададим в поле поиска следующую фразу: «информатика|учебники|тесты|CD-ROM», используя оператор OR. В результате по этому запросу будет найдено 48518876 страниц, не менее 22970 сайтов, в каталоге 962 сайта.

ПРИМЕР

Используя оператор NOT, введём в поле поиска следующую фразу: «информатика ~учебники тесты CD-ROM»/ В результате будет найдено 3695907 страниц и не менее 4056 сайтов, которые будут содержать ключевое слово «информатика» с исключением слов, стоящих в запросе после значка «~».

ПРИМЕР

Яndex также позволяет использовать вместо слов целые логические выражения, при этом его необходимо заключить в скобки. Используя наш пример, введём в поле поиска следующее выражение: (информатика учебники) тесты CD-ROM. В результате поиска будет найдено 3564 страниц и не менее 701 сайта, содержащие в себе такую группу слов как (информатика учебники).

ПРИМЕР

Теперь найдем фразу, для этого введём в поле поиска следующее выражение: «мороз и солнце, день чудесный». В результате этого поиска будет найдено 14195 страниц и не менее 756 сайтов.

ПРИМЕР

При поиске информации в Интернет очень важно учитывать морфология языка запросов. По каждому слову запроса поиск ведется с учетом правил словоизменения соответствующего языка. Поисковая машина «понимает» и «различает» слова русского и английского языков – по умолчанию. Поиск ведется, с учетом изменения по склонению, спряжению, числу и лицу, т.е. по всем формам слова; включая даже совпадающие по смысловому значению. Например, при поиске по слову машина будут также найдены документы, содержащие слова ‘о машине’, ‘ промашину’, ‘машиной’, и т.п., но и, что особенно важно, даже слова ‘машины’, ‘машинам’, ‘машин’ окажутся соответствующими запросу. Чтобы провести поиск только по одной строго определенной форме слова, нужно взять его в двойные кавычки или воспользоваться знаком “!”.

Также существуют некоторые слова и символы, которые по умолчанию исключаются из запроса в связи с их малой информативностью. Это – самые частотные слова русского и английского языков, например, предлоги, частицы и артикли. Очень часто опускаются апострофы и тире. Большинство поисковых машин их знают и сами освобождают от них сформулированный Вами запрос. Это связано с тем, что факт присутствия этих слов может заметно замедлить поиск и отрицательно повлиять на его результат и полноту, а, в конечном итоге, и успешность. В тоже время есть возможность обозначить необходимость этих слов в запросе. Для этого, следует взять запрос в двойные кавычки или воспользовавшись поиском точной фразы в расширенном поиске.

Существует также поиск, с помощью ограничения расстояния. Например, если запрос составлен из нескольких слов без применения операторов и конструкций языка запросов, то машина будет пытаться найти документы, в которых встречаются все слова запроса. При этом для каждого запроса всегда вводится так называемое ограничение контекста – положительное число. По умолчанию принимается расстояние равное 40 словам. Документ, в котором встретились все слова запроса, будет выдан только в том случае, если расстояние между словами запроса будет меньше этого числа. В поисковых системах есть возможность задавать порядок следования и расстояние между словами. Расстояние между словами А и В равно: 1 ( В следует сразу за А ), 2 ( В следует за А через одно слово ) и т. д. Или -1 ( В стоит перед А ), -2 … Знак “/” между словами, за которым стоит число, означает, что расстояние между ними не должно превышать этого числа слов.

Например, нам необходимо найти документы, в которых будут содержаться слова «информатика» и «учебники», и расстояние между ними не должно превышать 2 слов. Для этого введём в поле поиска следующее выражение: “информатика/2учебники”. В результате по нашему запросу получим 9 страниц и не менее 5 сайтов

ПРИМЕР

Если же мы немного изменим наш запрос – информатика/(+1+4)учебники – то мы получим документы, в которых данные ключевые слова будут идти друг за другом в таком порядке на расстоянии от 1 до 4 слов.

Очень часто приходиться также проводить поиск уже в найденной информации, т.е. можно осуществить поиск по документам, найденным по предыдущему запросу. Для этого в конце запроса нужно поставить “$$” или просто сделать отметку в окошке “поиск в найденном”, расположенном на странице запроса. Эта функция очень удобна для последовательного сужения поиска.

Язык поисковой машины Яndex обладает наиболее полным набором возможностей в русскоязычном поиске, поэтому, освоив его, вы без труда сориентируетесь в языке запроса любого другого средства поиска.

Владение пользовательскими инструментами и техникой

  1. Не забывайте о команде Find браузера.Если ваш браузер имеет в меню Файл, Правка или Вид команду Find (Найти), используйте ее для обнаружения трудноуловимых ключевых слов страницы. Чтобы отыскать слово, которое вам нужно, воспользуйтесь комбинацией клавиш CTRL+F в вашем браузере и введите искомое ключевое слово.
  2. Сохраняйте ссылки на важные и часто посещаемые страницы, используя команду Добавить в “Избранное”. Используйте подобные механизмы для регистрации предварительных результатов поиска в процессе беглого отбора с целью дальнейшего подробного изучения. Поддерживайте свою персональную коллекцию ссылок в рабочем состоянии: актуализируйте и систематизируйте ее, удаляйте устаревшие и ненужные. Существуют специализированные программные средства – интегрируемые модули расширения для стандартных браузеров, которые индексируют информационные ресурсы ранее посещаемых узлов. Они способны выполнять полнотекстовый поиск документов на любом узле, включая результаты обработки запросов.
  3. Сохраняйте копии важных документов.Активно используйте команды контекстного меню Сохранить объект как… и Сохранить рисунок как… и команду меню Файл – Сохранить как… для создания копий необходимой вам информации из сети Интернет на локальном ресурсе вашего ПК. Этим вы решите некоторые проблемы:1) изменчивости и недолговечности WWW ,концентрации внимания исключительно на целях определенного этапа поиска,экономии времени on-line подключения и перевод изучения отобранных материалов в режим off-line.
  4. Отключайте вывод изображений. Если вы не желаете видеть многочисленные рекламные заставки и для вас важен не дизайн сайтов, а их содержательная информация, измените заданный режим просмотра в браузере на режим вывода только текста (исключив возможности мультимедиа). Это значительно увеличит скорость поиска. При этом, если возникнет необходимость быстрого просмотра важной графической информации, воспользуйтесь пунктом контекстного меню «Показать рисунок», кликнув для его вызова правой кнопкой мыши в место невыведенного рисунка.
  5. Не теряйте самоконтроль.Интерактивная среда WWW увлекает, и зачастую после нескольких десятков минут Web-серфинга мы забываем: как попали на данный сайт, что хотели найти и по какому адресу расположена только что просмотренная уникальная информация… И в этом случае не пренебрегайте аккуратным использованием функциями (кнопками) вашего браузера Назад и Вперед, помогающими упорядочить навигацию. Чтобы не терять информацию и время, приучите себя всегда явно определять цель предстоящего on-line сеанса и при работе стараться не отступать от нее, оставляя прочие возникающие идеи и желания на потом. Планирование поисковой работы по этапам также даст результат: поиск станет более осознанным и систематичным, а результат – более полным и точным.

Заключение

В заключении хотелось бы определить базовый алгоритм поиска.

  1. Прежде всего, определите, к какому разделу относится искомая информация.
  2. Определитесь какую именно поисковую машину лучше использовать. Учитывайте её специфику.
  3. Выявите основные слова (или словосочетания), которые характерны для той информации, которую ищите. Попробуйте выявить ключевые слова.
  4. Задавая отдельные слова и фразы, учитывайте язык запросов, операторы поиска, логические связки искомых слов и т.п. элементы, которые делают поиск значительно более эффективным.
  5. Если вам известна точная фраза из искомых материалов, используйте её как цитату.
  6. После проведения предварительного поиска (или первой ступени поиска), если выдано довольно большое количество документов, воспользуйтесь элементом уточнения: “Искать в избранном”. При этом задание поиска следует обязательно уточнить, введя хотя бы одно новое слово или ограничение, которое по вашему мнению поможет провести правильный отбор требуемого материала.
  7. Грамотно располагайте материал и проводите его сортировку по удобным для вас признакам. Это заметно ускорит последующую обработку материала.
  8. Фиксируйте все интересные для вас найденные адреса документов в Интернете (например, с помощью программы Блокнот). Затем выберите среди них нужные для выполнения конкретной работы.

Современному человеку необходимо уметь проводить поиск в Интернет, чтобы «не утонуть» в изобилии информации.

назад

Содержание:

Введение

Современный этап развития цивилизации характеризуется переходом наиболее развитой части человечества от индустриального общества к информационному. Одним из наиболее ярких явлений этого процесса является возникновение и развития глобальной информационной компьютерной сети Интернет.

Всемирная сеть очень важна и полезна почти для всех! Любой пользователь Интернета может отыскать в нем много разной и интересной информации, а также использовать все широкие возможности сети. Для меня главными обстоятельствами в выборе темы «Анализ поисковых систем в сети Интернет», для моей курсовой работы, стали актуальность темы на сегодняшний день, а также достаточная открытость и известность мне этой темы, так как я часто пользуюсь всемирными сетями.

Ресурсы Интернета уже давно не просто игрушка, превратившаяся в незаменимый инструмент для каждодневной работы людей различных профессий. Количество данных в сети стремительно растет, и пропорционально им растет и объем. Ученые утверждают, что объем информации, передаваемой по Интернету, увеличивается в два раза каждые шесть месяцев.

В сети каждый день появляются множество новых документов, и что бы быстро и качественно находить нужную информацию появились специальные поисковые средства. Несколько лет назад говорили: в Интернете ничего невозможно найти, но там есть всё. Но когда появились поисковые программы, ситуация в корне поменялась, и сейчас в интернете информацию которая вам нужна, можно найти практически мгновенно.

Наиболее популярным способом поиска в Интернете является использование поисковых систем. Что же такое поисковая система? Поисковая система – портал, осуществляющий поиск, сбор и сортировку информации в сети Интернет. Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут.

В данной курсовой работе рассматривается поиск информации во Всемирной паутине с помощью нескольких наиболее распространённых систем поиска (Рамблер, Яндекс и т.д.). Всего же в мире существуют сотни различных поисковых систем, и выбор той или иной системы зависит только от ваших личных пристрастий.

Глава 1. Теоретическая часть

1.1 Особенности поисковых систем

Поисковая система – это сайт, к которому пользователь обращается посредствам ключевого слова и находит интересующую его информацию. Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут.

По пространственному масштабу поисковую систему можно разделить на локальные, глобальные, региональные и специализированные. Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера. Региональные поисковые системы описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете. Глобальные поисковые системы в отличие от локальных стремятся объять необъятное – по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет.

Поисковой процесс представляет собой четыре этапа: формулировка (до начала поиска), действие (идет поиск), обзор результатов (выводится на экран), и усовершенствование (возвращаемся к поиску с той же потребностью, но уже иной формулировкой). Более удобная схема поиска состоит из следующих этапов:

  • Задание информационной потребности на естественном языке;
  • Выбор поисковых сервисов и точная запись информационной потребности;
  • Выполнение созданных запросов;
  • Предварительная обработка полученных ссылок на документы;
  • Обращение за искомыми документами;
  • Предварительный просмотр найденных документов;
  • Сохранение подходящих документов для изучения;
  • Извлечение из подходящих документов ссылок для расширения запроса;
  • Изучение всех сохраненных документов;
  • Если искомая информация не найдена, то возвращаемся к первому пункту.

1.2 Методы поискового запроса

Процесс поиска довольно прост: задавая ключевые слова, характерные для искомой информации, пользователь надеется максимально просто и быстро найти интересующую его информацию. Это значит, что поисковая система должна думать точно также как думает пользователь, когда ищет ту или иную информацию. Разработчики поисковых систем постоянно стараются совершенствовать алгоритмы и принципы поиска, пытаются всячески ускорить работу системы, добавляя новые функции и возможности, чтобы удовлетворить потребности пользователей.

Поисковая система состоит из поисковой машины, базы данных или индекса и точек входа в систему. Поисковая машина – это аппаратно-программный комплекс, который осуществляет быстрый поиск внутри сервера или Интернет-ресурса необходимой информации.

Поисковая машина состоит из:

  • паук или спайдер (spider) приложение, которое занимается скачиванием страниц интернет ресурсов.
  • индексатор (indexer). Индексатор производит первоначальный анализ содержимого скачанной страницы, выделяет основные части (название страницы, описание, ссылки, заголовки и т.д.) и раскладывает все это по разделам поисковой базы данных – помещает в индекс поисковой системы. На основе результатов первоначального анализа индексатор также может принять решение, что страница вообще “недостойна” находиться в индексе. Причины такого решение могут быть разными: страница не имеет названия, является точной копией другой, уже имеющейся в индексе страницы или содержит ссылки на запрещенные законодательством ресурсы.
  • краулер (crawler) программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика. Краулер анализирует пути, ведущие с текущей страницы на другие разделы сайта, или на страницы внешних интернет ресурсов и определяет дальнейший порядок обхода пауком нитей всемирной паутины. Именно краулер находит новые для поисковой машины страницы и передает их пауку. Работа краулера построена на базе алгоритмов поиска на графах в ширину и глубину.
  • подсистема обработки и выдачи результатов (Search Engine and Results Engine ) самая важная часть любой поисковой машины. Алгоритмы работы этой подсистемы компании разработчики хранят в строгой секретности, поскольку они являют собой коммерческую тайну. Именно эта часть поисковой машины отвечает за адекватность ответа поисковой системы на запрос пользователя.

Вне зависимости от того, какой поисковой системой вы пользуетесь, примерный алгоритм поиска информации следующий:

  • Вы переходите на начальную страницу поисковой системы или на любую страницу, на которой находятся поля для ввода запроса и кнопка для начала поиска. В последнем случае после нажатия кнопки вы автоматически перейдёте на страницу поисковой системы. Отличий между собственно поисковой системой и страницей с полями для ввода запроса, который передаётся поисковой системе, нет. Главное – перейти на страницу, на которой вы можете ввести ваш запрос;
  • Если система позволяет последовательные уточнения области поиска, то вы переходите в разделы, определяющие границы поиска информации (например, поиск только в области науки или поиск среди европейских узлов Интернета). В таких системах, запрос в главном разделе, осуществляет поиск среди всех узлов Интернета. Если же вы, например, перейдёте в раздел «Новости», то поиск по запросу будет выполняться только среди узлов, посвящённых новостям. Таким образом, вы сначала определяете границы поиска, после этого отправляется запрос на поиск информации. Если выбранная вами система поиска не позволяет уточнить запрос, то это действие пропускается;
  • Вводится запрос на поиск в соответствии с правилами, принятыми в выбранной системе поиска. В простейшем случае это одно или несколько слов, например «Анекдоты», но возможны и сложные запросы с логическими операциями «И», «ИЛИ», «НЕТ»;
  • Если система поиска позволяет, то уточняются некоторые параметры запроса с помощью дополнительных полей, списков, флажков и переключателей, которые могут находиться на странице рядом с полем запроса. В большинстве случаев уточнение параметров не требуется. Составление сложных запросов чем-то похоже на программирование и пользуется популярностью у программистов, людей, не знакомых с программированием;
  • Нажимается кнопка для начала поиска. После некоторой паузы вы автоматически попадаете на страницу со списком документов, удовлетворяющих вашему запросу. Длительность паузы зависит от сложности запроса, скорости работы поисковой системы и качества вашей связи с данной системой;
  • Если ссылок много, и они не помещаются на одной странице, то после прочтения первой страницы с результатами поиска вы можете перейти к следующей, и так далее. Таким образом, вы просматриваете все найденные ссылки на документы;
  • После нахождения нужной ссылки вы щёлкаете на ней мышью и переходите на страницу, которую вы разыскивали. Если вы захотите посмотреть другие найденные страницы, то можно вернуться назад, к странице со ссылками на найденные документы, и перейти по другой ссылке.

Когда говорят о поисковых запросах, то часто упоминают слово «релевантность». Слово релевантность означает степень соответствия документа запросу. Чем больше релевантность, тем лучше результаты поиска. Релевантность определяется по следующим критериям:

  1. Проверяется, сколько раз заданное словосочетание (слово) встречается на отображенных страницах;
  2. Если введена фраза, то проверяется расстояние между словами;
  3. Индекс цитируемости (количество ссылок на данную страницу);
  4. Чем больше на страницу ссылаются, тем больше вероятность, что именно эта страница нужна пользователю;
  5. Каким стилем (шрифтом) написана на странице искомая фраза;
  6. Если фраза выделена жирным или написана крупным шрифтом; (заголовок), то это признак более высокой релевантности страницы;
  7. Возраст сайта (Чем старше сайт, тем лучше это влияет на релевантность).

Таким образом, можно отметить, что уровень релевантности – это целый комплекс параметров.

Итак, для того чтобы найти интересующую вас информацию в кротчайшие время, вам необходимо правильно составлять поисковой запрос.

Наиболее эффективным является следующий метод составления поискового запроса:

  1. Слова поискового запроса нужно писать грамотно. Так, например, запрос «пошив пальтов» нужного результата не даст;
  2. Если поиск нужных результатов не принес, нужно переформулировать запрос с помощью синонимов;
  3. Если результат поиска не удовлетворяет вас, то попробуйте включить в запрос уточняющие слова. Для запроса «стихи Пушкина» слово «стихи» является уточняющим;
  4. В сложных случаях нужно использовать язык запросов. С помощью языка запросов можно задавать комбинации разных критериев поиска.

1.3 Поисковая система Yandex

Подробнее рассмотрим язык запросов поисковой системы Yandex. Предположим, что нам нужно найти адрес проживания Мартиросяна С.Т. Если правильно сформулировать поисковой запрос, то это не составит нам труда. В языке запросов есть такая функция, как включение/ исключение определенных слов – знаки «+» и «-».

Попробуем сформулировать поисковой запрос. Для этого используем фамилию человека и пару уточняющих слов. В качестве уточняющего слова возьмем «адрес» и дату рождения человека. Получим:

Рис.1

Как видно на рисунке 1 нашлось 7 страниц, но с помощью языка запросов можно сократить их число до 1 страницы. Применим специальный символ «+» к уточняющим словам – это означает, что будут найдены те страницы, на которых в обязательном порядке присутствуют уточняющие слова. Получим:

Рис.2

На рисунке 2 видно, что мы нашли 1 страницу, без лишнего мусора. Этот поисковый запрос сформулирован правильно. Еще одним важным символом языка запросов является знак «|». Вертикальная черта позволяет задать альтернативы – система ищет хотя бы одно из перечисленных слов. Например запрос: «Физика лекции | конспекты» будет аналогичен как запросам «Физика лекции» и «Физика конспекты».

Обычно поисковики ищут все формы введенного слова. Например по запросу «Звукоизолирующая» будут выведены страницы со словом «звукоизолирующий» , «Звукоизолирующих» и т.д. Рисунок 3.

Рис. 3

Но чтобы найти именно ту форму слова, которая задана в поисковой строке, в языке запросов предусмотрен символ «!». Применение этого символа видно на рисунке 4.

Рис. 4

Если вам нужно найти точную фразу, то следует её заключать в кавычки: «»

В случае, когда вы хотите найти все варианты фразы: «очень (любое слово) девушка». То нужно поставить запрос так «очень /+2 девушка» , причем 1 – это означает отсутствие слова, а 3 означает, что между «очень» и «девушка» будут два любых слова:

Рис.5

На рисунке 5 видно, как между словами «очень» и «девушка» вставлено «любое слово».

Следует отметить, что при выполнении запроса поисковая система не ищет документ непосредственно в Интернете. Она обращается к своей базе данных, где в компактном виде собраны данные об информации в Интернете. Возможно, что реальное состояние Интернета несколько отличается оттого, что храниться в базе данных.

Поисковые системы постоянно пополняют и обновляют свои базы данных, чтобы минимизировать такое несовпадение. Существует способ пополнения информации в базы данных поисковых машин: Разработчик Web-страницы самостоятельно добавляет ссылку на неё в поисковую систему. Большинство систем позволяют это сделать совершенно бесплатно. Специальная программа, называемая роботом, находит ссылку на новую страницу во Всемирной паутине. Роботы запускаются поисковой системой, чтобы проверить, существуют ли ранее найденные документы и не появились ли новые.

Глава 2. Практическая часть.

2.1. Поиск с помощью Alta Vista

Поисковая система Alta Vista была открыта для свободного использования в конце 1995 года. Это система до сих пор является достаточно популярной, хотя в последнее время другие системы составляют ей значительную конкуренцию. Система обеспечивает поиск как во Всемирной паутине, так и в группах новостей. После ввода ключевых слов вы получаете информацию о количестве найденных документов и их краткие описания со ссылками на информацию в Интернете. Расширенный поиск позволяет использовать логические операторы для формирования сложных запросов. Рассмотрим возможности системы Alta Vista на конкретных примерах.

Рис.2.1 Начальная страница системы Alta Vista

На начальной странице (Рис.2.1) кроме поля для ввода запроса расположен открывающийся список. С его помощью можно выбрать интересующий вас язык искомого документа: any languache (Любой язык), Russian (Русский) или любой другой язык. По умолчанию ищется информация на любом языке. Выше поля ввода расположены несколько ярлычков, щелчком на которых можно выбрать область поиска: Web (Паутина) – во Всемирной паутине,  News (Новости) – в группах новостей и так далее.

Зададим несколько простых вопросов для поиска информации, чтобы продолжить знакомство с возможностями системы Alta Vista. Для поиска документов, содержащих некоторое слово, надо ввести это слово, а для поиска документов, содержащих искомое словосочетание, необходимо заключить несколько слов в двойные кавычки. Если слово содержит только строчные буквы, то ему сопоставляются также и слова, содержащие заглавные буквы.

Например, слову интернет будет поставлено в соответствие интернет, Интернет и ИНТЕРНЕТ. То есть, чтобы найти слово, написанное, как большими, так и маленькими буквами, надо в запросе использовать только маленькие буквы (строчные).

Наличие заглавных букв в слове, заданном в запросе, конкретизирует поиск. В результате поиска будет найдено точно такое слово с учётом регистра. Например, на запрос интерНЕТ будет найдено только слово интерНЕТ, если оно, конечно, имеется в базе данных. Слова же интернет, Интернет  и  ИНТЕРНЕТ по такому запросу найдены не будут.

В системе Alta Vista можно задавать только часть слова, используя для этого знак *.  Использование этого знака похоже на его использование в шаблонах файлов. Вместо переменной части слова ставится данный знак, например: на запрос интернет* будет найдены слова интернет, Интернета,  ИНТЕРНЕТОМ, и тому подобные. Данную возможность удобно использовать для поиска однокоренных слов.

Другой удобной возможностью является использование в запросах знаков + и -. Добавив такой знак перед словом или фразой, вы требуете обязательное их присутствие или отсутствие в документе. Если вы ставите знак + перед словом, то этим вы указываете, что данное слово обязательно должно присутствовать в найденном документе. Символ – указывает на то, что следующее за ним слово не должно присутствовать. Например: запрос +интернет* – интернет выдаст вам только склонения слова Интернет, но не само слово. Мы указали с помощью +интернет*, что в искомом документе должны быть все слова, начинающиеся с «интернет». С помощью же  -интернет мы задаём, что само слово «интернет» не должно присутствовать.

Ещё одним удобным способом уточнения поиска является использование специальных ключевых слов. Существуют различные ключевые слова, мы рассмотрим только два наиболее полезных слова. Ключевое слово link: позволяет ограничить поиск среди страниц, на которых расположены ссылки на заданную страницу. Например, для поиска страниц со ссылками на узел Microsoft, необходимо в качестве запроса ввести  link:www.microsoft.com.  Ключевое слово url: позволяет искать среди страниц, в адресе которых существует заданная в качестве аргумента часть. Если вы хотите найти все страницы, в адресе которых есть название фирмы Intel, то следует ввести запрос url:intel. Эти ключевые слова можно использовать вместе. Например, если мы хотим найти все страницы Российской части Интернета, на которых имеются ссылки на систему Alta Vista, следует в качестве запроса указать link:altavista.digital.com url:ru.

В подавляющем большинстве случаев вы сможете найти необходимую информацию с помощью простых запросов, но иногда могут потребоваться и более сложные. Система Alta Vista позволяет формировать запросы с использованием логических операций. Они называются сложными, или расширенными.

Для построения сложного запроса используются логические операторы и синтаксические выражения. Попытаемся пояснить, что это такое.

Синтаксические выражения – это любые слова и словосочетания, аналогичные рассмотренные в простых запросах. Логические операторы служат для выполнения операций «И», «ИЛИ», «НЕТ» и «ОКОЛО» над синтаксическими выражениями. Часто синтаксические выражения, над которыми производятся логические операции, называются аргументами. В синтаксических выражениях вы также можете использовать отдельные слова или фразы, заключая несколько слов в двойные кавычки. Правила использования заглавных и прописных букв в сложных запросах так же не отличаются от данных правил в простых запросах.

Главное, что отличает сложный запрос – это использование логических операторов и круглых скобок. С помощью операторов и скобок вы создаёте из отдельных синтаксических выражений необходимый запрос.

Рассмотрим несколько примеров. Перед примерами перечислим допустимые в расширенных запросах логические операторы:

  • Оператор AND для логической операции «И». Оператор гарантирует, что в документе присутствуют оба документа.
  • Оператор OR для логической операции «ИЛИ». Оператор гарантирует, что в документе присутствует хотя бы один из аргументов.
  • Оператор NEAR для операции «ОКОЛО». Данный оператор гарантирует, что аргументы стоят друг от друга в тексте не дальше, чем на десять символов.
  • Оператор NOT для логической операции отрицания, то есть для операции «НЕТ». Этот оператор гарантирует, что аргумент не присутствует в документе.

Чтобы в найденном документе отсутствовало какое-либо слово, надо перед ним в запросе поставить оператор отрицания. Полезно для удобства чтения запроса выделить слово с отрицанием круглыми скобками: (NOT описание).

Для задания одновременного присутствия в искомом документе сразу нескольких слов или словосочетаний используется логический оператор «и».

Например, если вы хотите, чтобы в документе было слово «провайдер» и словосочетание «очень дёшево», то следует в запросе указать провайдер AND «очень дёшево». В качестве аргумента можно использовать не только слова и словосочетания, но и логические выражения, например по запросу интернет AND (NOT описание) будут найдены документы, в которых имеется слово «интернет» и нет слова «описание». В простом запросе для этого мы использовали бы +интернет-описание. Если вы хотите, чтобы в искомом документе находилось хотя бы одно из нужных слов, то следует воспользоваться логической операцией «ИЛИ». Например, запрос телевизор OR радио ORвидео найдёт документы, в которых есть хотя бы одно из перечисленных слов.

Более сложный запрос «дешевый доступ в Интернет» OR  (провайдер END  «очень дёшево»)  задаст поиск документов, в которых есть словосочетание «дешевый доступ в Интернет» или встречаются одновременно слова «провайдер» и «очень дёшево».

Операция «ОКОЛО» не является классической логической операцией. С её помощью можно задать, то, чтобы слова находились рядом друг с другом. Например, провайдер AND «очень дёшево» указывает, что данные слова просто присутствуют, однако они могут располагаться в разных концах документа. Запрос же провайдер NEAR «очень дёшево» описывает, что слово «провайдер» и словосочетание «очень дёшево» должны находится друг от друга недалеко, то есть между ними не должно находиться более десяти слов.

С помощью логических операций можно создавать достаточно сложные запросы, например:

((провайдер* NEAR московск*) OR ((NOT описание) AND интернет*)) AND  «очень дёшево». Разберём этот запрос по частям. Выражение  (провайдер* NEAR московск*) описывает, что в искомом документе должно быть слово, начинающееся с «провайдер», то есть «провайдер», «провайдера», «провайдеру» и тому подобное, причём это слово должно находиться рядом со словом, которое начинается с «московск». Этим мы ограничиваем поиск московскими провайдерами. В других скобках выражении  ((NOT описание) AND интернет*) описывает, что в документе должно быть слово, начинающееся с «интернет», и недолжно присутствовать слово «описание». Рассмотренные два выражения соединяются логическим

оператором OR, то есть мы ищем документ, в котором или описываются московские провайдеры, или имеется информация об Интернете, которая не является описанием. Такой поиск осуществляется по запросу   ((провайдер* NEAR московск*) OR ((NOTописание) AND интернет*)). В нашем же запросе ещё присутствует последняя часть AND «очень дёшево». С её помощью мы задаём, что в дополнение к предыдущим условиям, необходимо, что бы в найденном документе присутствовало словосочетание «очень дёшево». Таким образом мы сформировали достаточно сложный запрос, хотя, скорее всего, по нему вы не найдёте не одного документа.

Пример: зададим более простой запрос. С помощью части запроса (интернет* OR internet) мы описываем русское название Интернета в любых склонениях или его английское название. Что бы искать провайдеров Интернета, мы описываем, что рядом со словом «Интернет», в любом виде, должно находиться слово «провайдер». Теперь наш запрос выглядит так: (провайдер NEAR (интернет* OR internet)). По нему мы найдём информацию о провайдерах Интернета. Если же мы хотим ограничить информацию только московскими провайдерами, то следует в запрос добавить AND моск*. Этим мы описываем, что в документе обязательно должно присутствовать слово, начинающееся с «моск*». В итоге мы получили запрос (провайдер NEAR(интернет* OR internet)) AND моск*.

В этом примере я искал русские слова в Интернете. Для этого можно воспользоваться системой Alta Vista, но более удобно использовать русские поисковые системы. Если же вы хотите найти зарубежную информацию, система Alta Vista становится просто незаменимой.

Здесь я подробно описал поисковую систему Alta Vista по двум причинам. Во-первых, она является крупнейшей в мире, и вам наверняка придётся воспользоваться её услугами. Кроме того, построение запросов в ней аналогично построению запросов для других систем поиска.

2.2. Использование системы Yahoo

Принципиальное отличие поисковой системы Yahoo (Яхо) от других систем в том, что вы можете найти необходимую вам информацию без использования запросов, а просто переходя по ссылкам разделов встроенного справочника и последовательно уточняя область ваших интересов. Yahoo является самой популярной системой в США, так как не требует специальной подготовки для поиска информации. Не надо знать правила формирования запросов, достаточно просто переходить по ссылкам в нужные разделы. Однако для русскоязычных пользователей эта система не слишком удобна, так как разбиение на разделы проводилась с учётом американской специфики. Кроме того, в справочнике Yahoo содержится намного меньше ссылок на русскоязычные документы, чем в базе данных Alta Vista. Однако для поиска информации по конкретной тематике данная система может оказаться достаточно полезной.

Заглавная страничка Yahoo! (Рис.2.2.) грузится очень быстро – хотя на ней очень много ссылок, но все они текстовые. При вводе ключевых слов с основной страницы Yahoo, запрос обрабатывается по методу “Intelligent default”, то есть Yahoo! ищет наиболее подходящие результаты в таких областях: в категориях Yahoo, в Web-сайтах, зарегистрированных на Yahoo; на Altavista (запрос передается при отсутствии результатов); в новостях.

Рис. 2.2 Начальная страница поисковой системы Yahoo

При задании критериев поиска для Yahoo! нужно помнить, что Yahoo! ищет эти слова только в названии и описании страницы, поскольку полнотекстового индекса на Yahoo! нет. Поэтому не следует указывать при поиске слишком много терминов или синонимов – количество результатов с Yahoo! снизится или даже будет нулевым.

Поиск в системе Yahoo реализован с использованием Alta Vista. Все описанные выше приёмы, которые мы применяли при работе с Alta Vista, применимы и к Yahoo. Таким образом, вы можете использовать поиск в Yahoo совершенно так же, как и в системе Alta Vista.

Систему Yahoo удобно использовать для поиска спортивных событий, новостей, прогнозов погоды, развлечений и тому подобной информации. Это обусловлено особенностями разбиения информации на разделы в данной системе. Если вам удобнее не составлять запрос, а выполнять последовательные уточнения, то эта система вас должна устроить.

Поисковая система Google

Рис. 2.3 Начальная страница поисковой системы Google

За почти 20 лет существования корпорации Google, он приобрел статус крупнейшей поисковой системой в мировом масштабе.

Google (Рис 2.3.) осуществляет поиск по документам на более чем 35 языках, в том числе русском. В настоящее время многие порталы и специализированные сайты предоставляют услуги поиска информации в Интернете на базе Google, что делает задачу успешного позиционирования сайтов в Google еще более важной.

Поисковая система Google выглядит стабильнее своих конкурентов в плане смены алгоритма и апдейтов. Информация, только что размещенная на сайте, может в считанные минуты попасть в основную выдачу. Поисковые роботы Google в три раза быстрее, чем роботы других поисковых систем.

Google первым применил новую технологию поиска и выдачи результатов – релевантность интернет-страниц – то, что не лежит на данной конкретной странице, но тем ни менее влияет на ранг ее выдачи. Поисковая система Google учитывает гипертекстовую структуру Интернета, и какие страницы на какие ссылаются. Google сама определяет релевантность интернет-страниц Страница, на которую ссылаются чаще, более релевантна и значит более популярна.

Особенность Google заключается в том, как и по какому критерию эта поисковая система классифицирует результаты поиска на своей странице. Используемый алгоритм PageRank сортирует все веб-страницы по критерию смыслового соответствия.
Алгоритм PageRank зависит от нескольких факторов:

  • От частоты повторения и местоположения ключевых слов на веб-странице – если искомое слово или фраза только один раз встречается на сайте, то страница получает низкий бал.
  • От времени существования страницы – каждый день в Интернете появляются новые сайты, но не многие задерживаются надолго. Поэтому преимущество отдается уже зарекомендовавшим себя сайтам, существующим долгое время.
  • От количества веб-станиц, связанных с «главной страницей» – Google «смотрит» на количество веб-страниц, относящихся к определенному сайту и определяет ее рейтинг среди всех остальных. 

Помимо просто поиска, здесь можно сравнивать цены на товары в интернет-магазинах, читать новости и многое другое. Есть и служба блокировки назойливой интернет-рекламы

2.3 Поисковая система Rambler

Рамблер — одна из первых поисковых систем российского интернет-пространства. Несмотря на свой солидный «возраст», конкуренции с сильными соперниками она не выдерживает, сегодня система охватывает только 0,4% поиска. ( Рис 2.4.)

Рис. 2.4 Начальная страница поисковой системы Rambler

Название «Рамблер» как нельзя лучше отражает суть деятельности компании («rambler» – по-англ. «бродяга»). Rambler позволяет искать документы на английском, русском, украинском и многих других языках, а при формировании списка к выдаче учитываются не только ключевые запросы, но и их разнообразные словоформы. Полученные в результате поиска данные структурируются по степени соответствия запросу (релевантности) и распределяются по сайтам. 
В июне 2003 года компания запустила новую версию поисковой машины, которая отличается от предыдущей по двум основным параметрам. Первое и главное – значительно увеличилась скорость поиска; второе, благодаря новой архитектуре системы, обновление поискового индекса происходит несколько раз в день.

Теперь поисковик всегда находит самые свежие документы и последние новости. Рамблер знаком с русским языком, понимает термины типа «б/у», «у.е.» и «а/я». Как дань моде, открылась лаконичная версия поисковой системы по адресу «r0.ru». Содержание ее стандартно – строка поиска, почта и новости.

Еще одна особенность поисковика Rambler, это механизм ассоциаций. Помимо стандартной ответной страницы, в которой найденные документы расположены в порядке убывания релевантности, появляется строка – «У нас также ищут». В ней приведены слова и словосочетания, тематически связанные с запросом. Новый механизм также исправляет ошибки запросов. На введенное gjujlf пользователь получит теперь положительный результат: сведения о погоде (gjujlf – это слово «погода» набранное латиницей).

Необходимо отметить проекты Rambler-Группы и Rambler-Фото. Оба этих проекта предоставляют пользователям сети возможность использования заложенных в проекты программных алгоритмах в собственных целях. Проект Rambler-Группы дает людям возможность начинать обсуждения самых разных тем, которые существуют не только в виде форумов, но также и в виде открытых списков рассылки. Проект Rambler-Фото представляет пользователям сети возможность создания фотоальбомов в объеме до 20 мегабайт, причем это дисковое пространство зарегистрированные пользователи поисковой системы Rambler получают в дополнение к тем мегабайтам почты, на которые они могут претендовать по новым условиям e-mail обслуживания (15 мегабайт).

Rambler Mass Media – первый и по-прежнему лидирующий на рынке информационный дайджест. Помимо текстовых материалов и фоторепортажей, ставших визитной карточкой проекта, Rambler Mass Media представляет пользователям аудио и видеосюжеты. В числе поставщиков – ВГТРК и BBC, Deutsche Welle, радио “Маяк” и др. Заголовки важнейших новостей размещаются на первой странице портала Rambler.ru и в блоке “Главные новости дня” на главной странице Rambler Mass Media. Наиболее актуальные новости могут читать и посетители других сервисов Рамблера – Рамблер Почты, Погоды на Рамблере.

2.4 Поисковая система Aport 

Поисковая система Апорт (Рис 2.5.) на сегодняшний день находится на 16 месте по популярности поисковых машин Рунета. Данная система осуществляет полнотекстовый поиск документов c учетом морфологии русского языка в поисковых запросах.

Рис. 2.5 Начальная страница поисковой системы Aport

К важным свойствам первой версии поисковой системы Апорт можно отнести перевод запроса и ответа на английский язык и обратно. Второе свойство – реконструкция проиндексированных страниц из собственной базы. Это дает возможность просмотра уже несуществующих страниц.

www.aport.ru – первым из поисковых систем Рунета реализовал базовые технологии Google. “Page rank” – характеристика популярности ресурса по формуле “обратных ссылок”: ссылки с других сайтов на данный ресурс. Причем учитывается не только количество, но и важность ссылок. В поисковой системе Aport впервые была реализована возможность поиска по новостным лентам.

В настоящее время возможности поисковой системы “Апорт” не так обширны, но все-таки значительны. На официальном сайте поисковика можно найти каталог, охватывающий добрую часть русскоязычных Интернет-ресурсов, с удобным рубрикатором и системой выдачи.

Также, на “Апорт” представлена актуальная информация различного рода: это и программа телевидения, и новости, и прогноз погоды, и котировки валют.

Особый блок сервисов поисковика составляют почта, справочная информация (в разделе “Словари”) и поиск объекта по адресу (для Москвы, Санкт-Петербурга, а также для федеральных округов РФ: Дальневосточного, Приволжского, Северо-Западного, Сибирского, Уральского, Центрального и Южного).

С помощью “Доски объявлений” от “Апорт” можно приобрести, продать, подарить или принять в дар все, что угодно: от котят до земельных участков. Данный сервис предлагает еще и поиск работы, однако найти здесь настоящие вакансии среди сомнительных объявлений довольно сложно.

2.5 Поисковая система Яндекс

На сегодняшний день Yandex ( Рис 2.6.) это одна из самых востребованных поисковых систем в Рунете. Поиск позволяет искать документы на русском, татарском, украинском, белорусском, казахском, английском, немецком и французском языках с учётом морфологии этих языков и близости слов в предложении.

Рис. 2.6 Начальная страница поисковой системы Yandex

Поисковый запрос от пользователя, после анализа загруженности поисковой системы, отправляется на наименее загруженный сервер. Для обеспечения такой возможности сервера Яндекса объединены в кластеры, и даже кластеры кластеров. Затем пользовательский запрос обрабатывается программой под названием «Метапоиск». Метапоиск осуществляет анализ запроса в реальном времени: определяет географическое положение пользователя, проводит лингвистический анализ и т. д. Также, программа определяет, относится ли запрос к категории наиболее популярных или недавно заданных. Выдача на такие запросы некоторое время хранится в памяти (кэше) метапоиска, и в случае совпадения показываются заранее сохранённые результаты. Если запрос является редким и совпадений в кэше не найдено, система перенаправляет его на программу «Базового поиска». Тот анализирует индекс системы, также разбитый по разным дублирующимся серверам (это укоряет процедуру). Затем полученная информация снова попадает на метапоиск, данные ранжируются и показываются пользователю в готовом виде.

Основная особенность системы Яндекс, делающая популярной ее среди русскоязычных пользователей, – это способность определять различные словоформы с учетом морфологических особенностей русского языка.

В 2012 г. Был внедрен новый алгоритм «Калининград», который позволил сделать поиск персонализированным. Это значит, что теперь основным фактором ранжирования является сам пользователь, который формирует запрос для поисковой системы. Другими словами, результаты поиска по одному и тому же вопросу для двух разных пользователей теперь будет различаться в зависимости от нужд и предпочтений самих пользователей. Это новый шаг на пути эволюции поисковых систем.

В 2016 г. компания запустил сервис Яндекс Такси.

Кроме того, среди нововведений Яндекса можно отметить:

  • введение геозависимости запросов в зависимости от региональной принадлежности пользователя и сайта;
  • учет поведенческих факторов;
  • разработка механизма подсказок, исправления ошибок и распознавания аббревиатур;
  • активная борьба с продажными ссылками и переоптимизированными текстами;
  • введение персонализированного поиска;
  • учет добавочной смысловой стоимости сайта.

2.6 Поисковая система Mail. ru 

Поисковик Mail.ru остался позади известных Яндекса и Google. Сначала этот сервис работал, используя поисковые услуги Google, позже — Яндекса, и только в 2013 году Mail.ru стал применять свой поисковой движок. (Рис 2.7.)

Рис. 2.7 Начальная страница поисковой системы Mail.ru

Национальная почтовая служба Mail. ru – это не только поисковая система но и один из крупнейших порталов российского Интернета. Ежедневная аудитория Mail.ru – более 5 миллионов пользователей. Общее число регистраций со дня основания около 60 миллионов. Mail.ru – самый быстроразвивающийся российский Интернет-ресурс. Через почтовые ящики Mail.ru ежедневно проходит более 25 миллионов писем. Mail.ru занимает лидирующую позицию среди бесплатных почтовых сервисов, предоставляя своим пользователям почтовый ящик неограниченного размера с защитой от спама и вирусов, переводчиком, проверкой правописания, архивом для хранения фотографий и многое другое.

Нужно сказать, что разработчики поисковой системы изначально делали ставку не на поиск, а на различные сервисы: Агент, Почта, Мой Мир, Одноклассники, и самый главный способ монетизации — игры. Именно за счет этих услуг холдинг, по некоторым данным, является одним из самых посещаемых в России.

Выделить основные приоритеты в работе поисковых алгоритмов довольно сложно, но можно отметить несколько факторов:

  • качественный контент;
  • поведенческие показатели;
  • удобный и интуитивно понятный для посетителей сайт;
  • наличие естественных ссылок с других сайтов.

Соблюдение этих очевидных правил поможет сайту уверенно занять позиции в первой десятке. По сравнению с гигантами Яндексом и Google, продвигать сайт на Mail.ru гораздо легче и проще.

Какая из поисковых систем лучше?

Рейтинг мировых поисковых систем по данным 2016 г. представлен в следующей таблице.

Как мы видим лидерами по показателям качества представленной информации оказались Yandex, Google .

Мною был введен один и тот же «запрос» в несколько поисковых систем.

Yandex оказался одной из наиболее эффективных систем с точки зрения ее релевантности и соответствия выданных результатов заданному запросу. Хоть страниц было много, но нужная информация находилась на самых первых из них. Мало затраченного времени – необходимые результаты. При этом немаловажную роль сыграла также относительная новизна представленной информации. 

Google выдавал результаты страниц, на которых не всегда первое место занимали релевантные документы. Зато жалоб на разнообразие просто не было, т.к. в представленном количестве материала можно было найти что угодно (при этом было потрачено времени в два раза больше, по сравнению с поисками в других поисковых системах).

Система Aport оказалась менее эффективной, чем вышеназванные из-за ее чрезмерной ориентации на частные случаи, но результаты, которые она выдавала, значительно отличались от результатов других поисковых систем. Они были единственные в своем роде, не всегда релевантны, но неповторимы.

Rambler, несмотря на прочно занимаемое четвертое место в количественном рейтинге, оказался намного менее эффективной по релевантности системой. Здесь преобладает ориентация на российские источники информации, что снижает ее адекватность в оценке ситуации в других странах. К этой же категории по степени релевантности можно отнести и поисковую систему Google.

Поисковую систему Yahoo можно рассматривать как наиболее эффективную наравне с Yandex, но только в англоязычном поиске. На русском языке в данной системе имеется незначительное количество сайтов и их релевантность минимальна.

Заключение

По итогам сделанной мной работы я могу заключить что; поисковые системы уже давно стали неотъемлемой частью Интернета. Поисковые системы сейчас – это огромные и сложные механизмы, представляющие собой не только инструмент поиска информации, но и заманчивые сферы для бизнеса.

По моему мнению, самой лучшей иностранной поисковой системой является Google, так как для меня основное значение имеет точность и полнота предоставляемых данных. Но можно заключить также что, каждая поисковая система будь то Российская или зарубежная предоставляет различные возможности поиска, из различных баз данных, поэтому сказать точно какой именно лучше пользоваться было бы неправильно. Поэтому для удобства поиска и полноты информации следует пользоваться несколькими поисковиками вводя в них нужные запросы. По моему мнению, из многих Российских поисковиков выделяются Яндекс и Рамблер, для них характерно постоянное обновление баз данных что, обеспечивает именно актуальность и точность предоставляемой информации.

Список литературы

      1. Экслер, А.Б., “Самоучитель работы в Интернете” – Москва.: NT Press, 2010г.
      2. Кузьмин А.В. Золотарева Н.Н. Поиск в Интернете – Санкт – Петербург.: Издательство НиТ, 2011г.
      3. Егоров, А.Б., ” Поиск в Интернете” – Санкт – Петербург.: НиТ, 2010г.
      4. Павел Храмцов “Поиск и навигация в Internet”. http://www.osp.ru/cw/1996/20/31.htm
      5. Андрей Аликберов “Несколько слов о том, как работают роботы поисковых машин”. http://www.citforum.ru/internet/search/art_1.shtml
      6. www. google.ru
      7. www.yandex.ru
      8. www.rambler.ru
      9. www.aport.ru
      10. www.mail.ru
      11. www.yahoo.ru

СПИСОК ДЛЯ ТРЕНИРОВКИ ССЫЛОК

  • Проектирование реализации операций бизнес-процесса .
  • Методы стимулирования и развития познавательного интереса, как необходимость в достижении педагогической цели
  • Аудиторская деятельность как вид предпринимательства: общая характеристика. Внутренний аудит
  • Способы прекращения обязательств)
  • Проектирование реализации операций процесса «Реализация билетов через розничные кассы
  • Регламент выполнения процесса «Реализация билетов через розничные кассы»
  • Управление товарооборотом и товарными запасами на предприятии с целью повышения эффективности коммерческой деятельности в ООО «ГарантЪ»
  • Управление процессом реализации изменений и нововведений
  • АНАЛИЗ ОРГАНИЗАЦИОННОЙ КУЛЬТУРЫ ООО «ИРИДА»
  • Сущность и значение Pr – коммуникаций в спорте
  • Цели и критерии оптимизации бизнес-процессов
  • Методы кодирования данных. Выбор способа кодирования