logo search
Самостоятельно СТ 2012

4. Структурно-функциональная организация типовой поисковой машины Интернет.

Информационно-поисковые системы (поисковые машины) позволяют находить ресурсы Internet непосредственно по их тек­стовому содержимому. Функционирование поисковой машины включает два базовых процесса:

1) индексирование ресурсов Internet (автоматическое построение и обновление индекса);

2) поиск по индексу в соответствии с запросом пользователя.

Упрощенная структура типовой поисковой машины показана на рис.

Ее главными компонентами являются:

- программный агент, «перемещающийся» по сети и индексирующий ресурсы (web-страницы);

- база данных (БД) (индекс), содержащая информацию, соби­раемую агентом;

- программа поиска, применяемая пользователя­ми для поиска информации в БД.

На этапе индексирования поисковые машины реализуют сле­дующий примерный алгоритм работы.

1. Адреса web-узлов, включаемые в обрабатываемую область, определяются по гиперссылкам, ведущим из страниц данного web-узла. При этом используются различные модификации вол­нового алгоритма (например, с вычислением профилей узлов).

2. Агент либо переходит к индексированию очередного web-узла из сформированного списка, либо выполняет так называемое зеркалирование (дублирование) его содержимого на свой web-узел.

3. Производится собственно индексирование. Оно может быть полнотекстовым (обрабатывается весь текст) и неполнотекстовым (обрабатываются наиболее значимые части текста: заго­ловки, названия, ключевые поля, начальные слова разделов и т. д.).

4. Полученные данные о ключевых словах добавляются в БД.

5. Если был сделан зеркальный дубль, он стирается.

6. Пункты 2-5 повторяются для каждого адреса, полученного в п. 1.

Изложенный алгоритм соответствует некоторой канониче­ской структуре поисковой машины. Конкретные их реализации различаются по многим параметрам: поддержке простого и сложного поиска; учету различий строчных и прописных симво­лов; возможности поиска по частям слов и словосочетаниям; поддержке обработки запросов, содержащих логические операто­ры И, ИЛИ, НЕ; использованию специальных языков поиска ин­формации, значительно сокращающих его время (к сожалению, такие языки не стандартизованы, поэтому в разных поисковых машинах реализуются различные поисковые языки).

Рис. 4.3. Упрощенная структура типовой поисковой машины