4. Структурно-функциональная организация типовой поисковой машины Интернет.
Информационно-поисковые системы (поисковые машины) позволяют находить ресурсы Internet непосредственно по их текстовому содержимому. Функционирование поисковой машины включает два базовых процесса:
1) индексирование ресурсов Internet (автоматическое построение и обновление индекса);
2) поиск по индексу в соответствии с запросом пользователя.
Упрощенная структура типовой поисковой машины показана на рис.
Ее главными компонентами являются:
- программный агент, «перемещающийся» по сети и индексирующий ресурсы (web-страницы);
- база данных (БД) (индекс), содержащая информацию, собираемую агентом;
- программа поиска, применяемая пользователями для поиска информации в БД.
На этапе индексирования поисковые машины реализуют следующий примерный алгоритм работы.
1. Адреса web-узлов, включаемые в обрабатываемую область, определяются по гиперссылкам, ведущим из страниц данного web-узла. При этом используются различные модификации волнового алгоритма (например, с вычислением профилей узлов).
2. Агент либо переходит к индексированию очередного web-узла из сформированного списка, либо выполняет так называемое зеркалирование (дублирование) его содержимого на свой web-узел.
3. Производится собственно индексирование. Оно может быть полнотекстовым (обрабатывается весь текст) и неполнотекстовым (обрабатываются наиболее значимые части текста: заголовки, названия, ключевые поля, начальные слова разделов и т. д.).
4. Полученные данные о ключевых словах добавляются в БД.
5. Если был сделан зеркальный дубль, он стирается.
6. Пункты 2-5 повторяются для каждого адреса, полученного в п. 1.
Изложенный алгоритм соответствует некоторой канонической структуре поисковой машины. Конкретные их реализации различаются по многим параметрам: поддержке простого и сложного поиска; учету различий строчных и прописных символов; возможности поиска по частям слов и словосочетаниям; поддержке обработки запросов, содержащих логические операторы И, ИЛИ, НЕ; использованию специальных языков поиска информации, значительно сокращающих его время (к сожалению, такие языки не стандартизованы, поэтому в разных поисковых машинах реализуются различные поисковые языки).
Рис. 4.3. Упрощенная структура типовой поисковой машины
- 4. Коммерческая информация.
- 5. Классификация информационных ресурсов Интернет.
- 2. Библиотечный фонд.
- 3. Архивный фонд.
- 4. Источники и поставщики информационных ресурсов для специалистов.
- Тема 5 мировые информационные сети: структура информации. (4ч.)
- 2. Принцип построения групп Usenet.
- 3. Информационная система Gopher.
- 4. Система архивов ftp и их структура.
- 5. Распределенная гипертекстовая информационная система World Wide Web.
- 6. Программные средства просмотра электронных документов.
- Тема 7 Информационно-поисковые системы. ПРавила поиска информации. (4ч.)
- 2. Оценка эффективности информационного поиска.
- 3. Сравнительный анализ информационно-поисковых систем.
- 4. Структурно-функциональная организация типовой поисковой машины Интернет.
- 6. Простой и расширенный поиск информации в Интернет.
- Тема 8 Основы правового регулирования на информационном рынке (2ч.)
- Тема 3 Основы разработки Web-страниц (4 ч.)
- 1. Программные средства разработки web-страниц. Основные понятия языка html.
- 2. Структура документа html. Основные процедуры.
- 1. Программные средства разработки web-страниц. Основные понятия языка html.
- 2. Структура документа html. Основные процедуры.
- Метаданные