2. Оценка эффективности информационного поиска.
Эффективность информационного поиска документов, обеспечиваемая ИПС, оценивается по информационной полноте и информационному шуму. Названные показатели выражаются коэффициентами полноты Кn и шума Кш соответственно. Коэффициенты Кn и Кш принимают значения в интервале от 0 до 1. В некоторых источниках эти коэффициенты выражают в процентах.[1]
Пусть ИПС предъявлен i-й запрос. Информационно-поисковая система содержит множество документов релевантных этому запросу. В результате поиска получено множество. Возможны следующие варианты.
1. . Идеальный вариант: полнота максимальна (Кn = 1), а шум нулевой (Кш = 0).
2. . Имеет место неполнота (0Кn < 1), а шум отсутствует (Кш = 0).
3. . Неполнота исключается (Кn = 1), но есть шум (0 Кш <1).
4. Ø &Ø &Ø. Худший вариант: нулевая полнота (ни один релевантный документ не найден;Кn = 0) и максимальный шум (все, что выделено, не соответствует запросу; Кш = 1).
5. Ø &&&. Имеют место и неполнота (0 Кn < 1 ), и шум (0 Кш < 1).
Определим коэффициенты полноты и шума [1]:
(3.1)
(3.2)
где m — достаточно большое число, чтобы по теореме о больших числах обеспечить требуемую достоверность результата эксперимента по определению Кn и Кш.
Смысл коэффициентов полноты и шума на теоретико-множественном уровне иллюстрирует рис.9.2.
Анализируя этот рисунок, нетрудно заметить, что успешность поиска формально определяется степенью совпадения множеств и(в идеале, при,- выборка содержит все релевантные документы и ни одного не релевантного). Это дает возможность ввести оценку эффективности информационного поискана основе мощностей множеств,и:
Релевантные результаты
Рис.9.2 Графическая интерпретация коэффициентов полноты и шума
Эффективность информационного поиска выражается через коэффициенты Кn и Кш, что позволяет рассматривать ее в качестве интегрального показателя эффективности информационного поиска ИПС.
(3.3)
В литературе в функции (Кn, Кш) вместо Кш принято использовать обратный ему показатель — коэффициент точности Кm.
(3.4)
Таким образом, запишем данную функцию в виде:
(3.5)
В теории информационного поиска предложен обобщенный комплексный показатель эффективности (мера Ван Ризбергена), позволяющий учитывать предпочтение, отдаваемое пользователем ИПС точности или полноте:
(3.6)
где β — параметр, отражающий предпочтение пользователя ИПС одному из показателей эффективности, входящих в (точности, полноте).
При β = 1 точность и полнота одинаково важны. На интервале β [0; 1] приоритет имеет точность, а на интервале β]1;[ — полнота.
- 4. Коммерческая информация.
- 5. Классификация информационных ресурсов Интернет.
- 2. Библиотечный фонд.
- 3. Архивный фонд.
- 4. Источники и поставщики информационных ресурсов для специалистов.
- Тема 5 мировые информационные сети: структура информации. (4ч.)
- 2. Принцип построения групп Usenet.
- 3. Информационная система Gopher.
- 4. Система архивов ftp и их структура.
- 5. Распределенная гипертекстовая информационная система World Wide Web.
- 6. Программные средства просмотра электронных документов.
- Тема 7 Информационно-поисковые системы. ПРавила поиска информации. (4ч.)
- 2. Оценка эффективности информационного поиска.
- 3. Сравнительный анализ информационно-поисковых систем.
- 4. Структурно-функциональная организация типовой поисковой машины Интернет.
- 6. Простой и расширенный поиск информации в Интернет.
- Тема 8 Основы правового регулирования на информационном рынке (2ч.)
- Тема 3 Основы разработки Web-страниц (4 ч.)
- 1. Программные средства разработки web-страниц. Основные понятия языка html.
- 2. Структура документа html. Основные процедуры.
- 1. Программные средства разработки web-страниц. Основные понятия языка html.
- 2. Структура документа html. Основные процедуры.
- Метаданные