logo
Самостоятельно СТ 2012

2. Оценка эффективности информационного поиска.

Эффективность информационного поиска документов, обес­печиваемая ИПС, оценивается по информационной полноте и информационному шуму. Названные показатели выражаются ко­эффициентами полноты Кn и шума Кш соответственно. Коэффи­циенты Кn и Кш принимают значения в интервале от 0 до 1. В не­которых источниках эти коэффициенты выражают в процентах.[1]

Пусть ИПС предъявлен i-й запрос. Информационно-поисковая система содержит множество документов реле­вантных этому запросу. В результате поиска получено множество. Возможны следующие варианты.

1. . Идеальный вариант: полнота максимальна (Кn = 1), а шум нулевой (Кш = 0).

2. . Имеет место неполнота (0Кn < 1), а шум отсут­ствует (Кш = 0).

3. . Неполнота исключается (Кn = 1), но есть шум (0 Кш <1).

4. Ø &Ø &Ø. Худший вариант: нулевая полнота (ни один релевантный документ не найден;Кn = 0) и максимальный шум (все, что выделено, не соответствует запросу; Кш = 1).

5. Ø &&&. Имеют место и неполнота (0 Кn < 1 ), и шум (0 Кш < 1).

Определим коэффициенты полноты и шума [1]:

(3.1)

(3.2)

где m — достаточно большое число, чтобы по теореме о больших числах обеспечить требуемую достоверность результата экспе­римента по определению Кn и Кш.

Смысл коэффициентов полноты и шума на теоретико-мно­жественном уровне иллюстрирует рис.9.2.

Анализируя этот рисунок, нетрудно заметить, что успеш­ность поиска формально определяется степенью совпадения множеств и(в идеале, при,- выборка содержит все релевантные документы и ни одного не релевантного). Это дает возможность ввести оценку эффективности информационного поискана основе мощностей множеств,и:

Релевантные результаты

Рис.9.2 Графическая интерпретация коэффициентов полноты и шума

Эффективность информационного поиска выражается че­рез коэффициенты Кn и Кш, что позволяет рассматривать ее в ка­честве интегрального показателя эффективности информаци­онного поиска ИПС.

(3.3)

В литературе в функции (Кn, Кш) вместо Кш принято использовать обратный ему показатель — коэффици­ент точности Кm.

(3.4)

Таким образом, запишем данную функцию в виде:

(3.5)

В теории информационного поиска предложен обобщенный комплексный показатель эффективности (мера Ван Ризбергена), позволяющий учитывать предпочтение, отдаваемое поль­зователем ИПС точности или полноте:

(3.6)

где β — параметр, отражающий предпочтение пользователя ИПС одному из показателей эффективности, входящих в (точности, полноте).

При β = 1 точность и полнота одинаково важны. На интервале β [0; 1] приоритет имеет точность, а на интервале β]1;[ — полнота.