От Чобиток Василий Ответить на сообщение
К Novik Ответить по почте
Дата 10.12.2001 21:17:32 Найти в дереве
Рубрики Администрации; Версия для печати

Подойдет?

Привет!

ДАНО:
Текст, содержащий ключевые слова, для которого уже известно:
- М - число слов в тексте (всего);
- N - число уникальных (различных) слов в тексте;
- j-е слово встречается в тексте m(j) раз;
- j-е слово встречается в i-й рубрике k(ij) раз;
- j-е слово встречается во всех рубриках K(j) раз.

При этом допускаем, что предлоги, союзы и другие неключевые слова уже отброшены и в M, N не учитываются.

По формуле (1) определяем частоту встречи j-го слова в i-й рубрике.
По формуле (2) определяем частоту встречи j-го слова в данном тексте.
По формуле (3) определяем влияние j-го слова на принадлежность данного текста к i-й рубрике.
По формуле (4) определяем условный коэффициент привязки данного текста к i-й рубрике.

Получив коэффициенты привязки текста к различным рубрикам можно принять решение о принадлежности текста рубрикам.

Если есть необходимость сравнивать разные тексты, какой из них больше подходит i-й рубрике, то необходимо использовать удельный коэффициент - правую часть выражения (4) делить на значение N.



Копирайт мой, кто будет бросаться табуретками - сам дурак :)))

С уважением, В.Чобиток http://armor.kiev.ua/