|
От
|
Чобиток Василий
|
|
К
|
Novik
|
|
Дата
|
10.12.2001 21:17:32
|
|
Рубрики
|
Администрации;
|
|
Подойдет?
Привет!
ДАНО:
Текст, содержащий ключевые слова, для которого уже известно:
- М - число слов в тексте (всего);
- N - число уникальных (различных) слов в тексте;
- j-е слово встречается в тексте m(j) раз;
- j-е слово встречается в i-й рубрике k(ij) раз;
- j-е слово встречается во всех рубриках K(j) раз.
При этом допускаем, что предлоги, союзы и другие неключевые слова уже отброшены и в M, N не учитываются.
По формуле (1) определяем частоту встречи j-го слова в i-й рубрике.
По формуле (2) определяем частоту встречи j-го слова в данном тексте.
По формуле (3) определяем влияние j-го слова на принадлежность данного текста к i-й рубрике.
По формуле (4) определяем условный коэффициент привязки данного текста к i-й рубрике.
Получив коэффициенты привязки текста к различным рубрикам можно принять решение о принадлежности текста рубрикам.
Если есть необходимость сравнивать разные тексты, какой из них больше подходит i-й рубрике, то необходимо использовать удельный коэффициент - правую часть выражения (4) делить на значение N.

Копирайт мой, кто будет бросаться табуретками - сам дурак :)))
С уважением, В.Чобиток http://armor.kiev.ua/