От СанитарЖеня Ответить на сообщение
К iggalp Ответить по почте
Дата 10.12.2001 14:11:21 Найти в дереве
Рубрики Администрации; Версия для печати

Re: Специалистов по...




>>
>>Это получится "приближенное" решение :-))
>

Это получится точное решение - если мы получим точные значения входящих параметров. К сожалению, реально оцениваются сколько-нибудь достоверно только вероятности вхождения отдельных слов, и вычисляя вероятность вхождения групп слов перемножением отдельных вероятностей (т.е. полагая их независимость) - резко искажаем апостериорные вероятности.
И вообще, неча хулить Теорему преподобного Байеса! На ней вся пристрелка основана! :)

>>Как мне кажется, тот путь, который видится Новику - нахождение фактор-множества по существующему разбиению и далнейшая классификация новых элементов, как раз лежит в области методов факторного анализа
>
>Задача Новика это и есть факторный анализ. Способы нахождения кластеров могут быть различны. В любом случае используются пороговые критерии, которые также могут быть разнообразны (предложенный способ с условными вероятностями один из них). Для выделения основных факторов наиболее часто используется метод главных компонент. Достаточно простенький, но вполне мощный. В конкретном случае его скорее всего применять не следует. Словесно здесь он применяется в таком виде - найти слова типичные для одной группы и нетипичные для остальных, на остальные забить сразу. Скорость расчетов многократно вырастает. Посему лучше начать с изучения частотных характеристик слов в рубриках. Но здесь необъходимо учитывать (вернее не учитывать) падежи склонения и пр.

Вообще-то в определеннои смысле факторный (хотя бы и в форме ГК) анализ и классификация (и кластерный, и дискриминантный - шире говоря, распознавание без учителя и с учителем) противоположны. Грубо говоря, для факторного существенны максимальные собственные значения (точнее, их С.В.), а для классификации - минимальные. Лично я бы начал с дискриминантного, причем простейшего, как его сэр Рональд родил...
Но как выразить сигнатуры?