От iggalp
К Александр Киян
Дата 10.12.2001 12:32:32
Рубрики Администрации;

Re: Специалистов по...

>>Факторный анализ здесь точно ни при чем, как и статмоделирование. Простейшее решение - на основании теоремы Байеса. Надо:

Статмоделирование конечно нет, а вот факторный анализ при всем - это его задача.

>
>Это получится "приближенное" решение :-))

>Как мне кажется, тот путь, который видится Новику - нахождение фактор-множества по существующему разбиению и далнейшая классификация новых элементов, как раз лежит в области методов факторного анализа

Задача Новика это и есть факторный анализ. Способы нахождения кластеров могут быть различны. В любом случае используются пороговые критерии, которые также могут быть разнообразны (предложенный способ с условными вероятностями один из них). Для выделения основных факторов наиболее часто используется метод главных компонент. Достаточно простенький, но вполне мощный. В конкретном случае его скорее всего применять не следует. Словесно здесь он применяется в таком виде - найти слова типичные для одной группы и нетипичные для остальных, на остальные забить сразу. Скорость расчетов многократно вырастает. Посему лучше начать с изучения частотных характеристик слов в рубриках. Но здесь необъходимо учитывать (вернее не учитывать) падежи склонения и пр.

От СанитарЖеня
К iggalp (10.12.2001 12:32:32)
Дата 10.12.2001 14:11:21

Re: Специалистов по...




>>
>>Это получится "приближенное" решение :-))
>

Это получится точное решение - если мы получим точные значения входящих параметров. К сожалению, реально оцениваются сколько-нибудь достоверно только вероятности вхождения отдельных слов, и вычисляя вероятность вхождения групп слов перемножением отдельных вероятностей (т.е. полагая их независимость) - резко искажаем апостериорные вероятности.
И вообще, неча хулить Теорему преподобного Байеса! На ней вся пристрелка основана! :)

>>Как мне кажется, тот путь, который видится Новику - нахождение фактор-множества по существующему разбиению и далнейшая классификация новых элементов, как раз лежит в области методов факторного анализа
>
>Задача Новика это и есть факторный анализ. Способы нахождения кластеров могут быть различны. В любом случае используются пороговые критерии, которые также могут быть разнообразны (предложенный способ с условными вероятностями один из них). Для выделения основных факторов наиболее часто используется метод главных компонент. Достаточно простенький, но вполне мощный. В конкретном случае его скорее всего применять не следует. Словесно здесь он применяется в таком виде - найти слова типичные для одной группы и нетипичные для остальных, на остальные забить сразу. Скорость расчетов многократно вырастает. Посему лучше начать с изучения частотных характеристик слов в рубриках. Но здесь необъходимо учитывать (вернее не учитывать) падежи склонения и пр.

Вообще-то в определеннои смысле факторный (хотя бы и в форме ГК) анализ и классификация (и кластерный, и дискриминантный - шире говоря, распознавание без учителя и с учителем) противоположны. Грубо говоря, для факторного существенны максимальные собственные значения (точнее, их С.В.), а для классификации - минимальные. Лично я бы начал с дискриминантного, причем простейшего, как его сэр Рональд родил...
Но как выразить сигнатуры?

От iggalp
К СанитарЖеня (10.12.2001 14:11:21)
Дата 10.12.2001 16:09:18

Re: Специалистов по...

>Вообще-то в определеннои смысле факторный (хотя бы и в форме ГК) анализ и классификация (и кластерный, и дискриминантный - шире говоря, распознавание без учителя и с учителем) противоположны. Грубо говоря, для факторного существенны максимальные собственные значения (точнее, их С.В.), а для классификации - минимальные. Лично я бы начал с дискриминантного, причем простейшего, как его сэр Рональд родил...

В принцепе так оно и есть. Просто я решил ранее сильно не углубляться. все зависит от того как, кого, где и зачем учили. Конечно задача Новика это задача классификации напрямую связанная с кластерным анализом. Но часто факторный и кластерный привязывают к друг другу чуть ли не на уровне синонимов, т.к. в практических задачах они взаимосвязаны. У нас, например, вообще под эгидой матлогики в соседнем потоке по большей части дискру читали и ничего зазорного в этом не видели бо в определенном смысле они взаимозаменяемы.

От СанитарЖеня
К iggalp (10.12.2001 16:09:18)
Дата 10.12.2001 19:30:59

Re: Специалистов по...



>В принцепе так оно и есть. Просто я решил ранее сильно не углубляться. все зависит от того как, кого, где и зачем учили. Конечно задача Новика это задача классификации напрямую связанная с кластерным анализом. Но часто факторный и кластерный привязывают к друг другу чуть ли не на уровне синонимов, т.к. в практических задачах они взаимосвязаны. У нас, например, вообще под эгидой матлогики в соседнем потоке по большей части дискру читали и ничего зазорного в этом не видели бо в определенном смысле они взаимозаменяемы.

Я бы скорее говорил не о кластерном (классификации без учителя), а о дискриминантном (с учителем) анализе. Кластерный здесь может заиграть, когда формируется разбивка по группам, а для отнесения к группе он хуже ИМХО.
А что до того, что читают на курсе -
- Это китайский ресторан?
- Да!
- И блюда китайские?
- Конечно!
- А почему в меню только пизза, лазанья, макарони?
- Так мы же в еврейском квартале!