От СанитарЖеня
К Novik
Дата 10.12.2001 12:07:16
Рубрики Администрации;

Re: Специалистов по...

Факторный анализ здесь точно ни при чем, как и статмоделирование. Простейшее решение - на основании теоремы Байеса. Надо:
- встречаемость слов в текстах по рубрикам
- наличие слов-индикаторов в испытуемом тексте
- априорная вероятность отнесения текста к данной рубрике.

P(Ki|X)=P(X|Ki)*P(Ki)/(Sum(P(X|Kj)*P(Kj))
где
P(Ki|X) вероятность отнесения к i-той категории на основе наличия слов Х
P(X|Ki) вероятность наличия слов Х в i-той категории
P(Ki) встречаемость i-той категории

От Александр Киян
К СанитарЖеня (10.12.2001 12:07:16)
Дата 10.12.2001 12:16:39

Re: Специалистов по...

Приветствую !

>Факторный анализ здесь точно ни при чем, как и статмоделирование. Простейшее решение - на основании теоремы Байеса. Надо:

Это получится "приближенное" решение :-))

Как мне кажется, тот путь, который видится Новику - нахождение фактор-множества по существующему разбиению и далнейшая классификация новых элементов, как раз лежит в области методов факторного анализа

C уважением
http://rkka.ru

От iggalp
К Александр Киян (10.12.2001 12:16:39)
Дата 10.12.2001 12:32:32

Re: Специалистов по...

>>Факторный анализ здесь точно ни при чем, как и статмоделирование. Простейшее решение - на основании теоремы Байеса. Надо:

Статмоделирование конечно нет, а вот факторный анализ при всем - это его задача.

>
>Это получится "приближенное" решение :-))

>Как мне кажется, тот путь, который видится Новику - нахождение фактор-множества по существующему разбиению и далнейшая классификация новых элементов, как раз лежит в области методов факторного анализа

Задача Новика это и есть факторный анализ. Способы нахождения кластеров могут быть различны. В любом случае используются пороговые критерии, которые также могут быть разнообразны (предложенный способ с условными вероятностями один из них). Для выделения основных факторов наиболее часто используется метод главных компонент. Достаточно простенький, но вполне мощный. В конкретном случае его скорее всего применять не следует. Словесно здесь он применяется в таком виде - найти слова типичные для одной группы и нетипичные для остальных, на остальные забить сразу. Скорость расчетов многократно вырастает. Посему лучше начать с изучения частотных характеристик слов в рубриках. Но здесь необъходимо учитывать (вернее не учитывать) падежи склонения и пр.

От СанитарЖеня
К iggalp (10.12.2001 12:32:32)
Дата 10.12.2001 14:11:21

Re: Специалистов по...




>>
>>Это получится "приближенное" решение :-))
>

Это получится точное решение - если мы получим точные значения входящих параметров. К сожалению, реально оцениваются сколько-нибудь достоверно только вероятности вхождения отдельных слов, и вычисляя вероятность вхождения групп слов перемножением отдельных вероятностей (т.е. полагая их независимость) - резко искажаем апостериорные вероятности.
И вообще, неча хулить Теорему преподобного Байеса! На ней вся пристрелка основана! :)

>>Как мне кажется, тот путь, который видится Новику - нахождение фактор-множества по существующему разбиению и далнейшая классификация новых элементов, как раз лежит в области методов факторного анализа
>
>Задача Новика это и есть факторный анализ. Способы нахождения кластеров могут быть различны. В любом случае используются пороговые критерии, которые также могут быть разнообразны (предложенный способ с условными вероятностями один из них). Для выделения основных факторов наиболее часто используется метод главных компонент. Достаточно простенький, но вполне мощный. В конкретном случае его скорее всего применять не следует. Словесно здесь он применяется в таком виде - найти слова типичные для одной группы и нетипичные для остальных, на остальные забить сразу. Скорость расчетов многократно вырастает. Посему лучше начать с изучения частотных характеристик слов в рубриках. Но здесь необъходимо учитывать (вернее не учитывать) падежи склонения и пр.

Вообще-то в определеннои смысле факторный (хотя бы и в форме ГК) анализ и классификация (и кластерный, и дискриминантный - шире говоря, распознавание без учителя и с учителем) противоположны. Грубо говоря, для факторного существенны максимальные собственные значения (точнее, их С.В.), а для классификации - минимальные. Лично я бы начал с дискриминантного, причем простейшего, как его сэр Рональд родил...
Но как выразить сигнатуры?

От iggalp
К СанитарЖеня (10.12.2001 14:11:21)
Дата 10.12.2001 16:09:18

Re: Специалистов по...

>Вообще-то в определеннои смысле факторный (хотя бы и в форме ГК) анализ и классификация (и кластерный, и дискриминантный - шире говоря, распознавание без учителя и с учителем) противоположны. Грубо говоря, для факторного существенны максимальные собственные значения (точнее, их С.В.), а для классификации - минимальные. Лично я бы начал с дискриминантного, причем простейшего, как его сэр Рональд родил...

В принцепе так оно и есть. Просто я решил ранее сильно не углубляться. все зависит от того как, кого, где и зачем учили. Конечно задача Новика это задача классификации напрямую связанная с кластерным анализом. Но часто факторный и кластерный привязывают к друг другу чуть ли не на уровне синонимов, т.к. в практических задачах они взаимосвязаны. У нас, например, вообще под эгидой матлогики в соседнем потоке по большей части дискру читали и ничего зазорного в этом не видели бо в определенном смысле они взаимозаменяемы.

От СанитарЖеня
К iggalp (10.12.2001 16:09:18)
Дата 10.12.2001 19:30:59

Re: Специалистов по...



>В принцепе так оно и есть. Просто я решил ранее сильно не углубляться. все зависит от того как, кого, где и зачем учили. Конечно задача Новика это задача классификации напрямую связанная с кластерным анализом. Но часто факторный и кластерный привязывают к друг другу чуть ли не на уровне синонимов, т.к. в практических задачах они взаимосвязаны. У нас, например, вообще под эгидой матлогики в соседнем потоке по большей части дискру читали и ничего зазорного в этом не видели бо в определенном смысле они взаимозаменяемы.

Я бы скорее говорил не о кластерном (классификации без учителя), а о дискриминантном (с учителем) анализе. Кластерный здесь может заиграть, когда формируется разбивка по группам, а для отнесения к группе он хуже ИМХО.
А что до того, что читают на курсе -
- Это китайский ресторан?
- Да!
- И блюда китайские?
- Конечно!
- А почему в меню только пизза, лазанья, макарони?
- Так мы же в еврейском квартале!

От СанитарЖеня
К Александр Киян (10.12.2001 12:16:39)
Дата 10.12.2001 12:24:27

Re: Специалистов по...



>>Факторный анализ здесь точно ни при чем, как и статмоделирование. Простейшее решение - на основании теоремы Байеса. Надо:
>
>Это получится "приближенное" решение :-))

>Как мне кажется, тот путь, который видится Новику - нахождение фактор-множества по существующему разбиению и далнейшая классификация новых элементов, как раз лежит в области методов факторного анализа

Вообще-то факторный анализ столь же мало занимается фактор-множествами, как и Бэконовское общество - свининой:)
Факторный анализ - метод (приближенного!)представления многомерной величины в бызисе меньшей размерности (скажем, множества психологических тестов через "способности к определеннйо деятельности")
Иногда, впрочем, словосочетание "факторный анализ" употребляется, как синоним дисперсионного (влияние факторов), регрессионного или ковариационного анализа.
Кроме того, в прикладной экономике так именуется определение влияния отдельных переменных на результат (скажем, влияние роста числа работающих и изменения производительности труда на выработку продукции) - просто задача вычисления частных производных...

От Александр Киян
К СанитарЖеня (10.12.2001 12:24:27)
Дата 10.12.2001 12:53:13

Re: Специалистов по...

Приветствую !

>Вообще-то факторный анализ столь же мало занимается фактор-множествами, как и Бэконовское общество - свининой:)

Пальцы гнуть не буду, я занимался подобными вещами очень давно, но имел в виду примерно то, о чем подробно говорит Игорь Гальперин.
И я считаю (может быть и ошибочно), что это и есть один из методов факторного анализа.

C уважением
http://rkka.ru