ВИФ2 NE : Ветка : Специалистов по статмоделированию прошу прокомментировать.

От	Novik
К	All
Дата	10.12.2001 10:34:06
Рубрики	Администрации;

Специалистов по статмоделированию прошу прокомментировать.

Задачка каксабельно движка форума. Здесь -
http://web.referent.ru/nvi/forum/0/co/BDDDDA02/573

От	Чобиток Василий
К	Novik (10.12.2001 10:34:06)
Дата	10.12.2001 21:17:32

Подойдет?

Привет!

ДАНО:
Текст, содержащий ключевые слова, для которого уже известно:
- М - число слов в тексте (всего);
- N - число уникальных (различных) слов в тексте;
- j-е слово встречается в тексте m(j) раз;
- j-е слово встречается в i-й рубрике k(ij) раз;
- j-е слово встречается во всех рубриках K(j) раз.

При этом допускаем, что предлоги, союзы и другие неключевые слова уже отброшены и в M, N не учитываются.

По формуле (1) определяем частоту встречи j-го слова в i-й рубрике.
По формуле (2) определяем частоту встречи j-го слова в данном тексте.
По формуле (3) определяем влияние j-го слова на принадлежность данного текста к i-й рубрике.
По формуле (4) определяем условный коэффициент привязки данного текста к i-й рубрике.

Получив коэффициенты привязки текста к различным рубрикам можно принять решение о принадлежности текста рубрикам.

Если есть необходимость сравнивать разные тексты, какой из них больше подходит i-й рубрике, то необходимо использовать удельный коэффициент - правую часть выражения (4) делить на значение N.

Копирайт мой, кто будет бросаться табуретками - сам дурак :)))

С уважением, В.Чобиток http://armor.kiev.ua/

От	Student
К	Novik (10.12.2001 10:34:06)
Дата	10.12.2001 15:21:40

Re: Специалистов по...

Блин... Есть продукт, но задаром его при нынешней ситуации не отдадут, наверное... Ж:-(

--
С уважением,
Student

От	Novik
К	Student (10.12.2001 15:21:40)
Дата	10.12.2001 15:38:04

Re: В смысле?

> Блин... Есть продукт, но задаром его при нынешней ситуации не отдадут, наверное... Ж:-(

Таки не продукт, алгоритм нужон... Продукт я и сам напишу :)))

От	Student
К	Novik (10.12.2001 15:38:04)
Дата	10.12.2001 16:00:36

Re: В смысле?

> > Блин... Есть продукт, но задаром его при нынешней ситуации не отдадут, наверное... Ж:-(
>
> Таки не продукт, алгоритм нужон... Продукт я и сам напишу :)))

Ну мало ли... Я так, на всякий случай. Ж;-) Иногда ведь готовый API проще и быстрее.

--
С уважением,
Student

От	СанитарЖеня
К	Novik (10.12.2001 10:34:06)
Дата	10.12.2001 12:07:16

Re: Специалистов по...

Факторный анализ здесь точно ни при чем, как и статмоделирование. Простейшее решение - на основании теоремы Байеса. Надо:
- встречаемость слов в текстах по рубрикам
- наличие слов-индикаторов в испытуемом тексте
- априорная вероятность отнесения текста к данной рубрике.

P(Ki|X)=P(X|Ki)*P(Ki)/(Sum(P(X|Kj)*P(Kj))
где
P(Ki|X) вероятность отнесения к i-той категории на основе наличия слов Х
P(X|Ki) вероятность наличия слов Х в i-той категории
P(Ki) встречаемость i-той категории

От	Александр Киян
К	СанитарЖеня (10.12.2001 12:07:16)
Дата	10.12.2001 12:16:39

Re: Специалистов по...

Приветствую !

>Факторный анализ здесь точно ни при чем, как и статмоделирование. Простейшее решение - на основании теоремы Байеса. Надо:

Это получится "приближенное" решение :-))

Как мне кажется, тот путь, который видится Новику - нахождение фактор-множества по существующему разбиению и далнейшая классификация новых элементов, как раз лежит в области методов факторного анализа

C уважением
http://rkka.ru

От	iggalp
К	Александр Киян (10.12.2001 12:16:39)
Дата	10.12.2001 12:32:32

Re: Специалистов по...

>>Факторный анализ здесь точно ни при чем, как и статмоделирование. Простейшее решение - на основании теоремы Байеса. Надо:

Статмоделирование конечно нет, а вот факторный анализ при всем - это его задача.

>
>Это получится "приближенное" решение :-))

>Как мне кажется, тот путь, который видится Новику - нахождение фактор-множества по существующему разбиению и далнейшая классификация новых элементов, как раз лежит в области методов факторного анализа

Задача Новика это и есть факторный анализ. Способы нахождения кластеров могут быть различны. В любом случае используются пороговые критерии, которые также могут быть разнообразны (предложенный способ с условными вероятностями один из них). Для выделения основных факторов наиболее часто используется метод главных компонент. Достаточно простенький, но вполне мощный. В конкретном случае его скорее всего применять не следует. Словесно здесь он применяется в таком виде - найти слова типичные для одной группы и нетипичные для остальных, на остальные забить сразу. Скорость расчетов многократно вырастает. Посему лучше начать с изучения частотных характеристик слов в рубриках. Но здесь необъходимо учитывать (вернее не учитывать) падежи склонения и пр.

От	СанитарЖеня
К	iggalp (10.12.2001 12:32:32)
Дата	10.12.2001 14:11:21

Re: Специалистов по...

>>
>>Это получится "приближенное" решение :-))
>

Это получится точное решение - если мы получим точные значения входящих параметров. К сожалению, реально оцениваются сколько-нибудь достоверно только вероятности вхождения отдельных слов, и вычисляя вероятность вхождения групп слов перемножением отдельных вероятностей (т.е. полагая их независимость) - резко искажаем апостериорные вероятности.
И вообще, неча хулить Теорему преподобного Байеса! На ней вся пристрелка основана! :)

>>Как мне кажется, тот путь, который видится Новику - нахождение фактор-множества по существующему разбиению и далнейшая классификация новых элементов, как раз лежит в области методов факторного анализа
>
>Задача Новика это и есть факторный анализ. Способы нахождения кластеров могут быть различны. В любом случае используются пороговые критерии, которые также могут быть разнообразны (предложенный способ с условными вероятностями один из них). Для выделения основных факторов наиболее часто используется метод главных компонент. Достаточно простенький, но вполне мощный. В конкретном случае его скорее всего применять не следует. Словесно здесь он применяется в таком виде - найти слова типичные для одной группы и нетипичные для остальных, на остальные забить сразу. Скорость расчетов многократно вырастает. Посему лучше начать с изучения частотных характеристик слов в рубриках. Но здесь необъходимо учитывать (вернее не учитывать) падежи склонения и пр.

Вообще-то в определеннои смысле факторный (хотя бы и в форме ГК) анализ и классификация (и кластерный, и дискриминантный - шире говоря, распознавание без учителя и с учителем) противоположны. Грубо говоря, для факторного существенны максимальные собственные значения (точнее, их С.В.), а для классификации - минимальные. Лично я бы начал с дискриминантного, причем простейшего, как его сэр Рональд родил...
Но как выразить сигнатуры?

От	iggalp
К	СанитарЖеня (10.12.2001 14:11:21)
Дата	10.12.2001 16:09:18

Re: Специалистов по...

>Вообще-то в определеннои смысле факторный (хотя бы и в форме ГК) анализ и классификация (и кластерный, и дискриминантный - шире говоря, распознавание без учителя и с учителем) противоположны. Грубо говоря, для факторного существенны максимальные собственные значения (точнее, их С.В.), а для классификации - минимальные. Лично я бы начал с дискриминантного, причем простейшего, как его сэр Рональд родил...

В принцепе так оно и есть. Просто я решил ранее сильно не углубляться. все зависит от того как, кого, где и зачем учили. Конечно задача Новика это задача классификации напрямую связанная с кластерным анализом. Но часто факторный и кластерный привязывают к друг другу чуть ли не на уровне синонимов, т.к. в практических задачах они взаимосвязаны. У нас, например, вообще под эгидой матлогики в соседнем потоке по большей части дискру читали и ничего зазорного в этом не видели бо в определенном смысле они взаимозаменяемы.

От	СанитарЖеня
К	iggalp (10.12.2001 16:09:18)
Дата	10.12.2001 19:30:59

Re: Специалистов по...

>В принцепе так оно и есть. Просто я решил ранее сильно не углубляться. все зависит от того как, кого, где и зачем учили. Конечно задача Новика это задача классификации напрямую связанная с кластерным анализом. Но часто факторный и кластерный привязывают к друг другу чуть ли не на уровне синонимов, т.к. в практических задачах они взаимосвязаны. У нас, например, вообще под эгидой матлогики в соседнем потоке по большей части дискру читали и ничего зазорного в этом не видели бо в определенном смысле они взаимозаменяемы.

Я бы скорее говорил не о кластерном (классификации без учителя), а о дискриминантном (с учителем) анализе. Кластерный здесь может заиграть, когда формируется разбивка по группам, а для отнесения к группе он хуже ИМХО.
А что до того, что читают на курсе -
- Это китайский ресторан?
- Да!
- И блюда китайские?
- Конечно!
- А почему в меню только пизза, лазанья, макарони?
- Так мы же в еврейском квартале!

От	СанитарЖеня
К	Александр Киян (10.12.2001 12:16:39)
Дата	10.12.2001 12:24:27

Re: Специалистов по...

>>Факторный анализ здесь точно ни при чем, как и статмоделирование. Простейшее решение - на основании теоремы Байеса. Надо:
>
>Это получится "приближенное" решение :-))

>Как мне кажется, тот путь, который видится Новику - нахождение фактор-множества по существующему разбиению и далнейшая классификация новых элементов, как раз лежит в области методов факторного анализа

Вообще-то факторный анализ столь же мало занимается фактор-множествами, как и Бэконовское общество - свининой:)
Факторный анализ - метод (приближенного!)представления многомерной величины в бызисе меньшей размерности (скажем, множества психологических тестов через "способности к определеннйо деятельности")
Иногда, впрочем, словосочетание "факторный анализ" употребляется, как синоним дисперсионного (влияние факторов), регрессионного или ковариационного анализа.
Кроме того, в прикладной экономике так именуется определение влияния отдельных переменных на результат (скажем, влияние роста числа работающих и изменения производительности труда на выработку продукции) - просто задача вычисления частных производных...

От	Александр Киян
К	СанитарЖеня (10.12.2001 12:24:27)
Дата	10.12.2001 12:53:13

Re: Специалистов по...

Приветствую !

>Вообще-то факторный анализ столь же мало занимается фактор-множествами, как и Бэконовское общество - свининой:)

Пальцы гнуть не буду, я занимался подобными вещами очень давно, но имел в виду примерно то, о чем подробно говорит Игорь Гальперин.
И я считаю (может быть и ошибочно), что это и есть один из методов факторного анализа.

C уважением
http://rkka.ru

От	Kpatep
К	Novik (10.12.2001 10:34:06)
Дата	10.12.2001 11:47:31

Re: Специалистов по...

Добрый день,

Уважаемый админ,
Вопросы текстологического анализа и вообще частотность словоупотребления относятся к науке структурной лингвистике.

Терпеть сам не могу, когда отсылают без ответа, но, видимо, Вам следует обратиться на филологический факультет ближайшего университета. Для них этот вопрос, сдается мне, обыден, равно как и его реализация :)

Статмоделирование здесь не совсем причем.

С уважением,

От	Александр Киян
К	Kpatep (10.12.2001 11:47:31)
Дата	10.12.2001 12:04:38

Re: Специалистов по...

Приветствую !

>Вопросы текстологического анализа и вообще частотность словоупотребления относятся к науке структурной лингвистике.

Да, но методы решения данной задачи, именно относятся к прикладной математике.
Здесь Саша прав, факторный анализ будет весьма полезен.

C уважением
http://rkka.ru

От	Kpatep
К	Александр Киян (10.12.2001 12:04:38)
Дата	10.12.2001 12:17:58

Re: Специалистов по...

Добрый день,

>Да, но методы решения данной задачи, именно относятся к прикладной математике.
>Здесь Саша прав, факторный анализ будет весьма полезен.

Структурные лингвисты - они доки в матметодах и в численном моделировании. Одного лично знаю, хотя он сейчас и не рядом со мной... Программист!