ВИФ2 NE : Ветка : Re: Допустим, Ваши...

От	tarasv
К	sas
Дата	23.08.2023 01:52:47
Рубрики	Современность;

Re: Допустим, Ваши...

>Тогда есть следующий вопрос: какой процент составляет последняя из букв, присутствующих в первой сотне фамилий, раз уж А там нет?

В первую сотню попала 21 буква, нет А Е У Ц Ч

К 21.8%
М 11.6%
П 11.3%
Б 7.8%
Т 7.3%
Ш 6.3%
С 5.3%
Г 4.2%
Р 3.6%
В 3.5%
І 3.2%
Л 3.2%
Д 2%
Х 1.9%
О 1.8%
Н 1.5%
Я 1.4%
Ю 0.9%
Ф 0.8%
З 0.8%
Ж 0.7%

Орфографический словарь читал - не помогает :)

От	sas
К	tarasv (23.08.2023 01:52:47)
Дата	23.08.2023 10:34:10

Спасибо большое.

>>Тогда есть следующий вопрос: какой процент составляет последняя из букв, присутствующих в первой сотне фамилий, раз уж А там нет?
>
>В первую сотню попала 21 буква, нет А Е У Ц Ч

>К 21.8%
>М 11.6%
>П 11.3%
>Б 7.8%
>Т 7.3%
>Ш 6.3%
>С 5.3%
>Г 4.2%
>Р 3.6%
>В 3.5%
>І 3.2%
>Л 3.2%
>Д 2%
>Х 1.9%
>О 1.8%
>Н 1.5%
>Я 1.4%
>Ю 0.9%
>Ф 0.8%
>З 0.8%
>Ж 0.7%

В этом случае получается, что данное распределение вряд ли можно использовать для экстраполяции общего объема базы Лостармор. Дело в том, что в ней количество записей на Б и на А соотносятся между собой примерно как 3,6 : 1. Т.е. для приведенного Вами распределения, если я не ошибся, это соответствовало бы примерно 2,13 %. т.е. месту между Л и Д.

От	tarasv
К	sas (23.08.2023 10:34:10)
Дата	23.08.2023 19:18:01

Re: Спасибо большое.

>В этом случае получается, что данное распределение вряд ли можно использовать для экстраполяции общего объема базы Лостармор.

Да, оно явно перекошенное.

>Дело в том, что в ней количество записей на Б и на А соотносятся между собой примерно как 3,6 : 1. Т.е. для приведенного Вами распределения, если я не ошибся, это соответствовало бы примерно 2,13 %. т.е. месту между Л и Д.

Скорее всего там и будет. К сожалению делать произвольные запросы к базе сайта нельзя. Я нашел способ получить 10 фамилий на произвольную букву. Какая сортировка не очень понятно. Для А у меня получилось 8 фамилий число носителей которых выглядит как из второй сотни самых распространенных. С ними получается

К 21.3%
М 11.4%
П 11%
Б 7.6%
Т 7.1%
Ш 6.2%
С 5.2%
Г 4.1%
Р 3.5%
В 3.5%
І 3.2%
Л 3.1%
А 2.4%
Д 2%
Х 1.9%
О 1.8%
Н 1.5%
Я 1.4%
Ю 0.9%
Ф 0.8%
З 0.7%
Ж 0.7%

Орфографический словарь читал - не помогает :)

От	sas
К	tarasv (23.08.2023 19:18:01)
Дата	23.08.2023 19:51:05

Re: Спасибо большое.

>>В этом случае получается, что данное распределение вряд ли можно использовать для экстраполяции общего объема базы Лостармор.
>
> Да, оно явно перекошенное.

>>Дело в том, что в ней количество записей на Б и на А соотносятся между собой примерно как 3,6 : 1. Т.е. для приведенного Вами распределения, если я не ошибся, это соответствовало бы примерно 2,13 %. т.е. месту между Л и Д.
>
> Скорее всего там и будет. К сожалению делать произвольные запросы к базе сайта нельзя. Я нашел способ получить 10 фамилий на произвольную букву. Какая сортировка не очень понятно. Для А у меня получилось 8 фамилий число носителей которых выглядит как из второй сотни самых распространенных. С ними получается

>К 21.3%
>М 11.4%
>П 11%
>Б 7.6%
>Т 7.1%
>Ш 6.2%
>С 5.2%
>Г 4.1%
>Р 3.5%
>В 3.5%
>І 3.2%
>Л 3.1%
>А 2.4%
>Д 2%
>Х 1.9%
>О 1.8%
>Н 1.5%
>Я 1.4%
>Ю 0.9%
>Ф 0.8%
>З 0.7%
>Ж 0.7%

Я вот сейчас немного не понял, как получена последняя выборка и проценты по ней. Два вопроса: 1. Как теперь осуществлялся выбор фамилий?
2. От какой численности считались проценты?

От	tarasv
К	sas (23.08.2023 19:51:05)
Дата	23.08.2023 22:10:44

Re: Спасибо большое.

>Я вот сейчас немного не понял, как получена последняя выборка и проценты по ней. Два вопроса: 1. Как теперь осуществлялся выбор фамилий?

исходная первая сотня плюс 8 новых на А. Они очень плотно идут за первой сотней по числу носителей. Первая сотня заканчивается на 19,5 тыс носителей, а первая на А 17.3 тыс. Среднее по А 11.5 тыс.

>2. От какой численности считались проценты?

от суммы носителей по всем 108 записям.

Орфографический словарь читал - не помогает :)

От	sas
К	tarasv (23.08.2023 22:10:44)
Дата	23.08.2023 23:09:39

Re: Спасибо большое.

>>Я вот сейчас немного не понял, как получена последняя выборка и проценты по ней. Два вопроса: 1. Как теперь осуществлялся выбор фамилий?
>
> исходная первая сотня плюс 8 новых на А.
А там в исходной сотне для каждой буквы больше 8 фамилий? Если нет, то выборка КМК получается некорректно собранной...

>>2. От какой численности считались проценты?
>
> от суммы носителей по всем 108 записям.
А, понятно. Просто у вас после округлений где-то по 2,2 - 2,3% потерялись.