>CSV в 1251 с русским разделителем
>31 миллион записей
>дублей порядочно
Посмотрел по не слишком частой российской фамилии Юданов - всего 490 записей. После объединения записей, достаточно очевидно относящихся к одному и тому же человеку (в некоторых случаях даже несмотря на различия в написании имени, отчества, даты рождения), осталось 270 записей, их которых 23 записи после дальнейшей обработки скорее всего удастся объединить с другими. В итоге имеем не менее 247 человек, 50.4% от числа записей. Если распространить результат, полученный по этой выборке, на весь список, то в базе содержится информация о ~15.5 млн человек, из которых конечно не все погибли, т.к. нередко попадаются освобождённые из плена.
>>CSV в 1251 с русским разделителем
>>31 миллион записей
>>дублей порядочно
>
>Посмотрел по не слишком частой российской фамилии Юданов - всего 490 записей. После объединения записей, достаточно очевидно относящихся к одному и тому же человеку (в некоторых случаях даже несмотря на различия в написании имени, отчества, даты рождения), осталось 270 записей, их которых 23 записи после дальнейшей обработки скорее всего удастся объединить с другими.
После внимательного рассмотрения список сократился до 248 записей, из которых 14 с высокой вероятностью могут быть объединены с другими, но для однозначного решения по этим случаям информации недостаточно. Итого получается не менее 234 человек, из которых 14 - живые на момент составления донесения: двое уволенных по ранению, двое эвакуированных раненых, один дезертир из запасного полка в Закавказье, двое осужденных и 7 освобождённых из плена. Остальные 220 человек - убитые, умершие от ран, погибшие в плену и пропавшие без вести - 45% от изначального числа записей в выборке (490).