От Fateev
К apple16
Дата 01.06.2018 06:58:50
Рубрики WWII; Армия; 1941; Память;

Дело не в кол-ве карточек

День добрый.

>Те это рутинная задача для большого банка и уже давно
>Да и пенсионный примерно такие же объемы шевелит

50 лимонов записей - это копейки для современных компов и баз данных.
Проблема именно в автоматическом распознавании дублей и их слиянии.
Я по своей работе регулярно имею дело с попытками автоматического распознавания адреса из строки в структурированную базу - пока ничего хорошего - все кончается ручной работой по косвенным признакам, куда отнести этот адрес/абонента.

>Поэтому весь вопрос в деньгах на организацию процесса силами людей, которые и слов таких не слышали.
А кто будет выверять обработанные этими людьми данные ? И не приведет ли это к еще большему бардаку?

>Но можно проще поступить
>- хочешь ляпнуть на 9 мая с трибуны "Никто не забыт, ничто не забыто" будь добр покажи сертификат на 10,000 очищенных тобой или на твои деньги записей.
>Otherwise отсидка на 15 суток
Приведет к бооооольшой показухе и припискам.

С уважением, Павел Фатеев.

От apple16
К Fateev (01.06.2018 06:58:50)
Дата 01.06.2018 10:27:40

Конечно вопрос в процессе

Есть куча софта для борьбы за качество данных
Причем там не умная какая-то big data

В простейшей формулировке есть запись и ее связи с другими сущностями
(родственниками, населенными пунктами, воинскими формированиями, датами)
Важно понимать что полей как в базе данных у записи на самом деле нет - фамилий может быть много, мест рождения и прочего. Только id и связи

Для любых двух записей можно посчитать метрику близости. Одинаковая фамилия +100, год рождения +200, и то и другое +1000. Если больше порога (1200 например) то это один человек.
Специальные коэффициенты, если в одной записи нет поля а в другой есть.
(в зависимости от типа исходного документа)
Придумали коэффициенты - натравили на выборку - смотрим кого предлагает объединить.
Если все ok - накатываем. теперь у нас другое множество id с другими связями
При этом можно и назад откатить если была ошибка


Сначала очень слабые критерии - только полное совпадение по ключевым атрибутам
Потом сложнее и сложнее

Городских раскидывать не очень сложное дело - там адреса и прочее
Деревенских с милой привычкой иметь три фамилии на село в 100 дворов и без адресов очень тяжело

Население выступает в качестве бесплатного QA - сигнализирует если что не так.
Есть люди которые например копают "свою" дивизию или полк - они гораздо глубже в теме - тоже могут помочь.

Опять таки федеральная программа - хочешь идти на "Бессмертный полк" - будь добр проверь своих по ОБД чтобы все было четко.

Сходные задачи решают и банки и страховые и всякие федеральные программы.
В штатах в Medicaid или Child Welfare только в путь ловить Гонсалесов с переездами и новыми браками. В РФ должно быть то же самое.

Но это все не дешево - зарплата одного или даже двух генералов. МО такое не потянуть ))

От Fateev
К apple16 (01.06.2018 10:27:40)
Дата 01.06.2018 11:13:32

Re: Конечно вопрос...

День добрый.
>Есть куча софта для борьбы за качество данных
Скажем так, эта задача глубоко нетривиальная, и у одних наших заказчиков в 2002г процент нормального разбора адресов (при загрузке из текста) вышел всего 50-55% картотеки(около 600 т.абонентов). Они плюнули на этот софт, написали (2 местных программера) за 2 недели свою процедуру - получилось около 65%. Еще около 3 недель ручной программерской работы по отлову массовых ошибок - и потом полгода ручной работы операторов. Но какие-то дубли ловят до сих пор.

>В простейшей формулировке есть запись и ее связи с другими сущностями
>(родственниками, населенными пунктами, воинскими формированиями, датами)
>Важно понимать что полей как в базе данных у записи на самом деле нет - фамилий может быть много, мест рождения и прочего. Только id и связи
Нет разницы - реляционная база или сетевая или иерархическая - важен именно алгоритм распознавания и на каких принципах его делать.

>Для любых двух записей можно посчитать метрику близости. Одинаковая фамилия +100, год рождения +200, и то и другое +1000. Если больше порога (1200 например) то это один человек.
>Специальные коэффициенты, если в одной записи нет поля а в другой есть.
>(в зависимости от типа исходного документа)
>Придумали коэффициенты - натравили на выборку - смотрим кого предлагает объединить.
Согласен, обычно по каким то определенным критериям дубли и сливают.

>Если все ok - накатываем. теперь у нас другое множество id с другими связями
>При этом можно и назад откатить если была ошибка

Разумеется ! это вообще первое, о чем должны думать и делать при любой массовой конвертации.

>Сначала очень слабые критерии - только полное совпадение по ключевым атрибутам
>Потом сложнее и сложнее

>Городских раскидывать не очень сложное дело - там адреса и прочее
>Деревенских с милой привычкой иметь три фамилии на село в 100 дворов и без адресов очень тяжело
В городах другое - одинаковые улицы и ошибки при вводе - примеры я уже показывал.

>Население выступает в качестве бесплатного QA - сигнализирует если что не так.
>Есть люди которые например копают "свою" дивизию или полк - они гораздо глубже в теме - тоже могут помочь.

>Опять таки федеральная программа - хочешь идти на "Бессмертный полк" - будь добр проверь своих по ОБД чтобы все было четко.
>Сходные задачи решают и банки и страховые и всякие федеральные программы.
>В штатах в Medicaid или Child Welfare только в путь ловить Гонсалесов с переездами и новыми браками. В РФ должно быть то же самое.
С современными гражданами все таки проще - можно оттолкнуться от ID документов- паспорта, страховые, ИНН итп. С гражданами 1930-40х такое не проходит ( .

>Но это все не дешево - зарплата одного или даже двух генералов. МО такое не потянуть ))

Обычно (по моей практике) заказчиков на вразумление и трудовые подвиги очень хорошо стимулирует сильный пинок директората.

С уважением, Павел Фатеев.

От Samsv
К Fateev (01.06.2018 06:58:50)
Дата 01.06.2018 10:12:42

Можно начать хотя бы с наведения порядка в адм. террит. делении.

>День добрый.

>>Те это рутинная задача для большого банка и уже давно
>>Да и пенсионный примерно такие же объемы шевелит
>
>50 лимонов записей - это копейки для современных компов и баз данных.
>Проблема именно в автоматическом распознавании дублей и их слиянии.
>Я по своей работе регулярно имею дело с попытками автоматического распознавания адреса из строки в структурированную базу - пока ничего хорошего - все кончается ручной работой по косвенным признакам, куда отнести этот адрес/абонента.

>>Поэтому весь вопрос в деньгах на организацию процесса силами людей, которые и слов таких не слышали.
>А кто будет выверять обработанные этими людьми данные ? И не приведет ли это к еще большему бардаку?


Приветствую!

А то каких только районов и нас. пунктов не встретишь.
Районы по кр. мере легко исправить, да и большинство названий нас. пунктов можно скорреткировать.
Тогда и связывать похожие записи дегче будет.
С уважением, Samsv,
http://samsv.narod.ru

От Fateev
К Samsv (01.06.2018 10:12:42)
Дата 01.06.2018 10:35:48

Re: Можно начать...

День добрый.
>А то каких только районов и нас. пунктов не встретишь.
>Районы по кр. мере легко исправить, да и большинство названий нас. пунктов можно скорреткировать.

Основных проблем две-
1. Одинаковые наименования улиц и нас. пунктов (Ленина, Маркса, Ивановки и Алексеевки всех видов).
2. Разные варианты написания и ошибки при заполнении. Скажем улица может называться - ул. Ленина; прс Ленина; пр.Ленина; пЛенина; и это все одна и таже улица.
Кладр, ФИАС итп помогают, но с ними надо сопоставлять приходящие данные - и в этом проблема.

P.S. Завязываю, ибо оффтопик.
С уважением, Павел Фатеев.

От john1973
К Fateev (01.06.2018 10:35:48)
Дата 03.06.2018 04:20:52

Re: Можно начать...

>1. Одинаковые наименования улиц и нас. пунктов (Ленина, Маркса, Ивановки и Алексеевки всех видов).
>2. Разные варианты написания и ошибки при заполнении. Скажем улица может называться - ул. Ленина; прс Ленина; пр.Ленина; пЛенина; и это все одна и таже улица
Сокольнический р-н Москвы? Существующий и поныне в тех же границах? НЯЗ и улицы те же?

От Fateev
К john1973 (03.06.2018 04:20:52)
Дата 03.06.2018 08:00:41

Не надо москвацентризма )

День добрый.
>>1. Одинаковые наименования улиц и нас. пунктов (Ленина, Маркса, Ивановки и Алексеевки всех видов).
>>2. Разные варианты написания и ошибки при заполнении. Скажем улица может называться - ул. Ленина; прс Ленина; пр.Ленина; пЛенина; и это все одна и таже улица
>Сокольнический р-н Москвы? Существующий и поныне в тех же границах? НЯЗ и улицы те же?

Конкретно этот случай был в Сибири.

С уважением, Павел Фатеев.