От neuro
К apple16
Дата 14.11.2015 21:22:49
Рубрики WWII;

Re: Но это...

>1. Поднять процесс улучшения качества и связывать дубликаты
И как Вы их свяжите? Мой дед указан 4 раза. С разным отчеством, датой и местом рождения. Конкретно все 4 можно связать только зная гегрфию (места призыва - соседние районы). И связать их можно в том числе прочитав рукописный текст.
ЗЫ. Я работаю в програмиской конторе в коей клиентов много и 3 года занимался разбором данных из унаследованных систем.

От apple16
К neuro (14.11.2015 21:22:49)
Дата 15.11.2015 01:37:50

Это как раз стандартная задача

Линкуют записи согласно правилам из нескольких независимых источников.
Правил вагон - вплоть до отдельного алгоритма как вязать фамилии и повышенного доверия отдельным полям из отдельных источников.
Естественно, что часть работы ручная.

Есть рынок целый - Master Data Management of Customer Data Solutions
Что-то там найти, купить, прикрутить и начать.
Ну или силами кулибиных слизать основные подходы тоже можно.
(хотя я не знаю смогут ли студенты что-то путное сделать, а не студетнов в госсекторе как бы и быть не должно)

Насчет сильно тяжелых случаев - работает вторая часть - отзывы родственников
со сканами документов.
Под 9 мая раскрутить новость - если хочешь выйти с фотографией в рамочке надо еще и на сайт пройти и проверить что там и как и если не так подробно описать и документы предоставить.

Весь вопрос нужно ли это кому - есть ли такая цель вообще. Кто-то под нее финансы выделяет или одноразовая была акция по сканированию донесений.

От neuro
К apple16 (15.11.2015 01:37:50)
Дата 25.11.2015 15:15:49

Re: Это как...

>Линкуют записи согласно правилам из нескольких независимых источников.
>Правил вагон - вплоть до отдельного алгоритма как вязать фамилии и повышенного доверия отдельным полям из отдельных источников.
>Естественно, что часть работы ручная.

>Есть рынок целый - Master Data Management of Customer Data Solutions
>Что-то там найти, купить, прикрутить и начать.
И что там покупать? Оцифрованные данные противоречивы, уточнить их можно используя сосканированные изображения, знания по довоенной географии, предложенные документы от родственников. И смотреть и сравнивать надо глазами. А это миллионы человек, соответственно многие человеко-годы и многие десятки миллионов затрат. Нереально.
С уважением, Рига Ю. В.