Линкуют записи согласно правилам из нескольких независимых источников.
Правил вагон - вплоть до отдельного алгоритма как вязать фамилии и повышенного доверия отдельным полям из отдельных источников.
Естественно, что часть работы ручная.
Есть рынок целый - Master Data Management of Customer Data Solutions
Что-то там найти, купить, прикрутить и начать.
Ну или силами кулибиных слизать основные подходы тоже можно.
(хотя я не знаю смогут ли студенты что-то путное сделать, а не студетнов в госсекторе как бы и быть не должно)
Насчет сильно тяжелых случаев - работает вторая часть - отзывы родственников
со сканами документов.
Под 9 мая раскрутить новость - если хочешь выйти с фотографией в рамочке надо еще и на сайт пройти и проверить что там и как и если не так подробно описать и документы предоставить.
Весь вопрос нужно ли это кому - есть ли такая цель вообще. Кто-то под нее финансы выделяет или одноразовая была акция по сканированию донесений.
>Линкуют записи согласно правилам из нескольких независимых источников.
>Правил вагон - вплоть до отдельного алгоритма как вязать фамилии и повышенного доверия отдельным полям из отдельных источников.
>Естественно, что часть работы ручная.
>Есть рынок целый - Master Data Management of Customer Data Solutions
>Что-то там найти, купить, прикрутить и начать.
И что там покупать? Оцифрованные данные противоречивы, уточнить их можно используя сосканированные изображения, знания по довоенной географии, предложенные документы от родственников. И смотреть и сравнивать надо глазами. А это миллионы человек, соответственно многие человеко-годы и многие десятки миллионов затрат. Нереально.
С уважением, Рига Ю. В.