От apple16
К neuro
Дата 15.11.2015 01:37:50
Рубрики WWII;

Это как раз стандартная задача

Линкуют записи согласно правилам из нескольких независимых источников.
Правил вагон - вплоть до отдельного алгоритма как вязать фамилии и повышенного доверия отдельным полям из отдельных источников.
Естественно, что часть работы ручная.

Есть рынок целый - Master Data Management of Customer Data Solutions
Что-то там найти, купить, прикрутить и начать.
Ну или силами кулибиных слизать основные подходы тоже можно.
(хотя я не знаю смогут ли студенты что-то путное сделать, а не студетнов в госсекторе как бы и быть не должно)

Насчет сильно тяжелых случаев - работает вторая часть - отзывы родственников
со сканами документов.
Под 9 мая раскрутить новость - если хочешь выйти с фотографией в рамочке надо еще и на сайт пройти и проверить что там и как и если не так подробно описать и документы предоставить.

Весь вопрос нужно ли это кому - есть ли такая цель вообще. Кто-то под нее финансы выделяет или одноразовая была акция по сканированию донесений.

От neuro
К apple16 (15.11.2015 01:37:50)
Дата 25.11.2015 15:15:49

Re: Это как...

>Линкуют записи согласно правилам из нескольких независимых источников.
>Правил вагон - вплоть до отдельного алгоритма как вязать фамилии и повышенного доверия отдельным полям из отдельных источников.
>Естественно, что часть работы ручная.

>Есть рынок целый - Master Data Management of Customer Data Solutions
>Что-то там найти, купить, прикрутить и начать.
И что там покупать? Оцифрованные данные противоречивы, уточнить их можно используя сосканированные изображения, знания по довоенной географии, предложенные документы от родственников. И смотреть и сравнивать надо глазами. А это миллионы человек, соответственно многие человеко-годы и многие десятки миллионов затрат. Нереально.
С уважением, Рига Ю. В.