>Если не вдаваться в технические и математические подробности, то сходство определяется по совпадениям или не совпадениям отдельных фрагментов. Все равно, что сравнивать две строки на эквивалентность, сравнивая места и частоту вхождения буквы "Н"
>Строки
>1:сосНа
>2:весНа,
>Будут идентичны (с точки зрения "ДНК анализа").
>Вот такая там точность...
А если вдаться то строки можно прочитать полностью. Например по Сенгеру. Проводят 4 реакции синтеза ДНК, начинающиеся с одного и того же места. Место задается праймером - одноцепочечной ДНК, длиной около 20 нуклеотидов. (Вероятность того что праймер будет эффективно прилипать не туда 4^-20 Кроме того, это сразу видно по грязной реакции и используют другой праймер.) В каждую из реакций помимо обычных нуклеотидов добавлены дидезокси нуклеотиды, которые останавливают рост новой молекулы ДНК. В одной реакции рост останавливается на буквах "А", в другой на буквах "G", в третьей на буквах "С", в четвертой на буквах "T". Продукт из каждой реакции метится флюоресчентным красителем своего цвета, Например "А"-зелененьким, "С" красненьким и т.д. Потом все 4 реакщии гонят по акриламидному гелю, который разделяет их по размеру и считывают какой цвет проходит через финишную прямую. Если первая буква в ДНК была "А" то самым первым к финишу придет продукт из той реакции где цепи обрывались по букве "А", и который покрашен зеленым. Ведь он самый короткий, идет быстрее всех. Видят на финише зеленый - пишут "А". Если следующая буква "С" то вторым к финишу придет продукт той реакции, которую останавливали по букве "С". Там буква "А" считалась без проблем, а цепь оборвалась на букве "С". Тоесть она на одну букву длиннее и к финишу приходит второй. Видят желтый - пигут "С". И т.д. Хорошие аппараты могут больше тысячи букв за раз прочитать. Для большей надежности читают ту же ДНК и в противоположном направлении, но это уже для большинства применений оверкил.
Есть, разумеется, методы для менее точного анализа - маппирования. Например, берут участок ДНК, который у разных людей часто различается. Нарабатывают его побольше и смотрят какого он размера. Скажем, если у трети человечества он 1000 пар, у четверти 1200, и у остатних 5/12 600 пар, да таких варьирующих кусков смотрят сотню-другую то определить твоя это ДНК или нет можно со сколь угодно высокой надежностью. (Зависит от числа просмотренных кусков и их вариабильности в популяции). Искать различия по буквам в таких случаях совсем не обязательно.
Каждый кусок нарабатываются с помощью пары праймеров, длиной около 30 нуклеотидов. Вероятнось неправильного прилипания 4^-30. Для двух праймеров, да на том же расстоянии друг от друга 4^-60