Часть 3
Эта и следующая части описывают, как рассчитывать время до общего предка выборки гаплотипов и как читать и использовать для расчетов деревья гаплотипов. Во многих случаях оказывается, что предок в выборке не один, и мы покажем, как выходить, пусть и приблизительно, из этой ситуации. Поскольку эти расчеты строятся на скоростях мутаций гаплотипов и их маркеров, важно показать, как эти скорости связаны с реальными событиями, на реальной временной шкале. Иначе говоря, как калибровать скорости мутаций.
Подобные расчеты непросты и требуют определенных допущений. Мы покажем, какие это допущения, насколько они обоснованы, и как их можно учитывать.
Мы пройдемся опять по данным о происхождении евреев различных родов, но на этот раз покажем, откуда появились цифры о временах жизни предков, и как их можно проверять и уточнять.
Наконец, поскольку выборки гаплотипов, которые публикуются в научной литературе, часто бедны, немногочисленны и урезаны, они обычно относятся только к коротким, шестимаркерным гаплотипам, намного реже к 8- или 10-маркерным. Гаплотипы с 25, 37 и 67 маркерами в научной литературе не приводятся. Наверное, на это у ученых нет средств. Да и задачи в основном другие, опять же из-за отсутствия достаточных средств. Зато в коммерческих базах данных таких протяженных, полновесных гаплотипов – тысячи. Но в науке к таким базам данных – предубеждение. Этакий научный снобизм – выборки «ненаучные», кто хотел – тот и прислал свой материал на тестирование, контроля за «контингентом пользователей» - никакого. В этом расказе-расследовании этот разрыв между «наукой» и «коммерцией» закрыт. Показано, что коммерческие базы данных предоставляют значительно более полную и многочисленную информацию по гаплотипам, и – более того, выводы из тех и других, где данные можно сопоставить, принципиально совпадают, и коммерческие базы данных, сверх того, позволяют получать более полные и более надежные данные.
Покажем, как эти проблемы проявляются при рассмотрении гаплотипов евреев гаплогрупп J1 и J2. До последнего времени их практически не разделяли. В самой известной статье по гаплотипам евреев (Бехар и др., 2003) приведено почти двести гаплотипов, объединенных в одну сводную гаплогруппу J. А вот в коммерческой базе данных евреи есть и в разделе «Гаплогруппа J1», и в разделе «Гаплогруппа J2». Но можно ли использовать коммерческую базу данных, которая составлена добровольным участием, хотя и за деньги? А как же научные принципы формирования выборок?
Сравним научную выборку (Бехар и др., 2003) и коммерческую.
В научной выборке – 194 гаплотипа евреев, имеющих гаплотипы группы J. Из них 91 гаплотип, или 47%, представляют один и тот же
14-16-23-10-11-12
который по правилам ДНК-генеалогии следует назвать базовым, или предковым гаплотипом. Действительно, он один сохраняется длительное время, а все остальные представляют его мутированные варианты, расходящиеся статистически по частным случаям - с одной мутацией там или здесь, с двумя, с тремя и так далее. Вот и набегают 103 мутированных гаплотипа из 194, каждого понемногу.
А в коммерческой выборке? В ней – 90 гаплотипов евреев, все гаплогруппы J1. Это – все, кто там оказались, судя по именам и фамилиям. Всего в этой базе данных 294 гаплотипа гаплогруппы J1, так что евреи в ней занимают немалую долю, около трети. Из остальных – наверняка многие тоже евреи, но с нехарактерными (на мой взгляд) для евреев именами и фамилиями, а также арабы и другие обладатели гаплотипов группы J1. И из этих выбранных мной 90 «коммерческих» гаплотипов 41 – той же самой структуры
14-16-23-10-11-12.
Это – 46%. В «научной» выборке было 47%. То есть практически полное совпадение по доле базовых гаплотипов в выборке. Это, кстати, тот самый «модальный гаплотип коэнов». Он же «гаплотип двенадцати колен израилевых» в 6-маркерном варианте.
Хорошо, по доле базовых гаплотипов научная выборка, со всеми положенными критериями объективности, и коммерческая база дали совпадающие результаты. А по мутациям?
В научной выборке 194 гаплотипа содержат 263 мутации, или 1.36 мутации на гаплотип. В коммерческой – 90 гаплотипов содержат 123 мутации, то есть 1.37 мутации на гаплотип. Совпадение – лучше не бывает.
Другими словами, обе выборки дают практически идентичные результаты. По этим мутациям можно посчитать и время, когда жил общий предок и тех евреев, его потомков, что нашли отражение в научной базе (сводная гаплогруппа J), и тех, что в коммерческой (гаплогруппа J1). Это на самом деле физически разные потомки. 194 человека, гаплотипы которых попали в научную статью, были протестированы в конце 1990-х – начале 2000-х годов и бесплатно, в коммерческой базе данных – недавно (в основном 2005-2007 гг) и за деньги.
В простейшем случае расчеты общего предка ведутся, принимая (по умолчанию) простое симметричное дерево мутаций. То есть дерево в виде симметричной пирамиды (или шестеренки в другом формате, который мы здесь обычно используем), сходящейся вниз к гаплотипу общего предка (см. рисунки ниже). Что-то наподобие обычного генеалогического древа, но если в последнем порядок поколений уже заложен, то в дереве гаплотипов поколения беспорядочно упрятаны в ветвях. Чем больше в гаплотипе мутаций – тем дальше гаплотип отстоит от основания «шестеренки», тем от более древнего предка он происходит, если в «дереве» смешаны гаплотипы потомков разных предков. Иначе говоря, гаплотипы недавнего предка жмутся у основания, гаплотипы древнего предка уходят вдаль в виде неких протуберанцев. Это и дает основания для расчетов.
Как будет показано ниже, средняя скорость мутации шестимаркерных гаплотипов, таких, как приведены выше – 0.0096 мутации на гаплотип на поколение. И тогда приведенные выше 1.36 мутации на гаплотип дадут 142 поколения до общего предка, а 1.37 мутации на гаплотип дадут 143 поколения до общего предка. То есть примерно 3600 лет, считая 25 лет на поколение.
Казалось бы, можно объявить, что на двух разных выборках евреев, одна общей гаплогруппы J, другая – гаплогруппы J1 получено, что общий предок ближневосточных евреев жил 3600 лет назад. И с Ветхим Заветом сходится.
Но что-то мне не давала покоя эта цифра. Потому что для срока в 142-143 поколения, или 3600 лет, слишком много сохранилось базового, предкового гаплотипа. Почти половина от гаплотипов в выборке. Его должно быть меньше.
А сколько меньше? И вот здесь я придумал (а точнее, применил к гаплотипам в ДНК-генеалогии) способ расчета, связывающий долю оставшегося нетронутым базового гаплотипа и временем до общего предка, причем независимо от числа мутаций. И чтобы понять, как рассматривать гаплотипы евреев в отношении их происхождения, нам придется заняться немного математикой и картинками «деревьев гаплотипов». А иначе не получится ранее обещанных «экстраординарных доказательств».
Тренировка «на кошках» (если кто помнит фразу из старого фильма).
Если принять, что генеалогическое дерево действительно симметричное, то переход базового гаплотипа в мутированные должен проходить в соответствии с уравнением кинетики первого порядка
ln (B/A) = kt
где В – это общее количество гаплотипов в списке, А – число сохранившихся базовых гаплотипов, k – средняя скорость (частота) мутации (0.0096 на гаплотип на поколение для шестимаркерного гаплотипа), t – число поколений до общего предка, ln – натуральный логарифм. Профессиональные кинетики эту формулу знают, только ее в ДНК-генеалогии никто не применял.
А можно ли применять? – спросит придирчивый читатель. И мы, вспомнив, что экстраординарные выводы нуждаются в экстраординарных доказательствах, покажем, что можно. Для этого нужно взять гаплотипы, для которых время обшего предка известно, и проверить формулу на практике.
Семейство Мак-Доналдов
Есть такие гаплотипы, для которых время общего предка известно. Это, например, обширное семейство Мак-Доналдов, предок которых, Джон Лорд Островов (John Lord of the Isles), умер в 1386 году, и для которых на сегодняшний день известны 68 гаплотипов семейства, а именно мужчин. Принимая те же 25 лет на поколение, можно предположить, что Джон жил 26-27 поколений назад. Посмотрим, что нам дадут гаплотипы.
В списке из 68 шестимаркерных гаплотипов имеются 53 базовых
15-12-25-11-11-13
и на остальные приходится 17 одношаговых мутаций. Посмотрим, какая должна быть средняя скорость мутаций гаплотипа, чтобы эти данные показали 26-27 поколений до общего предка. Оказалась – 0.0096 мутаций на гаплотип за поколение. Действительно, ln 68/53, деленное на 0.0096, дает 26 поколений. А по мутациям? То же самое, 17/68/0/0096 = 26 поколений. Как в аптеке. То есть у МакДоналдов дерево гаплотипов в самом деле простое, симметричное, не искажено.
А насколько эта величина средней скорости согласуется с другими данными по скоростям мутаций 6-маркерных гаплотипов в ДНК-генеалогии? Данные варьируются, но обычно вокруг 0.0019±0.0003 мутаций на маркер на поколение (усреднено на маркер для 12-маркерных гаплотипов), то есть для 6-маркерного гаплотипа это будет в шесть раз больше, то есть 0.0114±0.0018. Полученная мной здесь величина попадает в обозначенный диапазон. Да хоть бы и не попала – она вычислена на основании объективных данных.
Итак, подход работает. Иначе говоря, количество мутаций в гаплотипах и доля базового гаплотипа должны быть жестко завязаны друг на друга. И это есть основной критерий того, что мы получаем достоверные даты жизни общего предка рассматриваемого семейства гаплотипов.
Но недоверчивый читатель может потребовать еще доказательств, на других примерах, из других гаплогрупп. И будет прав. То, что работает для Мак-Доналдов, не обязательно работает для всех. Может, гаплогруппа влияет на результаты счета, на распределение мутаций, на количество сохраняющегося базового гаплотипа.
Хорошо, давайте рассмотрим другие этнические группы. Трудность в том, что далеко не всегда имеются надежные данные, если вообще какие-то данные, о событиях сотни и тысячи лет назад, которые можно привязать к определенным популяциям, да еще с определенными гаплогруппами. Но что-то найти можно.
Болгарские цыгане
Еще пример – болгарские цыгане. Пришли в Болгарию - по сведениям того времени – в средние века. Гаплотипы цыган были определены у 179 человек из двенадцати таборов, все в Болгарии (Животовский и др., 2004). На удивление, у всех гаплотипы похожи, явно от общего предка. Напрашивается объяснение, что в средние века в Болгарию пришел очень ограниченный коллектив цыган, может, всего один табор. Остальные, видимо, не прошли «бутылочное горлышко» популяции, и всего один патриарх дал выжившее потомство. Или патриархами были близкие родственники. Так, например, в наиболее многочисленном таборе «Рудари» 62 человека из тестированных 67 имели следующий гаплотип:
15-12-22-10-11-12
Этот же гаплотип имели 12 из 13 человек табора «Кальдераш», 9 из 24 человек табора «Лом», все четверо тестированных из табора «Торговцы», 20 из 29 из табора «Калайджи», 12 из 19 из табора «Музыканты». В остальных гаплотипах мутаций тоже мало. Ясно, что гаплотипы молодые, и им действительно всего несколько сотен лет.
Всего на 179 гаплотипов тестированных цыган пришлось 34 мутации, что дает 0.19 мутаций на гаплотип. Зная, что средняя скорость мутаций равна 0.0096 на гаплотип на поколение (см. выше), получаем, что общий предок всех цыган из 12 болгарских таборов жил всего 20 поколений назад, то есть 500 лет. Действительно, средние века.
Сравним с расчетом по остаточным базовым гаплотипам. Их – 146 из всех 179. Это соответствует 21 поколению до общего предка (ln 179/146, деленное на 0.0096), или 525 лет назад. Практически то же самое время.
Итак, и у цыган нормальная ДНК-генеалогия, при которой имеется весьма жесткое соответствие между убывающими базовыми гаплотипами и накоплением мутаций в их производных. Кстати, гаплотипы болгарских цыган принадлежат гаплогруппе Н1, которая характерна для Индии, и за пределами Индии встречается только у цыган и их потомков. Но в Индии возраст этих гаплотипов, с тем же базовым гаплотипом 15-12-22-10-11-12 – несколько тысяч лет.
Так что методы расчета времен до общего предка работают на разных гаплогруппах. Но для того, чтобы еще более усилить это положение, рассмотрим еще пару гаплогрупп, совершенно другие.
Полинезийцы
У полинезийцев – маори (Новая Зеландия), жителей островов Кука, и самоанцев – гаплогруппа С2. У них суммарно было определено 36 гаплотипов (Животовский и др., 2004), и наиболее распространенный оказался следующий:
16-15-20-10-12-14
Таких среди указанных 36 гаплотипов оказалось 28. А в остальных нашлось всего 10 мутаций. По мутациям время общего предка соответствует 10/36/0.0096 = 29 поколений, или примерно 725 лет. А по остаточным гаплотипам – 26 поколений (ln 36/28, деленное на 0.0096), или примерно 650 лет. Сходство для наших задач вполне приличное. Кстати, источники отмечают, что предполагаемое время прибытия маори в Новую Зеландию варьируется от 650-700 лет до 800-1000 лет, и даже до 1200 лет назад. Как видно, согласование с первыми двумя оценками вполне приемлемое, а 1200 лет назад – цифра несколько экстремальная, судя по данным ДНК-генеалогии.
Деревья гаплотипов
Надеюсь, что даже скептики пришли к выводу, что в этих методах расчетов общего предка что-то есть, и соответствие двух методов расчета – по мутациям и по остаточным базовым гаплотипам – вполне может служить критерием обоснованности расчетов.
А в каких случаях эти два метода дадут серьезно расходящиеся результаты? Например, тогда, когда один из потомков древнего рода бурно размножился в относительно недавнее время. С этого недавнего времени (например, 500-1000 лет назад) гаплотипы еще не успели набрать много мутаций, и в списке гаплотипов окажется явный перекос в сторону этого недавнего гаплотипа. Его даже вполне можно принять за базовый, поскольку доля его на общем фоне будет велика. И тогда мы будем иметь несоответствие – по остаточным «базовым» гаплотипам предок жил относительно недавно, а по мутациям (которые представлены древними гаплотипами в том же списке) – давно, а точнее – где-то на пути к древнему общему предку. Другими словами, расчеты по остаточному базовому гаплотипу будут просто неверны, как, впрочем, и по мутациям, которые будут представлять собой суперпозицию «сигналов» по меньшей мере двух предков – древнего и относительно недавнего. Произойдет просто никому не нужное и вводящее в заблуждение усреднение гаплотипов. Вроде средней температуры по больнице.
Поэтому важным критерием в расчетах является именно соответствие в данных двух описанных методов расчетов общего предка. Не совпадают – тревога, ни тот, ни другой возраст предков неверен.
А что делать? – Строить деревья гаплотипов, и смотреть, как выглядят ветви, не являются ли они смесью древних и молодых ветвей. Если так – тогда нужно вести расчет по каждой ветви в отдельности. Или изъять молодую ветвь, точнее, образующие ее гаплотипы, как инородные, и считать по двум частям дерева раздельно.
Как проницательный читатель уже догадывается, у евреев во многих случаях именно так и оказалось. Иначе зачем бы я столько времени и пространства это объяснял?
Но поскольку ситуация будет сложная, давайте для начала опять потренируемся, как сказал герой известного фильма, «на кошках». А лучше опять на Мак-Доналдах, поскольку мы уже знаем, что у них случай «чистой» генеалогии. Как в таком случае выглядит дерево гаплотипов?
Рис. 1. Дерево 6-маркерных гаплотипов семейства Мак-Доналдов гаплогруппы R1a1 (по данным Мак-Доналдов, 2007). В выборке – 68 гаплотипов.
Для 6-маркерных гаплотипов дерево выглядит так, как показано на рис. 1, и построено с помощью специальной программы. Его следовало бы назвать не деревом, а «колесом гаплотипов». «Гребенкой» по кругу располагаются базовые 6-маркерные гаплотипы, а данном случае гаплотипы, унаследованные в неизмененном виде от Джона Лорда Островов, жившего 26 поколений, или 650 лет назад. Их – те самые 53 штуки из 68 по списку. Для остальных, мутированных пятнадцати гаплотипов, дерево показывает вычисленную (предполагаемую) последовательность мутаций.
Чтобы было понятнее, базовый гаплотип здесь такой:
15-12-25-11-11-13
Это – гаплотип гаплогруппы R1a1, пришедшей предположительно из Восточной Европы, с территории нынешних России-Украины-Польши, от рода, населявшего те территории 10-15 тысяч лет назад. И вот его-то и унаследовал Джон, а за ним – и его потомки Мак-Доналды.
Давайте теперь разбираться с гаплотипами и мутациями, а то потом деревья евреев не поймем. У них деревья не в пример более сложные.
Итак, гаплотипы с 001 до 053 – базовые. Они образуют «колесо» у основания дерева. Технически они самые «молодые», мутаций в них нет, по крайней мере в показанном на рис. 1 шестимаркерном варианте. Но их количество, как мы убедились выше, довольно точно соответствует возрасту первопредка. А именно, в данном случае, 26 поколений, примерно 650 лет.
Гаплотип 061 – с единичной мутацией базового гаплотипа (15-12-25-11-11-13), а именно
15-12-25-11-11-14
Вот его и вынесло в сторону (вправо от основания дерева).
Гаплотипы 054 и 060 – идентичные, в них одна и та же мутация:
16-12-25-11-11-13
Поэтому они сидят симметричной парой в другой стороне.
Как видно, в этих трех гаплотипах третий маркер сохраняется, он имеет 25 повторов (аллелей). А в относительно сложной ветви в нижней части имеются четыре варианта этого маркера, с аллелями 23, 24, 26 и 27. Отсюда и четыре подветви, в каждой – по одной своей мутации:
Ветвь из семи идентичных гаплотипов (между 057 и 066, включая 068)
15-12-24-11-11-13
Ясно, что эта мутация – самая популярная. Гаплотип 058 получился двойной мутацией базового по одному и тому же маркеру:
15-12-23-11-11-13
Гаплотип 067 – такая же двойная мутация, но в противоположную сторону
15-12-27-11-11-13.
Они и сидят по разные стороны «букета», поскольку не производные друг друга.
Гаплотипы 059, 063 и 065 – идентичные, с одной и той же мутацией:
15-12-26-11-11-13
А длины ветвей соответствуют среднему возрасту гаплотипов, в условных поколениях от базового гаплотипа. Например, гаплотипы 058 и 067 – вдвое старее, чем остальные на той же ветке, потому что у них уже прошло две мутации (25à23 и 25à27), а у остальных на ветке – только по одной (25à24, 25à26). По той же причине ветка 054-060 – тоже молодая. А вот одиночка 061 – старая мутация, потому что редкая (13à14). Програма учитывает и это.
Понятнее теперь? Иначе говоря, программа сортирует гаплотипы, исходя из структуры мутаций и предполагаемой связи между ними. На коротких 6-маркерных гаплотипах соседние гаплотипы на ветках вовсе не означают обязательное близкое родство их, гаплотипов, обладателей. Соседство на ветвях – часто результат чистой статистики. Но с удлинением гаплотипов, от 6 к 12, 37 и далее к 67 маркерным, родственники все больше и больше находят друг друга на одних ветвях. Потому что совпадение мутаций, скажем, в 37-маркерных гаплотипах, и тем более в 67-маркерных, простой статистикой объяснить трудно. Случайные совпадения, конечно, могут быть, но не массово.
Покажем, как выглядит дерево гаплотипов тех же Мак-Доналдов, но для 12-маркерных гаплотипов. Здесь в соответствии с установившимися традициями формат записи будет не в «научном» варианте, как в случае 6-маркерных гаплотипов выше, а в так называемом формате FTDNA (Family Tree DNA).
Рис. 2. Дерево 12-маркерных гаплотипов семейства Мак-Доналдов гаплогруппы R1a1 (по данным Мак-Доналдов, 2007). В выборке – 68 гаплотипов.
Базовый гаплотип у МакДоналдов в этом случае такой:
13-25-15-11-11-14-12-12-10-14-11-31
6-маркерный базовый гаплотип в этой записи соответствует маркерам с порядковыми местами 3, 8, 2, 4, 11, 1:
15-12-25-11-11-13
Как видно, удлинение гаплотипов привело к усложнению дерева, поскольку проявились мутации в остальных шести маркерах. Число базовых 12-маркерных гаплотипов уменьшилось от 53 (для 6-маркерных) до 42, но их все еще довольно много. 650 лет – и для них не такой большой срок. Стало появляться более детальное распределение по родственным ветвям, но еще в недостаточной степени для выявления близкого родства.
По 12-маркерным базовым гаплотипам расстояние до общего предка ln (68/42)/0.024 = 20 поколений. Вообще-то в данном случае более подошла бы скорость мутаций 0.0019 на гаплотип на поколение, но последующие расчеты показывают, что величина скорости 0.024 представляется более приемлемой для широкого круга гаплогрупп и временных диапазонов. По отношению к этим базовым гаплотипам во всей 12-маркерной выборке – 44 мутации, что дает 44/68/0.024 = 27 поколений до общего предка. Это – вполне приемлемая цифра, с той же скоростью мутаций 0.024 на гаплотип на поколение.
Рис. 3. Дерево 25-маркерных гаплотипов семейства Мак-Доналдов гаплогруппы R1a1 (по данным Мак-Доналдов, 2007). В выборке – 60 гаплотипов.
У 25-маркерных гаплотипов МакДоналдов базовый гаплотип такой:
13-25-15-11-11-14-12-12-10-14-11-31-16-8-10-11-11-23-14-20-31-12-15-15-16
Их – 18 базовых из 60 гаплотипов в общем списке. По остаточным гаплотипам до общего предка ln (60/18)/0.046 = 26 поколений.
Во всей выборке – 69 мутаций до базового гаплотипа, приведенного чуть выше. Это дает 69/60/0.046 = 25 поколений, что практически совпадает с величиной, расчитанной по остаточным базовым гаплотипам.
Рис. 4. Дерево 37-маркерных гаплотипов семейства Мак-Доналдов гаплогруппы R1a1 (по данным Мак-Доналдов, 2007). В выборке – 59 гаплотипов.
А вот то же самое – но для 37-маркерных гаплотипов. Базовый гаплотип МакДоналдов для них - следующий:
13-25-15-11-11-14-12-12-10-14-11-31-16-8-10-11-11-23-14-20-31-12-15-15-16-11-12-19-21-17-16-17-18-34-38-12-11
Видно, что из 59 гаплотипов (для девяти гаплотипов из списка МакДоналдов 37-маркерные не определялись) остался только один базовый, 001. Естественно, «вручную» его уже не определить, но компьютер помог. Остальные гаплотипы распались на десяток семейств. В принципе, для каждого из этих семейств можно посчитать время, прошедшее от общего предка. Естественно, эти предки будут уже относительно недавними, жившими зачастую 200-300 лет назад.
Всего в 59 гаплотипах содержится 178 мутация по отношению к тому базовому гаплотипу, но пятую часть из них, 36 мутаций, дал явно аномальный (35-й) маркер CDYb. Как показало последующее рассмотрение, далеко не во всех выборках этот маркер дает столь непропорциональное число мутаций. Видимо, семейство МакДоналдов расщепилось на две половины по этому маркеру, что и дало завышенное число мутаций. Это показывает, насколько надо быть осторожными при подобных калибровках. Поэтому мы даем здесь два варианта калибровки – по всем 37 маркерам, с учетом маркера CDYb, и по 36 маркерам, без учета этого маркера. Соответствующие скорости мутаций равны 0.12 и 0.09 мутаций на гаплотип на поколение. Это дает 178/59/0.12 = 25, и 142/59/0.09 = 27 поколений до общего предка.
Наконец, взглянем на 67-маркерные гаплотипы тех же Мак-Доналдов. Базовый гаплотип их, рассчитанный компьютером, следующий:
13-25-15-11-11-14-12-12-10-14-11-31-16-8-10-11-11-23-14-20-31-12-15-15-16-11-12-19-21-17-16-17-18-34-38-12-11-11-8-17-17-8-12-10-8-11-10-12-22-22-15-11-12-12-13-8-14-23-21-12-12-11-13-11-11-12-12
Всего в списке 26 гаплотипов. В них – 98 мутаций, или 3.77 мутаций на гаплотип. Поскольку общий предок жил те же 26 поколений назад, то в среднем на 67-маркерных гаплотипах происходит 0.145 мутаций на поколение.
Рис. 5. Дерево 67-маркерных гаплотипов семейства Мак-Доналдов гаплогруппы R1a1 (по данным Мак-Доналдов, 2007). В выборке – 26 гаплотипов.
Дерево гаплотипов разошлось на пять семейств, образованных в свою очередь двумя предками. От одного из них идут гаплотипы 002, 036, 011, 017 и 045. В них – 17 мутаций, то есть эта ветвь образовалась 23 поколения назад. Другая ветвь значительно более обширная, и в свою очередь разбивается на четыре ветви. Возможно, следующий способ представления дерева, линейно, поможет это лучше увидеть:
Рис. 6. Дерево 67-маркерных гаплотипов семейства Мак-Доналдов гаплогруппы R1a1 (по данным Мак-Доналдов, 2007). В выборке – 26 гаплотипов.
Естественно, чем длиннее гаплотипы, тем более четко выявляются близкородственные связи между ними. Например, гаплотипы 038 и 051, 003 и 004, 029 и 032 – как сидели парами в 37-маркерном дереве, так продолжают сидеть на 67-маркерном. Есть и другие устойчивые образования. Это и понятно – поскольку у меня и моего родного брата гаплотипы практически одинаковы, мы так и будем находиться рядом на любом дереве гаплотипов. Просто на дереве коротких гаплотипов мы с ним будем «разбавлены» случайными короткими же гаплотипами, образованными чисто статистически, а чем гаплотипы длиннее, тем больше мы с братом будем освобождаться от случайных совпадений.
Итак, имеем шесть наборов средних скоростей мутаций для гаплотипов разной длины:
6-маркерные гаплотипы – 0.0096 мутации на гаплотип на поколение, или 0.0016 мутации на маркер на поколение
10-маркерные гаплотипы – 0.018 мутации на гаплотип на поколение, или 0.0018 мутации на маркер на поколение
12-маркерные гаплотипы – 0.024 мутации на гаплотип на поколение, или 0.0020 мутаций на маркер на поколение
25-маркерные гаплотипы – 0.046 мутаций на гаплотип на поколение, или 0.0018 мутаций на маркер на поколение
37-маркерные гаплотипы – 0.09 мутации на гаплотип на поколение, или 0.0025 мутаций на маркер на поколение (без учета 35-го маркера), и 0.12 мутаций на гаплотип на поколение, или 0.0032 мутаций на маркер на поколение (с учетом всех 37 маркеров),
67-маркерные гаплотипы – 0.145 мутации на гаплотип на поколение, или 0.0022 мутаций на маркер на поколение
Как видно, усредненные скорости мутаций на маркер относительно близки для разных гаплотипов, за исключением вклада 35-го маркера (CDYb).
Здесь надо отметить, что скорости мутаций продолжают оставаться дискуссионным вопросом в научной литературе. Вот названия только недавних статей (полные ссылки их даны в 7-й части этого рассказа-расследования): «Определение скоростей мутаций по маркерам» (Журнал генетической генеалогии, США, 2006), «Скорости мутаций – у кого правильные величины?» (там же, 2007), «Неупорядоченность мутаций» (там же, 2007, письмо в редакцию). И в каждом случае авторы применяют свои приближенные (всегда!) подходы и свои допущения. Иначе нельзя, поскольку речь идет о неоднородных популяциях людей, популяциях разного размера, и при рассмотрении разных временнЫх периодов. Например, при рассмотрении более восьми тысяч гаплотипов в базе данных YSearch первый автор получил средние скорости мутаций для 12-маркерных гаплотипов 0.0019±0.0003 мутаций на маркер на поколение (по моим данным - 0.0020), для 25-маркерных 0.0028±0.0004 (по моим данным 0.0018), для 37-маркерных 0.0049±0.0007 (по моим данным 0.0025 или 0.0032). Второй автор приводит скорости, полученные другим способом, и объявленные сотрудниками крупнейшей компании в области ДНК-генеалогии (FTDNA), и они следующие – для 12-, 25- и 37-маркерных гаплотипов 0.0039, 0.0044 и 0.0058, соответственно. Там же автор приводит и другую величину скорости мутаций, определенную по 75258 маркерам-поколениям в 37-маркерных гаплотипах, в которых были обнаружены 309 мутаций, что дало авторам среднюю скорость мутаций 0.0041±0.0002. Еще один набор данных той же компании – для 12-маркерных гаплотипов 0.0024, для 25-маркерных 0.0027 мутаций на маркер на поколение.
Так что данные разнятся, и за каждыми данными – определенная философия. Напомню, что свой набор данных я получал по 68 гаплотипам семейства МакДоналдов, где современные гаплотипы отстоят на 26 поколений от предка при 25 годах на поколение.
Тем не менее, для еще большего обоснования величин полученных мной скоростей мутации, причем не на 26 поколениях, а до двухсот поколений, то есть примерно до пяти тысяч лет до общего предка, приведу еще несколько серий данных.
Прибалтийские народы (гаплогруппа N3а)
Эта серия гаплотипов была любезно представлена коллегой Владимиром Волковым. В ней – 249 гаплотипов, все гаплогруппы N3a. Не вдаваясь в детали, поскольку сами данные еще не опубликованы, сообщу только, что в 12-маркерной серии 51 гаплотип был базовым, что дает ln (249/51)/0.024 = 66 поколений до общего предка. Эти гаплотипы имели 558 мутации по отношению к базовым, что дает 558/249/0.024 = 93 поколения до общего предка. Ясно, что этот набор гаплотипов происходит от нескольких предков. Действительно, построение дерева гаплотипов выявило отдельную ветвь, состоящую из 126 гаплотипов, со следующими базовыми гаплотипами
14-12-24-11-14-14
14-24-14-11-11-13-11-12-10-14-14-30
и соответствующими мутациями:
6-маркерный гаплотип 77 базовых 54 мутации
12-маркерный гаплотип 48 базовых 134 мутации
Это приводит
для 6-маркерных гаплотипов: ln (126/77)/0.0096 = 51 поколение, 54/126/0/0096 = 45 поколений
для 12-маркерных гаплотипов: ln (126/48)/0.024 = 40 поколений, 134/126/0.024 = 44 поколения.
Средняя величина этих четырех величин равна 45±5 поколений до общего предка, то есть примерно между 1000 и 1250 лет, 8-10 век нашей эры. Интересно, что среди этих 126 человек на ветви 116 составляют финны. Из России и Германии были по двое, и шесть из Швеции. 123 гаплотипа с девяти других ветвей представляли Польшу, Литву, Белоруссию, Германию и некоторые другие страны, и их обший предок жил примерно 110 поколений назад.
Индийцы и пакистанцы (гаплогруппа R2)
Поскольку гаплогруппа R2 будет рассмотрена нами ниже в применении к евреям, рассмотрим, когда жил общий предок для некоторой довольно большой выборки. В недавней статье Сенгупты и др. (2006) был опубликован набор гаплотипов 81 индийцев и пакистанцев (последних было 13 человек), имеющих гаплогруппу R2. 21 из них имели следующий базовый гаплотип
14-12-23-10-10-14
Все эти 81 гаплотип имели 105 мутаций от указанного базового гаплотипа. Это дает ln (81/21)/0.0096 = 141 поколение от общего предка на основе доли базовых гаплотипов, и 105/81/0.0096 = 135 поколений от общего предка на основе мутаций. Это – хорошее совпадение результатов, и указывает на 3400-3500 лет до общего предка.
Индийцы и пакистанцы (гаплогруппа R1a1)
В той же недавней статье Сенгупты и др. (2006) был приведен набор гаплотипов 163 индийцев, пакистанцев, м жителей Средней Азии (111, 42 и 10 гаплотипов, соответственно), имевших гаплогруппу R1a1. 24 из них имели следующий базовый гаплотип:
15-12-25-10-11-13
Все 163 гаплотипа имели суммарно 329 мутаций по отношению к указанному базовому гаплотипу. Это дает ln (163/24)/0.0096 = 200 поколений от общего предка на основе доли базовых гаплотипов, и 329/163/0.0096 = 210 поколений от общего предка на основе мутаций. Это – опять хорошее совпадение результатов, и указывает на 5000-5200 лет до общего предка (без учета коррекции на возвратные мутации, см. ниже).
Итак, столь разные серии данных – по МакДоналдам (гаплогруппа R1a1), полинезийцам (гаплогруппа С2), цыганам (гаплогруппа Н1), прибалтам (гаплогруппа N3a в данном случае), индийцам и пакистанцам (гаплогруппы R1a1 и R2) – согласуются друг с другом по скоростям мутаций их гаплотипов.
А значит – можно продолжать.
Скорости мутаций, расчет времени до общего предка, и гомоплазия.
Как отмечалось выше, мутации гаплотипов происходят согласно кинетике первого порядка. Это значит, что мутации происходят «сами по себе», спонтанно, и зависят только от случайности этого события, то есть происходят статистически. Это – допущение, которое, как показывает опыт, достаточно хорошо подтверждается практикой, экспериментом. В качестве аналогичных примеров часто приводят радиоктивный распад вещества, хотя здесь есть неточность в сравнении. Если аллель в гаплотипе, скажем, из 17 мутирует в 18, то есть вероятность (и вполне возможно, такая же, как и вероятность предыдущего события), что 18 со временем мутирует не только далее в 19, но и обратно в 17. То есть произойдет возвратная мутация. Ясно, что такие возвратные мутации должны приводить к кажущемуся замедлению мутаций. Процесс продолжает быть неравновесным, исходного гаплотипа в течение долгого времени больше, чем его мутированных производных, но со временем, в ходе накопления мутированных гаплотипов, количество возвратных мутаций постепенно нарастает, прогрессивно замедляя общую скорость мутаций исходного гаплотипа.
Это явление, иногда называемое гомоплазией, может быть описано в виде следующей схемы
D ↔ B ↔ A ↔ C ↔ E
где А – базовый, или предковый маркер, и остальные – его ближайшие мутированные формы. При гомоплазии мы видим меньше мутаций, чем их на самом деле имело место, и чем глубже во времени, тем больше несоответствие. Мы видим меньше мутаций, и рассчитываем (если без учета гомоплазии), что предок жил, скажем, 8 тысяч лет назад, а он на самом деле жил 15 тысяч лет назад.
Давайте разбираться, так ли это, насколько велико несоответствие, стоит ли его учитывать, и как это делать.
Следует отметить, что кинетическое уравнение, учитывающее гомоплазию по схеме выше, весьма сложно, и решается в численном виде. Автор признателен коллеге Михаилу Семенову за написание и предоставление программы для расчетов гомоплазии. Расчеты показывают, что двумя шагами мутации от базового маркера в каждую сторону при известных скоростях мутаций можно вполне ограничиться, поскольку даже через 10 тысяч лет количество маркеров, отличающихся от базового на две мутации, составит менее 4%. Это – с учетом гомоплазии.
Если скорости мутаций рассчитываются при относительно небольших глубинах изменений базового, или предкового гаплотипа, то формула для расчета времени, прошедшего от общего для всей выборки предка, проста:
t = n/N/k
где t – время до общего предка, в поколениях,
n – количество мутаций во всех N галотипах выборки,
k – средняя скорость (частота) мутаций, выраженная в числе мутаций на маркер на поколение.
Для 12-маркерных гаплотипов, например, скорость мутаций, усредненная по всем 12 маркерам, равна 0.002 мутаций на маркер на поколение, или одна мутация на маркер в среднем раз в 500 поколений (12500 лет, считая 25 лет на поколение). Для 6-маркерных гаплотипов эта средняя скорость равна 0.0016 мутаций на маркер на поколение.
Как было описано выше, калибровка для нашего случая проводилась по гаплотипам МакДоналдов, при временном расстоянии до общего предка, равном 26 поколениям.
Давайте посмотрим, как изменятся скорости мутаций, рассчитанные при трех моделях – (а) линейной, по формуле, приведенной выше, то есть при «небольших глубинах» времени до базового гаплотипа (и узнаем, что такое «небольшие глубины»), (б) вероятностной, при любых временных расстояниях до общего предка, но без учета гомоплазии, то есть возвратных мутаций, и (в) с учетом гомоплазии.
При средней частоте мутации раз в 500 поколений (k = 0.002 мутаций на маркер на поколение) получим следущее количество мутаций в выборке из 100 или 1000 маркеров (в последнем случае - 83 двенадцатимаркерных гаплотипов):
10 поколений до общего предка (250 лет)
(а) Линейная модель, n = N*k*t = 1000*0.002*10 = 20 мутаций, то есть 2 мутации на 100 маркеров. 98% маркеров останутся нетронутыми.
(б) Вероятностная модель. При вероятности события, а именно мутации маркера в ту или иную сторону, равной 0.002, вероятность события, дополнительного к этому, равна 0.998. Это – вероятность того, что за одно поколение мутации не произойдет. Тогда через 10 поколений нетронутыми останутся 0.99810 = 0.98018, то есть 98% маркеров так и останутся нетронутыми. Линейная модель вполне применима.
(в) Модель гомоплазии. Те же 98% маркеров (или гаплотипов) останутся нетронутыми.
26 поколений (650 лет)
Это есть тот временной интервал, по которому проводилась калибровка скоростей мутаций в этой работе, основываясь на 68 гаплотипах семейства МакДоналдов. Всего в 68 двенадцатимаркерных гаплотипах было 44 мутации. Это и дало экспериментальную скорость мутации 44/68/26 = 0.025 мутаций на гаплотип для 26 поколений от общего предка, и 44/68/27 = 0.024 мутаций на гаплотип для 27 поколений. Сопоставляя с разными расчетами, в итоге была выбрана скорость 0.024 мутаций на гаплотип на поколение, или 0.002 мутации на маркер на поколение.
При этой скорости за 26 поколений в 1000 маркерах произойдут 1000*0.002*26 = 52 мутации. 94.8% маркеров останутся незатронутыми. Это – при линейной модели.
При вероятностной модели – 0.99826 = 0.949.
94.9% маркеров останутся незатронутыми.
С учетом гомоплазии – 0.950, то есть 95.0% маркеров останутся незатронутыми.
Практически, все три модели дают 5 мутаций на 100 маркеров.
100 поколений (2500 лет)
(а) Линейная модель, n = N*k*t = 100*0.002*100 = 20 мутаций на 100 маркеров. 80 маркеров из ста останутся нетронутыми.
(б) Вероятностная модель. 0.998100 = 0.8186, то есть 82 маркера из ста останутся нетронутыми.
(в) Модель с учетом гомоплазии – 0.8247, то есть опять 82 маркера из ста останутся нетронутыми.
Иначе говоря, только при 2500 годах до общего предка линейная модель требует некоторой, но минимальной корректировки, и эффективная скорость мутации становится не 0.0020, а 18/100/100 = 0.0018 мутаций на маркер на поколение.
Другими словами, при обнаружении 20 мутаций на 100 маркеров (это 48 мутаций на двадцать 12-маркерных гаплотипов) следует заключить, что общий предок жил не 100 поколений назад (2500 лет), а скорее 120 поколений (примерно 3000 лет). Хотя в реальных ситуациях такая поправка мало что изменит.
200 поколений (5000 лет)
(а) Линейная модель, n = N*k*t = 100*0.002*200 = 40 мутаций на 100 маркеров, и 60 маркеров из ста останутся нетронутыми.
(б) Вероятностная модель. 0.998200 = 0.670, то есть 33 мутации на 100 маркеров, и 67 маркера из ста останутся нетронутыми.
(в) Модель с учетом гомоплазии – 0.694, то есть 31 мутация на 100 маркеров, и 69 маркеров из ста останутся нетронутыми.
Таким образом, при 5000 лет до общего предка линейная модель требует основательной корректировки, и эффективная скорость мутации становится не 0.0020, а 31/100/200 = 0.0016 мутаций на маркер на поколение. Другими словами, при обнаружении 31 мутаций на 100 маркеров (это 74 мутации на двадцать 12-маркерных гаплотипов) следует заключить, что общий предок жил не 155 поколений назад (примерно 3900 лет назад), как следовало бы из линейной модели, а скорее 200 поколений (примерно 5000 лет назад). При 40 мутациях на 100 маркеров общий предок жил примерно 300 поколений назад, или примерно 7500 лет назад.
Как видно, гомоплазия начинает становиться весьма заметной между 100 и 200 поколений от нашего времени до общего предка, то есть между 2500-5000 лет назад.
400 поколений (10 тысяч лет)
(а) Линейная модель, n = N*k*t = 100*0.002*400 = 80 мутаций на 100 маркеров, и только 20 маркеров из ста останутся нетронутыми.
(б) Вероятностная модель. 0.998400 = 0.449, то есть 55 мутации на 100 маркеров, и 45 маркеров из ста останутся нетронутыми.
(в) Модель с учетом гомоплазии – 0.521, то есть 48 мутаций на 100 маркеров, и 52 маркера из ста останутся нетронутыми.
Как видно, линейная модель не работает на временах примерно 10 тысяч лет от общего предка. Эффективная скорость мутации становится не 0.0020, а 48/100/400 = 0.0012 мутаций на маркер на поколение. Другими словами, общий предок жил 10 тысяч лет назад при обнаружении всего 48 мутаций на 100 маркеров (при некорректном «линейном» варианте это дало бы всего 240 поколений, или 6000 лет назад). При обнаружении 80 мутаций на 100 маркеров (это 192 мутации на двадцать 12-маркерных гаплотипов, то есть на 240 маркеров) следует заключить, что общий предок жил не 400 поколений назад (10000 лет), а скорее около 900 поколений (20-25 тысяч лет назад). Как видно, гомоплазия в этой ситуации становится определяющей, и практически удваивает время давности жизни общего предка, рассчитанной на основании линейной модели.
На этом мы закончим рассмотрение понятийного аппарата ДНК-генеалогии и иллюстрации расчетов и представлений гаплотипов в форме чисел и деревьев, и перейдем к сути нашего вопроса – о происхождении евреев.
Когда жил общий предок ближневосточных евреев?
«Научная» 6-маркерная выборка, сводная гаплогруппа J, 194 человека
Возвращаемся к гаплотипам евреев, представленным в массивной научной выборке данных из 194 человек, назвавших себя евреями – ашкенази и сефардами, и имевших «ближневосточные» гаплотипы гаплогруппы J. В научной работе, опубликовавших их гаплотипы, все они шестимаркерные. Вот как выглядит дерево, построенное по опубликованным данным.
Рис. 7. Дерево 6-маркерных гаплотипов евреев (ашкенази и сефардов) гаплогруппы J, ближневосточного происхождения (научная выборка, Бехар, 2003). Всего в выборке 194 гаплотипа.
Наметанный глаз немедленно заметит несуразицу – крупный выброс древних гаплотипов (помните – чем древнее, тем дальше от «колеса») при наличии массы нетронутых базовых гаплотипов, идущих гребенкой у основания «колеса». Из 194 гаплотипов 91 – базовые, то есть 47%. Так при нормальном дереве не бывает. Или много древних гаплотипов и мало базовых, или наоборот, мало древних и много базовых. Чтобы и тех, и других много – что-то не так.
Если помните, время расчета предка по совокупности всех мутаций дало 142 поколение, или примерно 3600 лет. Это получилось из простого отношения 1.36 мутации на гаплотип (263 мутации на 194 гаплотипа), деленного на среднюю скорость мутаций 0.0096. Но для 6-маркерных гаплотипов после 142 поколений должно оставаться только четверть базовых гаплотипов, потому что 142 – это примерно (ln4)/0.0096. Или, точнее, (ln 3.91)/0.0096. Откуда их вдвое больше?
Вот это – тот самый случай неоднородности выборки, когда два метода расчета дают принципиально различающиеся результаты. Из мутаций – 3600 лет до общего предка, полученное из 1.36/0.0096 = 142 поколения, из остаточных базовых гаплотипов - около 2000 лет до общего предка, получено из ln (194/91), деленное на 0.0096 = 79 поколений. Разница почти в два раза.
Ответ достаточно очевиден: данная выборка представляет смесь, суперпозицию двух (или более) популяций. Одна – древняя, она и дает выбросы-протуберанцы от колеса гаплотипов, другая – молодая, происходящая от относительно недавнего предка, гаплотип которого
14-16-23-10-11-12
Вот его недавние потомки и сохранили этот гаплотип почти в целости и сохранности до настоящего времени, причем в больших количествах. Плодовитый был недавний предок, да и его прямые потомки не подкачали.
Этот, молодой, и есть «гаплотип коэнов».
Когда же он появился?
К сожалению, научная публикация, на основании которой построено дерево на рис. 7, ограничилась только 6-маркерными гаплотипами, Иначе говоря, уточнять дерево с помощью более протяженных гаплотипов возможности нет. Поэтому поступим так. Выделим в отдельное подмножество потомков явно древних предков (протуберанцы справа вверху и справа внизу, и возможно слева внизу на рис. 7), и рассмотрим оставшиеся гаплотипы так, чтобы число поколений в подвыборке, рассчитанное как по остаточным базовым гаплотипам, так и по мутациям, было одинаковым. Это – приблизительный подход, но он даст нам больше информации, чем считать по суперпозиции гаплотипов и получать явно искаженные данные.
Если принять, что все базовые гаплотипы 14-16-23-10-11-12 принадлежат относительно недавнему предку, то получится, что недавний предок жил в интервале между 48 и 60 поколений назад. Действительно, потомки древнего предка насчитывают в выборке от 32 гаплотипов (две ветви протуберанцев справа) до 50 (с дополнением ветви протуберанцев внизу слева), так что на недавнего предка приходятся остальные 162 или 144 гаплотипа, соответственно. При 91 базовых гаплотипах (которые есть в выборке) это соответствует 60 или 48 поколениям назад, соответственно. Проверяем: ln (162/91), деленное на 0.0096 равно 60 поколениям, и ln(144/91)/0/0096 равно 48 поколениям. Итак, имеем временной промежуток, когда жил относительно недавний предок, имеющий «гаплотип коэнов» в сводной гаплогруппе J: 1200-1500 лет назад, 6-9 век нашей эры. Это – от 144 до 162 потомков из 194 в выборке, или от 74% до 84% от всех.
Переходим к древним ветвям.
Древняя ветвь справа вверху из 20 гаплотипов содержит следующие варианты базовых гаплотипов
15-15-24-10-11-13
14-16-25-10-13-12
14-16-24-10-11-12
14-16-23-10-11-12
В принципе, любой из них мог бы быть древним базовым гаплотипом гипотетического общего предка евреев гаплогруппы J, если не вдаваться в детали. Три первых представлены на древней ветви тремя гаплотипами каждый, а четвертый – базовый для всей выборки, и тоже двумя-тремя (или несколькими) копиями может быть отнесен к древней ветви.
6-маркерные гаплотипы не могут разрешить этот вопрос выбора, какой из перечисленных четырех гаплотипов древнее. Оставим его для более протяженных гаплотипов (см. ниже), а пока обратим внимание на детали. Заметим, что по числу мутаций к каждому из этих потенциально базовых гаплотипов на древней ветви (89, 69, 59 и 66 мутаций, соответственно) первый гаплотип маловероятен как базовый. Слишком много от него мутаций на ветви. Он явно случайный и продвинутый мутант. Второй, как показывает дальнейшее рассмотрение 12-маркерных гаплотипов, происходит от относительно недавнего предка, и базовым для древнего предка тоже быть не может. Два последних дают ориентировочно следующее количество поколений до общего предка: 59/20/0.0096 = 307 поколений (7700 лет) и 66/21/0.0096 = 327 поколений (8200 лет). Это – без учета гомоплазии. Последняя цифра рассчитана для одного базового гаплотипа «коэна», добавленного к древней ветви из общего пула. При добавлении двух или трех таких базовых гаплотипов количество поколений до общего предка изменится от 327 к 313 и 299 (7800 и 7500 лет, соответственно). Как видно, картина принципиально не изменится. Не гадая, возьмем среднюю величину от всех четырех рассчитанных вариантов, и получим примерно 7800±300 лет. Точность даже избыточная для наших целей.
Введем поправку на гомоплазию, которая уже заметно проявляется при таких временных масштабах. Напомню, что маркер в среднем мутирует раз в 500 поколений (зависит от того, какой гаплотип мы расматриваем, но в данном контексте это детали), и его продукт-мутант тоже мутирует в среднем раз в 500 поколений, причем эта мутация может либо продвинуть аллель еще на шаг, либо вернуть в предыдущее положения. Как если бы первой мутации и не было. Этот возврат называется гомоплазией, и приводит к кажущемуся уменьшению числа мутаций в гаплотипе. Мы разбирали эту тему выше.
Посмотрим, как гомоплазия скажется при расчетных («линейных») 7800 лет до общего предка. Мы наблюдаем, например, 62 мутации в 100 маркерах, и полагаем, что время до общего предка примерно равно 62/100/0.002 = 310 поколений, или 7800 лет, а на самом деле к 7800 годам до предка привела бы уже 41 мутация. 62 мутации – это уже 560 поколений до общего предка, или примерно 14000 лет (эти величины рассчитываются по таблицам, или компютерным программам).
Итак, приблизительное рассмотрение 6-маркерных гаплотипов евреев сводной гаплогруппы J показало, что общий предок их древней ветви, составляющей 20-23 гаплотипа из 194, или примерно 10-12% от всей выборки, жил примерно 14 тысяч лет назад. Его базовый гаплотип – следующий:
14-16-24-10-11-12
Как вариант, был рассмотрен и «гаплотип коэнов», от которого приведенный выше отличается всего на одну мутацию, но «гаплотип коэнов» в гаплогруппе J1 не прошел проверку на «базовость», как будет показано ниже. «Гаплотип коэнов» -
14-16-23-10-11-12
относительно недавний, от него происходят три четверти или более (до 80%) всех современных евреев. Его предковый носитель жил в интервале 1200-1500 лет назад, в 6-м – 9-м веке нашей эры. Как будет уточнено ниже, он жил 56 поколений назад, примерно 1350-1400 лет тому.
В первой части этого рассказа было предлоложено, что этот относительно недавний предок – Бустенай, лидер еврейской общины, последний обладатель титула реш галуса, «глава изгнания», чьи года жизни предположительно 590-670 гг, 7-й век нашей эры, примерно 55 поколений назад. Это время вполне укладывается в интервал 48-60 поколений назад, вычисленный выше на основании дерева гаплотипов современных евреев гаплогруппы J.
Этот относительно недавний предок, предположительно Бустенай, в свою очередь являлся прямым потомков древнего предка с гаплотипом
14-16-24-10-11-12
жившего 14 тысяч лет назад, в глубокие доеврейские времена. Точнее, доисторические времена. «Гаплотип коэнов» получил эстафету как мутант от этого древнего гаплотипа, и повел свое начало уже в нашей эре, в диаспоре, предположительно от Бустеная. Более того, он, «гаплотип коэнов» в гаплогруппе J1, пошел в активное размножение до разделения евреев на ашкенази и сефардов (которое произошло в 8-м веке нашей эры), и его в достаточных количествах получили и те, и другие. В итоге те, кто называют себя коэнами, имеют этот относительно недавний гаплотип в количествах 75% у сефардов, и 92% у ашкенази. К коэнам этот гаплотип особого специального отношения не имеет, судя по его количественному содержанию у остальных евреев. А вот почему его у коэнов больше, чем у других – продолжает оставаться загадкой.
Выборка из коммерческой базы данных, 6-маркерные гаплотипы, гаплогруппа J1, 90 человек
У нас есть возможность проверить эти данные и выводы на гаплотипах коммерческой базы данных YSearch, в том числе на гаплотипах не только 6-маркерных, но и значительно более протяженных, а именно 12-, 25-, 37- и 67-маркерных. При этом проверим опять вопрос о достоверности использования этой базы данных для научных изысканий.
А в самом деле, почему были сомнения в такой достоверности? Предоставление своей ДНК для анализа заинтересованными людьми происходит вполне неупорядоченно, да и те, кто финансово это может себе позволить, заплатив полтораста долларов за тест, вряд ли имеют какие-то другие гаплотипы по сравнению с теми, кто позволит это себе не может. Вот и имеем две в равной степени репрезентативные выборки – «научная» и «коммерческая» .
Мы еще сможем не раз убедиться в этом в дальнейшем, на других гаплогруппах.
Примечательно, что и в коммерческой выборке – та же доля молодых «гаплотипов коэнов» в общем составе евреев, о чем упоминалось выше. А как отбирались именно евреи по базе данных? Очень просто. В базе данных J1 на момент поиска (октябрь 2007 года) было 294 гаплотипа. Из них я отобрал всех, у кого имя-фамилия звучали традиционно еврейскими, и приведенные имена-фамилии предков (а в базе есть и эта информация, обычно за 19-й век) звучали тоже именно так. А поскольку сама гаплогруппа J1 – ближневосточная по происхождению, то особой ошибки быть не могло. И таких людей набралось 90 человек, то есть треть от всех. Остальные две трети могли быть и арабы, и бедуины (хотя в наличии последних в коммерческой базе данных я сомневаюсь) и евреи с гаплотипами группы J1, но с нееврейскими именами-фамилиями. Но это уже не имеет значения, потому что 90 человек для наших целей – количество вполне приемлемое.
Вот как выглядит дерево гаплотипов этих 90 человек, причем, подчеркиваю, только евреев и только гаплогруппы J1.
Рис. 8. Дерево 6-маркерных гаплотипов евреев гаплогруппы J1, ближневосточного происхождения (выборка из коммерческой базы данных YSearch, Клёсов, 2007). В выборке – 90 гаплотипов.
Как видим, характер дерева принципиально такой же, хотя есть различия. Принципиальное сходство в том, что опять имеем суперпозицию молодых базовых гаплотипов, располагающихся у основания «колеса», и старых, раскидистых кустов гаплотипов. Опять базовых гаплотипов перебор – почти половина, хотя по общему числу мутаций должна быть четверть. Опять, стало быть, относительно недавний выброс, предположительно Бустенаем и его потомками. Опять это «гаплотипы коэнов», хотя Бустенай коэном не был.
Разница в том, что по сравнению с рис. 7 (сводная гаплогруппа J), на рис. 8 (гаплогруппа J1) визуально отсутствуют резкие древние выбросы гаплотипов. Тем не менее, они там присутствуют, что мы сейчас продемонстрируем. Более того, оба «колеса» 6-маркерных гаплотипов (рис. 7 и 8) дают те же самые цифры и базовых, и мутированных гаплотипов (в долевом отношении), и среднего числа мутаций в них. Иначе говоря, обе диаграммы дают одни и те же усредненные данные. Обе показывают принципиально одну и ту же картину.
Попробуем применить тот самый подход, что и при анализе научной базы данных – предположим, что все базовые гаплотипы (их 41 из 90 гаплотипов в выборке) принадлежат потомкам относительно недавнего предка, жившего 56 поколений назад (примерно 1400 лет), и рассчитаем, сколько гаплотипов во всей выборке принадлежат этому недавнему предку. Оказывается, 70 гаплотипов: ln (70/41)/0.0096 = 56 поколений. В таком случае 70 из 90 гаплотипов в выборке - от потомков предположительно Бустеная, и остальные 20 – от древнего предка, 22% от выборки. Напомню, что в научной выборке (гаплогруппа J) от древнего предка было 16-26% гаплотипов. Неплохое соответствие.
Где же эти древние 20 гаплотипов на дереве (рис. 8)? Ясно, что на левой ветви, которая далеко отстоит от основания дерева гаплотипов. На ней – 25 гаплотипов, причем шесть из них одинаковы. Это – признак недавнего предка, гаплотипы потомков которого наложились на древние гаплотипы. Действительно, как будет показано ниже с использованием 12-маркерных гаплотипов, шесть из них (гаплотипы 14-16-25-10-13-12) принадлежат недавнему предку. Таким образом, в древней ветви остается 19 гаплотипов, почти столько, сколько и было предсказано. По отношению к базовому гаплотипу
14-16-24-10-11-12
(номера 064 и 065 на дереве), который был раньше выявлен в научной выборке (рис. 7) и находится на дереве гаплотипов (рис. 8) в «базовой» позиции для древней ветви, в этих 19 гаплотипах имеется 47 мутаций, что дает 47/19/0.0096 = 258 поколений до древнего предка, или примерно 6500 лет (без поправки на гомоплазию).
Эти два базовых гаплотипа из 19 древних на ветви дают ln (19/2)/0.0096 = 235 поколений, или примерно 5900 лет до древнего предка (без учета гомоплазии).
А если шесть недавних гаплотипов из 25 на древней ветви не удалять? Они же тоже потомки древней ветви, только недавние. Тогда древний предок жил
ln (25/2)/0.0096 = 263 поколения назад, или примерно 6600 лет(без учета гомоплазии), то есть практически столько же, сколько нашли по мутациям (6500 лет). А если по мутациям для всей ветви в 25 гаплотипов? Их там 65 мутаций по отношению к базовому, то есть 65/25/0.0096 = 271 поколение, или 6800 лет до общего предка (без учета гомоплазии).
Так что те шесть недавних гаплотипов можно было не удалять, и понятно, почему: этот недавний предок уже входит в данную ветви из 25 гаплотипов, ведущую к древнему предку. Убрав эти шесть гаплотипов, мы убрали и соответствующие мутации, что при правильном дереве и при коротких, 6-маркерных гаплотипах, не должно менять общей картины.
Следует отметить, что «гаплотип коэнов» 14-16-23-10-11-12 на этой левой ветви из 25 гаплотипов дает 88 мутаций, то есть намного больше, чем 65 мутаций его одношагового мутанта 14-16-24-10-11-12, и таким образом не проходит как базовый гаплотип для древней ветви 6-маркерной выборки гаплотипов.
Итак, разные способы расчетов, по остаточных 6-маркерным гаплотипам и по мутациям, дали 258, 263 и 271 поколения, или между 6500 и 6800 лет до общего предка (без поправки на гомоплазию). Величина с поправкой будет дана ниже.
Более протяженные гаплотипы евреев гаплогруппы J1
Коммерческая база данные позволяет рассмотреть и более протяженные гаплотипы. Рассмотрим 12-маркерные гаплотипы этих 90 евреев гаплогруппы J1 (рис. 9).
Рис. 9. Дерево 12-маркерных гаплотипов евреев гаплогруппы J1, ближневосточного происхождения (выборка из коммерческой базы данных YSearch, Клёсов, 2007). В выборке – 90 гаплотипов.
Как видно, картина в принципе такая же, как и в случае 6-маркерных гаплотипов. Верхние ветви – от недавнего предка, теснятся вблизи основания дерева, нижние – от древнего предка. Опять немало (а именно, 17) базовых, предковых гаплотипов, сохранившихся в целости до настоящего времени (что указывает на их относительную недавность) при наличии старых, мутированных гаплотипов, в виде довольно удаленных боковых ветвей. Это число базовых гаплотипов позволяет проверить концепцию расчета удаленности общего предка по количеству не мутаций, а именно сохранившихся базовых гаплотипов. Повторяю, что этот подход в научной литературе пока не использовался, поэтому важно его проверить, обосновать и установить.
Как выше было показано с использованием 6-маркерных гаплотипов, древней ветви принадлежат 25 гаплотипов, а относительно недавнему предку (или предкам) – остальные 65 гаплотипов. 17 из них базовых (это – предположительно гаплотип Бустеная)
12-23-14-10-13-15-11-16-12-13-11-30
то есть тех, которые сохранились до настоящего времени (см. рис. 9, наверху). Соответственно, общий их предок жил ln 65/17, деленное на 0.024 (средняя частота мутаций на 12-маркерный гаплотип на поколение), или 56 поколений назад. Бустенай жил примерно 55 поколений назад, принимая 25 лет на поколение. То есть совпадение расчетов поразительное при всех привходящих неопределенностях и допущениях, как 25 лет на поколение.
Итак, расчеты показывают, что относительно недавний предок жил примерно 56 поколений назад, или примерно 1400 лет тому.
Интересно сравнить деревья 6-маркерных и 12-маркерных гаплотипов. Эти деревья показывают иерархии гаплотипов по структуре их мутаций, точнее, какие гаплотипы из каких происходят в последовательностях мутаций. Ясно, что чем длиннее гаплотипы, тем выше вероятность, что близкие гаплотипы принадлежат близким родственникам. У коротких гаплотипов сходство в мутациях может быть вызвано простой статистикой, тупым перебором вариантов, простым совпадением. Из рис. 8 и 9 видно, что, действительно, некоторые гаплотипы меняют свою позицию в ветвях при переходе от 6- к 12-маркерным. Но некоторые остаются на своих местах, сигнализируя о своих возможных родственных отношениях.
Древней ветви на дереве 12-маркерных гаплотипов (рис. 9) соответствует нижняя ветвь, из 27 гаплотипов. Вопрос – какой из этих 27 гаплотипов является базовым, предковым? Данные по 6-маркерным гаплотипам уже дали ответ:
14-16-24-10-11-12
В 12-маркерном варианте такому древнему гаплотипу могут соответствовать два:
12-24-14-10-14-18-11-16-11-13-11-30
12-24-14-10-13-18-11-16-11-13-11-30
(жирным шрифтом показаны различия между ними, не обнаруживаемые в 6-маркерных гаплотипах). Но эта альтернатива решается: базовый – это верхний гаплотип, по отношению к которому во всей ветви имеется меньше мутаций, а именно 188. По отношению к нижнему гаплотипу их на пять мутаций больше (так что теоретически древним предковым может быть и второй, но только как запасной вариант). Кстати, по отношению к 12-маркерному «гаплотипу коэнов»
12-23-14-10-13-15-11-16-12-13-11-30
базовому для всей выборки, эта ветвь дает 258 мутаций, что делает «гаплотип коэнов» совершенно неприемлемым как базовый для древней ветви. Иначе говоря, «гаплотип коэнов» не является древним у евреев в гаплогруппе J1. Он пошел от относительно недавнего предка, предположительно Бустеная.
В этой древней ветви есть еще один гаплотип, который по обычным критериям ДНК-генеалогии сразу был бы назван базовым. Это гаплотип
12-25-14-10-16-18-11-16-10-13-13-29
который встречается в данной ветви из 27 гаплотипов шесть раз, чаще всех. По отношению к нему во всей ветви имеется только 169 мутаций, меньше всех. Чем не базовый гаплотип? Но по разработанному в данной работе критерию он совершенно не проходит, так как по остаточным базовым гаплотипам дает ln (27/6)/0.024 = 63 поколения до общего предка, а по мутациям 169/27/0.024 = 261 поколение. Четырехкратная разница! Ясно, что здесь – суперпозиция, наложение предков в этой ветви гаплотипов. Этот гаплотип, который встречается шесть раз – недавний, потому и не успел мутировать даже в 12-маркерном варианте. А в древнюю ветвь он попал случайно, статистически. Это бывает. Именно поэтому для повышения точности и следует уходить в более протяженные гаплотипы, рассматривая соответствующие деревья.
Приведем эту древнюю ветвь в соответствие с изложенными соображениями. Уберем шесть недавних гаплотипов, а также гаплотип под номером 057, который, как показывает ниже дерево 37-маркерных гаплотипов, уходит из древней ветви при дальнейшем удлинении гаплотипов. На ветви остается 20 гаплотипов, на все – 135 мутаций по отношению к базовому гаплотипу древнего предка
12-24-14-10-14-18-11-16-11-13-11-30 (в 12-маркерном варианте), или
14-16-24-10-11-12 (в 6-маркерном варианте),
что дает 135/20/0.024 = 281 поколение, или примерно 7000 лет до общего предка двадцати древних гаплотипов из общего числа 90 (без поправки на гомоплазию), или примерно четверть евреев гаплогруппы J1. Остальные три четверти, как было найдено раньше, принадлежат потомкам относительно недавнего предка, предположительно Бустеная, с базовым «гаплотипом коэнов»
12-23-14-10-13-15-11-16-12-13-11-30 (в 12-маркерном варианте), или
14-16-23-10-11-12 (в 6-маркерном варианте),
Как видно, 7000 лет до общего древнего предка, найденного по 12-маркерным гаплотипам, неплохо соответствует величинам 6500-6800 лет до древнего предка, найденного выше по 6-маркерным гаплотипам. Усредненная величина по четырем полученным значениям – 6700±200 лет до общего предка. С поправкой на гомоплазию – это примерно 12 тысяч лет.
Вот так, при удлинении гаплотипов и прослеживается динамика родственных связей. Проследим и мы, при дальнейшем переходе к 25-, 37- и 67-маркерным гаплотипам и их деревьям евреев гаплогруппы J1 из нашей выборки. К сожалению, большинство людей пока ограничиваются 12-маркерными гаплотипами (из-за финансовых соображений, но еще и потому, что не видят целесообразности в более детальных гаплотипах; это – ошибка).
Рис. 10. Дерево 25-маркерных гаплотипов евреев гаплогруппы J1, ближневосточного происхождения (выборка из коммерческой базы данных YSearch, Клёсов, 2007). В выборке – 49 гаплотипов.
Консолидация ветвей продолжается на 25-маркерном дереве гаплотипов (рис. 10). Довольно компактная ветвь слева вверху, состоящая из 10 гаплотипов (021, 012, 024, 049, 059, 003, 039, 025, 031 и 026) была несколько более разбросана на 12-маркерном дереве, и вообще не просматривалась на 6-маркерном, частью состоя из базовых гаплотипов, у основания «колеса». К сожалению, часть гаплотипов не попали в 25-маркерные, так что дерево несколько обеднело. На нем не осталось ни одного базового гаплотипа (ближайший к базовому номер 008 имеет две мутации от базового, по расчетам компьютера).
Небольшие ветви справа и слева вверху (рис. 10) – в основном то, что осталось от базовых гаплотипов для всей выборки в 6- и 12-маркерном варианте. Их там 24 из 27 для 6-маркерных гаплотипов (а всего было 41 базовых 6-маркерных гаплотипов), и 9 из 17 (справа) – для 12-маркерных. Это – потомки предположительно Бустеная.
Нижняя ветвь (рис. 10) – в большинстве гаплотипы от древнего предка, примерно жившего 12 тысяч лет назад (с поправкой на гомоплазию). Они – мутированные, и поэтому далеко отстоят от основания дерева гаплотипов.
Рис. 11. Дерево 37-маркерных гаплотипов евреев гаплогруппы J1, ближневосточного происхождения (выборка из коммерческой базы данных YSearch, Клёсов, 2007). В выборке – 38 гаплотипов.
37-маркерные гаплотипы
На 37-маркерном дереве, понятно, уже ни одного базового гаплотипа не осталось. Но это и делает расчеты по 37-маркерным деревьям самыми надежными. С одной стороны, 37-маркерные гаплотипы обеспечивают достаточно надежное разделение гаплотипов на близкие семейства. Ясно, что вероятность случайного, неродственного совпадения, или хотя бы сходства 37-маркерных гаплотипов весьма мала. С другой стороны, все базовые гаплотипы расходятся по ветвям, усиливая статистику распределения ветвей.
Поэтому все предыдущие рассмотрения более коротких гаплотипов и их деревьев были в определенной степени приближениями. Точку в происхождении ветвей и их датировки должны поставить 37-маркерные гаплотипы. Одно ограничение – из-за того, что далеко не все делают тест на 37-маркерные гаплотипы (и еще меньше – на 67-маркерные), статистика по 37-маркерным гаплотипам порой недостаточна. Из-за этого приходится привлекать данные по 6- и 12-маркерным гаплотипам, как это было сделано выше.
На дереве 37-маркерных гаплотипов есть три основные ветви (рис. 11), одна из которых содержит недавнюю подветвь.
Древняя ветвь предка евреев (и вообще жителей Ближнего Востока), гаплогруппы J1, жившего 16000±1000 лет назад
Древняя ветвь находится слева, она наиболее удалена от «ствола» дерева, содержит 11 гаплотипов, и имеет следуюший (рассчитанный) базовый гаплотип в 6-, 12- и 37-маркерном формате:
14-16-24-10-11-12
12-24-14-10-12-17-11-16-11-13-11-30
12-24-14-10-12-17-11-16-11-13-11-30-18-8-9-11-11-24-14-20-30-14-15-15-17-10-9-20-22-15-13-17-18-32-36-12-10
В 6-маркерном формате эта ветвь имеет 35 мутаций, и соответствует 35/11/0.0096 = 331 поколению от общего предка (без поправки на возвратные мутации). В 12-, 25- и 37-маркерном формате число поколений равно соответственно 341, 344 и 331 поколение. В среднем, все четыре значения дают 337±7 поколений от общего предка. Это соответствует 8400±200 лет без поправки на возвратные мутации, или 16000±1000 лет с поправкой.
Относительно недавняя ветвь – 1600±200 лет назад
Эта древняя ветвь содержит относительно недавнюю подветвь из семи гаплотипов, с базовыми
14-16-25-10-13-12
12-25-14-10-16-17-11-16-10-13-13-29
12-25-14-10-16-17-11-16-10-13-13-29-17-8-9-11-11-26-14-20-28-13-14-14-17-11-9-19-22-17-14-18-18-31-37-12-11
Число мутаций в 6-, 12-, 25 и 37-маркерных гаплотипах дало 60, 71, 65 и 57 поколений до общего предка, или в среднем 63±6 поколений, то есть 1600±200 лет назад.
Старый «модальный гаплотип коэнов», появился 6000±2000 лет назад
Еще одна, относительно старая ветвь в нижней части рис. 11, содержит 11 гаплотипов с базовым «модальным гаплотипов коэнов» в 6-маркерном формате:
14-16-23-10-11-12
В 12- и 37-маркерном форматах он выглядит так:
12-23-14-10-13-18-11-16-12-13-11-31
12-23-14-10-13-18-11-16-12-13-11-31-17-8-9-11-11-26-14-20-25-13-14-16-16-11-10-19-22-14-14-16-18-33-35-12-10
Число мутаций в 12-, 25- и 37-маркерных гаплотипах ветви дало 136, 192 и 200 поколений от общего предка, в среднем 176±35 поколений, или примерно 4400±900 лет без поправки на возвратные мутации. 6-маркерные гаплотипы не включены в эти расчеты, поскольку последние три маркера (10-11-12) не дали мутаций, и статистика по мутациям здесь искажена. С поправкой на возвратные мутации число поколений до общего предка равно 240±70, или 6000±2000 лет.
Недавний «модальный гаплотип коэнов», появился 1250±250 лет назад, примерно 8-й (±2) век н.э.
Наиболее недавняя ветвь, справа вверху на рис. 11, которая расположена наиболее близко к «стволу» дерева, содержит 16 гаплотипов, и базовый – все тот же «модальный гаплотип коэнов» в его 6-маркерном варианте:
14-16-23-10-11-12
12-23-14-10-13-15-11-16-12-13-11-30
12-23-14-10-13-15-11-16-12-13-11-30-17-8-9-11-11-26-14-21-27-12-14-16-17-11-10-22-22-15-14-20-18-31-35-13-10
Число мутаций в 12-, 25- и 37-маркерных гаплотипах соответствует 39, 50 и 60 поколениям до общего предка, средняя величина 50±10 поколений, или 1250±250 лет.
Рис. 12. Дерево 67-маркерных гаплотипов евреев гаплогруппы J1, ближневосточного происхождения (выборка из коммерческой базы данных YSearch, Клёсов, 2007). В выборке – 13 гаплотипов.
При переходе от 37-маркерных гаплотипов к 67-маркерным структура дерева в значительной степени сохраняется, не считая, естественно, более коротких гаплотипов, которые не попали на последнее дерево. Четыре гаплотипа (006, 034, 033 и 008) так и остались на «молодой» ветви потомков (предположительно) Бустеная. Это все базовые гаплотипы в 6-маркерном варианте. Две пары гаплотипов – 073 - 086 и 071 – 088 точно воспроизвелись на древней ветви. Две ветви – молодая и древняя – так и сохранились на 67-маркерном дереве.
Четыре «молодых» гаплотипа имеют всего 12 мутаций, отделяющих их от своего общего предка, что соответствует всего 21 поколению, или примерно 525 годам. Мне известны их фамилии, и они знают, что получили результаты теста по 67 маркерам. Так что при запросе могу свести их со своими потенциальными родственниками. Наиболее дальние известные им предки жили в Санкт-Петербурге (вторая половина 19-го века), сейчас потомок живет в штате Массачусеттс, мой сосед; предок другого жил в первой половине 19-го века в Польше; предок третьего – в Литве, тоже в первой половине 19-го века, потом семья переехала на юг Украины, под Николаев, в местечко, и в 1922 им удалось перебраться в Бразилию. Предок четвертого жил в Польше в конце 18-го – начале 19-го веков, и имел характерную фамилию Шрек, или Ширек. Нынешние потомки живут в США.
Вот такие истории. Все четверо наверняка и не знают, что они с хорошей вероятностью прямые потомки царя Давида.