Researchers have developed an algorithm that makes it possible to find a man's last name based on genetic information from the Y chromosome. How did they manage to identify a family based on the Y chromosomes of their sons? Is publishing genetic information on the Internet dangerous and what is the benefit of such a database?
Amos Bev, Galileo
The researchers were able to trace the name and location of a particular person by a combination of his Y chromosome, his age and the fact that he lives in California
Israeli researchers from the Whitehead Institute, Boston, and Tel Aviv University have developed an algorithm that makes it possible to find a man's last name based on genetic information on the Y chromosome. The research may have significant implications on the subject of information privacy. The study was published in the journal Science.
Y lineage
"מאז שהתפתחה היכולת לרצף את הגנום האנושי, מבקשים אנשים רבים להתחקות אחר השושלת הגנטית שלהם", מסביר פרופ' ערן הלפרין, מבית הספר למדעי המחשב ומהמחלקה למיקרוביולוגיה וביוטכנולוגיה באוניברסיטת תל-אביב. "כדי לענות על הצורך, קמו בארצות-הברית חברות שנוטלות מהמעוניינים דגימות רוק, ומעלות את הגנום האישי שלהם למאגרי נתונים הפתוחים לציבור. אנחנו נעזרנו במאגרים אלה כדי לבחון השתייכות משפחתית על פי כרומוזום Y – כרומוזום המין הזכרי. כרומוזום Y התאים במיוחד למחקר שלנו, מכיוון שהוא עובר מאב לבנו לאורך הדורות (עם שינויים קלים הנובעים ממוטציות), ולכן – ממש כמו שם המשפחה – הוא משותף למעשה לכל הגברים במשפחה המורחבת."
המחקר המקורי – פרי יוזמה של ד"ר יניב ארליך ממכון ווייטהד למחקר ביו-רפואי שבבוסטון, ובהשתתפות פרופ' הלפרין והדוקטורנט דוד גולן מהמחלקה לסטטיסטיקה באוניברסיטת תל-אביב – התמקד בבניית אלגוריתם ממוחשב, שיידע לקבוע את שם משפחתו של אדם אך ורק על פי נתוני כרומוזוםY שלו. האלגוריתם מתבסס על מיפוי של מקטעים מיוחדים בגנום שנקראים STR`s (Short Tandem Repeats). הגנום, כידוע, הוא רצף ארוך המורכב מארבעה נוקליאוטידים, המסומנים באותיות A,C,G ו-T. STR הוא רצף שבנוי מכמה חזרות של רצף בסיסי קצר יותר, למשל ACTACTACTACT – ארבע חזרות של הרצף הבסיסי ACT. בגלל המבנה המיוחד של ה-STR`s, מספר החזרות של כל STR נוטה להשתנות בין דור לדור.
Such a change is called a mutation, and the mutation rate of STR's is particularly high compared to other types of mutations in the genome. Several dozen such STR's are found on the Y chromosome - the male sex chromosome, which is found only in males, and is passed in its entirety from father to son. In fact, paternity tests (for boys) between a child and an assumed biological father are based on comparing STR's found on the Y chromosome. The mutation rate of the STR's is high enough to identify if it is indeed the biological father.
Given the genome of some anonymous person, the algorithm maps the STR's on the Y chromosome, then checks the results against the online databases, with the aim of finding relatives. If a match of sufficient quality is found, it can be concluded that the two individuals are relatives on the father's side, and the algorithm determines that the surname of the anonymous person is the same as the surname found in the database.
The special algorithm was tested on a sample of 900 men in the United States. The Y chromosome data of the participants was submitted to an online database containing the sequenced genomes of 135 people - which are a faithful representation of the distribution of surnames in the United States, mainly for those of European origin. In principle, the algorithm is not limited to a particular origin, but today most of the available genomes are of people of European origin. In addition, due to a variety of historical, social and economic reasons, the databases of the companies that offer such genetic tests are biased in favor of European populations, which is the reason why the demonstration of the algorithm's functionality was done on people of this origin.
"האלגוריתם זיהה במדויק את שם המשפחה של אחד מכל שמונה נבדקים", אומר פרופ' הלפרין. כלומר, עבור אחד מכל שמונה נבדקים נמצאה התאמה באיכות גבוהה בין כרומוזוםY של הנבדק לכרומוזוםY שנמצא במאגר, וכן שמות המשפחה של הנבדק והאדם במאגר היו זהים. עבור רוב הנבדקים האחרים, האלגוריתם הכריז כי הוא "לא יודע" את שם המשפחה.
In another case, the researchers were able to trace the name and then the location of a certain person based on a combination of his Y chromosome, they discovered, and the fact that he lives in California. Thus, for example, they presented to the algorithm the Y chromosome data of the well-known geneticist Craig Venter, who published his entire genome online. The algorithm identified the last name, and after crossing the name with additional data - Venter's age and the fact that he lives in California - the search was narrowed down to only two people. The researchers were also able to almost certainly identify a large Mormon family from Utah, based on the Y chromosomes of its sons.
Information in the science service
"לטכניקת הזיהוי שפיתחנו יכולים להיות לא מעט שימושים מועילים, כמו איתור קרובים, זיהוי גופות באסונות טבע ועוד", אומר פרופ' הלפרין. "עם זאת, המחקר שלנו חשף בעיה מהותית שדורשת התייחסות: אם אדם מפרסם את הגנום שלו באינטרנט, גם כשהדבר נעשה בעילום שם, זהותו חשופה למדי. וצריך לזכור שאנחנו בדקנו כרומוזום אחד בלבד מתוך כלל המידע הגנטי, שכולל עוד 22 זוגות כרומוזומים וכרומוזם X. ההתמקדות בכרומוזום Y נובעת מהקשר המיוחד שלו לשם משפחה (גם כרומוזום Y וגם שם משפחה עוברים – ברוב החברות – מאב לבן)."
"למרות זאת חשוב לציין כי אנו רואים בחיוב את שיתוף המידע הגנטי במסדי מידע ציבוריים, בהסכמה כמובן. שיתוף המידע חיוני לקידום המדע, ויש יתרונות רבים למשתמשים בשירותים אלו. ואולם, חשוב שכל הגופים הקשורים לשיתוף המידע, כולל האנשים שנתוניהם נמצאים במסדי המידע, המדענים, והגופים המפרסמים את המידע, יהיו מודעים לאופי החשיפה ויפעילו את שיקוליהם בהתאם."
ד"ר יניב ארליך מציין כי "מסקנה מתבקשת מהמחקר שלנו היא שמאגרים ביומטריים יכולים ליצור מצבים בלתי צפויים. לדוגמה, מי חשב ששמות משפחה יכולים להתגלות ממידע גנטי? לכן אנו מאמינים שמחוקקים צריכים לנקוט במשנה זהירות כאשר הם מתכננים להקים מאגרים שכאלו."