The Human Genome Project deciphered only 92% of the DNA - now scientists have finally filled in the remaining 8%, a scientist who participated in the project explains

Only 1% of the human genome contains genes that code for proteins and almost half of the genome contains genes used for control. More than half of the human genome consists of repetitive sequences that could not be sequenced in the first pass over the human genome in the nineties, but now technology makes this possible and a new era of genome research has opened

By: Gabriel Hartley, PhD Student in Molecular and Cellular Biology, University of Connecticut. Translation: Avi Blizovsky, The Knowledge Site

When the heads of the Human Genome Project announced in 2003 that they had completed the sequencing of the first human genome, it was an important achievement: for the first time, the encryption of the DNA software on which human life is based was deciphered. But the announcement came with a catch - they were unable to assemble all the genetic information stored in the genome. There were gaps: it was often repetitive areas that were confusing to put them together and understand where they belonged.

With the advancement of technology that now makes it possible to deal with repetitive sequences, scientists finally filled in these gaps in May 2021, and the first end-to-end human genome was officially published on March 31, 2022.

אני ביולוג גנום שחוקר רצפי דנ"א חוזרניים וכיצד הם מעצבים את הגנומים לאורך ההיסטוריה האבולוציונית. הייתי חלק מהצוות שעזר לאפיין את הרצפים החוזרניים בגנום. ועכשיו, כאשר יש בידינו גנום אנושי שלם באמת, האזורים החוזרניים שנחשפו סוף סוף, נחקרים במלואם בפעם הראשונה.

Chromosomes in the cell nucleus. Illustration: depositphotos.com
Chromosomes in the cell nucleus. Illustration: depositphotos.com

The missing pieces of the puzzle

הבוטניקאי הגרמני הנס וינקלר טבע את המילה "גנום" בשנת 1920, כאשר שילב את המילה "גן" עם הסיומת "-ome", שפירושה "סט שלם", כדי לתאר את רצף הדנ"א המלא הנמצא בכל תא. חוקרים עדיין משתמשים במילה זו מאה שנה מאוחר יותר כדי להתייחס לחומר הגנטי המרכיב אורגניזם.

One way to describe what a genome looks like is to compare it to a reference book. In this analogy, a genome is an anthology containing the DNA instructions for life. It consists of a huge variety of nucleotides (letters) that are packed into chromosomes (chapters). Each chromosome contains genes (paragraphs) which are regions of DNA that code for the specific proteins that allow the organism to function.

דיאגרמה של כרומוזום נפרם לדנ"א מפותל, גנים ונוקלאוטידים

Every living organism has a genome, but the size of the genome varies from species to species. An elephant uses the same form of genetic information as the grass it eats and the bacteria in its gut. But no two genomes look exactly the same. Some of them are short, like the genome of the bacteria of the species 

Nasuia deltocephalinicola

 השוכנים בתוך חרקים המכיל רק 137 גנים על פני 112,000 נוקלאוטידים. חלקם, כמו 149 מיליארד הנוקלאוטידים של הצמח הפורח פריז ג'פוניקה, הם כל כך ארוכים שקשה לדעת כמה גנים הם מכילים.

אבל גנים כפי שהם הובנו באופן מסורתי – קטעי דנ"א המקודדים לחלבונים – הם רק חלק קטן מהגנום של האורגניזם. למעשה, הם מהווים פחות מ-2% מהדנ"א האנושי.

הגנום האנושי מכיל בערך 3 מיליארד נוקלאוטידים וקצת פחות מ-20,000 גנים לקידוד חלבונים המהווים כ-1% מהאורך הכולל של הגנום. 99% הנותרים הם רצפי דנ"א שאינם מקודדים חלבונים. חלקם רכיבי בקרה השולטים באופן הפעולה של גנים אחרים. אחרים הם פסאודוגנים או שרידים גנומיים שאיבדו את יכולתם לתפקד. יותר ממחצית הגנום האנושי מורכב מגנים חוזרניים, עם עותקים מרובים של רצפים כמעט זהים.

מהם מקטעי דנ"א חוזרניים?

הצורה הפשוטה ביותר של דנ"א שחוזר על עצמו הם בלוקים של דנ"א שחוזרים על עצמם שוב ושוב באותו סדר ומכונים לוויינים. מספר קטעי ה-DNA הלוייניים משתנה מאדם לאדם אך הם לעתים קרובות מתקבצים לקראת קצוות הכרומוזומים באזורים הנקראים טלומרים. אזורים אלה מגינים על הכרומוזומים מפני שיבוש במהלך שכפול ה-DNA. הם נמצאים גם בצנטרומרים של הכרומוזומים, אזור שעוזר לשמור על המידע גנטי שלם כאשר התאים מתחלקים.

החוקרים עדיין לא מבינים בבירור את כל הפונקציות של ה-DNA הלוויני, אבל מכיוון שהדנ"א הלווייני יוצר דפוסים ייחודיים בכל אדם, ביולוגים משפטיים וגנאלוגים משתמשים ב"טביעת אצבע" הגנומית הזו כדי להתאים דגימות מזירת הפשע לחשודים ולעקוב אחר מקורן. יותר מ-50 הפרעות גנטיות קשורות לשינויים בדנ"א הלווייני, כולל מחלת הנטינגטון.

סוג נפוץ נוסף של דנ"א חוזרני מכיל מרכיבים הניתנים לשחלוף או רצפים שיכולים לנוע לאורך גנום. כמה מדענים תיארו אותם כדנ"א אנוכי כי הם יכולים להכניס את עצמם לכל מקום בגנום, ללא קשר להשלכות של פעולה זו. ככל שהגנום האנושי התפתח, רצפים רבים הניתנים לשחלוף אספו מוטציות המדכאות את יכולתם לנוע כדי למנוע הפרעות מזיקות, אבל סביר להניח שחלקם עדיין יכולים לנוע. לדוגמה, גנים הניתנים להחלפה או תזוזה קשורים למספר מחלות כגון המופיליה A או הפרעות דימום גנטיות.

דנ"א שניתן להחליף הוא אולי הסיבה לכך שלבני אדם יש עצם זנב אבל אין זנב?

But interchangeable genomic elements aren't just disruptive. They can have regulatory functions that help control the expression of other DNA sequences. When concentrated at the centromeres, they may also help maintain the integrity of basic genes and contribute to cell survival.

The activity of replaceable genes can also contribute to evolution. Researchers have recently discovered that the insertion of a transposable element into a gene important to development may be the reason why some primates, including humans, no longer have tails. Rearrangement of chromosomes due to the introgression of exchangeable elements is even linked to the formation of new species such as the gibbons of Southeast Asia and the wallaby of Australia.

Completing the genomic puzzle

Until recently, many of these complex regions could be compared to the far side of the Moon: known to exist but not understood with great precision.

 When the Human Genome Project was first launched in 1990, technological limitations made it impossible to fully uncover repetitive regions in the genome. Available sequencing technology could only read about 500 nucleotides at a time, and these short segments had to overlap each other. The researchers used these overlapping segments to identify the next nucleotides in the sequence, gradually expanding the assembly of the genome segment by segment.

Assembling the repetitive regions of the genome was like putting together a 1,000-piece jigsaw puzzle in which a cloudy sky is drawn: when every piece looks the same, how do you know where one cloud begins and another ends? With nearly identical overlapping parts in many places, complete sequencing of the genome by the first genome sequencers became impossible. Millions of nucleotides remained hidden in the first iteration of decoding the human genome.

Since then, the gaps in the human genome have been gradually filled. In 2021, the Telomere to Telomere Consortium (T2T), an international consortium of scientists working to complete the end-to-end assembly of the human genome, announced that all remaining gaps had finally been filled.

With the completion of the first human genome, researchers are now looking to understand the full diversity of humanity.

This has been made possible by improved sequencing technology capable of reading longer sequences of thousands of nucleotides along with additional information to place repetitive sequences within a larger picture where it is easier to identify their correct place in the genome. It's like turning a 1,000 piece puzzle into a 100 piece puzzle. The ability to read long sequences made it possible for the first time to assemble large repeating regions.

עם העוצמה הגוברת של טכנולוגיית ריצוף דנ"א ארוכת טווח, נפתח עידן חדש בחקר הגנומיקה – האפשרות לפענח לראשונה רצפים מורכבים של גנים חוזרניים על פני אוכלוסיות ומינים, ובפרטגנום אנושי שלם ונטול פערים. הידע הזה מספק כוח רב ערך לחוקרים לחקור אזורים חוזרניים ויוצרים בכך וריאציות של מבנה גנטי, מה שמאפשר לחקור אבולוציה של מינים ולתרום לבריאות האדם.

אבל גנום שלם אחד לא נותן את כל התמונה. כל העת נמשכים המאמצים ליצור רצפי התייחסויות גנומיות מגוונות המייצגות באופן מלא את האוכלוסייה האנושית ואת החיים על פני כדור הארץ. בזכות התייחסויות גנומיות שלמות יותר שהושגו בשיטת "טלומר לטלומר", הבנת המדענים לגבי "החומר האפל" של הגנום החוזרני תתבהר יותר.

For an article in The Conversation

More of the topic in Hayadan:

Comments

Leave a Reply

Email will not be published. Required fields are marked *

This site uses Akismat to prevent spam messages. Click here to learn how your response data is processed.