關(guān)于人類基因組的有趣數(shù)字一覽
王羽中
盡管科學(xué)家們已經(jīng)宣布基因排序工作幾近完成,但人類基因組包含的基因數(shù)量仍然只能大致地推算出來。無法得知準(zhǔn)確數(shù)字的原因有以下幾個(gè):
一、人類真正基因的數(shù)量太少而且分布過于分散。據(jù)估算,人類每一百萬個(gè)DNA基中,只有十二個(gè)真正的基因,而果蠅的基因數(shù)量是一百一十七個(gè),蛔蟲的基因數(shù)量是一百九十七個(gè),阿布屬(Arabidopsis)的基因數(shù)量是二百二十一個(gè)。在這上百萬個(gè)魚龍混雜的DNA中尋找十二個(gè)真正的基因,其難度可想而知,這項(xiàng)艱巨的工作對(duì)于目前的計(jì)算機(jī)軟硬件來說實(shí)在是個(gè)“難以完成的任務(wù)”。
二、人類的基因與其它生物的基因相比,“碎片化”程度更高。在比細(xì)菌復(fù)雜的有機(jī)體中,基因大都呈現(xiàn)出“碎片化”的特征,這也就是說,包含遺傳信息的基因并不是完整、純粹地呆在那里,而是被分割成許多個(gè)碎片,被一些沒有包含遺傳信息的“連結(jié)物”連結(jié)在了一起。這就好比看電視劇一樣,我們?cè)诳措娨晞r(shí)經(jīng)常碰到插播廣告的情形,一個(gè)電視劇很少在從頭到尾播放時(shí)沒有插播過廣告,而廣告顯然并不是我們想要看到的信息;蚓拖笫且粋(gè)插播了很多廣告的電視劇,我們?cè)谟^看這個(gè)“電視劇”時(shí)需要了解的是它的“劇情”,而不是無用的廣告。但在得到完整準(zhǔn)確的劇情之間,我們不得不將這些廣告的內(nèi)容剔除,對(duì)于電視劇來說,這也許并不是什么復(fù)雜的任務(wù),但對(duì)于基因研究來說,它的難度卻大了何止千百倍。包括遺傳信息的基因碎片通常比“插播”的那些無用信息小得多,這就好比一個(gè)四十五分鐘的電視劇插播了數(shù)個(gè)長達(dá)十幾分鐘的廣告一樣;蛑械挠杏盟槠环Q為“exon”,無用碎片被叫作“intron”。研究發(fā)現(xiàn),很多不包含遺傳信息的DNA碎片有一萬個(gè)堿基大小,這比包含遺傳信息的那些碎要大好多。
目前,已經(jīng)發(fā)現(xiàn)的人類基因中最大的一個(gè)有二百四十萬個(gè)堿基那么長,它構(gòu)成了人類肌肉蛋白質(zhì)“營養(yǎng)失調(diào)”時(shí)(dystrophin)的編碼。不過,這個(gè)基因中大多數(shù)堿基都無用的DNA碎片。已知的有用基因碎片中最大的一個(gè)也是有關(guān)肌肉蛋白質(zhì)的,它存在于一種名“titin”的肌肉蛋白質(zhì)中。這個(gè)基因碎片包含了八萬零七百八十個(gè)堿基,它們被分割成了一百七十八單元,最大的一個(gè)單元包括了一萬七千一百零個(gè)堿基。
果蠅和蛔蟲的“intron”碎片長度比較適宜,通常只有幾十個(gè)或者上百個(gè)堿基,人類的“intron”碎片長度相差很大,大多數(shù)都只有八十七個(gè)堿基長,但由于相當(dāng)一部分的“intron”碎片的長度大得驚人,因此平均下來,人類的“intron”碎片的長度約為三千三百多個(gè)。相對(duì)而言,人類基因的“exon”碎片要小得多,目前已經(jīng)發(fā)現(xiàn)有四十多個(gè)“exon”碎片只有十九個(gè)堿基大小。
很明顯,現(xiàn)在的問題并不是人類有多少基因,而是這些基因是如何被使用。基因“碎片化”意味著人類的各種蛋白質(zhì)可以由相同的基因碎片組成,只要它們的組合方式不同,蛋白質(zhì)的功能也就各不相同。目前,人類基因中至少有百分之三十五可以有不同的組合方式,因此,它們所能結(jié)合成的蛋白質(zhì)種類比果蠅和蛔蟲要多四倍。
新浪科技, 百拇醫(yī)藥
盡管科學(xué)家們已經(jīng)宣布基因排序工作幾近完成,但人類基因組包含的基因數(shù)量仍然只能大致地推算出來。無法得知準(zhǔn)確數(shù)字的原因有以下幾個(gè):
一、人類真正基因的數(shù)量太少而且分布過于分散。據(jù)估算,人類每一百萬個(gè)DNA基中,只有十二個(gè)真正的基因,而果蠅的基因數(shù)量是一百一十七個(gè),蛔蟲的基因數(shù)量是一百九十七個(gè),阿布屬(Arabidopsis)的基因數(shù)量是二百二十一個(gè)。在這上百萬個(gè)魚龍混雜的DNA中尋找十二個(gè)真正的基因,其難度可想而知,這項(xiàng)艱巨的工作對(duì)于目前的計(jì)算機(jī)軟硬件來說實(shí)在是個(gè)“難以完成的任務(wù)”。
二、人類的基因與其它生物的基因相比,“碎片化”程度更高。在比細(xì)菌復(fù)雜的有機(jī)體中,基因大都呈現(xiàn)出“碎片化”的特征,這也就是說,包含遺傳信息的基因并不是完整、純粹地呆在那里,而是被分割成許多個(gè)碎片,被一些沒有包含遺傳信息的“連結(jié)物”連結(jié)在了一起。這就好比看電視劇一樣,我們?cè)诳措娨晞r(shí)經(jīng)常碰到插播廣告的情形,一個(gè)電視劇很少在從頭到尾播放時(shí)沒有插播過廣告,而廣告顯然并不是我們想要看到的信息;蚓拖笫且粋(gè)插播了很多廣告的電視劇,我們?cè)谟^看這個(gè)“電視劇”時(shí)需要了解的是它的“劇情”,而不是無用的廣告。但在得到完整準(zhǔn)確的劇情之間,我們不得不將這些廣告的內(nèi)容剔除,對(duì)于電視劇來說,這也許并不是什么復(fù)雜的任務(wù),但對(duì)于基因研究來說,它的難度卻大了何止千百倍。包括遺傳信息的基因碎片通常比“插播”的那些無用信息小得多,這就好比一個(gè)四十五分鐘的電視劇插播了數(shù)個(gè)長達(dá)十幾分鐘的廣告一樣;蛑械挠杏盟槠环Q為“exon”,無用碎片被叫作“intron”。研究發(fā)現(xiàn),很多不包含遺傳信息的DNA碎片有一萬個(gè)堿基大小,這比包含遺傳信息的那些碎要大好多。
目前,已經(jīng)發(fā)現(xiàn)的人類基因中最大的一個(gè)有二百四十萬個(gè)堿基那么長,它構(gòu)成了人類肌肉蛋白質(zhì)“營養(yǎng)失調(diào)”時(shí)(dystrophin)的編碼。不過,這個(gè)基因中大多數(shù)堿基都無用的DNA碎片。已知的有用基因碎片中最大的一個(gè)也是有關(guān)肌肉蛋白質(zhì)的,它存在于一種名“titin”的肌肉蛋白質(zhì)中。這個(gè)基因碎片包含了八萬零七百八十個(gè)堿基,它們被分割成了一百七十八單元,最大的一個(gè)單元包括了一萬七千一百零個(gè)堿基。
果蠅和蛔蟲的“intron”碎片長度比較適宜,通常只有幾十個(gè)或者上百個(gè)堿基,人類的“intron”碎片長度相差很大,大多數(shù)都只有八十七個(gè)堿基長,但由于相當(dāng)一部分的“intron”碎片的長度大得驚人,因此平均下來,人類的“intron”碎片的長度約為三千三百多個(gè)。相對(duì)而言,人類基因的“exon”碎片要小得多,目前已經(jīng)發(fā)現(xiàn)有四十多個(gè)“exon”碎片只有十九個(gè)堿基大小。
很明顯,現(xiàn)在的問題并不是人類有多少基因,而是這些基因是如何被使用。基因“碎片化”意味著人類的各種蛋白質(zhì)可以由相同的基因碎片組成,只要它們的組合方式不同,蛋白質(zhì)的功能也就各不相同。目前,人類基因中至少有百分之三十五可以有不同的組合方式,因此,它們所能結(jié)合成的蛋白質(zhì)種類比果蠅和蛔蟲要多四倍。
新浪科技, 百拇醫(yī)藥
百拇醫(yī)藥網(wǎng) http://www.www.srpcoatings.com/Html/Info/News/372/37282.htm