解讀“生物信息學(xué)” ——訪著名學(xué)者陳潤生
中科院物理所研究員陳潤生是我國較早開展生物信息學(xué)研究的科學(xué)家之一,現(xiàn)為國際人類基因組組織會員;國際數(shù)據(jù)庫組織生物大分子專業(yè)組委員;國際純粹應(yīng)用生物物理學(xué)會生物信息學(xué)專業(yè)委員會委員;同時擔(dān)任我國人類基因組研究北方中心委員。1980年以來他主要從事蛋白質(zhì)空間結(jié)構(gòu)模擬和分子設(shè)計以及基因組信息學(xué)方面的研究工作。1996年,他因在該領(lǐng)域的研究成就而榮獲“小谷正雄”獎。
在第二屆中國生物信息學(xué)大會上,他在大會報告中介紹了他的研究小組在生物信息學(xué)研究的更高級階段——系統(tǒng)生物學(xué)方面的研究和探索,引起與會代表的強烈反響。
這位謙和的科學(xué)家在接受記者采訪時,用盡可能淺顯易懂的語言向我們介紹了應(yīng)當(dāng)怎樣認識生物信息學(xué)。他表示,希望有更多的人了解這門新興學(xué)科,也希望有更多的年輕學(xué)者投入到這個充滿希望的研究領(lǐng)域來,共同開創(chuàng)我國生命科學(xué)研究的美好未來。
1.什么是生物信息學(xué)?
, http://www.www.srpcoatings.com
生物信息學(xué)是一門新興的交叉學(xué)科。很多人會認為,生物信息學(xué)既涉及生物又涉及物理,一定是一個內(nèi)容十分廣泛的學(xué)科領(lǐng)域。其實它的內(nèi)涵十分具體,范圍非常廣泛。生物信息學(xué)是伴隨著基因組研究而產(chǎn)生的,因此它的研究內(nèi)容就緊隨著基因組研究而發(fā)展。
廣義地說,生物信息學(xué)從事對基因組研究相關(guān)生物信息的獲取、加工、儲存、分配、分析和解釋。這一定義包括了兩層含義,一是對海量數(shù)據(jù)的收集、整理與服務(wù),也就是管好這些數(shù)據(jù);另一個是從中發(fā)現(xiàn)新的規(guī)律,也就是用好這些數(shù)據(jù)。
具體來講,生物信息學(xué)是把基因組DNA序列信息分析作為源頭,找到基因組序列中代表蛋白質(zhì)和RNA基因的編碼區(qū);同時,闡明基因組中大量存在的非編碼區(qū)的信息實質(zhì),破譯隱藏在DNA序列中的遺傳語言規(guī)律;在此基礎(chǔ)上,歸納、整理與基因組遺傳信息釋放及其調(diào)控相關(guān)的轉(zhuǎn)錄譜和蛋白質(zhì)譜的數(shù)據(jù),從而認識代謝、發(fā)育、分化、進化的規(guī)律。
生物信息學(xué)還利用基因組中編碼區(qū)的信息進行蛋白質(zhì)空間結(jié)構(gòu)和蛋白質(zhì)功能的預(yù)測,并將此類信息與生物體和生命過程的生理生化信息相結(jié)合,闡明其分子機理,最終進行蛋白質(zhì),核酸的分子設(shè)計、藥物設(shè)計和個體化醫(yī)療保健設(shè)計。
, http://www.www.srpcoatings.com
2.為什么基因組研究需要依賴生物信息學(xué)?
海量生物數(shù)據(jù)的產(chǎn)生和基因組數(shù)據(jù)的復(fù)雜性決定了基因組研究必須依賴生物信息學(xué)。
首先,伴隨著基因組研究,相關(guān)信息出現(xiàn)了爆炸性增長,迫切需要對海量生物信息進行處理。自1995年科學(xué)家破譯了全長為180萬核苷酸的嗜流感桿菌基因以為,到目前已有近百個微生物和若干真核生物如酵母、果蠅等的完整基因組完成測序。人類基因組工作草圖的公布,也意味著基因組的研究將全面進入信息提取和數(shù)據(jù)分析的嶄新階段。據(jù)國際數(shù)據(jù)庫的統(tǒng)計,1999年12月DNA堿基數(shù)目為30億,2001年已超過140億,大約每14個月翻一番。同時,電子計算機芯片對于數(shù)字處理能力的增長也相當(dāng)于每18個月翻一番。因此,計算機能夠有效地管理和運行海量數(shù)據(jù)。
但是,更為本質(zhì)的原因是基因組數(shù)據(jù)的復(fù)雜性。所謂某種生物的基因組就是指該生物所有遺傳物質(zhì)的總和。生物的遺傳物質(zhì)是一類稱為脫氧核糖核酸(DNA)的生物大分子,它是由4種核苷酸串接起來組成的,通常用字符A、T、G、C代表。通俗地說,生物的遺傳密碼就是這4個字符連接起業(yè)的線狀長鏈。這種鏈往往很長,比如,人的遺傳密碼就含有32億個字符,將它們堆起來就構(gòu)成了一部100多萬頁,每頁有3000字符的“天書”。這本天書包含了人體的結(jié)構(gòu)和功能以及生命活動過程的大量信息,卻僅僅由4個字符組成,既無詞法,又無句法,還沒有標(biāo)點符號,看起來每一頁都是相似的。如何讀懂它是個極大的難題;蚪M研究最終是要把生物學(xué)問題轉(zhuǎn)化成對數(shù)字符號的處理問題。要解決這樣的問題就必須發(fā)展新的分析理論、方法、技術(shù)、工具,就必須依賴計算機的信息處理。
, http://www.www.srpcoatings.com
3.從事生物信息學(xué)研究應(yīng)該具備哪些方面的科學(xué)基礎(chǔ)
從事生物信息學(xué)研究應(yīng)具備多方面的科學(xué)基礎(chǔ)。首先,它需要一定的計算能力,包括相應(yīng)的軟、硬件設(shè)備。要有各種數(shù)據(jù)庫或者能與國際、國內(nèi)的數(shù)據(jù)庫系統(tǒng)進行有效的交流。要有發(fā)達、穩(wěn)定的互聯(lián)網(wǎng)絡(luò)系統(tǒng);同時,生物信息學(xué)需要強有力的創(chuàng)新算法和軟件。沒有算法創(chuàng)新,生物信息學(xué)就無法獲得持續(xù)的發(fā)展。最后,它要與實驗科學(xué),特別是與自動化的大規(guī)模高通量的生物學(xué)研究方法與平臺技術(shù)建立廣泛、緊密的聯(lián)系。這些技術(shù),既是產(chǎn)生生物信息數(shù)據(jù)的主要方法,又是驗證生物信息研究結(jié)果的關(guān)鍵手段。因此,從事生物信息學(xué)研究的人員也必須具備多學(xué)科交叉的知識。
4.生物信息學(xué)要解決的基因組研究相關(guān)問題主要有哪些
總的來說,需要用生物信息學(xué)來解決的與基因組研究相關(guān)的問題包括三個方面,它們是基因組信息學(xué)、蛋白質(zhì)的結(jié)構(gòu)計算與模擬和以基因組為基礎(chǔ)的藥物設(shè)計。這三者緊密地圍繞著遺傳信息傳遞的中心法則,因而必須有機地連接在一起。
, 百拇醫(yī)藥
基因組信息學(xué)是生物信息學(xué)的第一個組成部分,也是最基礎(chǔ)的部分。它的核心內(nèi)容是破譯遺傳密碼。我們知道,人的遺傳密碼有32億個堿基,而現(xiàn)在的DNA測序儀每個反應(yīng)只能讀取幾百到上千個堿基。也就是說,要得到人的全部遺傳密碼首先要把人的基因組打碎,測完一個個小段的序列后再把它們重新拼接起來。這個龐大的數(shù)據(jù)處理過程單純依靠生物學(xué)家很難完成,必須有計算機學(xué)家的參與,完成從分段測序到恢復(fù)基因組的本來面目的整個過程就是基因組信息學(xué)。
在破譯了人的遺傳密碼后我們發(fā)現(xiàn),其中有的部分是基因,有的部分并非基因。基因部分通過編碼變成蛋白質(zhì)并最終構(gòu)造人體和完成人體的功能。那么,不同的基因所表達的蛋白質(zhì)將各完成什么功能?基因和蛋白質(zhì)之間到底有什么關(guān)聯(lián)?要弄清楚這個由一維的遺傳密碼,轉(zhuǎn)變成三維的蛋白質(zhì)功能的過程,我們必須解決第二個核心問題:蛋白質(zhì)空間結(jié)構(gòu)的模擬和預(yù)測。
進一步來說,當(dāng)我們發(fā)現(xiàn)有些蛋白可能對人體有害,則需要對這部分進行干預(yù),也就是進行關(guān)聯(lián)的藥物設(shè)計,這一藥物設(shè)計是在了解功能基因和關(guān)鍵性部位的基礎(chǔ)上進行的,是以基因組的知識為基礎(chǔ)的藥物設(shè)計。這就是生物信息學(xué)需要解決的第三個問題。, 百拇醫(yī)藥(陸靜)
在第二屆中國生物信息學(xué)大會上,他在大會報告中介紹了他的研究小組在生物信息學(xué)研究的更高級階段——系統(tǒng)生物學(xué)方面的研究和探索,引起與會代表的強烈反響。
這位謙和的科學(xué)家在接受記者采訪時,用盡可能淺顯易懂的語言向我們介紹了應(yīng)當(dāng)怎樣認識生物信息學(xué)。他表示,希望有更多的人了解這門新興學(xué)科,也希望有更多的年輕學(xué)者投入到這個充滿希望的研究領(lǐng)域來,共同開創(chuàng)我國生命科學(xué)研究的美好未來。
1.什么是生物信息學(xué)?
, http://www.www.srpcoatings.com
生物信息學(xué)是一門新興的交叉學(xué)科。很多人會認為,生物信息學(xué)既涉及生物又涉及物理,一定是一個內(nèi)容十分廣泛的學(xué)科領(lǐng)域。其實它的內(nèi)涵十分具體,范圍非常廣泛。生物信息學(xué)是伴隨著基因組研究而產(chǎn)生的,因此它的研究內(nèi)容就緊隨著基因組研究而發(fā)展。
廣義地說,生物信息學(xué)從事對基因組研究相關(guān)生物信息的獲取、加工、儲存、分配、分析和解釋。這一定義包括了兩層含義,一是對海量數(shù)據(jù)的收集、整理與服務(wù),也就是管好這些數(shù)據(jù);另一個是從中發(fā)現(xiàn)新的規(guī)律,也就是用好這些數(shù)據(jù)。
具體來講,生物信息學(xué)是把基因組DNA序列信息分析作為源頭,找到基因組序列中代表蛋白質(zhì)和RNA基因的編碼區(qū);同時,闡明基因組中大量存在的非編碼區(qū)的信息實質(zhì),破譯隱藏在DNA序列中的遺傳語言規(guī)律;在此基礎(chǔ)上,歸納、整理與基因組遺傳信息釋放及其調(diào)控相關(guān)的轉(zhuǎn)錄譜和蛋白質(zhì)譜的數(shù)據(jù),從而認識代謝、發(fā)育、分化、進化的規(guī)律。
生物信息學(xué)還利用基因組中編碼區(qū)的信息進行蛋白質(zhì)空間結(jié)構(gòu)和蛋白質(zhì)功能的預(yù)測,并將此類信息與生物體和生命過程的生理生化信息相結(jié)合,闡明其分子機理,最終進行蛋白質(zhì),核酸的分子設(shè)計、藥物設(shè)計和個體化醫(yī)療保健設(shè)計。
, http://www.www.srpcoatings.com
2.為什么基因組研究需要依賴生物信息學(xué)?
海量生物數(shù)據(jù)的產(chǎn)生和基因組數(shù)據(jù)的復(fù)雜性決定了基因組研究必須依賴生物信息學(xué)。
首先,伴隨著基因組研究,相關(guān)信息出現(xiàn)了爆炸性增長,迫切需要對海量生物信息進行處理。自1995年科學(xué)家破譯了全長為180萬核苷酸的嗜流感桿菌基因以為,到目前已有近百個微生物和若干真核生物如酵母、果蠅等的完整基因組完成測序。人類基因組工作草圖的公布,也意味著基因組的研究將全面進入信息提取和數(shù)據(jù)分析的嶄新階段。據(jù)國際數(shù)據(jù)庫的統(tǒng)計,1999年12月DNA堿基數(shù)目為30億,2001年已超過140億,大約每14個月翻一番。同時,電子計算機芯片對于數(shù)字處理能力的增長也相當(dāng)于每18個月翻一番。因此,計算機能夠有效地管理和運行海量數(shù)據(jù)。
但是,更為本質(zhì)的原因是基因組數(shù)據(jù)的復(fù)雜性。所謂某種生物的基因組就是指該生物所有遺傳物質(zhì)的總和。生物的遺傳物質(zhì)是一類稱為脫氧核糖核酸(DNA)的生物大分子,它是由4種核苷酸串接起來組成的,通常用字符A、T、G、C代表。通俗地說,生物的遺傳密碼就是這4個字符連接起業(yè)的線狀長鏈。這種鏈往往很長,比如,人的遺傳密碼就含有32億個字符,將它們堆起來就構(gòu)成了一部100多萬頁,每頁有3000字符的“天書”。這本天書包含了人體的結(jié)構(gòu)和功能以及生命活動過程的大量信息,卻僅僅由4個字符組成,既無詞法,又無句法,還沒有標(biāo)點符號,看起來每一頁都是相似的。如何讀懂它是個極大的難題;蚪M研究最終是要把生物學(xué)問題轉(zhuǎn)化成對數(shù)字符號的處理問題。要解決這樣的問題就必須發(fā)展新的分析理論、方法、技術(shù)、工具,就必須依賴計算機的信息處理。
, http://www.www.srpcoatings.com
3.從事生物信息學(xué)研究應(yīng)該具備哪些方面的科學(xué)基礎(chǔ)
從事生物信息學(xué)研究應(yīng)具備多方面的科學(xué)基礎(chǔ)。首先,它需要一定的計算能力,包括相應(yīng)的軟、硬件設(shè)備。要有各種數(shù)據(jù)庫或者能與國際、國內(nèi)的數(shù)據(jù)庫系統(tǒng)進行有效的交流。要有發(fā)達、穩(wěn)定的互聯(lián)網(wǎng)絡(luò)系統(tǒng);同時,生物信息學(xué)需要強有力的創(chuàng)新算法和軟件。沒有算法創(chuàng)新,生物信息學(xué)就無法獲得持續(xù)的發(fā)展。最后,它要與實驗科學(xué),特別是與自動化的大規(guī)模高通量的生物學(xué)研究方法與平臺技術(shù)建立廣泛、緊密的聯(lián)系。這些技術(shù),既是產(chǎn)生生物信息數(shù)據(jù)的主要方法,又是驗證生物信息研究結(jié)果的關(guān)鍵手段。因此,從事生物信息學(xué)研究的人員也必須具備多學(xué)科交叉的知識。
4.生物信息學(xué)要解決的基因組研究相關(guān)問題主要有哪些
總的來說,需要用生物信息學(xué)來解決的與基因組研究相關(guān)的問題包括三個方面,它們是基因組信息學(xué)、蛋白質(zhì)的結(jié)構(gòu)計算與模擬和以基因組為基礎(chǔ)的藥物設(shè)計。這三者緊密地圍繞著遺傳信息傳遞的中心法則,因而必須有機地連接在一起。
, 百拇醫(yī)藥
基因組信息學(xué)是生物信息學(xué)的第一個組成部分,也是最基礎(chǔ)的部分。它的核心內(nèi)容是破譯遺傳密碼。我們知道,人的遺傳密碼有32億個堿基,而現(xiàn)在的DNA測序儀每個反應(yīng)只能讀取幾百到上千個堿基。也就是說,要得到人的全部遺傳密碼首先要把人的基因組打碎,測完一個個小段的序列后再把它們重新拼接起來。這個龐大的數(shù)據(jù)處理過程單純依靠生物學(xué)家很難完成,必須有計算機學(xué)家的參與,完成從分段測序到恢復(fù)基因組的本來面目的整個過程就是基因組信息學(xué)。
在破譯了人的遺傳密碼后我們發(fā)現(xiàn),其中有的部分是基因,有的部分并非基因。基因部分通過編碼變成蛋白質(zhì)并最終構(gòu)造人體和完成人體的功能。那么,不同的基因所表達的蛋白質(zhì)將各完成什么功能?基因和蛋白質(zhì)之間到底有什么關(guān)聯(lián)?要弄清楚這個由一維的遺傳密碼,轉(zhuǎn)變成三維的蛋白質(zhì)功能的過程,我們必須解決第二個核心問題:蛋白質(zhì)空間結(jié)構(gòu)的模擬和預(yù)測。
進一步來說,當(dāng)我們發(fā)現(xiàn)有些蛋白可能對人體有害,則需要對這部分進行干預(yù),也就是進行關(guān)聯(lián)的藥物設(shè)計,這一藥物設(shè)計是在了解功能基因和關(guān)鍵性部位的基礎(chǔ)上進行的,是以基因組的知識為基礎(chǔ)的藥物設(shè)計。這就是生物信息學(xué)需要解決的第三個問題。, 百拇醫(yī)藥(陸靜)
百拇醫(yī)藥網(wǎng) http://www.www.srpcoatings.com/Html/Dir0/19/00/58.htm