Nowadays, we teach computers to learn skills to achieve some tasks. Computers classify news, filter junk emails, play games, compose music, and even monitor terrorism. In c4Lab, we teach computers biology. Even better, computers learn biology by itself. We call the knowledge organized by computers prediction models, and the information delivered by computers predictions. As the prediction accuracy increases, computational tools provide us with more and more facts about living organisms.
2014年2月5日 星期三
c4Lab (2014) research map
近日花了一些工夫重新整理了c4Lab的研究版圖,c4Lab的研究核心問題是基因調控(gene regulation),目前所使用的生物系統包括四個模式生物(人類、小鼠、果蠅、酵母菌)與五個非模式生物(東方果實蠅、瓜實蠅、小菜蛾、沉香、綠豆)。
c4Lab是一個開發計算生物學(computational biology)研究方法的實驗室,過去十年的研究主力大多放在蛋白質序列分析(protein)與生物分子交互作用(interaction)的預測上,其中有一大部分的研究工作都致力於預測蛋白質與雙股DNA之間的結合(binding)。在這三個研究問題上,c4Lab所累積的核心技術包括:motif discovery、functional site prediction、classification、energy functions等等。
在過去十年之中,微陣列晶片(microarray)技術是大規模取得基因表現(gene expression)資訊最主要的工具之一,模式生物因為有完整的基因體資訊,幾乎都有商用的基因晶片可以使用,有效地被利用來建立許多重要的基因調控網路(network)。在這方面c4Lab所累積的核心技術包括有:clustering、differentially expressed gene (DEG) discovery、association analysis等等。
生物體常利用少數調控因子(regulator)啟動或抑制一群功能相近的基因,透過尋找共表現(co-expression)的基因群,並利用序列特徵探勘(sequential pattern mining)尋找這些基因啟動子上游的共有序列特徵(motif),是建立基因調控網路有效的方法之一。除此之外,調控因子之間的交互作用(P-P/P-DNA/P-RNA interaction)也是高等生物中常見的調控機制,也因為如此,利用序列資訊預測各種調控因子之間的交互作用,也是c4Lab的研究重點之一。
過去五年間,由於NGS (next generation sequencing)技術成熟,大幅降低DNA定序成本,非模式生物開始享有過去只有模式生物才能擁有的研究素材,包括基因體(genome)與轉錄體(transcriptome)等序列資訊。其中,轉錄體定序(RNA-sequencing)提供非模式生物一條研究捷徑,它避開了成本相對來說仍比較高的基因體定序(DNA-sequencing)過程,直接取得轉錄序列(transcript)資訊與進行轉錄體定量(quantification)的動作,也就是說,轉錄體定序(RNA-seq)可跳過基因體定序與微陣列晶片設計的繁瑣步驟,是現行最被廣泛用來取得各種實驗條件下基因表現的研究工具之一。
也因為NGS的關係,c4Lab開始關注短序列組裝(assembly)與回貼(mapping/alignment)的計算工具,序列組裝與回貼的品質,將大幅影響蛋白質序列(protein)與其結合對象(binding/interaction)預測的正確性,也關鍵性地影響轉錄體定量(quantification)的精準度。
在研究基因調控網路時,因DNA變異產生的疾病(disease),或是因外在環境變化(stimulus)對基因調控所造成的影響,也一直是生物醫學相關研究關注的焦點,c4Lab近幾年間除了研究多種人類疾病中特有的基因調控網路外,也致力於研究基因的改變如何形成昆蟲的抗藥性與植物的抗蟲性。序列變異(sequence variation)可能改變調控因子(regulator)的特性,進而造成異常的基因表現(differential expression)。
未來,c4Lab將持續上述分析方法的開發,除了設計資料庫平台儲存實驗資料並處理之間的轉換(data flow)之外,也將致力於開發能有效將生物技術(technology)所產生的初始資料(raw data)快速轉換成有用的知識庫(knowledgebase)的研究平台,旨於提供生物學家建立基因調控網路的快捷之道。
訂閱:
張貼留言 (Atom)
沒有留言:
張貼留言