今天在Nature Biotechnology的網頁中搜尋自己的名字
出現了它:
http://www.nature.com/nbt/journal/vaop/ncurrent/full/nbt.2486.html
由於最近正在寫一篇與這個主題相關的論文
我需要認真閱讀它
想藉由讀它的過程,順便邊向大家介紹這個研究主題
或許能讓我的閱讀更有意義些,也更有趣些!!
首先,這篇論文探討的是transcription factor sequence specificitiy
通訊作者是:
Timothy R Hughes
希望有一天我能有機會和Prof. Hughes見面,基於個人對他的好奇心,就這篇論文而言,其實Tim大可不必將DREAM5的參與者都列為共同作者的,但他卻這麼做了,這個事件在我心中埋入一個種子,目前正在萌芽,我想有一天我可能會承認它徹底地改變了我。
這篇論文首先探討從in vitro protein binding microarray (PBM) data建立TF binding specificity model的可能性,一共比較了26種方法;接著進一步瞭解這些model與in vivo實驗之一致性。
"Ideally, sequence specificity models should predict the relative affinity (or dissociation constant) for different individual sequences and/or the probability of occupancy at any position in the genome."
Nowadays, we teach computers to learn skills to achieve some tasks. Computers classify news, filter junk emails, play games, compose music, and even monitor terrorism. In c4Lab, we teach computers biology. Even better, computers learn biology by itself. We call the knowledge organized by computers prediction models, and the information delivered by computers predictions. As the prediction accuracy increases, computational tools provide us with more and more facts about living organisms.
2013年1月30日 星期三
2013年1月14日 星期一
Computing for biologists 到底有多難?
最近在總圖遊蕩時,看到這本書:
Practical computing for biologists
by HADDOCK and DUNN
想知道它是否對學生的學習有幫助,因此借回來看看!
以下是個人閱讀建議:
Chapter 1: getting set up
本章節首先談論一個非常重要的問題:如何處理純文字檔案 (極重要!!)
純文字是DOS時代很常見的檔案格式,因此,在那個純樸的年代,接觸過電腦的人或許都知道該怎麼開啟純文字檔進行編輯,但自從式窗介面與Office普及之後,Word與Excel成為編輯檔案與整理資料的主流,很多我們看起來不算花俏的排版卻早已嵌入了一堆使用者看不見的控制碼。就視覺化的效果而言,這些字型與字體大小或行距等排版效果的作用很大,但對資料處理者來說,最重要的資訊其實是資料本身,因此,大部分資料分析工具所訂定的檔案交換格式,皆是以純文字的方式呈現。舉例來說,生物序列所使用的 FASTA format,即是我們在交換序列檔案的時後的首選,幾乎所有的序列分析工具都接受FASTA檔,唯有我們遵守FASTA格式的規範,別人才能正確解讀我們所提供的訊息。
既然純文字檔如此地重要,選擇一個好用的純文字編輯軟體就能事半功倍,本書的第一章中有介紹一些常用軟體,因此,沒有用過純文字編輯器的同學們一定要參考一下這個章節的啦!!
除了提及純文字檔的重要性之外,作者還提醒我們另一個地雷,那就是所謂的換行符號(return),由於Windows系統和Linux系統所使用的換行符號不一樣,如果沒有小心處理,常常會造成程式無法正確解讀資料或無法正常執行。
基於上述兩個重點,因此,在此非常推薦Chapter 1的內容!!
Practical computing for biologists
by HADDOCK and DUNN
想知道它是否對學生的學習有幫助,因此借回來看看!
以下是個人閱讀建議:
Chapter 1: getting set up
本章節首先談論一個非常重要的問題:如何處理純文字檔案 (極重要!!)
純文字是DOS時代很常見的檔案格式,因此,在那個純樸的年代,接觸過電腦的人或許都知道該怎麼開啟純文字檔進行編輯,但自從式窗介面與Office普及之後,Word與Excel成為編輯檔案與整理資料的主流,很多我們看起來不算花俏的排版卻早已嵌入了一堆使用者看不見的控制碼。就視覺化的效果而言,這些字型與字體大小或行距等排版效果的作用很大,但對資料處理者來說,最重要的資訊其實是資料本身,因此,大部分資料分析工具所訂定的檔案交換格式,皆是以純文字的方式呈現。舉例來說,生物序列所使用的 FASTA format,即是我們在交換序列檔案的時後的首選,幾乎所有的序列分析工具都接受FASTA檔,唯有我們遵守FASTA格式的規範,別人才能正確解讀我們所提供的訊息。
既然純文字檔如此地重要,選擇一個好用的純文字編輯軟體就能事半功倍,本書的第一章中有介紹一些常用軟體,因此,沒有用過純文字編輯器的同學們一定要參考一下這個章節的啦!!
除了提及純文字檔的重要性之外,作者還提醒我們另一個地雷,那就是所謂的換行符號(return),由於Windows系統和Linux系統所使用的換行符號不一樣,如果沒有小心處理,常常會造成程式無法正確解讀資料或無法正常執行。
基於上述兩個重點,因此,在此非常推薦Chapter 1的內容!!
2013年1月10日 星期四
直接跳到NGS吧!
Next-generation sequencing (NGS) 像大浪般捲來
尚不知會帶我們漂向何處
但可以確定的是,我們都將在這波浪潮中,適者生存
先推薦幾本你可能會需要的書吧:
Practical Computing for Biologists
by Steven Haddock, Casey Dunn
Building Bioinformatics Solutions: with Perl, R and MySQL
by Conrad Bessant, Ian Shadforth, Darren Oakley
Bioinformatics for High Throughput Sequencing
by Naiara Rodriguez-Ezpeleta, Michael Hackenberg, Ana M. Aransay
台大圖書館有電子書
尚不知會帶我們漂向何處
但可以確定的是,我們都將在這波浪潮中,適者生存
先推薦幾本你可能會需要的書吧:
Practical Computing for Biologists
by Steven Haddock, Casey Dunn
Building Bioinformatics Solutions: with Perl, R and MySQL
by Conrad Bessant, Ian Shadforth, Darren Oakley
Bioinformatics for High Throughput Sequencing
by Naiara Rodriguez-Ezpeleta, Michael Hackenberg, Ana M. Aransay
台大圖書館有電子書
2013年1月9日 星期三
好ㄟ!! Clustering!!
我對Clustering有著一般人無法想像的情感
在博一(1999年)的時候,老師給我的第一個研究主題就是:開發分群演算法
當時,身邊幾乎沒有人知道什麼是cluster analysis, clustering
我奉命做一次完整的survey
當時,也沒有資料探勘這樣的課程,更別說是教科書
(Ian H. Witten 和 Eibe Frank 寫的Data Mining 幾乎可以說是第一本資料探勘的教科書,第一版的出版日期是1999 十月,現在已經有第三版了)
於是我走進圖書館,找到大約6~7本與cluster analysis相關的書籍 (有一些還得去數圖才借的到)
一口氣把這些有限的資源都搬回實驗室,開始啃讀
老實說,蠻懷念這樣的年代,這樣的研究步調
現在不一樣了,電子書當道,坐在家裡的電腦前就能享用
幸或不幸?
Cluster Analysis
by Brian S. Everitt et al.
台大圖書館有電子書
雖然有點久遠,但如果有興趣的話,仍然可以參考一下這部經典之作:
Data clustering: a review
by A. K. Jain et al.
在博一(1999年)的時候,老師給我的第一個研究主題就是:開發分群演算法
當時,身邊幾乎沒有人知道什麼是cluster analysis, clustering
我奉命做一次完整的survey
當時,也沒有資料探勘這樣的課程,更別說是教科書
(Ian H. Witten 和 Eibe Frank 寫的Data Mining 幾乎可以說是第一本資料探勘的教科書,第一版的出版日期是1999 十月,現在已經有第三版了)
於是我走進圖書館,找到大約6~7本與cluster analysis相關的書籍 (有一些還得去數圖才借的到)
一口氣把這些有限的資源都搬回實驗室,開始啃讀
老實說,蠻懷念這樣的年代,這樣的研究步調
現在不一樣了,電子書當道,坐在家裡的電腦前就能享用
幸或不幸?
Cluster Analysis
by Brian S. Everitt et al.
台大圖書館有電子書
雖然有點久遠,但如果有興趣的話,仍然可以參考一下這部經典之作:
Data clustering: a review
by A. K. Jain et al.
2013年1月4日 星期五
看看別人在做什麼?
有時候,會看到和c4Lab興趣很相似的實驗室,有時候,會看到自己很想成為的那樣的人 ...
- Walter L. Ruzzo, University of Washington
- Noble Research Lab, University of Washington
- Bulyk Lab, Harvard Medical School
- Howard Chang's lab, Stanford University
- Hamid Bolouri, Fred Hutchinson Cancer Research Center
- Jeffrey Skolnick, Director, Center for the Study of Systems Biology; GRA Eminent Scholar
- John L. Rinn, Department of Stem Cell and Regenerative Biololgy, Broad Institute of MIT and Harvard
- Howard Chang, Howard Hughes Medical Institute, School of Medicine at Stanford University
- Sridhar Hannenhalli, Center for Bioinformatics and Computational Biology, University of Maryland
2013年1月3日 星期四
R與生物資訊
要往下走之前,得先確定你已經會使用R的一些基本功能,如:
有了這些基礎後,才能順利進入R在生物資訊上的應用。如果還沒有準備好,或許你可以先看一下:如何開始,然後再繼續往下。
可以參考的書籍如:
R Programming for Bioinformatics
by Robert Gentleman
台大圖書館有電子書
(檢視目錄後,發現其中與生物資訊直接相關的內容並不多)
Bioinformatics and Computational Biology Solutions Using R and Bioconductor
edited by Robert Gentleman, et al.
台大圖書館有電子書
(從目錄看來,有不少蠻實用的參考資訊)
Analysis of Phylogenetics and Evolution with R
by Emmanuel Paradis
台大圖書館有電子書
以上為不負責任的推薦(我還沒機會認真看過)
我常使用的分析方法:
- 讀檔:e.g. read.table, ...
- 安裝套件:e.g. install.packages, library, ...
- 產生序列:e.g. seq, rep, ...
- 畫圖:e.g. plot, ...
- 對物件的基本操作:e.g. class, names, dim, length, ...
- vector
- matrix
- list
- data.frame
有了這些基礎後,才能順利進入R在生物資訊上的應用。如果還沒有準備好,或許你可以先看一下:如何開始,然後再繼續往下。
可以參考的書籍如:
R Programming for Bioinformatics
by Robert Gentleman
台大圖書館有電子書
(檢視目錄後,發現其中與生物資訊直接相關的內容並不多)
Bioinformatics and Computational Biology Solutions Using R and Bioconductor
edited by Robert Gentleman, et al.
台大圖書館有電子書
(從目錄看來,有不少蠻實用的參考資訊)
Analysis of Phylogenetics and Evolution with R
by Emmanuel Paradis
台大圖書館有電子書
以上為不負責任的推薦(我還沒機會認真看過)
我常使用的分析方法:
- clustering: hcluster, Mclust, kmeans
- classification: knn.cv, knn
- feature selection: t.test
- visualization: pheatmap
2013年1月2日 星期三
如何開始?
對學習生物資訊的同學們來說,R是一個最容易上手的分析工具。
R (The R Project for Statistical Computing) 是一個免費的分析軟體,其中包含大部分現有統計、資料探勘與機器學習領域中常用的方法,使用者除了直接呼叫現有功能涵式外,也能自己撰寫程式完成客製化的分析流程。
想學好R的同學,我特別推薦從這本書開始:
R (The R Project for Statistical Computing) 是一個免費的分析軟體,其中包含大部分現有統計、資料探勘與機器學習領域中常用的方法,使用者除了直接呼叫現有功能涵式外,也能自己撰寫程式完成客製化的分析流程。
想學好R的同學,我特別推薦從這本書開始:
by Norman Matloff
以下為不負責任的推薦
Getting started with R: An introduction for biologists
by Andrew P. Beckerman and Owen L. Petchey
台大圖書館有電子書
以下為不負責任的推薦
Getting started with R: An introduction for biologists
by Andrew P. Beckerman and Owen L. Petchey
台大圖書館有電子書
訂閱:
文章 (Atom)