c4Lab 的計算與系統生物學奇幻之旅: 1月 2013

2013年1月30日星期三

A new beginning

今天在Nature Biotechnology的網頁中搜尋自己的名字
出現了它：
http://www.nature.com/nbt/journal/vaop/ncurrent/full/nbt.2486.html

由於最近正在寫一篇與這個主題相關的論文
我需要認真閱讀它
想藉由讀它的過程，順便邊向大家介紹這個研究主題
或許能讓我的閱讀更有意義些，也更有趣些!!

首先，這篇論文探討的是transcription factor sequence specificitiy
通訊作者是：
Timothy R Hughes
希望有一天我能有機會和Prof. Hughes見面，基於個人對他的好奇心，就這篇論文而言，其實Tim大可不必將DREAM5的參與者都列為共同作者的，但他卻這麼做了，這個事件在我心中埋入一個種子，目前正在萌芽，我想有一天我可能會承認它徹底地改變了我。

這篇論文首先探討從in vitro protein binding microarray (PBM) data建立TF binding specificity model的可能性，一共比較了26種方法；接著進一步瞭解這些model與in vivo實驗之一致性。

"Ideally, sequence specificity models should predict the relative affinity (or dissociation constant) for different individual sequences and/or the probability of occupancy at any position in the genome."

2013年1月14日星期一

Computing for biologists 到底有多難?

最近在總圖遊蕩時，看到這本書：

Practical computing for biologists
by HADDOCK and DUNN

想知道它是否對學生的學習有幫助，因此借回來看看!

以下是個人閱讀建議：

Chapter 1: getting set up

本章節首先談論一個非常重要的問題：如何處理純文字檔案 (極重要!!)

純文字是DOS時代很常見的檔案格式，因此，在那個純樸的年代，接觸過電腦的人或許都知道該怎麼開啟純文字檔進行編輯，但自從式窗介面與Office普及之後，Word與Excel成為編輯檔案與整理資料的主流，很多我們看起來不算花俏的排版卻早已嵌入了一堆使用者看不見的控制碼。就視覺化的效果而言，這些字型與字體大小或行距等排版效果的作用很大，但對資料處理者來說，最重要的資訊其實是資料本身，因此，大部分資料分析工具所訂定的檔案交換格式，皆是以純文字的方式呈現。舉例來說，生物序列所使用的 FASTA format，即是我們在交換序列檔案的時後的首選，幾乎所有的序列分析工具都接受FASTA檔，唯有我們遵守FASTA格式的規範，別人才能正確解讀我們所提供的訊息。

既然純文字檔如此地重要，選擇一個好用的純文字編輯軟體就能事半功倍，本書的第一章中有介紹一些常用軟體，因此，沒有用過純文字編輯器的同學們一定要參考一下這個章節的啦!!

除了提及純文字檔的重要性之外，作者還提醒我們另一個地雷，那就是所謂的換行符號(return)，由於Windows系統和Linux系統所使用的換行符號不一樣，如果沒有小心處理，常常會造成程式無法正確解讀資料或無法正常執行。

基於上述兩個重點，因此，在此非常推薦Chapter 1的內容!!

2013年1月10日星期四

直接跳到NGS吧!

Next-generation sequencing (NGS) 像大浪般捲來

尚不知會帶我們漂向何處

但可以確定的是，我們都將在這波浪潮中，適者生存

先推薦幾本你可能會需要的書吧：

Practical Computing for Biologists
by Steven Haddock, Casey Dunn

Building Bioinformatics Solutions: with Perl, R and MySQL
by Conrad Bessant, Ian Shadforth, Darren Oakley

Bioinformatics for High Throughput Sequencing
by Naiara Rodriguez-Ezpeleta, Michael Hackenberg, Ana M. Aransay
台大圖書館有電子書

2013年1月9日星期三

好ㄟ!! Clustering!!

我對Clustering有著一般人無法想像的情感

在博一(1999年)的時候，老師給我的第一個研究主題就是：開發分群演算法

當時，身邊幾乎沒有人知道什麼是cluster analysis, clustering

我奉命做一次完整的survey

當時，也沒有資料探勘這樣的課程，更別說是教科書
(Ian H. Witten 和 Eibe Frank 寫的Data Mining 幾乎可以說是第一本資料探勘的教科書，第一版的出版日期是1999 十月，現在已經有第三版了)

於是我走進圖書館，找到大約6~7本與cluster analysis相關的書籍 (有一些還得去數圖才借的到)

一口氣把這些有限的資源都搬回實驗室，開始啃讀

老實說，蠻懷念這樣的年代，這樣的研究步調

現在不一樣了，電子書當道，坐在家裡的電腦前就能享用

幸或不幸?

Cluster Analysis
by Brian S. Everitt et al.
台大圖書館有電子書

雖然有點久遠，但如果有興趣的話，仍然可以參考一下這部經典之作：
Data clustering: a review
by A. K. Jain et al.

2013年1月4日星期五

原來是這樣，為什麼我以前不知道呢?

老實說，知識的累積需要時間，除非你有超能力 ...

Chargaff's rules
Ohno's law
Robert Palmer Beasley (醫周刊：1984年後出生的台灣人請向畢思理博士說謝謝)

看看別人在做什麼?

有時候，會看到和c4Lab興趣很相似的實驗室，有時候，會看到自己很想成為的那樣的人 ...

Walter L. Ruzzo, University of Washington
Noble Research Lab, University of Washington
Bulyk Lab, Harvard Medical School
Howard Chang's lab, Stanford University
Hamid Bolouri, Fred Hutchinson Cancer Research Center
Jeffrey Skolnick, Director, Center for the Study of Systems Biology; GRA Eminent Scholar
John L. Rinn, Department of Stem Cell and Regenerative Biololgy, Broad Institute of MIT and Harvard
Howard Chang, Howard Hughes Medical Institute, School of Medicine at Stanford University
Sridhar Hannenhalli, Center for Bioinformatics and Computational Biology, University of Maryland

2013年1月3日星期四

R與生物資訊

要往下走之前，得先確定你已經會使用R的一些基本功能，如：

讀檔：e.g. read.table, ...
安裝套件：e.g. install.packages, library, ...
產生序列：e.g. seq, rep, ...
畫圖：e.g. plot, ...
對物件的基本操作：e.g. class, names, dim, length, ...

並瞭解R對資料處理的基本結構，如：

vector
matrix
list
data.frame

也知道如何利用loop (e.g. for)處理批次作業。更重要的是，你應該要知道如何利用help去尋找或瞭解新功能的使用方法。

有了這些基礎後，才能順利進入R在生物資訊上的應用。如果還沒有準備好，或許你可以先看一下：如何開始，然後再繼續往下。

可以參考的書籍如：

R Programming for Bioinformatics
by Robert Gentleman
台大圖書館有電子書
(檢視目錄後，發現其中與生物資訊直接相關的內容並不多)

Bioinformatics and Computational Biology Solutions Using R and Bioconductor
edited by Robert Gentleman, et al.
台大圖書館有電子書
(從目錄看來，有不少蠻實用的參考資訊)

Analysis of Phylogenetics and Evolution with R
by Emmanuel Paradis
台大圖書館有電子書

以上為不負責任的推薦(我還沒機會認真看過)

我常使用的分析方法：

clustering: hcluster, Mclust, kmeans
classification: knn.cv, knn
feature selection: t.test
visualization: pheatmap

話說回來，如果你還不太知道什麼是生物資訊，那麼這裡分享的書籍資訊可能對你幫助不大，先去瞭解一下生物資訊是什麼吧!!

2013年1月2日星期三

如何開始?

對學習生物資訊的同學們來說，R是一個最容易上手的分析工具。

R (The R Project for Statistical Computing) 是一個免費的分析軟體，其中包含大部分現有統計、資料探勘與機器學習領域中常用的方法，使用者除了直接呼叫現有功能涵式外，也能自己撰寫程式完成客製化的分析流程。

想學好R的同學，我特別推薦從這本書開始：

The Art of R Programming: A Tour of Statistical Software Design

by Norman Matloff

以下為不負責任的推薦

Getting started with R: An introduction for biologists
by Andrew P. Beckerman and Owen L. Petchey
台大圖書館有電子書

2013年1月30日 星期三

2013年1月14日 星期一

2013年1月10日 星期四

2013年1月9日 星期三

2013年1月4日 星期五

2013年1月3日 星期四

2013年1月2日 星期三