單細胞生物學(xué)研究一直是當今的熱門話題,而且-前沿的領(lǐng)域就是單細胞RNA測序了(scRNA-seq)。常規(guī)RNA測序方法一次性能夠?qū)Τ汕先f個細胞進行加工測序,并給出平均差異,但并沒有兩個細胞是*一樣的,而新型的scRNA-seq方法就能夠揭示出制造每一種特異性的微小改變,甚至這種技術(shù)還能夠闡明完整的新的細胞類型。
比如,當來自博德研究所的研究人員Aviv Regev等人利用scRNA-seq對2400個免疫系統(tǒng)細胞進行探查時,他們無意中發(fā)現(xiàn)了一些具有潛在T細胞激活活性的樹突狀細胞,Regev表示,一種刺激這些細胞的疫苗或能夠潛在增強機體免疫系統(tǒng)并且保護機體抵御癌癥。當然了,這些發(fā)現(xiàn)都是來之不易的,相比大量細胞而言,研究人員很難對單個細胞進行操作,因為每一種細胞僅會產(chǎn)生少量的RNA,對于研究者而言沒有犯錯的余地;另外一個問題就是如何對大量的數(shù)據(jù)進行分析,重要的是,研究者使用的工具可能是并不直觀的。
一般而言,RNA測序數(shù)據(jù)能夠被以指令的形式輸入到Unix操作系統(tǒng)中進行分析,數(shù)據(jù)文件會從一個軟件包傳輸?shù)搅硗庖粋€,在這個過程中,每個工具都要對每一個步驟進行處理,比如基因組比對、質(zhì)量控制、識別突變體等等。這個過程是非常復(fù)雜的,但對于大量的RNA-seq而言,研究人員可以利用算法對每一個步驟進行處理,而且他們也非常清楚每個過程的運行狀況。
如今網(wǎng)上有很多在線資源和工具能夠簡化scRNA-seq數(shù)據(jù)分析的過程,其中名為GitHub的平臺(Awesome Single Cell)就整合了70多種工具和資源,而且相關(guān)的工具和資源能夠覆蓋分析過程的每一步。
定制技術(shù)
在2016年發(fā)表的一篇研究報告中,來自夏威夷大學(xué)的生物信息學(xué)家Lana Garmire就列出了他們進行scRNA-seq數(shù)據(jù)分析的基本步驟,盡管每一個實驗都具有特殊性,但很多分析流程都是按照相同的步驟進行過濾以及對數(shù)據(jù)進行排序的,同時還能夠找出哪些轉(zhuǎn)錄物會被表達并且能夠糾正擴增效率的差異性,隨后研究人員就能夠進行一個或多個二級分析來檢測亞群和其它功能。
研究人員所面臨的另外一項挑戰(zhàn)就是規(guī)模問題,經(jīng)典的RNA-seq實驗往往包含了少量樣本,但scRNA-seq研究中則含有成千上萬個樣本,能夠處理少量樣本的工具當遭遇十倍甚至百倍的樣本時,其效率通常就會降低。比如一種-常見的單細胞分析類型就是維數(shù)約減(dimensionality reduction),這一過程就能夠簡化數(shù)據(jù)集來促進對相同細胞的識別;桑格學(xué)院研究所的計算機生物學(xué)家Martin Hemberg認為,scRNA-seq數(shù)據(jù)能夠把每一個細胞描繪成為“具有20000個基因表達值的一覽表”。而諸如主成分分析法(PCA)和t-分布鄰域嵌入算法(t-SNE algorithm)等維數(shù)約減算法則能夠有效地將這些形狀投射到兩個或三個維度,從而就能夠使得相似的細胞聚集在一起。另外一種流行的應(yīng)用就是偽時分析,2014年研究人員就開發(fā)了一種名為Monocle的工具,該工具能夠利用機器學(xué)習(xí)的方法來對scRNA-seq實驗性的數(shù)據(jù)進行推斷。
當然,諸如Pagoda等其它工具還能夠解決亞群特征檢測和空間位置確定等信息,其能夠利用組織中基因表達的分布數(shù)據(jù)來確定每一個組織中的轉(zhuǎn)錄組學(xué)表達情況;來自紐約基因組研究中心的研究者Rahul Satija就開發(fā)了一種名為Seurat的工具,該工具能夠利用這些數(shù)據(jù)將細胞定位在三維空間中的點。
如今,研究人員已經(jīng)開發(fā)出了一些即用型的檢測“流水線”,當然還有一些端對端的圖像工具,包括一些商業(yè)性的SeqGeq包以及一些成對兒的網(wǎng)絡(luò)開放性工具,比如Granatum和ASAP(自動的單細胞分析流水線,the Automated Single-cell Analysis Pipeline);Granatum和ASAP能夠利用網(wǎng)-絡(luò)瀏-覽器提供相對簡單、交互式的工作站來幫助科學(xué)家們以圖形化的模式來深度分析數(shù)據(jù);目前這兩個工具能夠更好地幫助科學(xué)家們進行日常的測序工作。
使用工具時需要警惕
這些工具并不是在每一種情況下都是完美的,比如一種能夠善于精-確鑒別細胞類型的“流水線”或許在進行偽時間分析(pseudo-time analysis)上并不擅長;此外,一些適當?shù)姆椒ɑ蛟S還具有一定的數(shù)據(jù)依賴性。
對于初學(xué)者而言,嚴謹是非常必要的,生物信息學(xué)工具幾乎總是能夠給出一個答案,那么問題是,這些答案意味著什么呢?來自加利福尼亞大學(xué)的研究者Sandrine Dudoit的建議就是進行一些探索性的分析,同時對我們選擇的算法進行一些假設(shè)性的研究。有些分析性的任務(wù)仍然極-具挑戰(zhàn)性,包括將來自實驗條件下或有機體中的數(shù)據(jù)同來自不同組學(xué)整合的數(shù)據(jù)進行對比。
目前研究人員能夠使用足夠多的工具來進行研究,而那些對其感興趣的科學(xué)家也在不斷鉆研;每一種新型工具都能夠揭示生物學(xué)的另一面,因此只要時刻關(guān)注科學(xué),我們就能夠做出明確的選擇。