在线不卡日本ⅴ一区v二区_精品一区二区中文字幕_天堂v在线视频_亚洲五月天婷婷中文网站

  • <menu id="lky3g"></menu>
  • <style id="lky3g"></style>
    <pre id="lky3g"><tt id="lky3g"></tt></pre>

    抄代碼的時候總是遇到原始數據應該長什么樣的問題?

    常常遇到有人問起看到分享的教程導入數據的方式是data(dune)等直接調用系統(tǒng)的數據,而自己怎么讀入自己的數據呢?

    對于初學者來講,這確實是個問題。如何準備數據、拿到正確格式的數據并導入后續(xù)的代碼進行分析,是學習和應用過程中的第一個攔路虎。

    為什么教程會習慣使用內置數據?

  • 簡單省事、便攜可重復;這是內置數據的優(yōu)勢之一;
  • 內置數據模式清晰,通??梢垣@得較好的結果;這是內置數據的優(yōu)勢之二;
  • 別人用這個,我也用這個,這是一個偷懶的做法。
  • 每個人常識不同。作者可能覺得這個太簡單而忽略了初學者的需求。(生信學習學的是什么?常識?。?/li>

    但內置數據的頻繁使用是導致初學者學習這個教程時經常提出上面這個問題的原因。

    我不太贊成教程里面用使用內置數據,原因是:

  • 對不會讀入數據的人不友好;
  • 不利于探索這篇教程用于實際數據時可能會遇到的問題。示例數據無腦運行,自己的數據無顯著差異
  • 如果要使用內置數據,也需要額外提供一些信息

  • 詳細描述內置數據的格式和生物含義,及與真實數據的對應,可以參考畫一個帶統(tǒng)計檢驗的PCoA分析結果
  • 提供真實數據的格式示例和讀入真實數據的代碼,彌補這個“鴻溝”;比如寫這篇文章:你的adonis用對了嗎?不同因素的順序竟然對結果有很大影響就是因為示例數據有顯著差異,而自己的數據無差異。所以才從原理上其理解計算過程,并探尋解決方案。
  • 提及可能出現的問題的解決;這也是操作了多套實際數據后,才能寫出的部分。
  • 那假如教程沒有提供這么詳細,自己又得用這個教程,怎么做呢?

    自己如何根據教程的數據準備并讀入自己的數據

    1. 查看數據的結構,了解數據的構成

    既然教程提供了測試數據集,不妨仔細看看測試數據集的特征,沒準就找著規(guī)律了。

    我們以前面文章提到的dune數據集為例,查看下其結構特征。

    名字是數字,列名字是字符串(如果我們對這些字符串不熟悉,對我們來說就沒任何意義;每個字符都認識,串一起就不知道是啥了~~),中間的值是整數。除此外也看不出其它信息了。

    library(vegan)data(dune)head(dune)## Achimill Agrostol Airaprae Alopgeni Anthodor Bellpere Bromhord Chenalbu Cirsarve Comapalu Eleopalu Elymrepe Empenigr## 1 1 0 0 0 0 0 0 0 0 0 0 4 0## 2 3 0 0 2 0 3 4 0 0 0 0 4 0## 3 0 4 0 7 0 2 0 0 0 0 0 4 0## 4 0 8 0 2 0 2 3 0 2 0 0 4 0## 5 2 0 0 0 4 2 2 0 0 0 0 4 0## 6 2 0 0 0 3 0 0 0 0 0 0 0 0## Hyporadi Juncarti Juncbufo Lolipere Planlanc Poaprat Poatriv Ranuflam Rumeacet Sagiproc Salirepe Scorautu Trifprat Trifrepe## 1 0 0 0 7 0 4 2 0 0 0 0 0 0 0## 2 0 0 0 5 0 4 7 0 0 0 0 5 0 5## 3 0 0 0 6 0 5 6 0 0 0 0 2 0 2## 4 0 0 0 5 0 4 5 0 0 5 0 2 0 1## 5 0 0 0 2 5 2 6 0 5 0 0 3 2 2## 6 0 0 0 6 5 3 4 0 6 0 0 3 5 5## Vicilath Bracruta Callcusp## 1 0 0 0## 2 0 0 0## 3 0 2 0## 4 0 2 0## 5 0 2 0## 6 0 6 0

    2. 查看數據的幫助

    從數據結構和行列名字上得不到有用信息,那我們查看下幫助信息。

    ?dune

    dune is a data frame of observations of 30 species at 20 sites. Thespecies names are abbreviated to 4+4 letters (see make.cepnames).

    這告訴我們什么呢?這套數據包含了30個物種在20個樣品的豐度信息。從dim(dune)可以看出這是一個20行X30列的矩陣;可以推測出,每一行是一個樣品,每一列是一個物種(另一個佐證是列名字長度確實為8個字符,與物種名字的4+4縮寫一致)。

    注:如果對數據還有疑慮,建議谷歌下數據。常見內置數據集都會有文章描述其信息,可用于佐證你的判斷。

    dim(dune)## [1] 20 30

    這個格式跟我們通常的OTU豐度表(我們的表通常是每一行是一個物種,每一列是一個樣品)略有不同。

    3. 基本判斷后,讀入我們的數據,做可能的轉換

    如果我們有一個OTU豐度表,怎么讀入并轉成這個格式呢?

    text <- "IDSamp1Samp2Samp3Samp4OTU12131415OTU21213810OTU322101411"otu_table <- read.table(text=text, sep="", row.names=1, header=T)

    讀入OTU豐度表,第一行為列名字,第一列為行名字。

    otu_table <- read.table("otutable_rare",sep="", row.names=1, header=T)

    根據上面的分析做一個轉置,就可以獲得可用于后續(xù)分析的輸入數據了。

    otu_table_t <- as.data.frame(t(otu_table))otu_table_t## OTU1 OTU2 OTU3## Samp1 2 12 22## Samp2 13 13 10## Samp3 14 8 14## Samp4 15 10 11

    4. 示例數據中的整數代表什么意思?

    這個是比較難確定的部分,只有兩個判斷方法:1)教程中作者能夠提及(這是最準確的方法);2)憑經驗猜測。

    這里涉及到另外一個經常會被問起的問題:

    我這一步操作需要提供原始數據,還是標準化之后的數據?

    絕大多數情況下,我們需要提供的都是標準化之后的在不同樣品之間可比的數據。因為:1)我們的需求是比較不同樣品的差異,數據需要在樣品間可比;2)絕大部分工具是不會對數據做標準化處理的,要么直接用,要么做一些不影響數值關系的轉換;3)如果某個工具自己內部會對數據做標準化,它一定會在幫助中提及,常見的比如DESeq2, edgeR、limma,除了這兩個半(limma算半個,因為它也可以接收標準化后的數據),一時想不起還有哪些工具是接受原始數據的。單細胞的Seurat包算是個例外,它內部調用了一些標準化算法,可以通過參數關掉。

    5. 查看更多教程,總會遇到有詳細描述所需數據結構的教程。

    6. 跟著感覺走,不管三七二十一讀進來試試,出現異?;驁箦e再調整。學程序不是做實驗,試錯成本沒有那么大,光看不練是假把式,大膽試才是王道。

    7. 最后一步,跟教程作者溝通。我們的教程問題,歡迎在http://www.ehbio.com/Esx發(fā)帖討論;自己努力后,帶著問題和思路的討論更容易獲得解答。

    鄭重聲明:本文內容及圖片均整理自互聯網,不代表本站立場,版權歸原作者所有,如有侵權請聯系管理員(admin#wlmqw.com)刪除。
    用戶投稿
    上一篇 2022年6月23日 06:13
    下一篇 2022年6月23日 06:13

    相關推薦

    • 計算機網絡技術論文(計算機網絡技術論文七千字)

      今天小編給各位分享計算機網絡技術論文的知識,其中也會對計算機網絡技術論文七千字進行解釋,如果能碰巧解決你現在面臨的問題,別忘了關注本站,現在開始吧! 計算機網絡方面的論文3000字…

      2022年11月26日
    • 什么是推廣cpa一篇文章帶你看懂CPA推廣渠道

      CPA渠道 CPA指的是按照指定的行為結算,可以是搜索,可以是注冊,可以是激活,可以是搜索下載激活,可以是綁卡,實名認證,可以是付費,可以是瀏覽等等。甲乙雙方可以根據自己的情況來定…

      2022年11月25日
    • 抖音直播帶貨有哪些方法技巧(抖音直播帶貨有哪些痛點)

      如今抖音這個短視頻的變現能力越來越突顯了,尤其是在平臺上開通直播,更具有超強的帶貨屬性,已經有越來越多的普通人加入到其中了。不過直播帶貨雖然很火,但是也不是每個人都能做好的,那么在…

      2022年11月24日
    • 前三季度,市場規(guī)模超過五萬億元 信息消費展現蓬勃生機

      家居企業(yè)個性化全屋定制系統(tǒng),備受消費者青睞;主打專業(yè)電競的新款高性能便攜式計算機,銷量表現創(chuàng)新高;物流企業(yè)推出數智化供應鏈興農服務項目,助力優(yōu)質農產品出深山…… 不久前,工信部發(fā)布…

      2022年11月24日
    • 明查|美國新冠后遺癥患者中有16%癥狀嚴重以致無法工作?

      點擊進入澎湃新聞全球事實核查平臺 速覽 – 網傳數據比例無權威信源佐證,該比例有可能是結合了美國疾病防控中心和布魯金斯學會的數據得出,但這兩個機構的調研目的和樣本都不同…

      2022年11月24日
    • pdf虛擬打印機(添加pdf虛擬打印機)

      本文主要講的是pdf虛擬打印機,以及和添加pdf虛擬打印機相關的知識,如果覺得本文對您有所幫助,不要忘了將本文分享給朋友。 pdf虛擬打印機具體是什么功能? 電腦虛擬打印機的功能有…

      2022年11月24日
    • 拉伊卜的名字的由來是什么(拉伊卜的名字的由來是什么)

      近日有關卡塔爾世界杯吉祥物的名字大家也都十分的好奇。大家一直稱呼的餃子皮官方名字是拉伊卜,而對于拉伊卜這個名字的含義相信很多人還不懂。拉伊卜的名字的由來是什么?為什么要取名拉伊卜呢…

      2022年11月23日
    • 女子名叫“馬艷花仙波”被誤當網名,當事人:父母想要獨特不重名

      極目新聞記者 余淵 李賢誠 為證實自己的名字是真的,北京一位名叫“馬艷花仙波”的女子,在社交平臺曬出了自己的身份證及戶口本。11月22日,當事人馬女士告訴極目新聞記者,不少人曾質疑…

      2022年11月23日
    • 微信健康碼怎么注銷重新申請健康碼 怎么更換綁定人

      在疫情常態(tài)化的管理之下,出行都需要健康碼,那么如果因為種種原因注銷了健康碼怎么辦呢?這種情況下是否還可以再申請健康碼呢?下面一起來看看了解一下吧! 微信健康碼注銷了還能申請嗎 健康…

      2022年11月22日
    • 寓意美好的家庭群名(2022最旺家庭群名字)

      1、幸福之家 2、相親相愛一家人 3、we are伐木累 4、親人部落格 5、親親一家人 6、娘家人 7、親人一族 8、紅紅火火一家人 9、幸福之家 10、超幸福一家 11、歡樂家…

      2022年11月22日

    聯系我們

    聯系郵箱:admin#wlmqw.com
    工作時間:周一至周五,10:30-18:30,節(jié)假日休息