推广 热搜: 行业  机械  设备    经纪  教师  参数  系统    蒸汽 

2022-TCGA数据库重大更新后RNASeq的STAR-Counts数据的下载与整理

   日期:2024-11-10     移动:http://mip.xhstdz.com/quote/70356.html

34c5446b2f209ab0761462e87bf0cd1a.gif

2022-TCGA数据库重大更新后RNASeq的STAR-Counts数据的下载与整理

TCGA | GEO | 文献阅读 | 数据库 理论知识

R语言 | Bioconductor | 服务器与Linux

cba8bbe4cbb3381171fbcde5cadf51fa.png


最近有粉丝留言,TCGA数据库发生更新,下载的数据和之前的不一样。比如转录组,之前是HTSeq流程的数据,现在是STAR-Counts的数据。具体的数据信息参考:https://docs.gdc.cancer.gov/Data/Release_Notes/Data_Release_Notes/#data-release-320

6a2a605d0f935816b5a460409a7fdf5b.png

下载后的数据,打开是这样的。都放在了一个文件中。

ee1c954f113094283b169577ebab5fd1.png

这里分享一下怎么提取数据。

数据的下载和之前的教程一样【14-TCGA数据库下载整理】。只不过这里选择的是STAR-Counts了。加入购物车后下载下面的文件。

2a8606c40f572fcf74162e88e61add51.png

我先写2个函数,一个是处理读入json文件的函数,该文件包括文件信息和样本barcode的关系。

jsonFile是下载的json文件的完整路径。

下面的函数是提取数据的函数。

filepath 是下载的数据路径。通过dir等类似的函数获取的路径向量。比如,我们下载的数据是一个压缩包,解压后,将文件名重新命名为data。

0f3cc163f92724d08afd018192e928af.png

jsonFileInfo是processingJsonFiles函数获取的结果。

data_type是下面中的一种。

  • "unstranded";

  • "stranded_first";

  • "stranded_second";

  • "tpm_unstranded";

  • "fpkm_unstranded";

  • "fpkm_uq_unstranded"

对应文件中的信息

8644fe6e720cdc1d7de08ad008d6e73f.png

下面就可以获取数据了,想要什么就获取什么。一般就是TPM和FPKM。

83463dfa820ade02637bdd7c6e9ebc1c.png

原来TCGA数据库的下载,使用TCGAbiolinks包是否还可以处理数据,我还没有试,但下载数据应该是没有问题的。

dbe3f022ebedcf612b1f8a3f3b02cceb.png


对于之前版本的数据。我之前文章【数据库数据 | TCGA数据库33种癌症的 transcriptome profiling (RNA-Seq) 数据】有已经处理好的数据,大家可以下载。

最后,有用的给个赞赏

本文地址:http://sjzytwl.xhstdz.com/quote/70356.html    物流园资讯网 http://sjzytwl.xhstdz.com/ , 查看更多

特别提示:本信息由相关企业自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关行业动态
推荐行业动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号