'Science' Category

  • QIIME2入坑记

    二月 5, 2020

    (1)运行dada2错误,要求查看/tmp/qiime2-q2cli-err-XXX.log,里面显示:

    R version 3.5.1 (2018-07-02) 
    载入需要的程辑包:Rcpp
    Error: package or namespace load failed for ‘Rcpp’ in rbind(info, getNamespaceInfo(env, "S3methods")):
     矩阵的列数必需相符(见arg2)
    错误: 无法载入程辑包‘Rcpp’
    停止执行

    原因:R版本冲突,conda自带R3.5,而系统上自己安装了R3.6,且有~/.Rprofile自定义了R的库文件位置。则dada2调用R时,误读取了R3.6的库。

    解决办法:把~/.Rprofile中的库暂时屏蔽掉。

    (2)运行feature-table summarize错误:Value must be a nonnegative integer or None

    原因:安装好qiime之后又自己升级了包。注意qiime2-XXXX-py36-linux-conda.yml文件里面已经指定好了包的版本,不能改的。

    解决方法:重新安装qiime。

  • 从ENA下载SRA

    十二月 12, 2019

    最近(2020年以来),Aspera(ascp)无法从NCBI下载SRA了,但是可以用ENA下载。现在以(SRR8815512)为例:

    第一步:获取准确链接

    访问https://www.ebi.ac.uk/ena/browser/view/SRR8815512,获取准确链接如下:

    ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR881/002/SRR8815512/SRR8815512_1.fastq.gz
    ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR881/002/SRR8815512/SRR8815512_1.fastq.gz

    可以看出中间出现了一个奇怪的数字002。

    第二步:打开防火墙33001端口

    -I INPUT -p tcp --dport 33001 -j ACCEPT
    -I OUTPUT -p tcp --dport 33001 -j ACCEPT

    第三步:下载

    ascp -P 33001 -v -k 1 -T -l 300m -i XXX/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR881/002/SRR8815512/SRR8815512_1.fastq.gz

  • 人类参考基因组上的罕见位点

    十一月 11, 2019

    很多情况下,人类参考基因组上的碱基是major allele。但也有相当多的情况下,它们是minor allele,有时甚至是rare allele。

    BRCA2基因上有一个变异位点编号为rs169547,为非同义突变。全世界98%的人都是等位基因C,只有2%的人是等位基因T。

    但是参考基因组上的等位基因是T(GRCh37和38都是),这纯属侥幸。

  • sanger测序区分indel杂合子

    八月 21, 2019

    sanger测序如果遇到indel杂合突变,两条allele的测序峰交织在一起会导致峰图几乎不可读。

    Indigo是一个用于解决该问题的在线工具,可以直接上传abi文件,拆分两条allele。

    但是,Indigo运行速度经常很慢,解决方法是使用它的命令行版本:tracy.

  • 高精度的PacBio测序?

    八月 15, 2019

    PacBio CCS:99.8% 的准确率 + 13.5kb读长?

    https://www.nature.com/articles/s41587-019-0217-9

    确实很动心,准备拿 SRX5327410 试试。

  • NGS检测体细胞突变数据分析几个要点

    七月 5, 2019

    一、mapping

    在参考基因组中可能会见到诸如 chr6_apd_hap1chr1_gl000191_random这样的序列,把它们去掉!否则bwa在做mapping时会认为这些区域的reads匹配不唯一,把mapping quality定为0,导致后续无法发现相应区域内的变异位点,造成假阴性!

    二、CNV

    不用什么特殊的软件或pipeline,直接使用samtools bedcov target.bed tumor.bam normal.bam去计算每个目标区间的覆盖度,然后除一下看看比例就行(用LOG2转换一下更形象)

    三、SV

    推荐使用COSMOS,速度比较快(5000X的大panel大约40min),无需复杂的参数,直接表格式结果,取size值高的即可(即supporting reads数目)。注意每个SV事件会列出两行。

    四、SNP与INDEL

    1. 为了组合单倍型,GATK4 Mutect2可以加上--max-mnp-distance参数(默认是1,可以增大比如20),但这不是万能的!拿到VCF结果之后根据坐标排序仔细核对!必要时用IGV确认一下。
    2. FilterMutectCalls会添加很多过滤标签。一般采用排除法,把contamination、normal_artifact、weak_evidence、position 这些标签过滤掉即可。
    3. INDEL存在位置滑移的问题,需要确定位于cDNA 3' 端(可以用IGV核对一下,反正IDNEL不多)
    4. --germline-resource 这个参数有时会带来一些假阴性(例如SNP正好落在里面),如果时间充裕可以去掉它再运行一次,看看有没有多出来位点

 

Copyright © 2010-2020 | Powered by Wordpress and MySQL. Theme by Shlomi Noach, openark.org