'Science' Category

  • QIIME2入坑记

    二月 5, 2020

    (1)运行dada2错误,要求查看/tmp/qiime2-q2cli-err-XXX.log,里面显示:

    R version 3.5.1 (2018-07-02) 
    载入需要的程辑包:Rcpp
    Error: package or namespace load failed for ‘Rcpp’ in rbind(info, getNamespaceInfo(env, "S3methods")):
     矩阵的列数必需相符(见arg2)
    错误: 无法载入程辑包‘Rcpp’
    停止执行

    原因:R版本冲突,conda自带R3.5,而系统上自己安装了R3.6,且有~/.Rprofile自定义了R的库文件位置。则dada2调用R时,误读取了R3.6的库。

    解决办法:把~/.Rprofile中的库暂时屏蔽掉。

    (2)运行feature-table summarize错误:Value must be a nonnegative integer or None

    原因:安装好qiime之后又自己升级了包。注意qiime2-XXXX-py36-linux-conda.yml文件里面已经指定好了包的版本,不能改的。

    解决方法:重新安装qiime。

  • NCBI prefetch下载SRA

    十二月 12, 2019

    基本格式

    prefetch --max-size 100G -O ./ SRAXXXX
    或者
    prefetch --max-size 100G -O ./ --option-file SraAccList.txt

    注意:

    1. --max-size默认只有20G,所以要改
    2. 不要去添加-a、-t这些参数,现在即使ascp安装在家目录,prefetch也能识别。添加了反而出错
    3. -O ./ 表示下载到当前目录,否则默认会下载到家目录下面的ncbi文件夹
    4. 不是所有的文件都能使用ascp下载。参见链接
  • 人类参考基因组上的罕见位点

    十一月 11, 2019

    很多情况下,人类参考基因组上的碱基是major allele。但也有相当多的情况下,它们是minor allele,有时甚至是rare allele。

    BRCA2基因上有一个变异位点编号为rs169547,为非同义突变。全世界98%的人都是等位基因C,只有2%的人是等位基因T。

    但是参考基因组上的等位基因是T(GRCh37和38都是),这纯属侥幸。

  • sanger测序区分indel杂合子

    八月 21, 2019

    sanger测序如果遇到indel杂合突变,两条allele的测序峰交织在一起会导致峰图几乎不可读。

    Indigo是一个用于解决该问题的在线工具,可以直接上传abi文件,拆分两条allele。

    但是,Indigo运行速度经常很慢,解决方法是使用它的命令行版本:tracy.

  • 高精度的PacBio测序?

    八月 15, 2019

    PacBio CCS:99.8% 的准确率 + 13.5kb读长?

    https://www.nature.com/articles/s41587-019-0217-9

    确实很动心,准备拿 SRX5327410 试试。

  • NGS检测体细胞突变数据分析几个要点

    七月 5, 2019

    一、mapping

    在参考基因组中可能会见到诸如 chr6_apd_hap1chr1_gl000191_random这样的序列,把它们去掉!否则bwa在做mapping时会认为这些区域的reads匹配不唯一,把mapping quality定为0,导致后续无法发现相应区域内的变异位点,造成假阴性!

    二、CNV

    不用什么特殊的软件或pipeline,直接使用samtools bedcov target.bed tumor.bam normal.bam去计算每个目标区间的覆盖度,然后除一下看看比例就行(用LOG2转换一下更形象)

    三、SV

    推荐使用COSMOS,速度比较快(5000X的大panel大约40min),无需复杂的参数,直接表格式结果,取size值高的即可(即supporting reads数目)。注意每个SV事件会列出两行。

    四、SNP与INDEL

    1. 为了组合单倍型,GATK4 Mutect2可以加上--max-mnp-distance参数(默认是1,可以增大比如20),但这不是万能的!拿到VCF结果之后根据坐标排序仔细核对!必要时用IGV确认一下。
    2. FilterMutectCalls会添加很多过滤标签。一般采用排除法,把contamination、normal_artifact、weak_evidence、position 这些标签过滤掉即可。
    3. INDEL存在位置滑移的问题,需要确定位于cDNA 3' 端(可以用IGV核对一下,反正IDNEL不多)
    4. --germline-resource 这个参数有时会带来一些假阴性(例如SNP正好落在里面),如果时间充裕可以去掉它再运行一次,看看有没有多出来位点

 

Copyright © 2010-2020 | Powered by Wordpress and MySQL. Theme by Shlomi Noach, openark.org