利用 Trinity+IGV 将 BLAT 的结果可视化

一月 28, 2013

课题组经常需要验证某个(或某些)注释的内含子是否存在,于是就需要使用转录数据去 map 基因组。转录数据目前常用的有两类,一类是高通量测序的 RNA-seq,这种 Map 比较简单,使用 tophat 处理即可得到比对结果,然后用 IGV 就可以实现可视化。输入数据是参考基因组和比对结果(tophat 输出的是 bam 文件,在导入 IGV 之前记得把两个数据都用 samtools 做一下索引,否则速度慢得有你好受的……)

另一类是 EST,它们的序列比 RNA-seq 长一些,而且长度不等。这类 Map 主要是使用 BLAT 来完成。但是 BLAT 默认输出的 psl 格式的结果极其难读,更不用提可视化了。今天在网上找到了一个方法,利用 Trinity 里面的一个实用工具居然可以调用 BLAT 并产生 bam 格式的比对结果。特此记录一下。

这个小工具名字叫做 alignReads.pl,放在 Trinity 的 util 目录里面,要想让它调用 BLAT,还需要做一件事,把 samtools 软件包的 misc 目录也加入到系统路径里面,因为里面有一个叫做 psl2sam.pl 的程序,也会被用到。

在 Trinity 网站上有一个简单的使用说明。需要的参数有:

--single 你的 EST 序列。既然是 EST,自然是 single 而不是 paired

--seqType 序列类型(fa 或者 fq)。EST 序列一般都是 fa

--target 你的参考基因组。

--aligner 比对工具,填入 BLAT

-I (可选)设定 BLAT 的最长内含子长度,默认10000

基本上这几个就够用了。

程序运行结果会在你当前目录下生成 BLAT_out 目录,里面有 .bam(比对结果) 和 .bam.bai(索引) 文件,另外当前目录下面的基因组文件也生成了一个bai索引,把它们导入到 IGV 里面,就可以选择自己需要查看的区域了。

由于页面字体显示问题,请注意像 --single 这样的参数前面应该是两个短横线,不是一个

posted in Biology Science by billzt

Follow comments via the RSS Feed | Leave a comment | Trackback URL

4
说点什么

2 Comment threads
2 Thread replies
0 Followers
 
Most reacted comment
Hottest comment thread
3 Comment authors
Recent comment authors

This site uses Akismet to reduce spam. Learn how your comment data is processed.

  Subscribe  
最新 最旧 得票最多
提醒
游客
黄田红

你好,可以具体指导下这个方法吗?我现在急需

游客
lili

额,我的Trinity一直报错从头到尾

 

Copyright © 2010-2018 | Powered by Wordpress and MySQL. Theme by Shlomi Noach, openark.org