初品BioPerl(第三篇:从本地文件中获取fasta序列)

十月 16, 2010

上一篇讲的是怎样自己“编造”一条fasta序列,说实话确实没什么实际上的用处,充其量也就是了解fasta序列的构造以及Bio::Seq对象能使用的属性、方法等(注意啦:如果你对这些内容还不是很清楚,请先不要往下看,先回去把上一篇看明白哦!)。在实际工作中,我们并不会真的像上一篇讲得那样,自己一项一项地给$seq_obj“赋值”,正如同我们很少对一个哈希逐项赋值一样(我们一般都是从文件或其他信息来源中读入、提取数据并存放到哈希中),而是通过其他来源(其实主要就是存放着fasta序列的文本文件)来将序列“读”到$seq_obj中。让Perl自己来输入显然比我们自己动手敲键盘快多喽!这样我们就有更多的时间来上网冲浪。 🙂
      嗯,那我们还是拿上一篇提到的fasta序列为例子,现在这条fasta序列是放在一个名字叫做ecorho.fasta的文本文件里的(比上一篇要生动多喽,上一篇这条fasta序列可是我们自己手工输入到程序源代码里的),大家可以自己去NCBI网站下载一条fasta序列来练习,也可以点击这里下载这条ecorho.fasta序列来练习。其实,一个文本文件可以放成百上千条fasta序列,但现在我们先练习一条。
      文件准备好了,我们要干什么呢?还记得fasta序列的三要素吗?我们当然是想知道它的名称、描述和序列内容喽!有了这些信息,我们就可以做别的事情,比如判断它是DNA还是蛋白质啦,看看序列有多长啦,各种碱基或氨基酸比例啦……在学习BioPerl之前,我们一般会这么做:
点击此处继续阅读 ^_^

2002年2月20日20点02分你在做什么?

十月 11, 2010

昨天(2010年10月10日)被民间称为是“三连十”的吉日,以至于京城N对新人在这天扎堆结婚,尽管空中弥漫着大雾几乎到了伸手不见五指的程度。物以稀为贵,所谓吉日者,乃是“稀数”罕见也;记得北京奥运会的开幕式就是在2008年8月8日晚上8时08分举行,可谓“五连八”。其实这么说不对,因为晚上的8时应该写做20点;如果真的要凑到“五连八”,那就应该是在早上8点08分举行,那才是真正的“连连发”呢,可惜这样一来大家估计没时间睡懒觉了,更别说吃早饭了。
      从2001年开始,就有了所谓的“三连X”了,01-01-01, 02-02-02, 03-03-03, 04-04-04(我的生日哦),05-05-05, 06-06-06, 07-07-07, 08-08-08, 09-09-09, 再到昨天的10-10-10, 这样的“节日”还有吗?我想小学生都能看出来,已经不多了,接下来只有两个:11-11-11(经常被年轻人戏称为XX节的),12-12-12(西安事变76周年纪念日),还想有13-13-13吗?没啦!请再等89年,到公元2101年的1月1日再说吧!反正我是不指望能活到那个时候啦! 😆
点击此处继续阅读 ^_^

初品BioPerl(第二篇:构造一条fasta序列)

十月 8, 2010

接下来我们就来讨论BioPerl的用法。根据一句经典名言,Perl的用途“90%与文本处理有关,10%与其它事务有关”(改编自小驼书),Perl语言的强项就在于文本处理(当然主要是纯文本,和许多Unix工具如grep, awk, sed等工具类似哦!),而恰好大多数生物信息学数据都是以纯文本的形式存放的(包括蛋白质、核酸等序列文件,序列比对文件,进化树文件等),所以BioPerl当初设计的初衷就是为了分析、处理这些文本数据文件。当然随着模块越来越多,BioPerl的功能也扩展了,现在也有人喜欢用BioPerl作为下载工具来下载序列,或者用来运行blast程序等。虽然不是不可以,但我并不建议这么做,因为通过BioPerl来运行的blast程序肯定没有直接运行的blast程序来得快,来得灵活。正如同想要删除一个文件,我们一般都会执行rm file.txt,而不会另外编一个Perl程序说:perl -e 'unlink "file.txt"'
      进入正题啦!首先,生物信息学处理最多的问题是什么?当然就是蛋白质和核酸序列喽!生物大分子序列的书写有好多种格式,如Fasta, Genbank, EMBL, SwissProt等。其中Fasta是最简单的序列格式,所以我们先来学习使用BioPerl来构造fasta序列。当然这在实际工作上意义不大,因为大部分序列应该从数据库中下载得到(或者通过程序运算出来),而不是自己构造出来的。我们在下一篇会学习如何从文件中提取fasta序列。现在还是先打基础吧。 ^_^
点击此处继续阅读 ^_^

北京地坛图书节,抱回一只大勇气

九月 23, 2010

      哈哈,好可爱哦!就是太大了一点,想要抱着它睡觉,有点别扭~~~
      其实我最期待的是花楹,可惜时间久了,都没人提了。我希望哪一天好心的寰宇能把花楹也做出来啊!

初品BioPerl(第一篇:让BioPerl在你的电脑上安家)

九月 18, 2010

Perl的模块有两类,一类是内置在Perl中的,比如小驼书中提到的CGI,File::Basename等,所以你无须另外下载安装这些模块即可使用它们;另一类则是与Perl相分离的,所以你要下载并安装才可以使用它们。很不幸,BioPerl属于后者。而且,安装过程对某些人某些电脑来说不是很容易。
        首先,如果你恰巧跟上了因Ubuntu10.04的发行带来的Linux崇拜潮流,已经成功抛弃了Windows Xp转向Ubuntu的话,那么恭喜你,安装BioPerl和安装gimp之类的应用软件一样简单! 😛 打开新立德软件包管理器,输入BioPerl搜索,出现的第一项就是(目前的版本是1.6.1),然后右键点击选择“安装”,系统就会自动把所有依赖的软件包全部安装上。怎么样,是不是很方便呢?而且将来某一天若BioPerl有了更新,可以很方便地使用新立德来升级。
Continue Reading »

一叶落而知天下秋

九月 18, 2010

——以此纪念2010年京城的第一个秋天
秋风吹,秋雨飘。2010年9月17日,秋天终于来啦!
      今年的秋天迟到了两个多礼拜。希望老天爷能多慷慨一些,多赏赐我些许凉意,让我尽情享受这秋高气爽的日子吧!

 

Copyright © 2010-2017 | Powered by Wordpress and MySQL. Theme by Shlomi Noach, openark.org