Perl的正则表达式可用于解析Flatfile 格式文件 my SnewEntry=1; while(<STDIN>){ my(Sline)=$; chomp(Sline): if(Sline=~MID/){ #matched ID line SnewEntry=1: if(Sline =-MACIs*(W+)/){ matched AC line if(SnewEntry==1){ print only when at first line print"Primary accession".$1; SnewEntry=0: if(Sline=-MSQls"w"ls*(ww")/){ #match SQ line print"sequence length:".$1."In": ignore other lines 例程输出: perl example.pl <uniprot.dat Primary accession Q4U9M9 sequence length:893 Primary accession P15711 sequence length:924 Primary accession Q43495 sequence length:102 Primary accession P18646 sequence length:75 Primary accession P13813 sequence length:296
Perl的正则表达式可用于解析Flatfile 格式文件 ❖ my $newEntry = 1; ❖ while(<STDIN>) { ❖ my($line) = $_; ❖ chomp($line); ❖ if($line =~ /^ID/) { ❖ # matched ID line ❖ $newEntry=1; ❖ } ❖ if($line =~ /^AC\s*(\w+)/) { ❖ # matched AC line ❖ if ($newEntry==1) { ❖ # print only when at first line ❖ print "Primary accession " . $1; ❖ } ❖ $newEntry=0; ❖ } ❖ if($line =~ /^SQ\s*\w*\s*(\w*)/) { ❖ # match SQ line ❖ print " sequence length: " . $1 . "\n"; ❖ } ❖ # ignore other lines ❖ } ❖ 例程输出: ❖ > perl example.pl < uniprot.dat ❖ Primary accession Q4U9M9 sequence length: 893 ❖ Primary accession P15711 sequence length: 924 ❖ Primary accession Q43495 sequence length: 102 ❖ Primary accession P18646 sequence length: 75 ❖ Primary accession P13813 sequence length: 296 ❖ ………
三、序列格式 序列格式主要在布局和序列码行的形成上不 同,而一些格式同时提供描述或元数据或行 集。 冬对于许多软件工具来说,它们能很自然地自 动区分和接受不同格式的序列 常用格式:Fasta;GenBank;SwissProt等
三、序列格式 ❖ 序列格式主要在布局和序列码行的形成上不 同,而一些格式同时提供描述或元数据或行 集。 ❖ 对于许多软件工具来说,它们能很自然地自 动区分和接受不同格式的序列 ❖ 常用格式:Fasta;GenBank;SwissProt等
FASTA format: >uniprot |P32234|128UP DROME GTP-binding protein 128up.+ MSTILEKISAIESEMARTQKNKATSAHLGLLKAKLAKLRRELISPKGGGGGTGEAGFEVA+ KTGDARVGFVGFPSVGKSTLLSNLAGVYSEVAAYEFTTLTTVPGCIKYKGAKIQLLDLPG+ IIEGAKDGKGRGRQVIAVARTCNUFMVLDCLKPLGHKKLLEHELEGFGIRLNKKPPNIY YKRKDKGGINLNSMVPOSELDTDLVKTILSEYKIHNADITLRYDATSDDUDVEGNRIY+ IPCIYLLNKIDQISIEELDVIYKIPHCVPISAHHHWNFDDLLELMWEYLRLQRIYTKPKG+ QLPDYNSPVVLHNERTSIEDFCNKLHRSIAKEFKYALVWGSSVKHQPQKVGIEHVLNDED+ VVQIVKKV Swissprot format: SQ Sequence 368 AA;+ MSTILEKISA IESEMARTQK NKATSAHLGL LKAKLAKLRR ELISPKGGGG GTGEAGFEVA+ KTGDARVGFV GFPSVGKSTL LSNLAGVYSE VAAYEFTTLT TVPGCIKYKG AKIQLLDLPG+ IIEGAKDGKG RGRQVIAVAR TCNUFMVLD CLKPLGHKKL LEHELEGFGI RLNKKPPNIY+ YKRKDKGGIN LNSMVPOSEL DTDLVKTILS EYKIHNADIT LRYDATSDDL IDVEGNRIY IPCIYLLNKI DQISIEELDV IYKPHCVPI SAHHHWNFDD LLELMWEYLR LQRIYTKPKG+ QLPDYNSPVV LHNERTSIED FCNKLHRSIA KEFKYALVWG SSVKHQPQKV GIEHVLNDED VVQIVKKV e GCG format: 128UP DROME Length:368 Check:6459.. 1 MSTILEKISA IESEMARTOK NKATSAHLGL LKAKLAKLRR ELISPKGGGG GTGEAGFEVA+ 61 KTGDARVGFV GFPSVGKSTL LSNLAGVYSE VAAYEFTTLT TVPGCIKYKG AKIQLLDLPG+ 121 IIEGAKDGKG RGRQVIAVAR TCNLIFMVLD CLKPLGHKKL LEHELEGFGI RLNKKPPNIY 181 YKRKDKGGIN LNSMVPOSEL DTDLVKTILS EYKIHNADIT LRYDATSDDL IDVIEGNRIY 241 IPCIYLLNKI DQISIEELDVIYKIPHCVPI SAHHHWNFDD LLELMWEYLR LQRIYTKPKG+ 301 QLPDYNSPVV LHNERTSIED FCNKLHRSIA KEFKYALVWG SSVKHQPQKV GIEHVLNDED 361 VVQIVKKV
XML格式 XML(可扩展标记语言)是一种在文本文件 中组织数据的语言。 ÷一个XML文件代表一个嵌套的信息树。树中 的每一个节点能包含像一串子节点或者一些 属性这样的数据,并且一个XML文件始于根 节点。一个XML文件有一个文本,在文本中 每一个节点的内容及其子节点被一对相互封 闭的标签划定。形式上类似html
XML格式 ❖ XML(可扩展标记语言)是一种在文本文件 中组织数据的语言。 ❖ 一个XML文件代表一个嵌套的信息树。树中 的每一个节点能包含像一串子节点或者一些 属性这样的数据,并且一个XML文件始于根 节点。一个XML文件有一个文本,在文本中 每一个节点的内容及其子节点被一对相互封 闭的标签划定。形式上类似html