不同的软件,针对某方向的某生物学问题,都会创建或使用一种或者多种格式标准。比如储存数据常用sra、比对数据常用bam,基因组注释信息常用bam或gff。
比如ACGT组成的DNA序列、蛋白质序列,生物信息学家们便基于 txt 文本格式定义了有一定规范的FASTA和FASTQ格式。
1.FASTA格式
后缀:.fasta,.fa,或其压缩格式.fasta.gz,.fa.gz
以下为一个包含单个序列的FASTA文件示例:
>gi|31563518|ref|NP_852610.1| microtubule-associated proteins 1A/1B light chain 3A isoform b [Homo sapiens]
MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI
IRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENE
- 第一行为“>”开头的标题行,包含序列的名称和/或唯一标识符等信息。(>号和后面的名称的第一字符间是没有任何空白的。一般第一个空格后面的内容即为可选的描述信息。)
- 在标题行和注释之后,则是由一行或多行构成的蛋白质或核酸序列数据,其中每行的长度应短于80字符。序列的多行之间不能有空行,序列信息描述的第一行与序列数据的第一行之间不能有空行。其中序列数据主要是按照密码表来表示的,*表示是蛋白质翻译的结束。
- 多行序列举例如下:
>SEQUENCE_1
MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG
LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK
IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL
MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL
>SEQUENCE_2
SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI
ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH
2.FASTQ格式
目的是要把测序数据和质量得分其放在一个文件里储存,
FASTQ格式是一种保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式。序列与质量得分皆由单个ASCII字符表示。
该格式最初由维尔康姆基金会桑格研究所开发,旨在将FASTA格式序列及其质量数据集成在一起。而当前,FASTQ格式已经成为了保存高通量测序结果的事实标准。
–FASTQ格式_维基百科
质量得分:一个碱基的错误概率的对数值。最早在Phred软件中被定义和使用,后来逐渐推广开来。
以下为一个包含单个序列的FASTQ文件示例:
@SRR001339.3 FC12160_04JAN08_s_3.tar:3:1:230:474 length=36
GTTAGTCGGGAACTAAGGCCTGTAGGCTCTTTCCAT
+SRR001339.3 FC12160_04JAN08_s_3.tar:3:1:230:474 length=36
IIIIBIII*II,III$I′I9IDI%II … 5′E%%(H
可以看到,在FASTQ文件中,一个序列通常由四行组成:
- 第一行以@开头,之后为序列的标识符以及描述信息(与FASTA格式的描述行类似)
- 第二行为序列信息
- 第三行以+开头,之后可以再次加上序列的标识及描述信息(可选)
- 第四行为质量得分信息,与第二行的序列相对应,长度必须与第二行相同
通常我们获取测序数据有两种途径:
- 一种是自己通过仪器测定,
- 一种是在公共数据库中(比如之前说到的NCBI中的SRA数据库)获取
这两种方式主要是在序列名称的命名上和测序质量表示方式上有所不同。
- Illumina 序列名称:
@HWUSI-EAS100R:6:73:941:1973#0/1
上述以:隔开的每个字段的含义如下:
| HWUSI-EAS100R | the unique instrument name |
| 6 | flowcell lane |
| 73 | tile number within the flowcell lane |
| 941 | ‘x’-coordinate of the cluster within the tile |
| 1973 | ‘y’-coordinate of the cluster within the tile |
| #0 | index number for a multiplexed sample (0 for no indexing) |
| /1 | the member of a pair, /1 or /2 (paired-end or mate-pair reads only) |
- NCBI SRA数据库
从SRA数据库上下载公共的测试数据(原始格式为.sra, 需特定工具转换为fastq)其fastq格式文件中每个单元的名称是以SRA编号接数字加以区分的。
比如下面的这个示例:
@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC
+SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC
参考
https://blog.csdn.net/u010608296/article/details/113042027?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-2&spm=1001.2101.3001.4242