生信概念整理

1、组成碱基对的碱基包括A—腺嘌呤、G—鸟嘌呤(Guanine)、T—胸腺嘧啶(DNA专有)、C—胞嘧啶(Cytosine)、U—尿嘧啶(RNA专有)。严格地说，碱基对是一对相互匹配（碱基互补配对原则）的碱基（即A—T， G—C，A—U相互作用）被氢键连接起来。
2、腺嘌呤与胸腺嘧啶之间有两个氢键，鸟嘌呤与胞嘧啶之间有三个氢键，即A=T,G≡C。
3、核苷酸序列，就是指DNA或RNA中碱基的排列顺序。
4、基因是DNA(脱氧核糖核酸)分子上具有遗传效应的特定核苷酸序列的总称，是具有遗传效应的DNA分子片段。
5、基因组是指细胞内所有遗传信息，这种遗传信息以核苷酸序列形式存储。细胞或生物体中，一套完整单体的遗传物质的总和即为基因组。
    核基因组是单倍体细胞核内的全部 DNA分子；线粒体基因组则是一个线粒体所包含的全部DNA分子；叶绿体基因组则是一个叶绿体所包含的全部DNA分子。
6、等位基因（allele）：同源染色体的相同位置上，控制相对性状的一对基因。
7、空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。
    block的定义是一个没有插入缺失的比对，任何插入或者缺失的碱基都会使一个 block 终止，所以一个exon很可能是由很多blocks构成的。
8、nt=nucleotide, 即核苷酸数，通常用于描述单链，如RNA, primer等
     bp=base pair, 即碱基对，用于描述双链的，如DNA, 双链RNA等。
     1Mb=1000kb=1000000bp
     mer：单体单元，相当于nt或者bp。通常用于双链核酸中的单位，100 mer DNA相当于每一条链有100nt，那么整条链就是100bp。
9、k-mer 是指将reads分成包含k个碱基的字符串，一般长短为m的reads可以分成m-k+1个k-mers.
     不同物种的k-mer是很不同的；长k-mer具有很强的物种特异性；不同的k-mer，组装的效果不同
10、基因座（locus，loci）又称座位。基因在染色体上所占的位置。在分子水平上，是有遗传效应的DNA序列。形象地说，一对染色体可想象为两条平行线，染色体上一个给定的位置，好比两平行线上的一点或一段，叫做基因座。
     二倍体与多倍体细胞的某些染色体上，在同一基因座上有相同的等位基因，这类细胞称为同型合子。若是相同基因座上含有不同的等位基因，则称作异型合子。
11、拼接软件基于reads之间的overlap(重叠)区，拼接获得的序列称为Contig（重叠群）。
12、中心法则：①从DNA流向DNA（DNA自我复制）；
   ②从DNA流向RNA，进而流向蛋白质（转录和翻译）；
   ③从RNA流向RNA（RNA自我复制)；
   ④从RNA流向DNA（逆转录）
    转录，是指遗传信息从基因（DNA）转移到RNA，在RNA聚合酶的作用下形成一条与DNA碱基序列互补的mRNA的过程。
13、聚合酶链式反应PCR是一种用于放大扩增特定的DNA片段的分子生物学技术，它可看作是生物体外的特殊DNA复制，PCR的最大特点，是能将微量的DNA大幅增加。
14、残基Residue：在蛋白质的序列中，氨基酸之间的氨基和羧基脱水成键，氨基酸由于其部分基团参与了肽键的形成，剩余的结构部分则称氨基酸残基。
氨基酸分子中含有氨基和羧基两种官能团，仅有二十几种，他们是构成蛋白质的基本单位。
15、同源蛋白质：指进化上相关的蛋白质。即不同物种中具有相同或相似功能的蛋白质或具有明显序列同源性的蛋白质。
16、fasta格式(文件拓展名为.fa)
    fasta格式是一种基于文本用于表示核酸序列或多肽序列的格式。其中核酸或氨基酸均以单个字母来表示，且允许在序列前添加序列名及注释。
    fasta格式文件的第一行是由大于号“>”（较常用）或分号“;”打头的任意文字说明，用于序列标记。从第二行开始为序列本身，只允许使用既定的核苷酸或氨基酸编码符号（参见支持代码类型）。通常核苷酸符号大小写均可，而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。一般每行60～80个字母。
17、fastq格式(文件拓展名为.fq)
    FASTQ是基于文本的，保存生物序列（通常是核酸序列）和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示，最初由Sanger开发，目的是将FASTA序列与质量数据放到一起，目前已经成为高通量测序结果的事实标准。
    FASTQ文件中每个序列通常有四行：
第一行是序列标识以及相关的描述信息，以‘@’开头；
第二行是序列
第三行以‘+’开头，后面是序列标示符、描述信息，或者什么也不加
第四行是质量信息，和第二行的序列相对应，每一个序列都有一个质量评分，根据评分体系的不同，每个字符的含义表示的数字也不相同。
18、二代测序数据的4种表达法
    1. 原始数据（Raw data）：一次测序产生的全部原始数据。理论上，它们应该是没有经过任何过滤的，无论好坏。
    2. PF数据（PF data）：在测序过程中，Illumina内置软件根据每个测序片段（read，通常每个片段长100个碱基）前25个碱基的质量决定该read是保留还是抛弃。如果没有达到质控标准，则该read的全部碱基都被抛弃；达到标准、保留下来的数据叫做PF data。 PF代表pass filtering。
    3. Q30数据（Q30 data）：Illumina内置软件根据统一设定的标准来评判碱基识别结果的可靠性，为每个碱基给予一个质量评分（QV）。PF data里质量评分>=30分的数据称为Q30 data。 Q30的意思是该碱基的可靠性为99.9%。Q30数据通常占PF数据的80%左右。视样本质量、操作水平、试剂质量、仪器状态的不同，这一比例有很大波动。
    4. 干净数据（Clean data）：某些实验室根据其自身的判断标准，在PF data的基础上，进一步删除质量不好的reads后得到的数据。常见的删除动作有：去接头、去N含量高的reads、去质量评分低的reads、去掉每个read的最后几个碱基等等。
19、降解组数据(Degradome data)是通过降解组测序(Degradome sequencing)方法得到的测序数据
    降解组测序的原理是，在植物体内绝大多数的miRNA是利用剪切作用调控靶基因的表达，且剪切常发生在miRNA与mRNA互补区域的第十位核苷酸上。靶基因经剪切产生二个片段，5’ 剪切片段和3’ 剪切片段。其中3’ 剪切片段，包含有自由的5’ 单磷酸和3’ polyA尾巴，可被RNA连接酶，连接产物可用于下游高通量测序；而含有5’ 帽子结构的完整基因，含有帽子结构的5’ 剪切片段或是其他缺少5’ 单磷酸基团的RNA是无法被RNA酶连接，因而无法进入下游的测序实验。
    降解组测序：Degradome sequencing，主要针对miRNA介导的剪切降解片段进行测序，从实验中筛选miRNA作用的靶基因，并结合生物信息学分析优势，确定降解片段与miRNA精确的配对信息。
20、靶基因即目的基因。在分子遗传中，它不仅要具有识别结合功能，还应该具有与位点结合后能表达你所需要的相应功能的作用。
    信使RNA(mRNA)是由DNA的一条链作为模板转录而来的、携带遗传信息的能指导蛋白质合成的一类单链核糖核酸。
    RNA诱导的沉默复合体（英语：RNA-induced silencing complex，RISC）
    microRNAs（miRNAs）是一种小的，类似于siRNA的分子，由高等真核生物基因组编码，miRNA通过和靶基因mRNA碱基配对引导沉默复合体（RISC）降解mRNA或阻碍其翻译。
    AGO蛋白质是一类庞大的蛋白质家族，是组成RISCs复合物的主要成员。
21、成熟的真核生物mRNA的5’-端有m7GPPPN结构，称为甲基鸟苷帽子。
    mRNA?5’-端帽子结构是翻译起始所必要的，为核糖体识别mRNA提供了信号，并协助核糖体与mRNA结合使翻译从AUG开始。帽子结构可增加mRNA的稳定性，保护mRNA免遭5’→3’核酸外切酶的攻击。
22、Small RNA是一大类调控分子，几乎存在于所有的生物体中。Small RNA包括：miRNA、ncRNA、siRNA、snoRNA、piRNA、rasiRNA等等。
23、cDNA是指具有与某RNA链呈互补碱基序列的DNA。
    cDNA 文库(cDNA library ): 是指某生物某一发育时期所转录的mRNA 全部经反转录形成的CDNA 片段与某种载体连接而形成的克隆的集合。
    CDNA 文库与基因组文库的最主要的区别是，基因组文库含有而CDNA 文库不含非转录的基因组序列(重复序列等)。基因组DNA文库所含的是带有内含子和外显子的基因组基因，而从cDNA文库中获得的是已经过剪接、去除了内含子的cDNA。
    EST是Expressed Sequence Tag的缩写，意思是表达序列标签，指从一个随机选择的cDNA 克隆，进行5’端和3’端单一次测序挑选出来获得的短的cDNA 部分序列。
24、pre-mRNA：在真核生物中，转录形成的前体RNA中含有大量非编码序列，大约只有25%序列经加工成为mRNA，最后翻译为蛋白质。因为这种未经加工的前体mRNA(pre-mRNA）在分子大小上差别很大，所以通常称为不均一核RNA（heterogeneousnuclearRNA,hnRNA）。
25、在遗传学上通常将能编码蛋白质的基因称为结构基因。真核生物的结构基因是断裂的基因。一个断裂基因能够含有若干段编码序列，这些可以编码的序列称为外显子(exon)。在两个外显子之间被一段不编码的间隔序列隔开，这些间隔序列称为内含子(intron)。每个断裂基因在第一个和最后一个外显子的外侧各有一段非编码区，有人称其为侧翼序列。在侧翼序列上有一系列调控序列。

鹏鹏俊玲

发布了54 篇原创文章 · 获赞 66 · 访问量 10万+

私信关注

猜你喜欢