生物基础知识---CDS,基因,Matlab生物信息工具箱

1.CDS(Sequence coding for aminoacids in protein)蛋白质编码区

2.每个基因中都有编码区与非编码区,其中真核生物编码区又含有外显子与内含子,但真核生物的基因中也有无内含子的例外.如组蛋白基因和干扰素基因就没有内含子.编码区为编码蛋白质的有效基因片段.非编码区不编码蛋白质。在这里插入图片描述  
3.编码区是细胞DNA的一部分,基因分为:编码区,非编码区。编码区是指能够转录信使RNA的部分,能够合成相应的蛋白质,而非编码区是不能够转录信使RNA的DNA结构。但是它能够调控遗传信息的表达。  
4.真核生物的DNA中的基因是由编码区和非编码区组成的,其中编码区是由外显子和内含子组成的,但是其中内含子又是非编码序列,所以说真核细胞基因结构中,非编码区和内含子是非编码序列 。  
5.内含子属于编码区。含有内含子的基因能转录出前体RNA,再由内含子转录出来的部分进行自我切割,才得到成熟的mRNA,没有内含子也就没有自我切割  
6.原核细胞只有编码区和非编码区!没有内含子和外显子之分。真核生物才有内含子和外显子。

7.MATLAB7_X生物信息工具箱的应用_基因序列分析_一_刘新星
https://wenku.baidu.com/view/866890f981eb6294dd88d0d233d4b14e85243ef4.html
MATLAB+7.X生物信息工具箱的应用—序列比对
https://wenku.baidu.com/view/370c4de9551810a6f5248600.html
在这里插入图片描述
matlab学习–bioinformatics toolbox学习之一
http://blog.sina.com.cn/s/blog_5ecfd9d90100cm03.html

8.基因密度就是指基因序列占总序列的多少

9.通过已知基因或与已知基因有关的基因计算得来的基因密度推测未知基因密度的基因组基因数目,通常只能得到一个最小值,这个值称为最小基因数,真正基因数目往往大得多。方法为:基因分离鉴定
10. 基因

(1)概念:每种生物有很多个性状(如人有成千上万个),而每个细胞中的DNA数量是有限的,如人的体细胞的核中有46个DNA分子,因此每个DNA分子实际上控制着多个性状。这样,一个DNA分子实际上分为若干个功能片段分别控制着不同的性状,每个功能片段称为一个基因,从而得出:基因是控制生物性状的遗传物质的功能单位和结构单位,是有遗传效应的DNA片段
(2)化学本质:基因是有遗传效应的DNA片段
(3)存在场所(载体):真核生物主要位于染色体上(其中数量关系为:未复制时1/1复制后1/2)其次位于细胞质中(包括线粒体和叶绿体)
(4) ***遗传信息:基因中脱氧核苷酸排列顺序代表着遗传信息***
(5)基因功能:遗传物质结构和功能的基本单位;通过复制把遗传信息传给下一代;通过转录和翻译使遗传信息以一定的形式反映到蛋白质分子结构上来,从而使后代表现出与亲代相似的性状
11.基因重组的定义:造成基因型变化的核酸的交换过程。包括发生在生物体内(如减数分裂中异源双链的核酸交换)和在体外环境中用人工手段使不同来源DNA重新组合的过程。不同性状的基因重新组合的现象,发生在有性生殖的减数分裂第一次分裂的四分体时期,位于同源染色体非姐妹染色单体上的等位基因随着非姐妹染色单体得交叉互换发生基因重组;减数分裂第一次分裂的后期,非同源染色体上的非等位基因随非同源染色体而重组;基因工程把不同生物的基因人为的组合在一起,也是基因重组
12.组成简单生命最少要265到350个基因(这涉及到了基因工作组的力量,人类的基因工作组与果蝇的基本相似).
13. 基因分类

(一) 结构基因:基因中编码RNA或蛋白质的碱基序列。
(1)原核生物结构基因:连续的,RNA合成不需要剪接加工;
(2)真核生物结构基因:由外显子(编码序列)和内含子(非编码序列)两部分组成。
(二)非结构基因:结构基因两侧的一段不编码的DNA片段(即侧翼序列),参与基因表达调控。
(1)顺式作用元件:能影响基因表达,但不编码RNA和蛋白质的DNA序列;
其中包括:
a .启动子:RNA聚合酶特异性识别结合和启动转录的DNA序列。有方向性,位于转录起始位点上游。
b.上游启动子元件:TATA盒上游的一些特定DNA序列,反式作用因子可与这些元件结合,调控基因的转录效率。
c.反应元件:与被激活的信息分子受体结合,并能调控基因表达的特异DNA序列。
d.增强子:与反式作用因子结合,增强转录活性,在基因任意位置都有效,无方向性。
e.沉默子:基因表达负调控元件,与反式作用因子结合,抑制转录活性。
f.Poly(A)加尾信号:结构基因末端保守的AATAAA顺序及下游GT或T富含区,被多聚腺苷酸化特异因子识别,在mRNA 3′端加约200个A。
(2)反式作用因子:能识别和结合特定的顺式作用元件,并影响基因转录的一类蛋白质或RNA。 [2]

14.基因有两个特点,一是能忠实地复制自己,以保持生物的基本特征;二是在繁衍后代上,基因能够“突变”和变异,当受精卵或母体受到环境或遗传的影响,后代的基因组会发生有害缺陷或突变。绝大多数产生疾病,在特定的环境下有的会发生遗传。也称遗传病。在正常的条件下,生命会在遗传的基础上发生变异,这些变异是正常的变异。
15.含特定遗传信息的核苷酸序列,是遗传物质的最小功能单位。除某些病毒的基因由核糖核酸(RNA)构成以外,多数生物的基因由脱氧核糖核酸(DNA)构成,并在染色体上作线状排列。
16.**基因一词通常指染色体基因**。在真核生物中,由于染色体在细胞核内,所以又称为核基因。位于线粒体和叶绿体等细胞器中的基因则称为染色体外基因、核外基因或细胞质基因,也可以分别称为线粒体基因、质粒和叶绿体基因
原核生物的基因组是一个单纯的DNA或RNA分子,因此又称为基因带,通常也称为它的染色体。
17.基因的表达过程是将DNA上的遗传信息传递给mRNA,然后再经过翻译将其传递给蛋白质。在翻译过程中tRNA负责与特定氨基酸结合,并将它们运送到核糖体,这些氨基酸在那里相互连接形成蛋白质。这一过程由tRNA合成酶介导,一旦出现问题就会生成错误的蛋白质,进而造成灾难性的后果。值得庆幸的是,tRNA分子与氨基酸的匹配非常精确
18.基因变异是指基因组DNA分子发生的突然的可遗传的变异。从分子水平上看,基因变异是指基因在结构上发生碱基对组成或排列顺序的改变。基因虽然十分稳定,能在细胞分裂时精确地复制自己,但这种稳定性是相对的。在一定的条件下基因也可以从原来的存在形式突然改变成另一种新的存在形式,就是在一个位点上,突然出现了一个新基因 [4] ,代替了原有基因,这个基因叫做变异基因。于是后代的表现中也就突然地出现祖先从未有的新性状。例如英国女王维多利亚家族在她以前没有发现过血友病的病人,但是她的一个儿子患了血友病,成了她家族中第一个患血友病的成员。后来,又在她的外孙中出现了几个血友病病人。很显然,在她的父亲或母亲中产生了一个血友病基因的突变。这个突变基因传给了她,而她是杂合子,所以表现型仍是正常的,但却通过她传给了她的儿子。基因变异的后果除如上所述形成致病基因引起遗传病外,还可造成死胎、自然流产和出生后夭折等,称为致死性突变;当然也可能对人体并无影响,仅仅造成正常人体间的遗传学差异;甚至可能给个体的生存带来一定的好处
19.基因重组是由于不同DNA链的断裂和连接而产生DNA片段的交换和重新组合,形成新DNA分子的过程。
20.基因突变(gene mutation)一个基因内部可以遗传的结构的改变,又称为点突变,通常可引起一定的表型变化 。广义的突变包括染色体畸变,狭义的突变专指点突变。实际上畸变和点突变的界限并不明确,特别是微细的畸变更是如此。野生型基因通过突变成为突变型基因。突变型一词既指突变基因,也指具有这一突变基因的个体。

21.基因就是编译氨基酸的密码子,因此,密码子的起源就是基因的起源。除了少数的不同之外,地球上已知生物的遗传密码均非常接近;因此根据演化论,遗传密码应在生命历史中很早期就出现。
22.构成DNA的碱基有4种,而一个氨基酸由3个碱基所决定,这样碱基的理论组合有4^3 =64种。实际上还有3个终止密码子(不编码氨基酸),因此,共有61个编码氨基酸的密码子。可是,构成蛋白质的氨基酸只有20种,这样,大多数氨基酸都有几个三联体密码(2、3、4或6个不等),这就是所谓的简并性,编码同一种氨基酸的密码子互称同义密码子,已知同义密码子在生物界中被使用的频率不尽相同。这种简并性可能起因于相似的立体化学特征
**一般来说,同义密码子的第1、2位碱基大多是相同的,只是第3位不同。譬如,ACU、ACC、ACA和ACG都编码苏氨酸,UGU、UGC、UGA和UGG都编码缬氨酸。这样,生物体对第3位碱基的点突变就具有更强的耐受性,或者说,同义密码子越多,相应的遗传稳定性越大。
23.还有三种核糖核酸——信使RNA(mRNA)、核糖体RNA(rRNA)和转运RNA(tRNA),分别负责(当然还需要蛋白酶的协作)遗传信息的转录、氨基酸的转送和蛋白质的组装。已知的tRNA共有61种,即每个能编码氨基酸的密码子都有一个相对应的tRNA(图4)。而一种tRNA只能携带一种氨基酸(如丙氨酸tRNA只携带丙氨酸),这样,一种氨基酸可被不止一种的tRNA所携带。DNA双螺旋中的碱基配对严格:A—T,G—C,但tRNA反密码子与mRNA的密码子之间的配对偶尔会出现摆动(wobble)现象。

在这里插入图片描述
24.揭开遗传密码子的起源之谜
http://blog.sciencenet.cn/home.php?mod=space&uid=1475614&do=blog&id=926687
&&人类有二万多基因,而有的细菌只有几百个基因。这种差异不仅仅在远缘物种中体现,即使在进化关系很近、分歧年代很近的近缘物种中,基因的种类和数目也不尽相同,这说明生物在进化过程中伴随着基因组大小和基因数目的变化。
&&新的基因产生的方式有基因重复(gene duplication),逆转座(retroposition),外显子重排(exon shuffling),基因分裂与融合(gene fission and fusion)以及基因水平转移(gene lateral transfer)等。
&&内含子和外显子。人们在研究小鸡卵清蛋白基因时发现其转录形成的mRNA只有该基因长度的1/4,其原因是基因中一些间隔序列的转录物在RNA成熟过程中被切除了。这些间隔序列叫内含子,基因中另一些被转录形成RNA的序列叫外显子。小鸡的卵清蛋白基因中至少含7个内含子。因而从基因转录效果看,基因由外显子和内含子构成。
&&密码子(codon)是指信使RNA分子中每相邻的三个核苷酸编成一组,在蛋白质合成时,代表某一种氨基酸的规律。
&&密码子(condon):mRNA(或DNA)上的三联体核苷酸残基序列,该序列编码着一个指定的氨基酸 ,tRNA 的反密码子与mRNA的密码子互补。
&&起始密码子(iniation codon):指定蛋白质合成起始位点的密码子。最常见的起始密码子是蛋氨酸密码:AUG (甲硫氨酸)
&&终止密码子(termination codon):任何tRNA分子都不能正常识别的,但可被特殊的蛋白结合并引起新合成的肽链从翻译机器上释放的密码子。存在三个终止密码子:UAG ,UAA和UGA。(不能决定任何氨基酸)
&&特点
①. 遗传密码子是三联体密码:一个密码子由信使核糖核酸(mRNA)上相邻的三个碱基组成。② 密码子具有通用性:不同的生物密码子基本相同,即共用一套密码子。
③ 遗传密码子无逗号:两个密码子间没有标点符号,密码子与密码子之间没有任何不编码的核苷酸,读码必须按照一定的读码框架,从正确的起点开始,一个不漏地一直读到终止信号。
④ 遗传密码子不重叠,在多核苷酸链上任何两个相邻的密码子不共用任何核苷酸。
⑤ 密码子具有简并性:除了甲硫氨酸和色氨酸外,每一个氨基酸都至少有两个密码子。这样可以在一定程度内,使氨基酸序列不会因为某一个碱基被意外替换而导致氨基酸错误。
⑥ 密码子阅读与翻译具有一定的方向性:从5’端到3’端。
⑦有起始密码子和终止密码子,起始密码子有两种,一种是甲硫氨酸(AUG),一种是缬氨酸(GUG),而终止密码子(有3个,分别是UAA、UAG、UGA)没有相应的转运核糖核酸(tRNA)存在,只供释放因子识别来实现翻译的终止。
在信使RNA中,碱基代码A代表腺嘌呤,G代表鸟嘌呤,C代表胞嘧啶,U代表尿嘧啶(注意:RNA与DNA不同,RNA没有胸腺嘧啶T,取而代之的是尿嘧啶U,按照碱基互补配对原则,U与A形成配对)。

25.遗传信息是指DNA分子中基因上的脱氧核苷(碱基)排列顺序密码子是指信使RNA上决定一个氨基酸的三个相邻碱基的排列顺序,反密码子是指转运RNA上的一端的三个碱基排列顺序。其联系是:DNA(基因)的遗传信息通过转录传递到信使RNA上,转运RNA一端携带氨基酸,另一端反密码子与信使RNA上的密码子(碱基)配对。

扫描二维码关注公众号,回复: 4179671 查看本文章

26.转录(Transcription)是遗传信息从DNA流向RNA的过程。即以双链DNA中的确定的一条链(模板链用于转录,编码链不用于转录)为模板,以ATP、CTP、GTP、UTP四种 [1] 核苷三磷酸为原料,在RNA聚合酶催化下合成RNA的过程。在体内,转录是基因表达的第一阶段,并且是基因调节的主要阶段。转录可产生DNA复制的引物,在反转录病毒感染中也起到重要作用

举例

DNA: 5’-ATCGAATCG-3’ (将此为非模板链)
3’-TAGCTTAGC-5’ (将此为模板链)
转录出的 mRNA: 5’-AUCGAAUCG-3’
可看出只是将非模板链的T改为U,所以非模板链又叫有义链。这也是中心法则和碱基互补配对原则的体现。
DNA模板被转录方向是从3′端向5′端;RNA链的合成方向是从5′端向3′端。

以RNA链为模板,经逆转录酶(即依赖于RNA的DNA聚合酶)催化合成DNA链,叫做逆转录。这种机制在RNA肿瘤病毒中首先发现。
RNA聚合酶是以DNA为模板的RNA聚合酶,也称转录酶。

27.我在NCBI上查到一个基因的序列,上面写有CDS 2154…3125; mRNA <2154…>3125
CDS(coding sequence) 序列是编码序列,是用来编码蛋白质的那段序列。
2154既不是转录起始位点,也不是翻译起始位点,而是指编码序列的起始密码子存在的位点,即编码这个蛋白质的DNA序列。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43643082/article/details/84321130