公司新闻
公司新闻

公司新闻

解读生命的密码——DNA

2022-03-04 722

数百万年前至今的生物进化树

何为宇宙?




古人称:四方上下曰宇,古往今来曰宙。宇宙有上千亿个星系存在,银河系就是其中一个存在。每个星系中又都包含数十亿颗恒星,而每一颗恒星都会在自身引力的作用下,吸引一群行星绕在自己身旁形成子单系,太阳系就是恒星,我们居住的地球就是围绕太阳运转的那颗行星。地球形成至今已有46亿年,在地质、环境等条件不断演变的情况下,生物体通过基因突变(自然选择)慢慢适应这个星球,再经过时间的延续,无数碳基生物体你来我往,构建了上图的生物种类进化树。这里的基因突变就是DNA链中的特殊某段定义的,地球的生命史就被篆刻在每一种生物的DNA中。今天的故事就要从DNA说起。






那么,什么是DNA呢?






DNA:脱氧核糖核酸(英语:DeoxyriboNucleic Acid,缩写为DNA)由含氮的碱基+脱氧核糖+磷酸组成。因为脱氧核糖核糖和磷酸都一样,但碱基可以分为四种(腺嘌呤A,鸟嘌呤G,胸腺嘧啶T,胞嘧啶C),所以脱氧核糖核苷酸就可以分为四种(按照碱基的不同区分),同时在书写过程中可以用碱基的简写(AGTC)代替。

人类DNA序列片段

简单来说,DNA就是由A、T、G、C四种碱基无规则排序组成的一长串序列编码,是大多数生物的遗传信息的载体。DNA编码上的信息可以组成遗传指令,用来引导生物发育与生命机能运作。




生物体中的DNA碱基构成一条长序列后,几乎从不作为单链存在,而是应用碱基互补原则,既通过A对T或者T对A、G对C或者C对G的方式形成碱基对,构建出另一条DNA碱基序列,作为一对彼此紧密相关的双链,彼此交织在一起形成双螺旋结构。


DNA双螺旋结构

影视剧中经常出现被我们大家熟知的亲子鉴定,就是利用到了DNA。生物学、遗传学上使用DNA做亲子鉴定时,否定亲子关系的准确率几近100%,肯定亲子关系的准确率可达到99.99%。




在我们开发的应用程序中,通过对某禽流感病毒DNA碱基序列片段的比对,找到同源性比较高的DNA序列片段,这些序列代表的是与原序列相近的病毒,或者说与原序列代表的病毒属于“近亲”。

DNA比对结果


再对列表内的序列进行同源性比较,就能看到所选择的序列两两之间的同源性为多少,用以判断两种病毒的“亲缘”关系,如下图:

DNA比对矩阵

由这些DNA序列构建而成的进化树更能说明序列所代表的病毒的“亲缘”关系,如下图。图中,进化树中的橙色字体代表查询序列的序列号,蓝色字体代表比对序列的序列号。其中,在一个外群的分支“亲缘”关系更为紧密,而同一外群中,一个节点下的两个病毒的DNA序列支长越短,“亲缘”关系越近,反之,“亲缘”关系越远。而对于支长,我们可以通过标尺来观测其长短。

进化树


而DNA又是如何成为蛋白质的呢?




DNA不是直接就变成了蛋白质,而是通过一系列过程,最终转化为蛋白质。




首先是DNA的转录:DNA在细胞核内,根据碱基互补配对原则,和基因的选择性表达等,转录出mRNA(信使RNA),信使RNA上携带的就是特定的DNA序列,叫做密码子,密码子对应不同的氨基酸。




其次是mRNA的翻译:mRNA通过核孔来到细胞质中的核糖体上,根据密码子的不同,tRNA(转运RNA)上有反密码子和携带的特定氨基酸。根据碱基互补配对的方式,tRNA和mRNA结合,那么就会有不同的氨基酸,通过脱水缩合的方式形成肽键,多个氨基酸通过肽链结合形成肽链。




最后肽链:多个肽链通过高尔基体,内质网等加工,在空间上通过折叠,反转,螺旋等方式形成空间结构,从而形成具有生物活性的蛋白质。

DNA—RNA—蛋白质


总结下来就是:DNA序列是遗传信息的贮存者,它通过自主复制得到永存,并通过转录生成mRNA,再翻译生成蛋白质的过程。该过程完全自主完成,且该过程控制所有生命现象。通俗点讲就是我干自己的活,谁也管不了我,但我能弄你。伟不伟大先不说,牛X不牛X就完了!




不由感叹:敬畏宇宙,敬畏自然!




工作中,我们通常操作的只是类似ATGC这样的DNA碱基的序列编码,通过对DNA碱基序列的转录、翻译,最终成为的氨基酸序列就可以了。在我们应用程序里更是直接利用密码子表将DNA序列转换为氨基酸序列:

DNA序列翻译为氨基酸序列

上图就是在一长串DNA原始序列找到开放阅读框,将该阅读框内的DNA序列翻译为氨基酸序列的操作。通过程序计算,该原始序列内共找到13条开放阅读框序列。也就是说,我们可以将该原始序列翻译成13条氨基酸序列。




提到开放阅读框,就不得不提密码子,它就像摩斯电码一样,不同的点横组合,可以翻译为不同的代码。

摩斯电码表


所谓密码子,就是三个连续DNA碱基为一组,这一组碱基序列就可以翻译为一个氨基酸编码,而所有的三个连续DNA碱基的排列组合构成了密码子表。有了密码子表(下图),我们就能更便捷的将DNA翻译为氨基酸。但密码子表中有两个特殊存在:起始密码子ATG和终止密码子TAA/TAG/TGA,它们是定义一段DNA序列是否能翻译为氨基酸序列的标准。

DNA-氨基酸密码子表

氨基酸中文对照表

在正向DNA序列中,从第一个起始密码子开始到最后任意一个终止密码子结束,且中间碱基数量是3的倍数的DNA序列,才是正常的可翻译氨基酸的DNA序列,也被称为开放阅读框;否则称为残缺序列。残缺序列是无法被翻译为氨基酸序列的。需要提到的一点就是,当我们翻译时,默认将终止密码子翻译为星号(*)。




到这里,我们就已经成功将DNA翻译成了氨基酸。而氨基酸最终会构成蛋白质。至于蛋白质的功效,就不必多讲了。生活中各种高蛋白之类的产品宣传估计已经将蛋白的功效普及的差不多了。




那么问题来了,给你一串人类DNA序列片段:ATGGCACATGCAGCGCAATAG,你能将其翻译成氨基酸序列嘛?




中科北纬软件研发团队,长期从事林草病虫害监测预报防治、野生动物保护和疫源疫病监测预警等方面业务梳理和软件开发工作,以网络和信息化助力您的基因探索之路。