1. <dl id="dica7"><font id="dica7"></font></dl>

      2. <li id="dica7"><ins id="dica7"><b id="dica7"></b></ins></li>
        1. <dl id="dica7"></dl>
                <dl id="dica7"></dl>
                <li id="dica7"></li>

                  <dl id="dica7"></dl>

                        1. <dl id="dica7"></dl>
                            <li id="dica7"></li>
                            <li id="dica7"><ins id="dica7"><strong id="dica7"></strong></ins></li>

                            <dl id="dica7"><ins id="dica7"><thead id="dica7"></thead></ins></dl>
                              1. 可从氨基酸链片段直接预测蛋白质功能!比生物界“AlphaGo”更厉害的模型来了?
                                药明康德 · 2019/03/27
                                我们都知道,蛋白质是维持我们生命所必需的庞大而复杂的物质。蛋白质具体能完成什么样的功能,主要取决于它独特的三维结构。因此了解蛋白质的结构,?#26434;?#39044;测其对某些药物的?#20174;?#26469;说,是一个非常重要的环节。

                                本文转载自“药明康德”。

                                就在几个月前,DeepMind推出了AlphaFold系?#24120;?#36825;个被称为生物界“AlphaGo”的系统能够预测并生成蛋白质3D结构。而近日,来自MIT的研究人员开发了一个新的研究模型,能够直接预测氨基酸链片段是如何决定蛋白质功能的。这一发现可以帮助研究人员设计和测试新的蛋白质,从而用于药物研发和生物学研究。

                                我们都知道,蛋白质是维持我们生命所必需的庞大而复杂的物质。蛋白质具体能完成什么样的功能,主要取决于它独特的三维结构。因此了解蛋白质的结构,?#26434;?#39044;测其对某些药物的?#20174;?#26469;说,是一个非常重要的环节。

                                然而,尽管有了数十年的研究和多种成像技术的辅助,我们仍然只了解到了无数蛋白质结构中的很小一部分,还有很多未知结构的蛋白质功能尚未揭晓。针对这一情况,来自MIT的研究人员开发出了一种方法,“学习”了蛋白质序列中每个氨基酸位置上容易计算的表征。随后,研究人员将这些表征输入机器学习模型,让模型直接预测单个氨基酸片段的功能,而无需任何蛋白质结构的数据。

                                首先,研究人员使用了来自蛋白质结构分类数据库(SCOP)的约22000种蛋白质,将这些蛋白质按照结构和氨基酸序列的相似性进行分类,并对机器学习模型进行训练。?#26434;?#27599;一对蛋白质,研究人员都会根据其SCOP类别计算出一个结构相似性评分。然后,研究人员将随机的蛋白质结构对及其氨基酸序列输入机器学习模型,通过编码器将它们转换成数值表示出来,称为嵌入(embedding)。每个嵌入都包含了一对氨基酸序列的相似性信息。


                                ▲该模型的示意图(图片来源:arxiv.org)

                                该模型将两个嵌入对齐,然后计算出相似度评分,以预测其代表的蛋白质三维结构的相似性。然后,计算机会将这一评分与真实的SCOP相似性评分进行比较,并向编码器发送反馈信号。如果模型的预测?#36136;?#19982;真实?#36136;?#30456;差较远,则会进行一定的调整。

                                同时,该模型预测了每次嵌入的“接触图”(contact map),即每个氨基酸与该蛋白质中其他氨基酸的距离,并将其预测的接触图与来自SCOP的已知接触图进行比较,然后向编码器发送反馈信号。这一步骤有助于模型更好地明确氨基酸在蛋白质结构中的?#38750;?#20301;置,从而进一步了解每个氨基酸的功能。

                                ?#26434;?#26576;个氨基酸链,该模型可以为三维结构中的每个氨基酸位置生成一个嵌入。然后,机器学习模型可以使用这些序列嵌入,根据其预测的三维结构接触图,来准确预测每个氨基酸的功能。在一个应用?#36947;?#20013;,研究人员使用该模型预测有哪些蛋白质可以通过细胞膜,其预测结果比现有的先进模型还要更加准确。

                                接下来,研究人员计划将该模型应用到更多的预测任务中,例如弄清楚哪些序列片段可?#26434;?#23567;分子结合,这?#26434;?#33647;物研发工作来说是至关重要的。研究人员表示,这项研究最终将可?#26434;?#29992;于人类健康和药物基因组学,因为它有助于检测破坏蛋白质结构的有害突变。

                                参考资料:

                                [1] Bepler, et al., (2019). Learning protein sequence embeddings using information from structure. ICLR 2019, arXiv:1902.08661

                                [2] MIT CSAIL’s AI predicts a protein’s function from chains of amino acids. Retrieved March 26, 2019

                                [3] Model learns how individual amino acids determine protein function. Retrieved March 26, 2019


                                所有文章仅代表作者观点,不代表本站立场。如若转载请联系原作者。
                                查看更多
                                发表评论 我在frontend\modules\comment\widgets\views\文件夹下面 test
                                助赢pk10软件手机版