计算科学是应用先进的计算能力预言和了解实际世界复杂现象演化规律的科学,它涉及数值模拟或工程仿真以及模拟所必需的高性能计算机系统、算法和应用软件等。10月7~9日在北京举行的以“我国高性能计算的发展与对策”为主题的329次香山科学会议上,与会专家指出,当今科学研究和工程应用正在向大规模、高复杂度、高微观或宏观的领域发展,这种发展趋势形成了对计算科学越来越强烈的需求。高性能计算已经成为药物设计、大气环流数值模型、数字解剖和蛋白质结构设计等各种前沿科学研究、技术开发和工程设计中必不可少的重要基石。
分子模拟和辅助药物设计是研究热点
与会专家指出,在新药研发方面,能够利用高性能计算机实现活性化合物的虚拟筛选,并从筛选的活性化合物出发进行靶点的发现与确证,以及进行生物大分子的动力学模拟来研究靶标的构象空间与作用机理。
中国科学院院士、中国科学院上海药物研究所研究员陈凯先在题为《基于生物复杂分子体系的新药物设计和分子模拟》的书面报告中介绍说,计算生物学是开发和应用数据分析及理论的方法、数学建模和计算机仿真技术并用于生物学研究的一门学科。计算生物学正在成为现代生物学研究的核心方法之一,它的重要性和复杂性在当前生物学数据量的不断增长中日益得以显示,需要回答的问题越是复杂,其重要性和复杂性就越显得尤为突出,这也使得计算生物学成为当今生命科学最具活力的新兴前沿学科之一。
陈凯先认为,分子模拟和计算机辅助药物设计是当前计算生物学研究的热点问题,也是计算生物学与生物医药产业结合最紧密的方向。目前,高性能计算在分子模拟和计算机辅助药物设计领域主要有两个方面的应用,一是通过计算机药物设计和筛选方法进行药物发现,即首先建立化合物分子的骨架库数据库,然后设计化合物组合数据库或者直接使用商业数据库,通过已经建立的计算机虚拟药物筛选技术平台,筛选出化合物结构进行类药性分析和三维定量构效关系分析,获取进一步结构优化的信息。
二是用分子动力学模拟方法进行蛋白质动态模拟。计算生物学运用大规模高效的理论模型和数值计算,直接从蛋白质序列预测蛋白质三维结构以及动力学特征,研究生物大分子结构与功能的关系、生物大分子之间相互作用以及生物大分子与配体的相互作用,促进蛋白质工程、蛋白质设计和计算机辅助药物设计的发展。通过计算生物学研究蛋白和蛋白相互间的分子识别,包括药物与多种蛋白结合,药物调控靶标信号途径的特性,可以获得正确的药物设计蛋白质构象,了解蛋白结构与功能的关系,从而提高新药的研发水平。
尚缺乏行之有效的算法
物理学在20世纪已经成为鼎立在实验、理论和计算三大支柱上的成熟的科学。进入21世纪,活物质和生命现象更是成为物理学的重要研究对象。60多年来,物理学的发展和高性能计算的进步互为依存、结伴而行。相比之下,生物学则刚刚在迈向成熟科学的道路上蹒跚起步。中国科学院院士、复旦大学理论生命科学研究中心研究员郝柏林指出,与物理学最大的不同是,在计算生物学和生物信息学领域实际上还没有久经考验的、行之有效的算法。
生物学正在成为人类科学活动中产生数据量最多的领域。仅以国际DNA数据库GenBank为例,在2008年8月15日发布的第167版中,共有来自30多万种生物体的9200多万条核酸分子序列,其字母总数超过950亿个。在这些数据中,正在与日俱增的是所谓完全基因组,即某一生物体赖以生存的全部密码。截至2008年9月19日,全球共有超过4000个基因组测序计划,其中只有约1/5的项目已经发表;而新项目的启动频度远大于完成发表速度,但这些只是隐藏着大量未知事实和规律的原始素材。
郝柏林说,目前广为使用的BLAST类型的数据库搜索、GENSCAN类型的寻找基因程序都是基于统计方法的不得己而为之手段。而基于统计的各种预测都还过不了“70%的坎儿”,真正有生物学意义的计算,都不是向功能足够强大的计算机系统提交作业就能解决问题的,必须创建面向生物学某些特定方向的高性能计算环境。
陈凯先等建议,应加强新的应用程序并行算法,新的硬件开发和应用研究,提高应用程序在集群计算机上的并行效率,大力开发自主知识产权的软件,特别是在药物设计的高性能计算方面应用软件的新算法和新技术,整合现有软硬件资源。据介绍,目前,中国科学院上海药物研究所率先在国内应用超级计算机开展生命科学和药物设计研究,发展了复杂生物大分子体系理论计算方法,率先进行了复杂生物大分子长时分子动力学和变构动力学模拟;在分子模拟的基础上,对30余种重要靶标进行了药物设计研究,其中一些研究工作已得到实验结果的验证,研究人员已发现了上百个具有新颖结构或新作用机制、活性高、选择性较好的先导化合物,多个化合物已经显示出较好的前景。
《科学时报》 (2008-10-14 A4生命科学)