新闻动态
谷歌报告揭示科研真相:AI for Science已成注定未来
发布日期:2025-04-13 14:15    点击次数:56

杂谈

说到AI和未来,很多人想到的都是电影中的赛博朋克或者机器人造反。但未来不会想电影那样突然出现在眼前,就像二十年前的我们无法想象今天的生活,而现在的我们却习以为常。

AI对生活的改变是悄无声息的,除了正在成为得力助手的大模型,我们使用的手机电脑、各种服务中,AI都在默默改变一切。而前几日,Google DeepMind的一份报告《A New Golden Age of Discovery:Seizing the AI for Science opportunity》,则揭示了另一个真相,AI已经逐渐占领了科研。

图片

虽然早在今年的诺奖颁布的时候,AI就已经证明了其科学性和重要性,特别是化学奖的Alphafold2,更是向大家证明了AI在科研中的重要性和潜力。但DeepMind这份报告,却让人意识到AI已经是科研中不可或缺的工具,更是极其重要的发展方向,AI与科研的缠绕远超我们想象。

图片

现状与未来

就现状而言,AI 在实验室中的应用已经达到了相当普及的程度。据调查显示,全球范围内每三位博士后研究员中就有一位正在使用大语言模型(LLM)来助力他们的科研工作,其中涵盖了如文献综述、编程、编辑等多个重要方面。以文献综述为例,在过去,科研人员可能需要耗费大量时间在浩如烟海的文献中寻找有用信息,但现在借助 LLM,能够在短时间内对大量文献进行快速筛选和分析,极大地提高了工作效率。例如,谷歌的研究团队利用 Gemini LLM,在短短一天内就能从 20 万篇相关论文中精准地找到、提取并整合出特定数据,这在以往是难以想象的。

此外,AlphaFold 2 系统的成功更是 AI 在科学领域的一个里程碑事件。其创造者获得诺贝尔化学奖,这一殊荣不仅彰显了 AlphaFold 2 在蛋白质结构预测方面的卓越贡献,更重要的是,它向整个科学界传递了一个强烈的信号,即 AI 已经具备了在关键科学问题上取得重大突破的能力,从而激发了更多科研人员积极探索将 AI 融入到各自研究领域的热情,进一步推动了 AI 在科学研究各个角落的广泛应用。

图片

而未来,AI 在科学领域的发展将更为迅速。一方面,AI 将持续深入到科学研究的各个层面,从基础科学研究到应用科学开发,其影响力将不断扩大。例如,在基础科学领域,AI 有望帮助科学家解决更多复杂的理论问题,如在量子化学中模拟分子的行为和反应机制。在应用科学方面,AI 将助力新药研发、材料设计等领域实现更快的突破,如通过模拟药物分子与靶点的相互作用,加速新药的筛选和优化过程。另一方面,AI 与科学的融合将催生出全新的科研范式。传统的科研模式主要依赖于科学家的经验和直觉,而 AI 的加入将使科研过程更加数据驱动和智能化。科学家们将能够利用 AI 处理和分析大规模的数据,挖掘出隐藏在数据背后的规律和关系,从而提出新的假设和理论。这种新范式将促使科学研究更加高效、精准,有望在未来带来更多创新性的科研成果,推动科学的边界不断拓展。

图片

下面我们结合论文内容做简单的总结,如果需要论文原文,请跳转至最后一个章节。

AI如何加速科学探索?

图片

知识:重塑知识获取与传播

科学家面临着 “知识负担”,即需掌握海量且日益专业化的知识,这使得跨学科和年长科学家在重大发现中的作用愈发凸显,小团队独立研究的难度增加,且成果分享形式也限制了公众对科学的理解。LLM 的出现提供了新的解决方案,如谷歌 Gemini 可在短时间内从大量论文中提取关键信息,科学家还可利用其将论文转化为互动式或音频形式,以扩大受众范围。

数据:填补数据空白与优化

尽管处于数据爆炸时代,但许多自然和社会科学领域仍缺乏数据。AI 在数据收集方面可减少误差,例如在 DNA 测序、细胞检测和动物声音捕捉中。科学家还能利用 LLM 从多模态资源中提取非结构化数据并转化为结构化数据集,同时为数据添加注释。例如,AlphaProteo 蛋白质设计模型基于大量 AI 生成和实验结构数据进行训练,AI 生成的数据成为重要补充。

数据:填补数据空白与优化

尽管处于数据爆炸时代,但许多自然和社会科学领域仍缺乏数据。AI 在数据收集方面可减少误差,例如在 DNA 测序、细胞检测和动物声音捕捉中。科学家还能利用 LLM 从多模态资源中提取非结构化数据并转化为结构化数据集,同时为数据添加注释。例如,AlphaProteo 蛋白质设计模型基于大量 AI 生成和实验结构数据进行训练,AI 生成的数据成为重要补充。

实验:模拟、加速与指导实验

复杂实验因成本、设施和资源限制面临挑战,如核聚变实验。AI 可通过模拟物理系统加速实验进程,如强化学习在托卡马克反应堆等离子体控制中的应用,且模拟结果能为实际实验提供指导。以基因研究为例,AlphaMissense 可快速分类大量错义变异,帮助科学家聚焦关键变异,提升研究效率。

模型:精准建模复杂系统

传统数学模型在面对复杂系统时存在局限性,而 AI 能够学习复杂系统中的数据模式和规律,从而更准确地建模。谷歌的深度学习系统在天气预测中表现出色,超越传统模型,且 AI 在气候研究中也发挥着重要作用,如帮助飞行员避免加剧全球变暖的飞行路线。此外,AI 还能与传统建模方法相结合,如基于智能体的建模,提升模型的灵活性和适应性。

解决方案:突破大规模搜索难题

许多科学问题面临着庞大的潜在解决方案空间,传统方法难以充分探索。AI 能够快速筛选并聚焦于可行方案,如 AlphaProof 和 AlphaGeometry 2 在数学问题解决中的应用。它们利用 LLM 生成创意,结合数学逻辑系统逼近正确答案,为科学问题提供了新的解决思路。

AI 科研应用的关键要素

图片

问题选择:锚定科学探索的方向

在科研领域,选择具有重大意义且适合 AI 解决的问题是关键的第一步。这需要考量诸多因素,例如问题是否具备庞大的组合搜索空间,像在蛋白质结构预测中,可能的结构组合数量极为巨大;是否拥有充足的数据支撑,因为数据是 AI 学习和决策的基石;以及是否存在明确的目标函数,以便能够精准地衡量问题解决的效果。以 DeepMind 的研究为例,其 CEO Demis Hassabis 将科学类比为知识树,那些如蛋白质结构预测、量子化学这类基础性的 “根源问题”,一旦攻克,便如同打通了知识树的脉络,能够解锁众多全新的研究分支和应用领域。同时,问题的难度也需精心拿捏,过难可能导致进展停滞,如同在黑暗中摸索却找不到方向,而合适的难度能够产生中间结果,为持续推进研究提供宝贵的反馈,这依赖于科研人员敏锐的直觉和反复的实验尝试。

模型评估:确保科学成果的可靠性

模型评估是检验成果可靠性的试金石。科学家们需要运用一系列评估方法,如基准测试、指标设定和竞赛等,来衡量 AI 模型的科学能力。这些评估手段如同标尺,不仅能够精准地追踪研究进展,还能像催化剂一般激发创新思维,点燃科研人员对科学问题的探索热情。以 DeepMind 的天气预测团队为例,他们在研究初期采用基于关键变量(如地表温度)的 “进展指标” 来逐步优化模型性能,就像攀登高峰时一步一个脚印。当模型达到一定水平后,他们借鉴欧洲中期天气预报中心(ECMWF)的经验,运用包含 1300 多个指标的综合评估方法,对模型进行全面而细致的考量。然而,在这个过程中也发现了一些潜在问题,比如 AI 模型可能会出现 “作弊” 现象,像在预测降雨位置时,“模糊” 预测比 “精准” 预测受到的惩罚更轻,这就是所谓的 “双重惩罚” 问题。因此,除了常规评估,还需进一步验证模型在实际应用中的实用性,例如评估其预测气旋路径、表征 “大气河流” 强度等下游任务的能力,确保模型在真实场景中能够发挥可靠的作用。

计算资源:驱动科研创新的引擎

计算资源在 AI for Science 的发展进程中扮演着核心引擎的角色,其重要性不言而喻。在当今时代,AI 实验室和政策制定者必须以长远的眼光,审慎地权衡计算需求与效率提升之间的关系。不同类型的 AI 模型对计算资源的需求差异显著,例如蛋白质设计模型可能相对小巧高效,而大语言模型(LLM)在训练阶段则需要耗费大量计算资源,但在微调和推理阶段所需计算量相对较少。这就如同不同类型的交通工具,有的小巧灵活,有的则在启动时需要巨大能量但后续运行能耗较低。同时,计算资源的能耗和温室气体排放问题也备受关注,如 2021 年的一项估计表明,虽然云数据中心和超大规模数据中心(许多大型 AI 模型在此训练和部署)的排放量仅占全球排放的 0.1 - 0.2%,但随着 LLM 规模的不断扩大,这一数字可能会显著上升。因此,一方面要不断优化计算资源的使用效率,通过改进算法、优化数据处理等方式降低能耗;另一方面,要确保有充足的计算资源供应,包括获取合适的芯片、建设可靠的基础设施以及培养专业的工程技能,这在学术界和公共研究机构中尤为重要,因为这些领域往往在计算资源方面相对薄弱。

数据:夯实科研大厦的基石

数据是 AI for Science 这座大厦的基石,其质量和可用性直接影响着科研成果的高度。在数据的收集和管理方面,需要整合自上而下和自下而上的双重努力。自上而下的举措,如政府推动的项目,2012 年美国政府启动的材料项目就绘制了无机晶体图谱,为后续相关研究提供了丰富的数据基础,这就像是为科研大厦打下了坚实的地基。然而,许多具有突破性的科研成果往往源于自下而上的努力,那些有远见的个人或小团队在数据收集和整理方面发挥着不可忽视的作用。例如,当时 Broad 研究所的 Daniel MacArthur 领导开发的 gnomAD 遗传变异数据集,以及数学家 Leonardo de Moura 开发的 Lean 工具(如今已成为 AI 数学模型训练的重要资源),这些如同散落在科研道路上的璀璨明珠,为科学研究提供了独特而宝贵的数据支持。但目前数据领域仍面临诸多挑战,部分数据未被收集、质量参差不齐、访问受限等问题,就像大厦中的一些关键部位存在缺陷,制约了 AI 在科研中的应用。解决这些问题,需要建立统一的数据标准,激励更多的科研人员参与数据管理,确保数据能够自由流通且被充分利用。

组织模式设计:平衡科研活力与效率

在科研组织模式的设计上,找到合适的平衡点是激发科研活力与提高效率的关键。学术界通常倾向于自下而上的研究模式,给予科研人员较大的自主性,鼓励自由探索和创新思想的萌发;而工业界则更多地采用自上而下的模式,强调目标明确、高效执行。顶尖实验室往往能巧妙地融合这两种模式的优势,例如贝尔实验室和施乐帕洛阿尔托研究中心的黄金年代,既鼓励科研人员自由发挥创造力,又能保持一定的方向感和组织性,这为后来者提供了宝贵的借鉴经验。如今,一批新兴科学机构正试图复刻这种成功模式,它们致力于解决那些规模庞大、风险高但回报也高的科学问题,这些问题往往超出了学术界或工业界单一模式的解决能力范围。例如,扩展对 AI 数学研究至关重要的 Lean 证明助手。在具体项目中,如同在 DeepMind 的实践中,研究过程常在 “探索”(团队自由寻找新想法)和 “利用”(专注于工程优化和性能提升)两种状态间灵活切换,这需要精准把握时机,如同指挥一场交响乐,确保每个阶段都能发挥最大效能,吸引并留住顶尖研究人才,从而推动科研项目顺利前行。

跨学科:打破科研壁垒的桥梁

跨学科合作是攻克复杂科学难题的桥梁,它能够整合不同领域的知识和技能,产生 1 + 1>2 的协同效应。在 AI for Science 的背景下,跨学科合作尤为重要,因为许多科学问题不再局限于单一学科范畴,而是涉及多个领域的交叉融合。然而,实现真正的跨学科合作并非易事,学科专业化导致科研人员往往专注于自己的领域,不同的激励机制也使得跨学科合作面临诸多障碍。例如在科研项目合作中,不同学科背景的人员可能因目标不一致、评价标准不同而产生分歧。以 DeepMind 的 Ithaca 项目为例,该项目运用 AI 修复受损的古希腊铭文,这不仅需要 AI 技术专家的精湛技术,还需要铭文学家对古代文字的深入理解。为了实现成功合作,项目负责人 Yannis Assael 积极学习铭文学知识,而铭文学家也努力理解 AI 模型的工作原理,双方通过紧密协作,共同攻克了难题。为了促进跨学科合作的持续发展,组织需要创造更多有利于跨学科交流的角色和文化氛围,鼓励科研人员跨越学科界限,分享不同的观点和方法,形成一个多元包容、相互启发的科研生态环境。

采用:推动科研成果转化的关键

科研成果的价值最终体现在其广泛采用和实际应用中,而在 AI for Science 领域,这一过程需要精心谋划。一方面,要在科学家的采用需求与商业目标、安全风险等多方面因素之间找到微妙的平衡。例如,科学 AI 工具如 AlphaFold,既具有高度专业化的功能,专注于特定的科学任务,又具备广泛的通用性,能够服务于众多不同研究方向的科学家,从疾病研究到渔业改进等领域。为了促进其广泛采用,在 AlphaFold 2 的推广中,不仅开源代码,方便科学家根据自身需求进行定制和改进,还与 EMBL - EBI 合作建立数据库,让全球范围内的科学家,尤其是那些计算资源有限的科研人员,能够便捷地访问和使用其中的蛋白质结构数据。另一方面,要赢得科学家的信任,这是推动采用的核心。AlphaFold 通过设计不确定性指标,直观地展示模型对预测结果的信心程度,并与 EMBL - EBI 合作推出培训模块,用实际案例指导科学家如何解读和运用这些指标,从而让科学家在使用过程中更加放心,提高对模型的信任度,确保科研成果能够真正落地生根,产生实际的社会效益。

合作:汇聚科研力量的纽带

在 AI for Science 的宏伟蓝图中,合作是汇聚各方力量的坚实纽带。科学研究的复杂性和多样性决定了任何一项重大成果的取得都离不开多领域、多主体的协作。从公共部门到私营组织,从数据集的创建到研究成果的共享,合作贯穿于项目的整个生命周期。例如,在 AI 模型评估新材料可行性时,资深材料科学家的专业判断不可或缺;DeepMind 设计的抗 SARS - Cov - 2 蛋白质,需与克里克研究所合作进行湿实验验证,确保其实际效果。在数学领域,FunSearch 解决 Cap Set 问题也得益于数学家的专业指导。随着工业实验室在推动 AI 能力提升方面的核心作用日益凸显,以及对丰富领域知识的需求不断增长,公共与私营部门之间的合作将愈发紧密。这种合作不仅能够整合各方资源,发挥各自优势,还能促进知识的交流与创新的碰撞,为推动 AI for Science 的前沿发展注入强大动力。但合作过程中也面临诸多挑战,如各方权利和义务的界定、研究成果的归属、数据和模型的开源政策以及适用的许可协议等,这些都需要在合作初期进行充分沟通和协商,以确保合作的顺利进行和可持续发展。

报告译文

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

E.N.D

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报。