11月15日,深势科技发布多模态科学文献大模型 Uni-Finder,重新定义智能化文献阅读。这个革命性的智能文献数据库平台,不仅提供高效的多模态检索功能,还能通过先进的自然语言交互技术灵活提取关键数据,大大优化了科学文献的理解和分析过程。Uni-Finder 的核心技术是深势科技自研的科学多模态大模型 Uni-SMT(Universal Science Multimodal Transformer)。不同于之前仅关注纯文本的大型语言模型,Uni-SMT 综合考虑了科学文献中的多模态元素,如图表、数学方程、分子结构表示和化学反应方程式等。它运用多模态对齐技术,实现了对科学文献的更全面和精确理解。Uni-Finder 一经发布,就得到来自各方面,尤其是对于文献阅读有高要求的垂直领域用户的追捧和各种反馈。在生物学领域,文献资源是研究者们宝贵的知识宝库。然而,随着科研文献量的爆炸式增长,研究人员往往需要花费大量时间去筛选和理解相关文献。这不仅效率低下,而且可能错过重要的信息。而今,Uni-Finder 的推出,能够高效地从文献中提取信息,并提取实体、三元组等知识图谱相关信息,极大地推动了文献信息的整理进程。下面,我们将简要介绍 Uni-Finder 在生物文献信息提取方面的实例,欢迎您查看我们的 Notebook 以获取更深入的了解。
Notebook 地址:
https://nb.bohrium.dp.tech/detail/10568
操作指南
进入 https://uni-finder.dp.tech/,点击上传 PDF,在新打开的网页中,将待探索的 PDF 拖到“上传 PDF”按钮处。本文以文献 Sex Differences in Gene Expression and Regulatory Networks across 29 Human Tissues 为例。
文献地址:
https://www.cell.com/cell-reports/pdf/S2211-1247(20)30776-2.pdf
文章总结
在阅读一篇生物学论文时,我们往往需要快速掌握其核心观点和主要发现。Uni-Finder 能迅速提供文章的精炼总结,将长篇论文浓缩为核心信息,使你能够快速把握研究亮点和结论要义。
首先,我们进行常规操作,请 Uni-Finder 总结一下这篇文章:
Prompt:请总结这篇文章的主要研究内容和发现。
实体识别
Prompt:请提取这篇文章描述的cell-type marker genes。
对比原文,可见正确。
工具、算法提取
Uni-Finder 不仅能识别和提取出文献中的关键生物学概念,它还能精准地捕捉到作者使用的重要工具和算法。这意味着无论涉及实验方法还是数据分析过程,所用的技术和工具都将一目了然。
我们可以提取这篇文章中使用到的工具和算法:
Prompt 1: 请总结和描述这篇文章中获得主要结论使用的生物信息工具和算法。
当然,我们也可以进一步明确,只需要提取统计分析和网络建模的相关工具和算法:
Prompt 2: 描述研究中用来推断基因调控网络的统计分析和网络建模技术。
细节解释
对于那些难以理解的术语和复杂细节,Uni-Finder 能提供透彻的解释。它就像一个随时待命的专家,帮助您澄清每个专业术语的含义和把握每个结论的关键点。
接下来,我们可以探索文章中的细节内容。
Prompt 1:根据文献内容,解释性别偏向性靶向X染色体基因的概念,以及它与基因调控网络的关系,并给出正文中的参考段落。
Prompt 2:根据文献内容,讨论转录因子在性别差异中基因调控中的作用,重点关注转录因子MAZ及其差异性靶向模式,并给出正文中的参考段落。
Prompt 3:根据文献的研究结果,确定在男性和女性中差异性调控的生物过程和疾病,并给出正文中的参考段落。
探索类的问题
此外,Uni-Finder 还可以总结文章的局限性等问题,它不只是答疑解惑,更能引导您探索相关研究领域,启发新的研究思路。
我们可以询问一些更探索类的问题。
首先,关于多组学数据的整合:
Prompt:文献中,多组学数据的整合如何有助于理解性别差异的分子基础?请回答并给出正文中的参考段落。
此外,我们还可以让大模型总结该文献的局限性。
Prompt:批判性地评价该文献的局限性(请回答并给出正文中的参考段落),并为未来关于性别差异中基因调控的研究提出潜在的改进建议。
文献的知识图谱提取
Uni-Finder 还可以在复杂的文献信息中抽取较为直观的知识图谱信息,它能够执行实体提取、关系提取、事件抽取、因果关系分析以及概念层级与分类等多种任务,从而不仅展示了概念间的联系,还能揭示实验方法和结果之间的网络关系,加深您对研究领域的理解。
最后,我们可以测试一下 Uni-Finder 在知识图谱提取的一系列任务上的效果。
首先是实体提取:
Prompt:列出论文中提到的所有与性别差异相关的基因名称。
对比 Claude 的结果:
根据原文可以发现,Claude 虽然回答得多,但是比 Uni-Finder 多出来的部分(如 ESR1、ESR2、AR),在文中并非指代基因,而是性激素受体,或是非特定基因。
然后,我们进行一些关系提取的测试:
Prompt:请直接用一系列三元组,描述文中提到的基因表达和性别差异之间的关系,并给出文献正文中的参考段落。
接下来,进行事件抽取的测试:
Prompt:用简短的词组总结文献中提到的关于性别差异基因表达的重要研究事件,针对每个事件,都给出文献中除了摘要部分以外的正文的参考段落。
然后,我们可以尝试一些因果关系分析:
Prompt:分析并解释性别如何影响基因调控网络,并给出文献正文中的参考段落。
此外,尝试概念层级和分类:
Prompt:根据文章内容,对不同性别基因表达差异的原因进行分类和层级划分,并给出文献正文中的参考段落。
对比 Claude 的结果:
可以看出 Uni-Finder 的结果更与文章相关。
最后,可以提取一些概念,比如基因功能和病理特征:
Prompt:提取文中分析的性别差异基因的功能和相关病理特征,并给出文献正文中的参考段落。
对于科学研究和工业研发来说,深入阅读和分析文献都是一项关键却耗时的任务。深势科技推出的 Uni-Finder 正在改变这一局面。这个革命性的智能文献数据库平台,不仅提供高效的多模态检索功能,还能通过先进的自然语言交互技术灵活提取关键数据,大大优化了科学文献的理解和分析过程,为科学研究及相关应用,提供了更多的思路和突破口。后续,我们将持续为大家分享 Uni-Finder 在相关领域的实测和应用案例。
Uni-Finder 现在也开放了更大范围的测试,如果您对 Uni-Finder 感兴趣,欢迎扫描下面的二维码(或点击文末的“阅读原文”)申请试用。
推荐关注
关于深势科技
深势科技是“AI for Science”科学研究范式的引领者和践行者,致力于运用人工智能和多尺度的模拟仿真算法,结合先进计算手段求解重要科学问题,为人类文明最基础的生物医药、能源、材料和信息科学与工程研究打造新一代微尺度工业设计和仿真平台。
我们开创性地提出了「多尺度建模+机器学习+高性能计算」的革命性科学研究新范式,并推出了Bohrium®科研云平台、Hermite®药物计算设计平台、RiDYMO®难成药靶标研发平台及 Piloteye™电池设计自动化平台等工业设计与仿真基础设施,颠覆了现有研发模式,打造“计算引导实验、实验优化设计”的全新范式。
深势科技是国家高新技术企业、国家专精特新“小巨人”企业,总部位于北京,并在上海、深圳等城市布局研发中心。科研技术团队由中国科学院院士领衔,汇集了超百位数学、物理、化学、生物、材料、计算机等多个领域的优秀青年科学家和工程师,其中公司的博士及博士后占比超过35%。核心成员获得过2020年全球计算机高性能计算领域的最高奖项“戈登贝尔奖”,相关工作当选2020年中国十大科技进展和全球AI领域十大技术突破。
👇点击“阅读原文”,即可申请试用