行业新闻

首批百亿部署基础模型诞生

作者: 365bet网页版   点击次数:    发布时间: 2025-10-25 09:14

科技日报记者张家兴23日,华大生命科学研究所与蒋实验室联合发布了首个可部署百亿参数的通用核心基因组模型Genos。该模型支持多达百万碱基对的超长上下文分析,实现单碱基分辨率的精准识别。人类基因组由 30 亿个碱基对组成。人类基因组计划已经定义了序列,但序列中碱基的具体功能仍需准确识别和评估。现有模型大多基于1-2个参考基因组进行训练,无法反映人类遗传资源的多样性。 Genos整合了人类泛基因组参考联盟(HPRC)、人类基因组结构变异计划(HGSVC)等众多公共资源,首次使用全球636个“端粒到端粒”的高质量人类基因组作为训练数据。这些数据a 覆盖全球不同人群,有助于更全面地了解人类遗传多样性。 在算法架构方面,Genos采用“混合专家”架构,精确调度强相关性“专家”算法进行协同处理,成功降低了数百亿参数组合时的计算成本和资源消耗,使得模型既强大又易于使用。测试结果表明,Genos在直接为临床应用提供病原体突变意义的任务中,准确率高达92%;与基础科学模型相结合,准确率高达98.3%。多项综合测试结果也表明genos优于现有最好的模型。华大基因生命科学研究所相关负责人表示,genos模型完全开源,向HuggingFace、Moda等平台开放,提供两种版本12亿、100亿个参数,满足不同需求。