Kaggle Stanford RNA 3D Folding 竞赛简介

这是一个解决RNA结构预测这一生物学尚存的重大挑战的机器学习竞赛。

竞赛背景与意义

科学挑战

  • RNA在细胞功能中发挥核心作用,但预测RNA如何折叠成功能性三维结构仍然困难
  • 与蛋白质结构预测(AI系统近年取得重大进展)不同,RNA建模受限于稀疏数据和RNA折叠的固有复杂性
  • RNA被称为"生物学的暗物质",其结构与功能仍有大量未解之谜

应用价值

  • 推动RNA基础药物发展
  • 使癌症免疫疗法和CRISPR基因编辑更加可及和有效
  • 理解自然RNA分子的折叠和功能

竞赛任务

核心目标
参与者需要开发机器学习模型,仅根据RNA序列预测其三维结构

具体要求

  • 输入:RNA核苷酸序列(如AUGC…)
  • 输出:对于测试集中的每个序列,预测5个结构,提交文件应包含每个残基中C1’原子的x, y, z坐标
  • 提交格式:submission.csv,包含5组预测的坐标

评估指标

TM-score (Template Modeling Score)

  • 评分范围从0.0到1.0(越高越好),TM-score将预测结构与实验参考结构进行比较
  • TM-align > 0.45对应于正确的全局折叠
  • 对于每个目标RNA序列,参与者提交5个预测,最终得分是所有目标的最佳5选1 TM-score的平均值

竞赛时间线

根据搜索结果,竞赛分为两个阶段:

Part 1(已结束)

  • 第一个Stanford RNA 3D Folding挑战展示了全自动机器学习模型首次能够匹配人类专家

Part 2(当前进行中)

  • 开始日期:2025年2月27日
  • 公开排行榜刷新和早期分享奖:2025年4月23日
  • 竞赛结束日期:2025年9月24日
  • Part 2引入了更难的目标,包括没有可用结构模板的RNA分子,并应用了旨在奖励更高准确性的修订评估框架

奖励机制

  1. 早期分享奖 :前两个发布得分高于VFOLD人类专家分数的公开笔记本的团队各获得2,500美元
  2. 学术贡献 :表现优秀的参与者将被邀请为科学论文贡献代码和模型描述
  3. 排行榜奖励 :为排行榜顶级团队提供奖金

技术要求

提交方式

  • 必须通过Kaggle Notebooks提交
  • CPU和GPU笔记本有运行时限制
  • 提交时必须禁用互联网访问
  • 允许使用自由公开的外部数据

基础模型

  • 竞赛建立在RibonanzaNet模型基础上,该模型源自之前的Kaggle竞赛

组织方

竞赛通过全球合作组织,涉及实验RNA结构生物学家、斯坦福大学医学院以及霍华德·休斯医学研究所的AI@HHMI计划

与其他竞赛的关联

  • 竞赛定时在第17届结构预测关键评估(CASP)之前展示新方法,CASP计划于2025年4月举行
  • 与RNA-Puzzles竞赛相关联

科学严谨性

  • 评估基于完全独立的"未来"目标集,这些目标的序列和结构在2025年5月训练阶段结束后的四个月内才公开
  • 采用盲测机制确保科学严谨性

历史突破

根据bioRxiv的预印本论文,第一阶段竞赛已经取得了重要成果,首次实现了自动化机器学习模型在RNA结构预测上匹配人类专家的表现。


这个竞赛代表了AI在生物学领域的前沿应用,与AlphaFold在蛋白质折叠上的突破类似,但RNA折叠问题更加复杂且数据更少,使其成为当前深度学习在生物学中最具挑战性的问题之一。