Kaggle Stanford RNA 3D Folding 竞赛简介
这是一个解决RNA结构预测这一生物学尚存的重大挑战的机器学习竞赛。
竞赛背景与意义
科学挑战
- RNA在细胞功能中发挥核心作用,但预测RNA如何折叠成功能性三维结构仍然困难
- 与蛋白质结构预测(AI系统近年取得重大进展)不同,RNA建模受限于稀疏数据和RNA折叠的固有复杂性
- RNA被称为"生物学的暗物质",其结构与功能仍有大量未解之谜
应用价值
- 推动RNA基础药物发展
- 使癌症免疫疗法和CRISPR基因编辑更加可及和有效
- 理解自然RNA分子的折叠和功能
竞赛任务
核心目标
参与者需要开发机器学习模型,仅根据RNA序列预测其三维结构
具体要求
- 输入:RNA核苷酸序列(如AUGC…)
- 输出:对于测试集中的每个序列,预测5个结构,提交文件应包含每个残基中C1’原子的x, y, z坐标
- 提交格式:submission.csv,包含5组预测的坐标
评估指标
TM-score (Template Modeling Score)
- 评分范围从0.0到1.0(越高越好),TM-score将预测结构与实验参考结构进行比较
- TM-align > 0.45对应于正确的全局折叠
- 对于每个目标RNA序列,参与者提交5个预测,最终得分是所有目标的最佳5选1 TM-score的平均值
竞赛时间线
根据搜索结果,竞赛分为两个阶段:
Part 1(已结束)
- 第一个Stanford RNA 3D Folding挑战展示了全自动机器学习模型首次能够匹配人类专家
Part 2(当前进行中)
- 开始日期:2025年2月27日
- 公开排行榜刷新和早期分享奖:2025年4月23日
- 竞赛结束日期:2025年9月24日
- Part 2引入了更难的目标,包括没有可用结构模板的RNA分子,并应用了旨在奖励更高准确性的修订评估框架
奖励机制
- 早期分享奖 :前两个发布得分高于VFOLD人类专家分数的公开笔记本的团队各获得2,500美元
- 学术贡献 :表现优秀的参与者将被邀请为科学论文贡献代码和模型描述
- 排行榜奖励 :为排行榜顶级团队提供奖金
技术要求
提交方式
- 必须通过Kaggle Notebooks提交
- CPU和GPU笔记本有运行时限制
- 提交时必须禁用互联网访问
- 允许使用自由公开的外部数据
基础模型
- 竞赛建立在RibonanzaNet模型基础上,该模型源自之前的Kaggle竞赛
组织方
竞赛通过全球合作组织,涉及实验RNA结构生物学家、斯坦福大学医学院以及霍华德·休斯医学研究所的AI@HHMI计划
与其他竞赛的关联
- 竞赛定时在第17届结构预测关键评估(CASP)之前展示新方法,CASP计划于2025年4月举行
- 与RNA-Puzzles竞赛相关联
科学严谨性
- 评估基于完全独立的"未来"目标集,这些目标的序列和结构在2025年5月训练阶段结束后的四个月内才公开
- 采用盲测机制确保科学严谨性
历史突破
根据bioRxiv的预印本论文,第一阶段竞赛已经取得了重要成果,首次实现了自动化机器学习模型在RNA结构预测上匹配人类专家的表现。
这个竞赛代表了AI在生物学领域的前沿应用,与AlphaFold在蛋白质折叠上的突破类似,但RNA折叠问题更加复杂且数据更少,使其成为当前深度学习在生物学中最具挑战性的问题之一。