白勇
白勇

副研究员、博士/硕士导师
基本情况
出生年月:1984.06
最高学位:哲学博士
工作单位:深圳华大生命科学研究院
工作地址:广东深圳市盐田区云华路9号华大时空中心
Email:baiyong@genomics.cn
教育及工作经历
2018.04–至今 深圳华大生命科学研究院,专项科学家
2016.07– 2018.04 摩拜(北京)信息技术有限公司,算法专家
2009.09 – 2016.06 美国加州大学洛杉矶分校,生物医学工程专业,哲博士
2009.09 – 2012.06 美国加州大学洛杉矶分校,生物医学工程专业,哲学硕士
2006.09 – 2009.08 电子科技大学,计算机软件系统专业,工学硕士
2002.09 – 2006.06 北京信息工程金沙集团 ,信息管理与信息系统专业,本科
学术兼职
ACM会员,CCF会员,IEEE-CS会员
研究领域及主要成果
研究领域:多组学融合技术和人工智能模型构建及应用,聚焦于生命科学与人工智能相结合的交叉学科前沿科学问题,研究并构建了生命语言大模型,开展了多组学融合分析和生物标志物挖掘的工作,利用人工智能模型探索特定疾病的分子特征和病理机制等领域研究。2021年以来已在Science, Nature communications, Genome Biology, Nucleic Acids Research等高水平期刊发表论文23篇(其中一作和通讯作者(含共同15篇)。申请发明专利9件(其中PCT专利7件)。
主持科研项目
1、国家重点研发计划《基于多组学的缺血性脑血管病发生发展机制研究》(2022YFC2502400),2022.11-2025.12,在研,核心骨干。
2、广东省重点领域研发计划《面向胎儿婴幼儿脑科学研究的跟踪式跨模态数据科学平台》(2023B030304001),2023.12-2026.11,在研,核心骨干。
3、深圳市自然科学基金项目《妊娠期糖尿病的多组学分子标记物与机器学习早期预测模型研究》(JCYJ20240813150000001),2024-11-27至2027-11-26,在研,核心骨干。
4、华大生命科学研究院战略项目《多组学数据融合技术及生物语言大模型预训练研究》(P24Z32400N0015), 2024-04-01至2026-12-31,在研,主持。
获奖情况
深圳市海外高层次人才;
深圳市盐田区“梧桐凤凰”人才;
华大集团优秀讲师(2023)
Clinical and Translational Medicine期刊年度Top Downloaded Article (2021, 2022)
首届深圳医疗健康大数据创新应用国际大赛创新应用组二等奖(排名第一,2008)
代表性论文、专著和专利等(不超过10项)
1、Jianhua Yin#, Yuhui Zheng#, Zhuoli Huang#, Wenwen Zhou#, Yue Yuan#, Pengfei Cai#, Yong Bai#,et al, "Chinese Immune Multi-Omics Atlas",Science,2025,In press.
2、Bai, Yong#*, Xiangyu Guo#, Keyin Liu#, Bingjie Zheng, Yilin Wei, Yingyue Wang, Wenxi Zhang et al. "SpaSEG: unsupervised deep learning for multi-task analysis of spatially resolved transcriptomics." Genome Biology 26, no. 1 (2025): 230.
3、Peng Wu#, Dongsheng Chen#, Wencheng Ding#, Ping Wu#, Hongyan Hou#, Yong Bai#, Yuwen Zhou#, Kezhen Li#, et al."The Trans-omics Landscape of COVID-19". Nature Communications, 2021 Dec 27;12(1):4543. (中科院1区,IF:14.919)
4、Bai, Y#*., Zheng, F#., Zhang, T#., Luo, Q., Luo, Y., Zhou, R., Jin, Y., Shan, Y., Cheng, J., & Yang, Z. (2022). "Integrating plasma cell‐free DNA with clinical laboratory results enhances the prediction of critically ill patients with COVID‐19 at hospital admission". Clinical and Translational Medicine, 12(7), e966.
5、Chen, Dongsheng#, Cong Tan#, ...,Yong Bai*, Xin Jin*, Huan Liu*. "VThunter: a database for single-cell screening of virus target cells in the animal kingdom." Nucleic Acids Research 50, no. D1 (2022): D934-D942.
6、Wei, Y., Zhang, T., Wang, B., Jiang, X., Ling, F., Fang, M., Jin, X.*, & Bai, Y*. (2024). INDELpred: Improving the prediction and interpretation of indel pathogenicity within the clinical genome. Human Genetics and Genomics Advances, 5(4).
7、Zou, B., Zhang, T., Zhou, R., Jiang, X., Yang, H., Jin, X.*, & Bai, Y*. (2021). deepMNN: deep learning-based single-cell RNA sequencing data batch correction using mutual nearest neighbors. Frontiers in Genetics, 12, 708981.
8、白勇,黄树嘉,高雅,金鑫. "一种胎儿染色体异常的检测方法与系统"。
9、白勇,韦懿琳,肖德福,黄可,秦鹏飞,金鑫,“一种基于门控深度神经网络混合模型的肿瘤微环境生态位识别方法”。
10、白勇,肖德福、殷建华,刘传宇,章文蔚,徐讯,“一种基于最优传输理论的图神经网络模型注释空间细胞类型的方法与系统”。