Datawhale分享
推荐人:小四,Datawhale成员
公司介绍
百图生科(BioMap)是AI大模型驱动的生命科学研发平台,由百度创始人李彦宏于2020年创立。
公司致力于结合前沿AI和生物技术,构建高通量干湿闭环的生物计算引擎,建模蛋白质/免疫细胞/免疫系统的复杂规律,通过生成全新的蛋白质与生命体对话的方式,实现特定的生物学功能,并解决生命科学行业的痛点问题,比如靶点发现、药物设计、酶的从头设计和优化等,从而改善人类健康、实现可持续发展。
岗位介绍
一、 资深算法工程师
岗位职责
负责设计几何深度学习算法并应用在蛋白质结构设计
跟进领域最新进展,能完成文章的复现和深度理解,并提出创新方案
任职要求
计算机,机器学习,统计相关领域硕士及以上学历
在国际顶级会议或期刊上发表过机器学习相关论文者优先
在GitHub等平台上深度参与或者建立有影响力的开源项目
熟悉等变图神经网络,大规模预训练模型,生成模型等算法
有良好的跨学科的沟通能力和团队合作精神
具有5年以上的工业界经验
薪资范围:面试定级
投递方式:[email protected]
二、资深CADD工程师
岗位职责
利用常规分子模拟工具和公司自研的计算化学、人工智能方法,为药物设计项目提供支持;
与药物化学和药理药代方面的实验专家协作,提供包括数据解读,SAR分析等方面的支持。
能支持多个新药研发项目,和公司内部和外部相关团队一起为项目制定和优化计算模拟策略。
跟踪计算机辅助药物设计领域的新进展和动态,并做出相应的评估。
能够在现有软件的做技术开发和提升。
任职要求
计算化学、生物物理学或相关领域博士;
3-5年及以上工作经验优先,在基于结构的大分子建模方面有丰富的经验;
在以下领域之一的商业部门的博士后研究和/或相关经验:抗体、酶或肽建模;蛋白质对接;蛋白质结构预测;分子动力学模拟;
优秀的英语技能将被视为加分项;
有以下领域经验者优先:-增强的采样动力学/自由能计算 -计算大分子药物设计 -Python编程
三、深度学习算法工程师(靶点发现方向)
岗位职责
设计深度学习算法整合基因组、转录组学和基因调控网络等相关的数据和特征,搭建并优化药物靶点发现相关算法流程和方法;
结合业务需要,开发深度学习和图神经网络相关大模型,解决药物靶点发现中的实际问题;
任职要求
机器学习、深度学习、计算机、自动化、生物信息学等相关专业,研究生及以上学历;
具备单细胞数据相关算法或者图神经网络模型等相关算法项目经验,可以独立设计深度学习算法融合多种类型数据,优化算法模型,有1年及其以上的相关工作经验;
精通Python编程语言和Pytorch等深度学习框架,具备良好的代码能力,有Transformer、Pytorch Geometric或者dgl经验优先;
有丰富的研究成果,在AI顶会、期刊发表相关论文或Kaggle/KDD/CVPR等比赛获奖者优先;
四、预训练大模型工程师
岗位职责
参与蛋白质或NLP大语言模型预训练的相关研发和优化,包括预训练大模型方案实现、改进、调优;
针对下游生物领域的任务,包括复合蛋白质、复合物折叠,蛋白稳定性等任务进行fine-tuning,跑出SOTA水平;
维护千亿语言模型持续训练和微调,应对超大规模语言模型出现的计算不稳定性问题,保障计算效率以及计算资源利用率;
对预训练大模型训练/评测数据进行分析、整理、优化;
任职要求
熟悉生成式和理解式的各类语言模型架构,深入理解Transformer等变体以及算子,并能够对其改进,同时优化模型健康度;
熟悉NLP 、CV、生物计算中的下游和评测任务,对任务和模型能力有一定的理解,能够运用大模型优化任务;
有在千卡集群上训练过百亿级以上的稠密Transformer模型者优先;
熟悉以下一项或多项技术框架或模型优先: GLM, Megatron, DeepSpeed, ESM2, PEFT, OpenFold;
在自然语言处理或机器学习顶会(ACL,EMNLP,NAACL,ICML,NeurIPS, ICLR) 或有丰富的刷榜经验者优先;
同时具备大模型任务调优经验和大模型HPC经验者优先;
五、蛋白质结构算法工程师
岗位职责
跟进领域最新进展,完成开源模型的调试,关键数据和图表复现
开发机器学习算法来完成蛋白结构预测与蛋白设计任务
优化现有结构预测算法,搭建蛋白质建模引擎
输出技术文档,进行跨部门交流,协助实现工程优化
任职要求
熟练的代码能力,能够独立完成算法开发,测试等任务
有使用或评估应用于蛋白质预测任务的机器/深度学习方法的经验,例如:AlphaFold、RoseTTAFold、RFDiffusion
对蛋白质结构/功能相关的蛋白质生物化学或生物物理学有较强的理解能力
精通查询和分析蛋白序列和蛋白结构数据大型数据集的方法和工具
熟悉至少一种编程语言:Python、C++;熟悉深度学习框架如pytorch、tensorflow
有CASP等蛋白质结构预测大赛参赛经验优先
有蛋白结构解析经验,冷冻电镜,晶体衍射,NMR等经验优先
有出色的文献阅读及问题解决能力,拥有较强的自驱力,出色团队协作能力
六、几何深度学习算法工程师
岗位职责
研发Geometric Deep Learning算法,对蛋白质结构和表位进行表征学习;
参与Protein Folding、Docking、De Novo Design项目研发;
任职要求
机器学习、自然语言处理、计算机视觉、数学等相关专业,本科及以上学历;
精通Geometric Deep Learning和经典图神经网络算法;
可以复现AI SOTA算法,并且具备研发新算法超越SOTA的相关项目经验;
精通Tensorflow、Pytorch等至少一种深度学习框架,优秀的编程能力;
有AI顶会或Kaggle/KDD/CVPR等比赛获奖者优先;
七、推理引擎研发工程师
岗位职责
负责建设模型推理引擎,支持多模型推理,支持超大模型分布式推理能力;
负责优化模型推理性能,结合模型压缩,图优化和算子优化技术,突破性能瓶颈。
任职要求
精通Linux C++编程开发,有Python开发经验,熟悉常用设计模型;
熟悉主流深度学习框架之一,例如TensorFlow/Pytorch等;
有Triton server/TF Serving 开发和使用经验优先;
有主流推理引擎开发和使用经验优先,如ONNXRuntime/TensorRT/OpenVINO;
有模型压缩(量化/剪枝/蒸馏)和编译优化经验优先。
八、分布式训练研发工程师
岗位职责
负责AlphaFold2/Transformer等超大模型分布式训练优化,算子优化,以及通信优化;
负责建设超大模型分布式推理能力,运用推理优化技术,突破推理性能瓶颈;
探索前沿AI工程优化技术,沉淀和创新核心技术能力;
任职要求
精通Linux系统c++/python语言开发,熟悉常用的设计模式;
熟悉主流深度学习框架至少一个,例如 TensorFlow/PyTorch/MxNet等;
有分布式训练优化(数据并行/张量并行/流水线并行)经验加分;
有高性能算子开发(图优化/cude/ triton开发)经验加分;
有AutoML/MLOps 平台或者AutoML框架设计开发经验加分;
具有良好的沟通能力,有良好的团队合作精神,乐于探索前沿技术;
Base:北京 苏州 上海 硅谷 都可
薪资范围:面试定级
投递方式:[email protected]
工作环境
求职交流群
由Datawhale成员建立。有意在上海工作的同学,可以加入交流群,一起抱团取暖:
若群满,请添加负责人微信wang15770721790