关注公众号,获取更多AI领域发展机会
组别介绍
商汤研究院基础视觉组是商汤前研究执行总监代季峰博士( https://jifengdai.org/ )建立,致力于提出和实现最前沿的算法,保持算法在工业界和学术界的领先,推动视觉理解、智能决策和深度学习算法在众多实际应用领域的性能优化和落地,相关工作已落地服务于本田、广汽、合众、一汽等知名客户。
近期,我组发布了书生2.5多模态多任务通用大模型。在物体检测标杆数据集COCO上,书生2.5 取得了 65.5 的 mAP,是世界上唯一超过65 mAP的模型;在图像分类标杆数据集ImageNet上,书生2.5是唯一准确率超过90.0%的开源大模型;我们基于大语言模型提出全新框架 GITM, 在经典游戏《我的世界》中打造了通才AI智能体;我们提出了端到端的视觉中心任务框架 VisionLLM, 将图像视为外语为视觉和语言任务提供了统一的视角。我们提出基于点击和语言驱动的视觉交互系统 InternGPT,实现用户与多模态大模型的便捷交互。
在自动驾驶领域,我组参与感知决策一体工作UniAD获得CVPR 2023 Best Paper Award Candidate,是自动驾驶领域的唯一一篇;我组提出的 BEVFormer 系列工作以大幅领先的优势获得知名自动驾驶比赛Waymo Challenge 2022 - 3D Camera-Only Detection赛道冠军,nuScenes榜单Camera-only检测任务榜单第一;并亦取得 Waymo Challenge 2022 - 3D Semantic Segmentation榜单第一名,Occupancy and Flow Prediction榜单第三名;我组主持CVPR 2023 3D Occupancy Prediction Challenge,提出Occupancy数据集和基线方法OccNet,比赛吸引了来自10个国家和地区的149支参赛队伍,包含英伟达,华为,阿里巴巴等知名机构参加。
另外,组内ICLR 2021(Review评分并列第二)Oral论文 Deformable DETR 获得商汤最佳论文奖(Citation 2200+),知名比赛Meta LVIS Challenge 2020曾获第一名。本组的研究方向包括且不限于超大规模预训练模型,多模态学习,视觉Transformer,物体检测,语义分割,自动驾驶,无监督/自监督学习,GAN,行为识别,SLAM等。
岗位一、大模型研究员(多模态基模型)
工作职责
负责研发多模态基础模型,可处理图像,文本,语音等多模态数据,负责网络结构框架的整体设计和优化。
负责探索多模态领域内的最新研究成果和技术进展,熟悉BLIP, LLaVA, mini-GPT4等多模态模型。
构建和维护多模态数据集,负责多模态大模型的业务落地和推广。
任职要求
计算机科学、人工智能、机器学习或相关领域,硕士及以上学历。
熟悉Python/C++编程,掌握PyTorch等框架。
熟悉多模态数据的处理和表示方法,如图像与文本、语音等数据模态的融合。
熟悉熟悉多模态模型的训练,熟悉经典模型结构如blip2
额外加分项,满足一项或多项
有较强的研究能力,于CCF B类以上会议或期刊发表过论文。
有较强的竞赛成绩,获得过ACM,NOI,NOIP或其他商业代码竞赛的任意奖项。
有较强的学术比赛经验或者在知名数据集的Leaderboard上排名靠前。
有较强的代码能力,有高质量的中大型项目或个人开源项目的经验。
有较强的钻研精神,对部分语言、系统、算法有深刻的探索和理解。
学习成绩优秀,有较高的GPA。
有自我驱动力,勤奋好学。
岗位二、大模型研究员(通用视觉方向)
工作职责
在通用视觉领域开展研究,负责视觉数据的处理,负责视觉大模型网络结构的设计和训练。
负责探索领域内的最新研究成果和技术进展,在相关领域发表论文和专利。
将通用视觉模型与实际业务场景结合,如用到自动驾驶场景中提升感知模型的性能。
任职要求
计算机科学、人工智能、机器学习或相关领域,硕士及以上学历。
熟悉Python/C++编程,掌握PyTorch等框架
熟悉计算机视觉,熟悉目标检测、语义分割等常见的视觉技术
熟悉Transformer,EVA, SAM等模型架构
额外加分项,满足一项或多项
有较强的研究能力,于CCF B类以上会议或期刊发表过论文。
有较强的竞赛成绩,获得过ACM,NOI,NOIP或其他商业代码竞赛的任意奖项。
有较强的学术比赛经验或者在知名数据集的Leaderboard上排名靠前。
有较强的代码能力,有高质量的中大型项目或个人开源项目的经验。
有较强的钻研精神,对部分语言、系统、算法有深刻的探索和理解。
学习成绩优秀,有较高的GPA。
有自我驱动力,勤奋好学。
岗位三、大模型研究员(具身智能)
工作职责
在Embodied AI领域开展研究,探索大模型结构的设计、构建和训练。
设计和实现具身智能系统的感知、控制、规划和决策等技术,以实现智能体在复杂环境中的自主行为。
负责探索领域内的最新研究成果和技术进展,并将其应用到实际项目中。
任职要求
计算机科学、人工智能、机器学习或相关领域,硕士及以上学历。
在Embodied AI领域有丰富的研究和开发经验,对具身智能技术有深入理解。
熟悉Python/C++编程,掌握PyTorch等框架。
熟悉强化学习算法,具备在具身智能系统中应用的经验。
额外加分项,满足一项或多项
有较强的研究能力,于CCF B类以上会议或期刊发表过论文。
有较强的竞赛成绩,获得过ACM,NOI,NOIP或其他商业代码竞赛的任意奖项。
有较强的学术比赛经验或者在知名数据集的Leaderboard上排名靠前。
有较强的代码能力,有高质量的中大型项目或个人开源项目的经验。
有较强的钻研精神,对部分语言、系统、算法有深刻的探索和理解。
学习成绩优秀,有较高的GPA。
有自我驱动力,勤奋好学。
岗位四、大模型研究员(多模态 - NLP方向)
工作职责
负责研发NLP领域大模型,紧跟前沿技术进展,负责大语言模型的训练和finetune
负责大语言模型CoT, 涌现能力,推理能力等方面的研究
负责大语言模型轻量化算法的研发,探索大规模数据下模型架构设计与优化方法
将大语言模型与视觉模型相结合,探索多模态模型的设计
任职要求
计算机科学、人工智能、机器学习或相关领域,硕士及以上学历。
熟悉Python/C++编程,掌握PyTorch等框架。
对NLP相关研究方向有深入的理解和实践经验。
熟悉Transformer,GPT,自回归模型等网络结构框架。
熟悉大模型微调技术,如LoRA、Adapter,指令微调等
额外加分项,满足一项或多项
有较强的研究能力,于CCF B类以上会议或期刊发表过论文。
有较强的竞赛成绩,获得过ACM,NOI,NOIP或其他商业代码竞赛的任意奖项。
有较强的学术比赛经验或者在知名数据集的Leaderboard上排名靠前。
有较强的代码能力,有高质量的中大型项目或个人开源项目的经验。
有较强的钻研精神,对部分语言、系统、算法有深刻的探索和理解。
学习成绩优秀,有较高的GPA。
有自我驱动力,勤奋好学。
岗位五、大模型研究员(平台系统)
工作职责
参与大模型训练的工具设计和开发,提升大模型训练性能,提高训练集群利用效率。
负责大模型通用平台的搭建,使用Langchain等工具将大模型与外部API结合,拓展大模型能力。
探索前沿大模型训练相关技术的发展,包括但不限于算子优化, 计算划分与调度、动态重计算、流水线优化等。
任职要求
对主流大模型算法的从算子到训练框架层面有相关理论与实践经验, 具备良好的快速学习和理解能力,有团队协作精神,有责任心,乐于接受挑战。
对主流大模型训练工具, deepspeed, megatron, apex有实践与改良经验。
了解GPU体系结构,有NVIDIA CUDA开发经验。
有计算机相关背景,了解机器学习和计算机体系结构等基础知识。
熟悉c++ 或者python,了解一种深度学习平台。
额外加分项,满足一项或多项
有较强的研究能力,于CCF B类以上会议或期刊发表过论文。
有较强的竞赛成绩,获得过ACM,NOI,NOIP或其他商业代码竞赛的任意奖项。
有较强的学术比赛经验或者在知名数据集的Leaderboard上排名靠前。
有较强的代码能力,有高质量的中大型项目或个人开源项目的经验。
有较强的钻研精神,对部分语言、系统、算法有深刻的探索和理解。
学习成绩优秀,有较高的GPA。
有自我驱动力,勤奋好学。
直通车
工作地点:北京,上海
投递邮箱:[email protected]
邮箱主题/简历命名格式:商汤正式(校招or社招)/实习申请+意向岗位+招聘宣传来源+姓名