端到端与视觉语言动作模型算法(A215543)

刷新时间：2025-06-09

25-50万

徐汇区 | 硕士 | 1年以下

基本信息

工作地点：徐汇区
	招聘人数：1 人

职位描述

职位描述：- 端到端与视觉语言动作模型 VLA 工程师- 构建场景理解系统（物体属性推理、空间关系解析）- 设计跨模态对齐机制，提升指令-视觉-执行的连贯性- 设计并优化视觉-动作和视觉-语言-动作端到端模型- 开发多模态视觉语言模型，实现图像-语言-动作的联合理解- 优化模型在边缘设备的部署效率（TensorRT/MNN）- 开发zero-shot场景适应框架职位要求：- 精通Transformer架构及微调技术（LoRA/P-tuning）- 精通CLIP/BLIP/Flamingo等VLM架构，熟悉对比学习、跨模态注意力机制- 掌握提示工程技巧，有机器人领域微调经验优先- 有机器人移动或者操作任务（抓取/导航）数据集构建经验优先- 在视觉-语言多模态领域发表顶会论文者加分

岗位要求：

学历要求：硕士	工作经验：1年以下
年龄要求：不限	性别要求：不限
语言要求：普通话

企业信息

公司性质：其它	公司规模：20-99人
所属行业：人工智能/大模型

企业介绍

它石智航（TARS）正式成立于2025年2月5日，是一家由 AI 驱动的具身智能技术公司。它石智航的使命是以物理世界 AI 和通用机器人技术为核心，构建可信赖的超级具身智能系统，让高性能 AI 规模化地融入人类社会的生产与生活中。它石智航的愿景是成为全球具身智能领域的领军企业。TARS的创始团队是迄今为止具身智能领域“AI 全栈能力最强战队”：CEO 陈亦伦博士是中国具身智能、自动驾驶领域技术及产业的领军人；董事长李震宇曾任百度智能驾驶事业群总裁，是中国无人驾驶领军人物；首席科学家丁文超博士，原华为“天才少年”，是具身智能领域青年科学家、复旦大学机器人研究院研究员，曾从0到1主导华为智驾端到端决策网络，打造复旦大学首个人形机器人；首席架构师陈同庆是清华大学博士，国家重大专项首席科学家，原华为 ADS 智能导航部部长，空间感知首席技术专家，深耕工业制造、AI、自动驾驶、机器人等产业，引领多个产品成功商用。

人才求职

端到端与视觉语言动作模型算法(A215543)