职位描述
职位描述:- 端到端与视觉语言动作模型 VLA 工程师- 构建场景理解系统(物体属性推理、空间关系解析)- 设计跨模态对齐机制,提升指令-视觉-执行的连贯性- 设计并优化视觉-动作和视觉-语言-动作端到端模型- 开发多模态视觉语言模型,实现图像-语言-动作的联合理解- 优化模型在边缘设备的部署效率(TensorRT/MNN)- 开发zero-shot场景适应框架职位要求:- 精通Transformer架构及微调技术(LoRA/P-tuning)- 精通CLIP/BLIP/Flamingo等VLM架构,熟悉对比学习、跨模态注意力机制- 掌握提示工程技巧,有机器人领域微调经验优先- 有机器人移动或者操作任务(抓取/导航)数据集构建经验优先- 在视觉-语言多模态领域发表顶会论文者加分
企业介绍
它石智航(TARS)正式成立于2025年2月5日,是一家由 AI 驱动的具身智能技术公司。它石智航的使命是以物理世界 AI 和通用机器人技术为核心,构建可信赖的超级具身智能系统,让高性能 AI 规模化地融入人类社会的生产与生活中。它石智航的愿景是成为全球具身智能领域的领军企业。TARS的创始团队是迄今为止具身智能领域“AI 全栈能力最强战队”:CEO 陈亦伦博士是中国具身智能、自动驾驶领域技术及产业的领军人;董事长李震宇曾任百度智能驾驶事业群总裁,是中国无人驾驶领军人物;首席科学家丁文超博士,原华为“天才少年”,是具身智能领域青年科学家、复旦大学机器人研究院研究员,曾从0到1主导华为智驾端到端决策网络,打造复旦大学首个人形机器人;首席架构师陈同庆是清华大学博士,国家重大专项首席科学家,原华为 ADS 智能导航部部长,空间感知首席技术专家,深耕工业制造、AI、自动驾驶、机器人等产业,引领多个产品成功商用。