好猎头网-中高级人才猎头网站!服务热线:400-1801-668 好猎头   |   登录 注册
首页 > 人才求职

运维开发工程师 - AI Infra方向 (MJ000364

刷新时间:44分钟前

傅利叶智能

30-50万

浦东新区 | 本科 | 无经验

基本信息
工作地点:浦东新区
招聘人数:1 人
职位描述

核心职责​ Kubernetes平台建设​ 1、设计并部署高可用K8s集群,优化存储(如Longhorn/Ceph)、网络(Calico/Cilium)、监控(Prometheus/Grafana)及日志(EFK/Loki)体系。 2、开发自动化运维工具,实现集群扩缩容、故障自愈、安全加固(RBAC/OPA/网络策略)。 3、支持混合云/多云架构,整合公有云(AWS EKS/AKS/GKE)与私有化资源。 CI/CD流水线设计与开发1、构建AI场景下的CI/CD全链路工具链,集成代码管理(GitLab/GitHub)、流水线设计(Jenkins)、镜像构建(Kaniko/Docker)、自动化测试(单元/集成/压力测试)、滚动发布(Argo Rollouts)及制品仓库(Harbor/Nexus)。 2、实现AI模型训练的CI/CD流程,支持分布式训练任务调度、模型版本管理(MLflow/DVC)及自动化部署(KServe/Seldon)。 3、开发自定义GitOps工作流(Argo CD/Flux),提升发布效率和可观测性。 云容器开发环境​ 1、搭建容器化AI开发机(基于VS Code Remote/NVIDIA Container Toolkit),支持GPU直通、代码热加载及多人协作。 2、优化开发环境资源调度,按需分配CPU/GPU资源,降低闲置成本。 3、集成JupyterLab、PyCharm等IDE插件,提供开箱即用的AI研发环境。 GPU虚拟化与资源调度1、实现GPU虚拟化方案(vGPU/MIG/Kubevirt),支持细粒度资源切割(如1/8 GPU卡调度)。 2、开发K8s GPU调度插件(如KubeShare/Gpu-Share),优化AI任务排队、抢占及资源利用率。 3、监控GPU使用率、显存占用及温度,设计智能调度策略(结合Prometheus+自定义Operator)。 AI Infra架构支持​ 1、构建支持大规模分布式训练的基础设施,集成PyTorch Distributed/Horovod等框架。 2、优化模型推理服务(Triton/TorchServe),实现自动扩缩容、金丝雀发布及A/B测试。 3、与数据团队协作,打通数据流水线(Kafka/Airflow)、特征存储(Feast)与模型服务链路。 任职要求​ 技术能力​ 1、精通Kubernetes生态(Helm/Operator/CRD)及至少一种公有云容器服务(ACK/EKS/GKE)。 2、熟悉CI/CD工具链(Jenkins/GitLab CI/Argo),具备Pipeline即代码(Jenkinsfile/GitLab CI YAML)开发经验。 3、掌握GPU虚拟化技术(vGPU/MIG/Kubevirt)及调度策略,有NVIDIA Docker/Kubernetes Device Plugin实战经验。 4、熟悉AI研发流程(模型训练/部署/监控),了解MLOps工具链(MLflow/Kubeflow)。 5、熟练使用Python/Go开发运维脚本或Operator,具备自动化运维平台开发经验。 经验要求​ 1、3年以上云原生运维开发经验,主导过K8s集群搭建或AI Infra建设项目。 2、有大规模GPU集群(50+节点)管理或性能调优经验者优先。 3、 熟悉Infra-as-Code(Terraform/Ansible)及监控告警体系(****Manager/Thanos)者优先。

岗位要求:
学历要求:本科 工作经验:无经验
年龄要求:不限 性别要求:不限
语言要求:普通话
企业信息
公司性质:其它 公司规模:500-999人
所属行业:人工智能/大模型
企业介绍

傅利叶智能成立于2015年,是一家通用机器人平台型企业,以全栈式机器人核心技术为基石、以创新型机器人本体产品为载体,致力于通过智能技术变革各行各业,让人人享有美好生活。公司总部坐落于上海张江,联动新加坡海外总部,构建国际化的研发、生产和销售服务网络。成立至今,傅利叶智能陆续获得IDG、国中资本、沙特阿美、张江科投、软银愿景等国内外多家顶尖机构投资近10亿元融资,并荣获国家重点“专精特新”小巨人企业、工信部新一代人工智能技术攻关揭榜企业、上海市小巨人企业、上海市企业技术中心、中国工业设计奖等荣誉奖项。傅利叶智能自创立伊始,坚持聚焦通用机器人底层技术,不断攻克核心零部件(执行、感知)能力瓶颈,力争以高性能机器人本体,为各类行业场景提供技术开放平台,让机器人技术真正通用化、普及化。公司研发团队达数百名,覆盖机械电子、软件算法、工程测试等机器人领域全板块,并自建高技术密度、医疗级机器人产品量产交付能力。2023年中,傅利叶智能正式发布首款通用双足机器人产品GR-1,该产品具备流畅的外观、优异的运动能力,并将领先实现量产交付,在技术水平,商业化进展上皆具备全球突破性,引起行业广泛专注。同时,傅利叶智能也已将通用机器人技术在医疗康复场景实现规模化应用,通过“智能康复港”产品矩阵,累计为全球超过40个国家和地区的2000多家客户提供高性能康复机器人及综合性解决方案。

企业信息

傅利叶智能

人工智能/大模型

500-999人

其它

上海市浦东新区秀浦路2388号12幢1层101室、2层

推荐企业
二维码
微信扫一扫
用手机分享职位信息
浦东新区最新发布职位