职位描述
岗位职责:1. 算力中心服务器日常运维 - 包括 GPU 服务器、存储节点、网络设备的部署、上线、监控、巡检、故障处理等。算力资源调整2. 硬件管理与故障排查 - 负责服务器、硬盘、内存、风扇、GPU 等硬件的安装、替换和故障分析。3. 系统与环境维护 - 负责 Linux 系统的安装、优化和升级,环境变量配置、NVIDIA 驱动和 CUDA 环境维护。4. 资源调度与使用监控 - 管理调度系统(如 Slurm/Kubernetes/Yarn 等),监控算力资源使用情况,协助用户提交任务。5. 数据中心基础设施建设与支持 - 参与数据中心(IDC)建设项目,包括机柜布局、配电规划、网络布线、冷通道系统等; - 协助管理电力、空调、UPS、动环监控系统,保障设施稳定运行; - 定期巡检和维护 IDC 环境,协助厂商完成施工、验收及扩容项目。6. 安全运维与权限控制 - 参与服务器与操作系统的安全加固(如 SSH 安全配置、最小权限原则等); - 管理用户权限、密钥、LDAP/AD 对接等; - 定期执行安全扫描(如 rootkit、漏洞、端口扫描等),防止入侵与病毒传播; - 协助应对突发安全事件、日志追踪与问题复盘。7. 文档与规范制定 - 编写和维护运维文档、操作手册、安全策略、故障记录、应急流程、IDC运维标准。 任职要求:1. 学历背景: - 本科及以上学历,计算机、电子、通信、自动化等相关专业优先。2. 技术能力: - 熟练使用 Linux 系统(CentOS、Ubuntu 等),掌握系统服务、安全权限、系统加固等; - 熟悉 GPU(如 NVIDIA A100)、X86 架构服务器的组成及维护; - 了解网络基础知识(VLAN/IP/交换机配置);有防火墙、NAT、ACL 管理经验优先; - 有 Python/Shell 运维脚本能力者优先。3. 安全相关经验: - 熟悉 Linux 系统安全管理,如防火墙(iptables、firewalld)、SELinux、安全组管理; - 熟悉常见信息安全框架(如等保、ISO27001)或有参与过信息安全评审经验; - 有账号权限管理、运维审计、日志分析经验; - 有安全工具使用经验,如 Nessus、Lynis、Fail2ban、OSSEC 等者优先。4. 经验要求: - 有 3 年以上数据中心、机房运维经验;有真实搭建或运维过GPU平台(K8s/Slurm/自研平台皆可)的经历;对GPU资源管控、调度策略、任务生命周期有深入理解和实战经验; - 有 HPC、AI 算力集群、云平台(OpenStack/K8s)经验者优先; - 有防火墙、堡垒机、杀毒硬件终端使用和维护经验; - 有 IDC 机房建设经验,熟悉配电、动环、冷通道、UPS 系统者优先。5. 其他要求: - 具备良好的沟通能力和团队协作能力; - 能接受现场支持等工作安排; - 有责任心,具备较强的问题定位和应急处理能力。加分项(非必须):- 有等保三级或更高级别安全体系部署经验- 有 NVIDIA DGX 系列或 A100 大规模部署经验- 有大型 IDC 机房规划、扩容、搬迁项目经验- 熟悉主流日志收集与安全审计平台(如 ELK、Wazuh、Graylog)- 熟悉动环监控系统- 有弱电布线、链路规划、机房标准化建设经验
企业介绍
苏州新科兰德科技有限公司创立于2010年2月,由来自美国斯坦福、清华、复旦大学等名校的业界精英与CSDN创始人蒋涛、真格基金合伙人李剑威联合组建,是一家商业模式成熟,盈利高速增长的大数据公司,致力于为企业客户提供数据解决方案和商业智能服务。
公司于2016年12月获得3.6亿C轮融资。
新科兰德科技致力于创新理念、创新科技、创新模式、创新生活,相信科技运用的最终目的都是为了改善人的生活而服务。