五年16次迭代,云易捷超融合架构的进化与突破 原创
得益于人工智能,芯片产业正处于一场巨大浪潮的中心。
面对市场的高速发展,一家世界领先的电路晶圆代工企业的IT基础架构能力已经出现了力所不及的现象。IT基础架构要支撑工业互联网、智能制造能力,支持业务系统云原生改造;实现统一的资源管理,降低运维难度;国产化替换都是现在面临的主要问题。
青云云易捷为这家企业设计了针对各个分厂采用不同规模超融合集群的解决方案来构建底层IT承载平台,实现了基础设施云化升级、降低运维成本、增强数据安全、驱动企业创新等变化。
众所周知,超融合是一个比较早的技术,但目前市场对于超融合还保持在4%的增长。IDC 发布的《定义存储及超融合市场研究报告,2024 Q1》显示,2024年第一季度,中国超融合整体市场规模已突破27亿元人民币,超融合软件市场占比超过10%,市场规模接近3亿人民币。
青云在其中占比10.9%,位列第三。青云科技云易捷产品经理曹振看到现在的超融合产品形态正在不断演进,从普通的超融合到超融合云系统,再到全站私有云。
在紧跟市场需求的前提下,专为中小算力规模打造的轻量化私有云产品云易捷,最近迎来了一次更新“v5.0版”。
四大更新与未来升级路径
2019年青云推出超融合产品品牌“云易捷”,包括了云易捷超融合、云易捷一体机、云易捷AI一体机、信创云易捷、云易捷虚拟化五款产品。
“易捷”代表了可靠、简单、智能的产品特性,希望让每个人都能装、用、管。
在5年中,云易捷发布了16个版本,青云希望通过快速迭代的方式,不断吸收终端客户对产品的需求,持续快速地交付,让产品更加贴近真实用户的使用情况。
现阶段,企业在采购超融合架构的需求上发生了一些变化,首先是存储性能,由最初的承载边缘应用系统逐渐的向核心业务系统转变,其次是企业对IT系统的安全合规更加重视,最后是云原生和AI的集成,期望超融合架构能在小场景上提供多种类型资源。
沿着客户需求的变化,以及让IT基础设施的管理变得更加顺畅和更加简单的理念,云易捷v5.0版进行了四个关键特性的更新,包括多集群管理、存储简单运维、VMware迁移多方案提供、AI开发推理平台。
同时青云也进一步规划出v5.1到v5.5的重要更新内容:
2024年年内,打造SDS(软件定义存储)v5.0架构,比现有架构提升3-5倍,以及进行集群告警和巡检功能升级;
2025年年内,对AI推理开发平台能力进行升级,在AI异构算力兼容优化外,提供多存储兼容优化。底层存储除了当前高性能并行文件存储之外,还可以使用对象存储、NAS或者MINIO,一定程度上降低整体产品成本;对AI推理场景进行全面升级和优化,提供RAG、向量数据库、知识图谱等技术的管理能力,使AI平台更好地贴近AI应用场景和使用;对所有云易捷各子产品体系进行集群监控、报表、计量、计费等提升,使产品力更加丰富,更具有竞争力。
三大场景满足企业主流需求
具体到云易捷v5.0能力提升上,通过三大场景可以看出端倪,第一,VMware全场景替换;第二,人工智能;第三,边缘计算。
场景一:VMware全场景替换
VMware替换是很多企业现在最紧迫要解决的问题,因为成本效益首当其冲,VMware被收购后给用户祭出“三把砍刀”,即“砍”掉单品,只卖产品套件;“砍”掉永久的授权,只卖订阅;“砍”掉CPU授权,改为按Core和容量售卖。其次是技术创新掣肘,企业在转向AI时,有着大量的大模型微调和推理需求,这些都是VMware的产品体系无法满足的;最后就是自主可控的要求,数据存在一定的安全隐患。
“VMware国产化替换是目前除了AI之外,在IT圈当中是最火的一个话题。”曹振说,但是替换并不是单纯替换虚拟化品牌可以解决,必须是多方案、多场景的选择,才能满足现阶段的需求。
云易捷提供了五种替换方案:第一,纯虚拟化替换,提供云易捷IaaS虚拟化产品和自研SDN网络;第二,超融合产品架构替换,云易捷打造全新SDS(软件定义存储)v5.0架构;第三,云易捷容器引擎,在云易捷超融合基础之上,提供“VM+容器”两种资源;第四,升级为全栈私有云;第五,升级为混合云。
针对绕不过的VMware虚拟机迁移的问题,云易捷v5.0进行全新升级和迭代,提供了三种迁移能力,包括VMware纳管迁移、NFS离线迁移、在线热迁移。
场景二:基于大模型和算力网络的智能中心
人工智能经过2年的沉淀已经开始进入到行业生产系统,像金融行业的反欺诈模型、智能理赔、智能保顾;医疗行业的用药提醒、智能导诊;自动驾驶领域的视觉感知、点云处理、仿真测试等。
随着而来的是企业IT架构向着人工智能应用进行改造,包括底层设计构建基础大模型、基于基础模型开发行业大模型、调用大模型服务。其中调用大模型服务正是青云所擅长的领域,所以在基于服务好AI应用的前提条件下,青云打造了AI开发推理平台。
云易捷通过AI开发推理平台除了提供模型部署、任务调度、训练任务等可视化管理等常见能力,还具备多元基础设施整合、AI数据资产管理、AI服务中台三个核心能力。
多元基础设施整合:提供异构算力支持,整合主流NVIDIA和国产GPU/NPU等算力设备;多样化存储服务对接,包含对象存储、第三方并行文件存储、NAS等;自动采集各类任务的运行监控和日志数据,包括节点负裁、GPU利用率和功耗等指标,并自动计算综合功耗,便捷评估当前任务资源使用状况。
AI数据资产管理:提供全流程的AI数据管理,包含数据集管理、模型管理、开发环境管理、镜像管理、高级数据管理等能力;针对AI数据资产,提供独立访问凭证,根据数据资产的开放程度,支持“只读”、“读写”和“完全公开”等多种权限方式设置数据访问权限。
AI服务中台:提供交互式建模,内置Notebook和VsCode 2种在线IDE环境,灵活开发;数据分析,内置pySpak在线IDE环境,在平台内运行数据分析任务;推理与调优,内置 AI 推理/调优框架,加速A应用落地。
场景三:边缘计算
智慧城市、物联网、智能制造都是比较常见的边缘计算场景,从IT运维视角看来,主要会存异构设备纳管、网络稳定性等问题。
云易捷v5.0提供了多集群统一管理组件,将分布在不同地点/区域的云易捷数据中心进行统化管理,通过中央控制集群,实现对多个集群的集中监控和管理,大大降低了运维的复杂性和成本。
这一升级最大的亮点是跨区域管理、进程级资源开销、不限版本不限架构。在整个管控下,还可以形成总部到分部的配合度。曹振谈到,总部作为管控端可以将更新完成后的镜像自定义在闲时,自动下发到每一个边缘集群,有效地避免网络延迟问题,避免需要实时更新、拉取镜像,导致网络负载异常高的现象。
而且多集群管理组件的部署和数据中心的管理关联实现了分钟级完成,从点击安装到最终用户看到管理组件页面,只需一分钟内就能完成。
在边缘运维能力之外,对于边缘集群存储,云易捷也进行了优化,在物理机器上只需要进行拔盘与加盘操作,剩下全部在页面上就能完成磁盘替换或扩容的操作。
纵观所有优化都能映射到现在企业的主流需求,而且青云会对每一个老版本客户负责到底,提供便捷的升级操作,可以实时感受到新版本的迭代、更新和优化。
来源:至顶网