趋动科技 OrionX on VMware 打造 AI 就绪平台

本文作者：卢洋、刘博

随着科技进步和产业变革的加速演进，人工智能（AI）已经成为兵家必争之地。今年以来伴随着ChatGPT带来的鲶鱼效应，人工智能成为科技产业创新的焦点，其应用范围越来越广泛，并将持续发展。科技产业龙头正加大在人工智能领域的军备竞赛。算法、数据、算力作为人工智能领域的三要素，也同时受到了业内关注。在政府、学术机构、企业等各个层面，AI都受到高度重视，其在学术研究、技术创新、人才教育等方面的发展都呈现全新发展态势。作为AI市场中的重要组成，以GPU技术为主的AI加速市场也得到了快速的发展，与此同时，由于GPU硬件价格昂贵，传统使用GPU算力的独占式使用方式缺乏灵活性和经济性，云原生技术的发展又催生了快速交付细粒度切分GPU算力的需求，所以市场上急需经济高效GPU算力池化方案。
VMware作为虚拟化与云原生技术的领导者，针对不同使用场景有对应的GPU资源技术方案。

这两种VMware GPU方案当前客户采用比较多，读者都比较熟悉，本文介绍一个新的 GPU池化方案–趋动科技OrionX on VCF Tanzu GPU 池化方案，应对不同的GPU池化场景。

趋动科技作为GPU池化技术领导者，自主研发的OrionX AI算力资源池化软件可以为企业用户构建数据中心级AI算力资源池和AI开发平台。OrionX将AI应用与物理算力资源解耦，并通过高效的通讯机制，使得AI应用、CUDA应用可以运行在云或者数据中心内任何一个物理机、Container或者VM内而无需挂载物理GPU。OrionX GPU池化软件的收益多多：

兼容已有的AI应用和CUDA应用，使其仍然具有使用GPU加速的性能。
为AI应用和CUDA应用在云和数据中心的部署提供了很大的灵活度，无需受GPU服务器位置、资源型号和数量的约束。
OrionX vGPU资源随AI应用和CUDA应用启动时分配，随应用程序退出时自动释放，减少GPU空闲时间，提高GPU的利用率。
通过对GPU资源池的管理和优化，提高整个云和数据中心GPU的利用率和吞吐率。
通过统一管理GPU，减轻GPU的管理复杂度和运维成本。

此次联合趋动科技验证了在VMware Cloud Foundation（后面缩写为VCF）平台上提供GPU池化算力方案的能力，目的是更加灵活地为AI训练提供GPU算力，助力AI场景快速落地。

本次经过联合方案验证，主要是将OrionX与VMware VCF with Tanzu 结合部署，主要架构如下：

在整个方案验证中，VMware Tanzu Kubernetes Grid（后面缩写为 Tanzu TKG）提供了Kubernetes 运行环境，VMware Cloud Foundation 为Tanzu TKG 提供了底层IaaS平台，其中vSphere自动化置备Tanzu TKG节点虚拟机， vSAN为Kubernetes提供持久化存储服务， NSX为提供云内网络连接，NSX Advanced Load Balancer为Kubernetes提供负载均衡和应用发布服务。Harbor为整个台提供镜像仓储管理服务。OrionX提供GPU池化能力。Nvidia GPU通过直通模式透传给Tanzu TKG 的工作节点。

在本次方案验证中，我们主要涉及到以下场景：

GPU资源按需分配功能
GPU资源远程调用功能
多用户GPU资源切分功能
多用户GPU资源动态分配功能
用户GPU资源独享功能
GPU加速任务等待功能
GPU加速任务优先级功能
GPU资源池切换功能
本地和远程调用性能对比

方案验证中一些关键截图：

Tanzu TKG 工作节点直通Nvidia T4 GPU卡

Tanzu TKG 部署OrionX 运行截图：

OrionX 管理界面：

GPU 资源预留：

AI任务优先级排列：

OrionX 可灵活切换GPU卡是否打开虚拟化，而无需重启设备。

经过本地调用与远程调用性能对比，性能损耗约3% 左右，损耗极低。

经过本次的方案验证，得到如下一些结论：

OrionX AI算力池化方案可以在VCF with Tanzu平台上正常稳定运行
OrionX 对GPU池化能力灵活，可以灵活切分、预留、排队、控制任务优先级
本次VCF测试环境基于25G网络，在本地和远程调用，性能差异小，结果符合预期

OrionX+ VCF with Tanzu为用户在AI学习场景提供了更加全面的解决方案，让企业内的 AI 用户共享数据中心内所有服务器上的 GPU 算力。AI 开发人员不必再关心底层资源状况，专注于更有价值的业务层面，让AI 开发变得更加高效和便捷。

更灵活：从基础计算、存储、网络、Kubernetes集群到GPU资源，都可以灵活置备，支持不同AI场景。

更高效：全面提升基础架构和GPU资源利用率，发挥最大效能。

更安全：细粒度用户管理，实现资源隔离，安全微分段，保障数据安全。

更便捷：熟悉的基础架构管理，图形化UI，AI任务管理更简单。

VMware vSphere with Tanzu及VCF with Tanzu等产品与趋动OrionX产品的兼容和适配，将更好地支撑企业级客户AI应用的快速发展。

此次联合测试作为VMware 生态合作计划VMware VCF with Tanzu GPU 池化解决方案一部分，后续会继续安排更多生态伙伴创新厂商的方案测试。敬请持续关注。

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

趋动科技 OrionX on VMware 打造 AI 就绪平台

让AI视频进入「全民GC」时代，这家中国公司刚刚真的做到了

英特尔举办2024网络与边缘计算行业大会，推动边缘AI创新发展

北大刘若川教授获拉马努金奖，中国学者4次获此殊荣

H100利用率飙升至75%！英伟达亲自下场FlashAttention三代升级

贾扬清共一论文获ICML时间检验奖：首个开源版AlexNet，著名框架Caffe前身，最佳论文奖也已公布

大模型智障检测+1：Strawberry有几个r纷纷数不清

OpenAI的《Her》难产，是被什么困住了手脚？

Nature封面：AI训AI，越训越傻

CPU、GPU的互连从1米飙至100米，英特尔：你相信光吗？

12h订单破万，卖爆了的国产AR眼镜公司什么来头？