惠普|惠普最新推出的AI开发平台测评:多用户协同开发模型和算力资源管理的有力工具!( 九 )


Q3:在完成此次实验后 , 你如何评价 HP AI 开发平台?
吴远皓:通过体验我们发现 , HP AI 开发平台对使用者非常友好 , 是计算资源管理的有力工具 。
Q4:对比公有云、数据中心和本地 PC , 您觉得通过工作站进行模型训练的优势有哪些?
吴远皓:这几个不太能比较 。 对于中小团队来说公有云有传输数据的成本 , 数据中心的搭建和运营成本太高 , 而本次 PC 的性能可能达不到要求 , 所以为团队配备一个共用的工作站是一种既灵活又高效的方案 。
Q5:对于中小型 AI 开发团队来说 , 工作站+ HP AI 开发平台的算力提供和管理方式是否是一个不错的选择?
吴远皓:是的 , 可以发挥硬件的最大效能 , 提高利用率 。
4、管理员后台展示
前端用户在通过 HP AI 开发平台进行模型训练过程中 , 管理员可以在后台直观的看到资源的使用反馈 。 比如在前面两个实验过程中 , 管理员可以在后台看到以下内容 。
4.1、任务列表
在 “任务列表” 里面 , 我们可以看到 master1 和 master2 创建的任务 。

图表 2.4.14.2、任务镜像
在“任务镜像”里面 , 管理员可以看到 master1 和 master2 所使用的镜像系统 。

图表 2.4.2
图表 2.4.34.3、监控中心
仪表盘
管理员可以看到在实验期间 , 节点和分区的 CPU、GPU、内存、网络等参数的整体使用情况:

图表 2.4.4节点使用情况:

图表 2.4.5分区使用情况:

图表 2.4.6监控报表
资源使用情况:
在这里默认会选择一周内的资源监控数据进行展示 , 同时也可以选择动态展示数据变化

节点使用情况:

分区使用情况:



实时信息图表 2.4.7
历史统计图表 2.4.85、多用户使用
在 “ GPU设置” 里面 , GPU 可以切片的数量选项为1、2、4、8 。 也就是说每块 NVIDIA RTX A5000 的 GPU 算力可以平均分为1、2、4、8份 , HP Z8 G4 数据科学工作站共有3块 GPU , 最多可将算力平均分为24份 , 可同时给24个开发者提供算力支持 。

3、总结通过本次专业性测试 , 我们可以看到 , 配备了3块 NVIDIA A5000 GPU 的 HP Z8 G4 数据科学工作站在 HP AI 开发平台的配合下 , 不仅便于管理员对工作站的 GPU 资源进行管理 , 更能满足两位 Kaggle Grandmaster 的算力需求 , 保障模型协同训练的顺畅进行 。
HP AI 开发平台是一款封装了人工智能所需系统和底层操作的容器云平台 , 在数据中心或公有云中同样可以进行单独的部署 。 不过 , 工作站产品特有的静音 , 易部署和高性价比 , 让 HP Z8 G4 数据科学工作站+ HP AI 开发平台的整体解决方案在中小企业办公场景中的应用优势非常显著 。
对于有同等需求的中小型 AI 开发团队来说 , 搭载2-4块 GPU 的 HP Z8 G4 数据科学工作站 , 配合 HP AI 开发平台的资源管理 , 就可以很轻松的构建出一个性价比极高的高性能计算解决和管理方案 。 因此 , 工作站+HP AI 开发平台解决方案可以在帮助中小企业团队节省成本的同时 , 可以发挥出硬件的最大效能 , 提高资源利用率 , 成为多用户协同开发和资源管理的有利工具 。
总体来说 , HP AI 开发平台在资源管理和镜像订制两方面都有着独到的优势 。
其中 , 在资源管理方面有三大核心优势:
(1)按需分配、自动释放:在任务提交后 , HP AI 开发平台可以按照实际需求动态分配资源 , 限制任务无法超额使用资源 , 保证资源分配的公平性;与此同时 , 它还可以支持任务排队机制 , 在任务运行完毕后自动释放资源 , 让队列中任务自动运行;

相关经验推荐