EN
提示
机器学习解决方案

随着深度学习算法进步,云计算、大数据以及GPU等技术的飞速发展,AI及机器学习的相关技术从算法、算力和数据三个维度实现了全面的提升,爆发了新一轮人工智能发展浪潮。在我国,人工智能与实体经济正深度融合,成为新一轮科技革命和产业变革的重要驱动力量。

杉岩数据积极应对产业数字化转型升级的诉求,适时推出了机器学习存储解决方案,应对数据作为关键生产要素的使用过程中,海量数据的采集、存储、访问和应用挑战。

客户需求
如何汇聚和管理各类来源、各种格式的数据
需要汇集外部的数据集或数据库;数据分布跨多个地方,从不同的数据源(跨数据中心、云和边缘)收集数据,并转换成统一的格式;海量非结构化或半结构化数据(图片、视频、音频、注文件等)对存储的吞吐量和延迟要求很高
传统存储无法满足机器学习不同阶段对存储容量、性能和接口协议的要求
数据集中与归档阶段具有典型I/O密集的特征,要求高带宽和大容量;模型训练阶段涉及到大量的随机、小文件读取操作,要求高带宽和低时延;推理阶段要求低时延和高性能; 数据归档和准备阶段对于海量数据的存储、检索等管理能力要求高,对象存储(S3协议)更为适合,而训练推理对存储时延响应及并发访问能力要求高,加上训练平台的历史原因,通常更适合使用分布式文件系统(NFS/CIFS、POSIX接口协议)
昂贵GPU资源利用率不高,资源无法共享
在当前机器学习解决方案中,越来越普遍的使用GPU提供算力以加速学习训练过程,将昂贵的GPU资源共享,多机多卡的集群可以同时执行更多的训练任务,不仅可以加速学习过程,也能提升资源利用率,减少资源浪费。
方案介绍

杉岩机器学习存储解决方案,通过MOS智能存储引擎提供海量、弹性、高性价比的存储服务,兼容POSIX语义的文件接口、HDFS接口、S3接口、CSI接口,方便与多种训练平台对接,通过分布式缓存技术,加速机器学习效率。同时,数据管理服务提供丰富的管理策略,简化数据的管理和价值挖掘。


客户价值
  • 支持非结构化、半结构化和结构化数据的汇聚和海量存储

    DataIngestor支持对多种数据源的数据汇聚

    支持通过NFS / CIFS / FTP / POSIX/ S3/HDFS等多种接口协议写入

    单命名空间支持百亿小文件,EB级存储

  • 标签检索、智能数据管理

    支持对象自定义标签,百亿文件秒级检索

    数据分层存储,满足高性能和大容量需求的同时保障总体拥有成本最低

    支持多副本和纠删码,兼顾训练的性能和原始数据归档的需求,存储成本相比NAS存储降低40%

  • 多访问协议支持

    兼容POSIX、HDFS、S3、CSI主流访问协议,实现一套存储支撑人工智能不同阶段数据访问方式

  • 客户端分布式缓存加速,释放GPU潜力

    针对机器学习训练阶段一写多读的I/O特点,分布式缓存技术可以大大提升多机多卡训练集群下的整体I/O性能,平均GPU利用率可达97%以上

联系

我们

400-838-3331

在线

客服