解决不同存储场景,不同数据形态的存储问题
提供高效、智能、可靠的数据管理方案
联系方式
售后服务热线
400-838-3331转3
关注官方公众号
服务邮箱
support@szsandstone.com
关注杉岩小助手
方案背景
随着深度学习算法进步,云计算、大数据以及GPU等技术的飞速发展,AI及机器学习的相关技术从算法、算力和数据三个维度实现了全面的提升,爆发了新一轮人工智能发展浪潮。在我国,人工智能与实体经济正深度融合,成为新一轮科技革命和产业变革的重要驱动力量。
杉岩数据积极应对产业数字化转型升级的诉求,适时推出了机器学习存储解决方案,应对数据作为关键生产要素的使用过程中,海量数据的采集、存储、访问和应用挑战。
客户挑战
需要汇集外部的数据集或数据库;数据分布跨多个地方,从不同的数据源(跨数据中心、云和边缘)收集数据,并转换成统一的格式;海量非结构化或半结构化数据(图片、视频、音频、注文件等)对存储的吞吐量和延迟要求很高。
数据集中与归档阶段具有典型I/O密集的特征,要求高带宽和大容量;模型训练阶段涉及到大量的随机、小文件读取操作,要求高带宽和低时延;推理阶段要求低时延和高性能; 数据归档和准备阶段对于海量数据的存储、检索等管理能力要求高,对象存储(S3协议)更为适合,而训练推理对存储时延响应及并发访问能力要求高,加上训练平台的历史原因,通常更适合使用分布式文件系统(NFS/CIFS、POSIX接口协议)。
在当前机器学习解决方案中,越来越普遍的使用GPU提供算力以加速学习训练过程,将昂贵的GPU资源共享,多机多卡的集群可以同时执行更多的训练任务,不仅可以加速学习过程,也能提升资源利用率,减少资源浪费。
解决方案
杉岩机器学习存储解决方案,通过MOS智能存储引擎提供海量、弹性、高性价比的存储服务,兼容POSIX语义的文件接口、HDFS接口、S3接口、CSI接口,方便与多种训练平台对接,通过分布式缓存技术,加速机器学习效率。同时,数据管理服务提供丰富的管理策略,简化数据的管理和价值挖掘。
客户价值
DataIngestor支持对多种数据源的数据汇聚
支持通过NFS / CIFS / FTP / POSIX/ S3/HDFS等多种接口协议写入
单命名空间支持百亿小文件,EB级存储
支持对象自定义标签,百亿文件秒级检索
数据分层存储,满足高性能和大容量需求的同时保障总体拥有成本最低
支持多副本和纠删码,兼顾训练的性能和原始数据归档的需求,存储成本相比NAS存储降低40%
兼容POSIX、HDFS、S3、CSI主流访问协议,实现一套存储支撑人工智能不同阶段数据访问方式
针对机器学习训练阶段一写多读的I/O特点,分布式缓存技术可以大大提升多机多卡训练集群下的整体I/O性能,平均GPU利用率可达97%以上
扫码关注