数据湖作为企业数据体系的基础,已成为大数据平台的首要选择。它犹如一个“大水池”,把各类异构数据进行集中存储、“一湖尽收”,在挖好这个"湖"后,重要的步骤就是如何把各种异构数据汇聚注入到湖里。
数字经济时代,非结构化数据爆发式增长,面对容量大、数量和种类繁多的非结构化数据,集中式存储性能无法满足应用需求,分布式存储架构渐成主流。在存储架构升级过程中,应用业务系统老旧、存储系统孤立等问题成为数据入湖的阻碍。
一、数据入湖面临的常见问题
以智能生产车间存储架构升级过程为例,面临的常见问题有:
应用改造难,架构升级受阻
智能生产车间的现有机台系统往往使用 NAS 共享甚至本地文件方式访问存储系统,由于业务系统技术服务终止、架构升级代价昂贵等原因,无法直接对接对象存储 API 接口,此时企业往往采用如下图1所示的“临时写入本地磁盘+数据同步脚本”的折中方案,将文件持续上传到对象存储。
▲ 图1 脚本上传数据架构
多业务系统/终端管理复杂,效率低
由于智能生产车间内部数据管理涉及所有生产机台,而大型智能制造企业机台数量往往达到数千级别,单纯基于上述单机脚本分别管理上千个机台,每个机台均需要独立部署和配置,对于运维人员来说显然过于复杂。
大量机台运维成本高,业务可靠性低
数千个机台节点需要单独运维,业务管理员无法全面主动驾驭,只能定时逐个检查机台运转是否正常,如业务出现故障无法及时处理,不仅消耗人力物力,业务可靠性也缺乏保障。
IT 系统在支撑业务快速发展的同时,企业核心生产数据的安全、可用成为关键。数据不断增长使企业原有的数据存储不可避免需要升级、扩容和更新换代。海量数据接入难及数据孤岛问题,给企业数据的治理和利用带来了极大阻碍。在此过程中,运维人员往往面临着应用改造难、多业务系统管理复杂、运维成本高等问题。如何更高效、安全、完整地完成存储架构升级、替换、迁移的目标,保证业务的连续性?
二、eDataIngestor:数据入湖新通道
基于上述背景,结合客户业务数据迁移管理需求,杉岩数据全新推出数据入湖新通道 DataIngestor。如图2所示,DataIngestor 核心组件包括中心集中管控服务 IngestorServer 和终端管理插件 Agent 两部分,Agent 以本地服务的形式运行在终端节点上,通过 token 认证与服务端建立安全连接;IngestorServer 基于统一的管理入口对全局的所有 Agent 进行数据传输任务管理,上述三个难题迎刃而解:
▲ 图2 DataIngestor 业务架构图
● Agent 对本地文件的全量和持续增量上传管理,不再需要业务软件改造或者客户开发数据管理工具,大大降低了客户存储架构升级的门槛。
● 可视化的任务配置,统一的监控系统,大幅降低运维工作量,提升生产效率。
● 持续的机台状态及资源监控告警,能够第一时间反馈产线问题,及时处理故障,提升业务可靠性。
此外,如图3所示,DataIngestor 支持与杉岩 MOS 海量对象存储的智能数据处理引擎联动,基于智能数据处理引擎的灵活性和对业务流程的支持,数据汇聚的过程中可以根据用户业务需要触发相应的数据智能处理流程,如输出数据统计分析、业务洞察报告及业务数据风险预警,有效提高企业数据管理效率,助力客户商业成功。
▲ 图3 DataIngestor 与杉岩 MOS 智能数据处理引擎联动示意图
三、一探究竟:DataIngestor 功能特性详解
数据源端管理
如图4所示,通过数据源端管理界面,可以动态增加需要一次性迁移或者持续数据汇聚的数据源端。
▲ 图4 数据源端管理
数据目标端
如图5所示,通过界面可以添加数据目标端,支持自定义名称、配置存储桶、服务地址及鉴权密钥。
▲ 图5 数据目标端管理
任务管理
如图6所示,在任务管理界面可以选择已经添加的数据源端和目标端,配置数据一次性迁移或持续汇聚类型任务;可选择数据标签感知策略,上传文件的同时根据策略配置自动生成文件标签。此外,支持按业务需要调整增量数据扫描间隔,以满足不同业务压力场景需要。
对于迁移类型的数据上传任务,支持配置数据上传执行时间段,可以按需避开在线业务高峰,在业务闲时启动历史数据迁移任务。
▲ 图6 数据传输任务管理
Agent管理
如图7所示,系统管理界面持续展示 Agent 节点的在线状态、执行任务类型、任务状态、Agent 本地空间利用率、CPU 使用率及内存使用率,同时支持通过 Agent 机器 IP 地址搜索过滤查看,大大提升终端节点管理效率。
▲ 图7 Agent 终端节点管理
告警监控管理
如图8所示,当前支持如下告警类型:
● 任务传输异常告警:不论是节点网络异常,还是其他原因导致数据传输任务执行异常,Agent 进程都会及时上报告警到 server 端,方便管理员快速分析,恢复服务。
● Agent 本地空间不足告警:业务压力过大或者网络异常导致的数据堆积,致使本地空间超过一定阈值时,Agent 会自动上报空间不足告警。
● Agent 节点失联告警:当 Agent 节点异常或者网络不通时,server 端会主动触发告警。
▲ 图8 告警管理
总结
DataIngestor 提供数据源端/目标端管理,支持配置一次性迁移或持续数据汇聚任务,同时支持自定义数据传输动作执行时间段,可选配置数据内容感知策略自动打标签以便业务检索管理,省去企业业务软件改造成本,降低数据入湖门槛,提升业务故障处理效率,大幅降低运维工作量。
同时 DataIngestor 支持与杉岩 MOS 智能数据处理引擎联动,能够主动触发数据统计分析、业务洞察报告生成和风险预警,支撑企业关键业务决策。显而易见,DataIngestor 是基于杉岩 MOS 的企业数据湖方案绝佳拍档。