数据开发平台是一站式的流批一体全场景数据加工平台,支持PB级数据处理,同时兼容传统数仓加工,是建设企业级大数据加工平台的必备底座,其输出结果主要用于实时/离线数据的分析和展示。
如果您了解数据仓库技术,就可以把数据开发平台理解为大数据ETL工具。ETL ,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
数据抽取可分为离线抽取与实时抽取两种。离线抽取可应用于某段时间内数据更新不敏感的场景,一般是固定周期内的定时抽取。 实时抽取可应用于对数据的最新状态非常敏感的场景,当有新数据插入或者旧数据更新时,即刻进行抽取。
数据转换是核心环节,该环节对抽取到的各种数据,进行数据清洗、格式转换、缺失值补填、剔除重复、添加信息等操作,最终得到
一份格式统一、高度结构化、数据质量高、兼容性好的数据,为后续的分析决策提供可靠的数据支持。
数据加载是指完成抽取和转换之后,将处理好的数据加载到目标数据库。
所以,数据开发平台如同一个数据加工厂,将本应用或者跨应用的表单中的原始数据抽取出来,做进一步的汇总、加工、处理和整合后,
得到准确、可靠、一致的结果数据,整个过程低迟滞、高实时,从而满足企业多样、灵活、复杂的数据分析需求。
智慧数据开发平台-作用
企业中往往存在大量未经过任何加工的原始数据,所以数据难以获取,数据质量堪忧,也由此导致数据分析成本高昂。数据开发平台的主要作用就是整合企业中分散、非完全结构化、标准不统一的各种数据,从而形成统一的企业级数据仓库,为企业的分析决策提供有质量保证的数据源。
数据开发平台支持离线消费和实时消费两种模式,可满足全量覆盖、全量追加以及基于时间戳/日志文件/队列/增量字段为增量判断条件的消费场景搭建需要,为企业提供了极为宽泛的作业方案选择。
为应对复杂的数据环境,数据开发平台提供了完整的数据清洗功能,通过字段校验、关键字段检查、格式类型一致性校验、无效性检查等操作,保证数据供应的高可靠性。针对数据中可能存在的缺失空位,数据开发平台提供缺失值填补功能,以保证数据类型的一致性和完整性。同时,为防止数据重复上传,影响业务分析的准确性,数据开发平台支持过滤规则的灵活设置,可对数据持续开展监控和过滤,发现问题,并提示用户解决问题。
数据加工过程中,数据开发平台可完成字段拆分、字段合并和字段匹配。字段拆分是截取某一字段中的部分信息,将该字段拆分成两个或多个字段。字段合并是将若干字段合成为一个新的字段或者将字段值与其他文字、数字等进行组合并形成新的字段。字段匹配是从具有相同字段的关联数据库中获取所需数据,一般来说字段匹配要求原数据库与关联数据库至少存在一个关联字段,根据关联字段实现批量查询匹配对应的数据。
为保证数据供应的灵活性,数据开发平台配置有数据转换功能,可对数据格式做统一化、规范化处理,方便后续的分析作业,包括记录格式转换(例如转成json、csv、txt、avro等格式)和字段格式转换(对字段值进行格式的统一处理,规范计算口径)。其中,字段格式转换支持结构转换和行列转换。结构转换是根据业务需求,对数据进行结构调整,主要指一维数据表与二维数据表之间的转换。行列转换是对行列数据进行转换,实现从不同维度来观察数据,从而使其满足业务分析所需。并且,在数据加工的过程,用户还可根据需要,对数据执行加/解密操作,增加自定义标识字段,进一步满足其个性化要求。
智慧数据开发平台-价值
数据分析过程中,用户花费在数据处理的时间和成本往往占据其整体投入的70%以上。而数据开发平台就是大数据分析系统中的数据“发动机”,构成了数据仓库体系中非常重要的一环,发挥着承前启后的关键作用。
数据开发平台负责从分散、异构的数据源中提取数据(包括关系型数据、平面数据文件等),对其后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,为联机分析处理、数据挖掘提供稳定且统一的数据来源。所以,数据开发平台在企业数据治理体系中,体现出如下价值:
破除数据孤岛:将企业信息化建设过程中产生的数据孤岛整合起来,生成面向企业全局的数据视图,为企业的分析决策提供全面稳定且有质量保证的数据来源。
挖掘数据价值:挖掘企业大数据资源,获得蕴藏在数据中的规律或趋势,进而做出下一步预测。这一过程需要运用复杂算法、统计模型和大量数据,所以数据开发平台所提供的并行算法和网格计算能力将发挥出关键作用。