跨平台统一的可视化大数据智能分析平台

产品介绍:

随着大数据技术的快速发展,目前已经出现了众多大数据分析处理和机器学习系统平台。“战国时代,百花齐放”,为不同的大数据应用分析提供了众多选择。但是,众多的系统平台令人眼花缭乱,难以选择和学习使用。另外,综合大数据分析往往会涉及到各种不同的计算模型,例如,数据库的表模型、矩阵模型、张量模型、图模型、数据流模型等,已有的大数据系统缺少可覆盖各种计算模型、能集成使用各种不同主流大数据系统的能力。

针对上述问题,本产品提供了跨平台统一的大数据分析处理与可视化编程系统平台。该平台基于跨平台统一的大数据编程模型和编程框架,向上提供了覆盖各种计算模型的高层计算算子以及全流程化大数据分析处理方法,向下提供了异构开放式大数据系统集成框架,能够在统一编程空间内集成使用各种不同主流大数据系统。

产品功能:
  • ● 跨平台统一的大数据编程模型:

    提供覆盖表、矩阵、图、张量、数据流等多种计算模型的跨平台统一计算算子。算子类型丰富,包括数据预处理、特征工程、机器学习、深度学习、图计算及文本分析等。另外,所有算子均采用高层统一抽象、计算平台无关的方式进行封装,用户在不了解底层计算平台的前提也可灵活方便使用。

  • ● 异构开放式的大数据系统集成框架:

    能够轻松集成Spark、Flink、Graph X、scikit-lear、 TensorFlow等常用的数据分析、机器学习、图计算和深度学习平台。用户可根据数据规模和计算模型灵活选择底层的大数据系统平台,无须关注底层平台具体实现细节。

  • ● 跨平台统一作业调度器:

    通过作业调度、任务调度及平台调度三级调度器,统一将上层计算作业调度到不同的计算平台。为降低不同计算平台之间的数据迁移开销,采用跨平台统一数据交换引擎,实现数据交换格式和中间数据存储的统一。

  • ● 基于计算流图的可视化大数据分析编程:

    提供拖拽式的可视化大数据分析编程方法和编程工具,用户通过简单的算子拖拽操作即可构建涵盖数据预处理、特征工程、算法选择及模型评估等全生命周期的大数据分析处理流程,并可实现一键运行。

  • ● 自动化机器学习(AutoML):

    支持算法自动选择和超参数优化,能够根据任务类型自动地选择最优的分析算法模型以及模型超参数,减少数据分析建模的人力和时间成本,提高数据分析建模的效率。

  • ● 平台选择优化器:

    支持多粒度的平台选择优化。用户可以手动设置算子/模块/计算流图等对应的底层计算平台,也可交由机器,根据计算模型和数据规模等多种要素自动选择最优的计算平台及其组合,实现计算平台利用率最大化。

产品界面:
产品优势:
  • ● 易用性:

    用户可采用拖拽式的可视化编程方式快速构建端到端的大数据分析流程,并且无须关注计算算子的具体实现细节,大大降低大数据分析处理的门槛。

  • ● 跨平台:

    提供可覆盖各种大数据计算模型、跨平台统一的大数据编程模型和编程框架。底层可集成各种不同计算模式下的主流大数据系统。

  • ● 灵活性:

    在同一个编程空间内可以灵活使用不同的大数据分析系统。根据大数据分析处理流程各个环节的计算特点,选择最合适的大数据分析系统,充分发挥各个大数据分析系统的优势。

  • ● 高性能:

    依托近十年的大数据并行计算技术积累,沉淀了一系列计算性能突出的大数据并行计算算法和模型,如分类、聚类、回归、推荐、关联性分析、图计算、文本分析等。性能普遍优于Spark MLlib内置的算法模型。

  • ● 全流程:

    提供涵盖数据预处理、统计分析、特征工程、算法选择以及模型评估等一系列功能丰富的计算算子,支持全生命周期流程的大数据综合分析处理,能够实现数据分析流程的一键运行。

  • ● 自动化机器学习:

    支持算法模型自动化选择和超参数自动调优,缩短数据分析建模周期,降低机器学习技术门槛。

  • ● 多数据源支持:

    可集成HDFS、Alluxio、Hive等主流的分布式文件系统以及数据仓库,所有数据源可基于Web界面统一展示。

  • ● 数据和模型可视化:

    支持柱状图、散点图、热点图以及网络关系图等多种数据可视化展现方式,同时也支持常用算法分析模型的可视化。

产品示例图:
使用场景:

大数据分析处理与人工智能建模。数据分析人员可以采用可视化拖拽的方式快速构建全生命周期的大数据分析流程,无需关注底层大数据计算平台的技术细节,从而降低大数据分析编程的技术门槛。