IT培训 / 新闻资讯 / 数据库教程 / 数据库原理：从零构建Flink SQL计算平台，平台搭建

数据库原理：从零构建Flink SQL计算平台，平台搭建

作者：dmhql 来源： https://www.cnblogs.com/pyx0/archive/2020/02/22/12348114.htm点击数：1578发布时间： 2020-02-29 16:17:12

数据库是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合，可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据进行新增、查询、更新、删除等操作。

一、理想与现实

Apache Flink 是一个分布式流批一体化的开源平台。Flink 的核心是一个提供数据分发、通信以及自动容错的流计算引擎。Flink 在流计算之上构建批处理，并且原生的支持迭代计算，内存管理以及程序优化。

实时计算（Alibaba Cloud Realtime Compute，Powered by Ververica）是阿里云提供的基于 Apache Flink 构建的企业级大数据计算平台。在 PB 级别的数据集上可以支持亚秒级别的处理延时，赋能用户标准实时数据处理流程和行业解决方案；支持 Datastream API 作业开发，提供了批流统一的 Flink SQL，简化 BI 场景下的开发；可与用户已使用的大数据组件无缝对接，更多增值特性助力企业实时化转型。

Apache Flink 社区迎来了激动人心的两位数位版本号，Flink 1.10.0 正式宣告发布！作为 Flink 社区迄今为止规模最大的一次版本升级，Flink 1.10 容纳了超过 200 位贡献者对超过 1200 个 issue 的开发实现，包含对 Flink 作业的整体性能及稳定性的显著优化、对原生 Kubernetes 的初步集成以及对 Python 支持（PyFlink）的重大优化。

Flink 1.10 同时还标志着对 Blink的整合宣告完成，随着对 Hive 的生产级别集成及对 TPC-DS 的全面覆盖，Flink 在增强流式 SQL 处理能力的同时也具备了成熟的批处理能力。

在过去的2019年，大数据领域的Flink异常火爆，从年初阿里巴巴高调收购Flink的母公司，到秋天发布的1.9以及最近的1.10版本完成整合阿里Blink分支，各类分享文章和一系列国内外公司应用案例，都让人觉得Flink是未来大数据领域统一计算框架的趋势。尤其是看过阿里云上的实时计算平台，支持完善的SQL开发和批流都能处理的模式让人印(直)象(流)深(口)刻(水)。因为相对于公有云产品，稍微有点规模的公司都更愿意使用开源产品搭建自己的平台，可是仔细研究Flink的官方文档和源码，准备撸起袖子开干时，才发现理想和现实的差距很大……

首先是阿里实时计算平台产品的SQL开发界面：

数据库原理：从零构建Flink SQL计算平台，平台搭建_数据库_数据库原理_MySql_课课家

然而现实中Flink所支持的SQL开发API是这样的：

// create a TableEnvironment for specific planner batch or streaming
TableEnvironment tableEnv = ...; // see "Create a TableEnvironment" section

// register a Table
tableEnv.registerTable("table1", ...)            // or
tableEnv.registerTableSource("table2", ...);     // or
tableEnv.registerExternalCatalog("extCat", ...);
// register an output Table
tableEnv.registerTableSink("outputTable", ...);

// create a Table from a Table API query
Table tapiResult = tableEnv.scan("table1").select(...);
// create a Table from a SQL query
Table sqlResult  = tableEnv.sqlQuery("SELECT ... FROM table2 ... ");

// emit a Table API result Table to a TableSink, same for SQL result
tapiResult.insertInto("outputTable");

// execute
tableEnv.execute("java_job");

最后翻遍Flink文档发现提供了一个实验性质的命令行SQL客户端:

此外当我们用开源Flink代码部署一套集群后，整个集群有 JobManager 和 TaskManager 两种角色，其中 JobManager 提供了一个简单的管理界面，提供了上传Jar包执行任务的功能，以及一些简单监控界面，此外还提供一系列管理和监控的 Rest Api，可惜都没有和SQL层面直接相关的东西。

之所以有这一系列理想与现实的差异，是因为Flink更多的定位在计算引擎，在开发界面等方面暂时投入较少，但是每写一个SQL然后嵌入到代码中编译成JAR包上传到Flink集群执行是客(小)户(白)所不能接受的，这也就需要我们自己开发一套以SQL作业为中心的管理平台（对用户暴露的web系统），由该平台管理 Flink 集群，共同构成 Flink SQL 计算平台。