IT培训 / 新闻资讯 / 大数据教程 / 火山引擎工具技术分享：用 AI 完成数据挖掘，零门槛完成 SQL 撰写

火山引擎工具技术分享：用 AI 完成数据挖掘，零门槛完成 SQL 撰写

作者：匿名来源：大数据点击数：570发布时间： 2022-11-30 09:43:34

标签： AI 数据挖掘

　　专业算法团队在做数据挖掘时，数据分析及可视化也会呈现相对割裂的现象。流程化完成算法建模和数据分析工作，也是一个提效的好办法。

　　在使用 BI 工具的时候，经常遇到的问题是：“不会 SQL 怎么生产加工数据、不会算法可不可以做挖掘分析?”

　　而专业算法团队在做数据挖掘时，数据分析及可视化也会呈现相对割裂的现象。流程化完成算法建模和数据分析工作，也是一个提效的好办法。

　　同时，对于专业数仓团队来说，相同主题的数据内容面临“重复建设，使用和管理时相对分散”的问题——究竟有没有办法在一个任务里同时生产，同主题不同内容的数据集?生产的数据集可不可以作为输入重新参与数据建设?

　　1. DataWind 可视化建模能力来了

　　由火山引擎推出的 BI 平台 DataWind 智能数据洞察，推出了全新进阶功能——可视化建模。

　　用户可通过可视化拖、拉、连线操作，将复杂的数据加工建模过程简化成清晰易懂的画布流程，各类用户按照所想即所得的思路完成数据生产加工，从而降低数据生产获取的门槛。

　　画布中支持同时构建多组画布流程，一图实现多数据建模任务的构建，提高数据建设的效率，降低任务管理成本;另外，画布中集成封装了超过 40 种数据清洗、特征工程算子，覆盖初阶到高阶的数据生产能力，无需 Coding 完成复杂的数据能力。

　　2. 零门槛的 SQL 工具

　　数据的生产加工是获取及分析数据的第一步。

　　对于非技术使用者来说，SQL 语法存在一定使用门槛，同时本地文件无法定时更新，导致看板每次都需要手动重做。获取数据所需的技术人力往往需要排期，数据的获取时效及满足度大大打折，因此使用零代码的数据建设工具变得尤为重要。

　　下方列举两个典型场景，零门槛完成数据处理在工作中是如何应用的。

　　2.1 【场景1】所想即所得，可视化完成数据处理过程

　　在产品运营迭代急需不同数据的及时输入反馈时，可以抽象数据的处理过程，通过可视化建模拖拉算子构建数据处理过程。

　　如要获取按照日期、城市粒度的订单数及订单金额，并获取每日 Top10 消耗金额数据的城市数据，操作如下：

常规数据处理流程	可视化建模处理流程
请技术同学拉取订单的明细数据，包含订单 id/ 订单金额/用户 id/ 订单日期城市等	选择数据源，选择库表或上传 CSV 文件或连接 LarkSheet
将数据通过透视图的操作设置行为订单日期、城市，指标为订单金额求和、订单 id 求和	筛选需要使用的字段信息，配置自己定义的字段名称及格式
将透视结果按照金额排序，然后编写序号	选择聚合算子，按照日期和城市聚合计算订单量和订单金额
用筛选器过滤 Top10 的数据	选择 Top 值算子，取 Top10 金额数量
	输出数据集，数据集可应用到风神中绘制图表

　　2.2 【场景 2】多表快速结合，轻松解决多数据关联计算

　　在数据处理过程中，有多个数据源需要进行组合使用，常规通过 Excel 需要掌握高阶 Vlookup 等算法有些难度，且耗时长。同时数据量较大时，电脑性能可能没办法完成数据的组合计算。

　　如有两份数据量比较大的订单数据和一份客户属性信息表，需要根据账单金额和成本金额计算利润金额，然后按照利润贡献高低取 Top100 的用户订单信息

常规数据处理流程	可视化建模处理流程
需要将两个订单数据打开后，Copy 数据合并到一个文件中	可以上传 CSV 文件 /LaskSheet 构建数据输入
采用 VloopUp 查找订单里用户和客户里用户数据，然后将两者数据组合生成新的数据	然后可以合并 3 月 /4 月订单数据为一份数据
采用透视表计算用户账单金额和成本金额，然后计算利润金额	连接客户信息属性表，绑定客户属性信息
按照利润金额排序获取 TopN 客户信息	选择聚合，按照客户具体计算账单金额和成本金额
	选择计算列，根据账单金额和成本金额计算利润金额
	根据利润金额排序获取 TopN 客户信息

　　3. AI 数据挖掘，不再高不可及

　　当基础的数据清洗已经没办法满足数据建设和数据分析，需要 AI 算法加持去挖掘数据更多隐藏的价值时。算法团队同学可能苦于无法很好与可视化图表联动使用，没办法生产好的数据快速被应用;而普通用户可能直接被 AI 代码的高门槛直接压灭了这个算法的苗头——提需求又怕需求太浅、价值无法很好评估输出，此时算法挖掘成为了一种奢望。

　　DataWind 的可视化建模封装了超过 30 类常见的 AI 算子能力，用户仅需了解算法的作用可以通过配置化的方式配置算法算子的输入和训练目标即可完成模型训练，根据配置的其他数据内容快速得到预测结果。