GPT奇点赋能大数据行业,不只是写SQL还有……——以数据全生命周期视角为例

784次阅读
没有评论

2023年,超级大模型GPT3、GPT4热浪席卷全球,它的出现,为数字化建设领域带来了一次“重生”的契机。当“类人思考”出现后,哪些可以被“加速”、被“绕过”、被“替代”呢?本文作者围绕数据场景下的GPT应用,做了详细的拆解,一起来看一下吧。

GPT奇点赋能大数据行业,不只是写SQL还有……——以数据全生命周期视角为例

1995年,尼古拉斯·尼葛洛庞帝宣布“数字化时代已经到来”,随之而来的是,数字化成为各行业大力投入建设的基础设施。其中,以互联网为代表的天生具有数字化属性的行业,一直是引领技术创新的风向标,这就包括应用人工智能技术(AI)——超级工具为各行各业提高生产效率和效能。数据与AI之间,是互为促进,相辅相成,有机融合的关系。

当时间来到2023年,超级大模型GPT3、GPT4热浪席卷全球(Generative Pre-Trained Transformer,即生成式预训练Transfomer模型,是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型,可以在海量通用数据上进行预先训练,能大幅提升AI的泛化性、通用性、实用性)。

它的出现,为数字化建设领域,带来了一次“重生”的契机,作为从业者的我们尝试应用GPT4等AGI能力,为企业内部的数字化建设做一次“刷新”,当“类人思考”出现后,哪些可以被“加速”、被“绕过”、被“替代”。截止目前,已有GPT的49种应用,其中两项是跟数据场景有关。下面,我们将围绕数据场景下的GPT应用,做更细粒度的拆解。

一、数据的生命周期

1. 用数据时,遇到的问题

业务高速发展带动数据需求高涨,这与数据部门的应接能力之间存在博弈,这是摆在非天生数字化属性的行业的一道难题。理想中,业务需要的数据都有,都能找到,可以支持各种维度的解析和创新。而现实是,能用的数据有限(A),很多已经建设出来的数据,大家不认识,不敢用(B),多个雷同数据存在使得校对该用哪一个耗时耗力。很多沉睡数据,已经过时,占用着存储空间(D),使得数据存储成本连年上涨。缺失重要数据,需要排期开发(C)。

GPT奇点赋能大数据行业,不只是写SQL还有……——以数据全生命周期视角为例

2. 数据生命周期

数据产生于业务各环节中,部分在online的业务系统中,另一部分散落在offline(比如,工厂),要将散落在各处的数据做好采集(人工录入、扫码、RFID),确保必要数据进入业务数据库中。之后,针对想做分析的数据,可以放入大数据平台的数仓中,通过数据集成工具,将结构化、非结构化多源异构数据汇聚到ODS层。根据数据建模方法,数据开发工程师做DWD和DWS层的加工建设,供业务的数据分析师使用(ADS层),做报表、配看板、提数等。

为进一步提高数据消费效率,通过复用数据API的模式打通最后一公里,降低各系统分别对接的成本。针对一次性,或者长期不用的冷僵数据,做归档和删除处理,腾出宝贵的存储空间和计算资源。这套大数据平台,涉及平台管理能力,以及资产管理模块。而数据治理则横跨业务系统到数据平台的全生命周期中。

GPT奇点赋能大数据行业,不只是写SQL还有……——以数据全生命周期视角为例

3. 人、货(数据)、场

大数据环境下的人货场,跟电商场景中的人货场有两点相似,其一,都需要一个存储货物的地方——“仓库”。大数据环境下叫数据仓库。其二,都需要传输,大数据环境下叫“加工”。与实体的货物相比,数据具有两个特殊的属性,使得,它的存储和运输,要比电商场景更为复杂。这两个属性是,“权限等级”、“体积变化”。

数据有等级之分,高敏感的数据,需要做更严格的权限管控,以确保消费安全。体积变化,是指经过一系列的加工(删除delete、drop、修改alter、增加insert、创建create等),数据的整体体积会发生变化(变大or变小)。这使得存储or加工计算都需要具备弹性的能力,能包容、承托住数据的这些变化。

货物的流通VS数据的流通,使得我们还要考虑继承的问题,跨系统的继承、权限继承、表/字段血缘继承。这些因素,使得虚拟场景下的“人、数、场”比实体中的“人、货、场”更为复杂。

基于上章节提及的数据生命周期,我们拆解了每个环节中,人是谁,在做什么事儿,继而数据会发生怎样的变化(体积变大变小,定义更迭)。为了更为清晰的展示这些环节中人的角色,我们将他们逐一做了定义,共9个角色,1数据生产方、2数据拥有者(将数据采集到业务数据库中)、3数据消费方(想用数据作分析,接入数仓)、4数据开发工程师、5数据分析师、6终端的小白用户。过程中,在数仓范围内,有7资产管理者,有8大数据平台的开发者和管理员。在整个数据生命周期范围内,有9数据治理专家。每个角色,都有其要执行的动作,均简要绘制在图上,具体不再赘述。

数据方面,图中标注了离线和实时两种数仓结构,具体的数仓介绍,网络上各种专家分享,内容翔实且精彩,不再赘述。

GPT奇点赋能大数据行业,不只是写SQL还有……——以数据全生命周期视角为例

二、GPT介入后数据生命周期发生的变化

GPT奇点赋能大数据行业,不只是写SQL还有……——以数据全生命周期视角为例

【前提】GPT打通大数据平台的数仓(即要添加企业专有知识 ,才能提升准确度,让GPT在企业内部用起来,提醒,这些信息数据的交换要在安全允许的范围内进行),以获取准确的元数据信息,这样在用户输入自然语言时,GPT能懂,并返回符合企业数据结构特征的结果。其次,GPT还具有coding的能力,所以当它跟企业内部各个系统打通后,还可以扩展能力,代替人,执行某些既定操作。下面,我们以大数据环境中,6个常见环节,GPT是如何辅助人类的逐一做拆解。

1. 数据集成(聚)

GPT协助提效ETL:

  • Extract-Transform-Load:抽取(extract)转换(transform)加载(load)
  • 目前的ETL工具较成熟(如:Kettle、Datastage、Informatica),数据开发人员可以通过输入和点击关键信息,自动生成调度任务,对于没有ETL工具的公司不需要使用GPT

2. 数据开发&建模(养)

1)GPT代写SQL做数据建模和开发

【前提】将表的元数据信息导给 ElasticSearch,结合 GPT 与 ElasticSearch 服务,提高 SQL 生成结果的准确性。

2)GPT代为配置数据质量监控告警

【前提】GPT跟数据质量模块、调度模块、email、飞书等系统打通。

  • 第一步: 输入文字,让GPT找到目标表(支持一次访问多张表);
  • 第二步:页面呈现目标表(表头、部分数据),确认准确;
  • 第三步:输入文字,针对这些表,计算,比过往12个月自身波动绝对值最大值还高的指标,高亮标识出来,并给出字段名称;
  • 第四步:输入文字,针对这些指标,做日常监控,计算超过比例,针对波动率大于等于5%的指标(基于经验,大于历史1年波动绝对值最大值超过5%的,判定为数据异常),email通知该表开发负责人、下游任务创建者、消费方,某些指标可能出现异常,请关注;

【结论】GPT介入后,可以不做前端质量规则配置平台,并节约配置质量规则的人力投入。

3. 资产管理(治)

GPT代做冷僵数据归档和删除:

【前提】GPT跟调度模块、资产管理模块、email、飞书等系统打通。

  • 第一步:输入文字,找到半年以上冷僵数据(未有动销,读、写、查询过的表);
  • 第二步:输入文字,确认这些表,是否有配置跑批任务;
  • 第三步:输入文字,让GPT给这些表的创建者发送email邮件or飞书提醒,一周后,将自动删除这些冷僵数据,若需要保留,请尽快跟资产治理管理员取得联系(此为举例,实际工作中,细节落实时,会更复杂些);
  • 第四步:输入文字,让GPT执行删除冷僵数据的操作;

【结论】GPT介入后,可以不做前端冷僵数据归档和删除平台,可以节约配置冷僵数据定时删除规则的人力投入。

4. 平台管理(管)

GPT代建权限申请流程:

【前提】GPT跟低代码流程中心、大数据权限管理模块打通。

  • 第一步:当人们通过输入文字,问GPT,寻找某张表时,看过元数据信息,确保是目标表,此时,若用户没有权限,可以请GPT帮忙做权限申请;
  • 第二步:GPT根据该表的敏感等级,及审批要求。向申请人的直属老板、表的开发负责人、业务负责人、安全管理员逐层发起申请,过程中,某个环节可随时增加审批节点;
  • 第三步:审批结束后,是通过还是驳回,GPT都会通过飞书oremail,or站内,GPT与人的交互端口,即时向申请者反馈信息;

【结论】GPT介入后,可以不做繁杂的定制化的权限审批流程,可以由安全与业务同学达成一致后,给GPT输入自然语言,形成审批流,以此节约研发人力投入。

5. 数据分析(用)

GPT代做“自助提数”:

【前提】1、与权限(行列权限和加解密),安全审计能力打通。2、打通元数据,确保GPT生成SQL时,对表、字段的描述跟数仓保持一致,可以直接使用。

第一步:输入文字,找目标表(支持一次访问多张表)。“例如我想查询A表,在P条件下的x、y、z字段,可以直接输出SQL语句。当然,经过预训练,或者在数据源仅有一张表的情况下,描述话语甚至可以更加简略。在训练输入了多张表结构后,也可以支持关联分析。”

GPT奇点赋能大数据行业,不只是写SQL还有……——以数据全生命周期视角为例

第二步:尝试在原有SQL的基础上修改一些条件“保留23年第一季度的结果”。

GPT奇点赋能大数据行业,不只是写SQL还有……——以数据全生命周期视角为例

第三步:尝试增删改查表或者对表中数据进行更新“帮我把价格表中的用户单价上调10%”。

GPT奇点赋能大数据行业,不只是写SQL还有……——以数据全生命周期视角为例

第四步:尝试,将SQL翻译为自然语言,以助于帮助了解SQL。

GPT奇点赋能大数据行业,不只是写SQL还有……——以数据全生命周期视角为例

备注:以上是以EverSQL产品举例。

虽然GPT能快速撰写高质量的SQL,但是对于不能接受任何误差的数据场景,准确理解业务需求,并关联到所需的表和字段,需要一定的预训练以提高准确度。快速训练GPT提升特定场景匹配能力,会成为分析师核心竞争力之一。

【结论】GPT介入后,可以不做自助提数的前端平台,特别是拖拉拽的平台,直接用SQL取数能力即可,可以降低写SQL的门槛,可以节约用SQL配置模版的人力投入。针对复用场景,直接将“prompt”保存下来,只要有权限访问,即可复用。

6. BI看板(用)

GPT生成“图表”:

【前提】GTP跟图表生成工具打通。

  • 第一步:同2.1第一步
  • 第二步:同2.1第二步
  • 第三步:输入文字,告知要哪些行、哪些列,生成柱状、饼状、折线图等

【结论】GPT介入后,快速支撑业务的临时性看板需求(自助),可以节约数据分析师配置看板人力投入(只做长期高频BI看板,针对临时性的业务需求,特别是紧急的,无需排队等待,业务小白可以让GPT制作)。

7. 业务应用(用)

  • GPT支持搜索
  • 元数据查询
  • 数据查找
  • 找图、找表

【结论】GPT介入后,后续甚至是语音输入,即可,无需码字,在移动端调取数据会更加方便,很适合销售门店等offline无PC电脑的场景。

基于以上建设,大数据场景下向数字孪生方向的发展加快了步伐。美国国防部、微软在工业化等数字孪生场景中(模型建设、场景设计),均引入生成式AI。智能问答、语音交互获取数据将会实现。

受作者领域认知深度所限,及技术无时无刻不在更新迭代,业界对GPT、AutoGPT、AGI、即时AI……的衍生应用必定是珠零锦粲。无法在一篇中尽现全貌,未来可能会彻底推翻当下的种种尝试而不得知。能为大家带去一点点新的启发,以深感欣慰。文中难免有纰漏或不准确的地方,欢迎大家批评指正。撰写中参考网络上各位同仁的最新观点,拿来主义为打招呼,还望见谅。若有任何建议或意见,欢迎联系作者探讨。

关键词:Chat GPT、生成式AI、AIGC、LLM、AGI、SQL、大数据、数据开发、数据建模、自主取数。

参考资料:

https://baike.baidu.com/item/GPT/62908731?fromModule=lemma_search-box

https://baijiahao.baidu.com/s?id=1761984800865030846&wfr=spider&for=pc

作者:shucay,佳琪,童,alan,伯敖

本文由@shucay 授权发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于CC0协议

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy