GPT奇点赋能大数据行业,不只是写SQL还有……——以数据全生命周期视角为例

1,661次阅读
没有评论

2023年,超级大模型GPT3、GPT4热浪席卷全球,它的出现,为数字化建设领域带来了一次“重生”的契机。当“类人思考”出现后,哪些可以被“加速”、被“绕过”、被“替代”呢?本文作者围绕数据场景下的GPT应用,做了详细的拆解,一起来看一下吧。

GPT奇点赋能大数据行业,不只是写SQL还有……——以数据全生命周期视角为例

1995年,尼古拉斯·尼葛洛庞帝宣布“数字化时代已经到来”,随之而来的是,数字化成为各行业大力投入建设的基础设施。其中,以互联网为代表的天生具有数字化属性的行业,一直是引领技术创新的风向标,这就包括应用人工智能技术(AI)——超级工具为各行各业提高生产效率和效能。数据与AI之间,是互为促进,相辅相成,有机融合的关系。

当时间来到2023年,超级大模型GPT3、GPT4热浪席卷全球(Generative Pre-Trained Transformer,即生成式预训练Transfomer模型,是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型,可以在海量通用数据上进行预先训练,能大幅提升AI的泛化性、通用性、实用性)。

它的出现,为数字化建设领域,带来了一次“重生”的契机,作为从业者的我们尝试应用GPT4等AGI能力,为企业内部的数字化建设做一次“刷新”,当“类人思考”出现后,哪些可以被“加速”、被“绕过”、被“替代”。截止目前,已有GPT的49种应用,其中两项是跟数据场景有关。下面,我们将围绕数据场景下的GPT应用,做更细粒度的拆解。

一、数据的生命周期

1. 用数据时,遇到的问题

业务高速发展带动数据需求高涨,这与数据部门的应接能力之间存在博弈,这是摆在非天生数字化属性的行业的一道难题。理想中,业务需要的数据都有,都能找到,可以支持各种维度的解析和创新。而现实是,能用的数据有限(A),很多已经建设出来的数据,大家不认识,不敢用(B),多个雷同数据存在使得校对该用哪一个耗时耗力。很多沉睡数据,已经过时,占用着存储空间(D),使得数据存储成本连年上涨。缺失重要数据,需要排期开发(C)。

GPT奇点赋能大数据行业,不只是写SQL还有……——以数据全生命周期视角为例

2. 数据生命周期

数据产生于业务各环节中,部分在online的业务系统中,另一部分散落在offline(比如,工厂),要将散落在各处的数据做好采集(人工录入、扫码、RFID),确保必要数据进入业务数据库中。之后,针对想做分析的数据,可以放入大数据平台的数仓中,通过数据集成工具,将结构化、非结构化多源异构数据汇聚到ODS层。根据数据建模方法,数据开发工程师做DWD和DWS层的加工建设,供业务的数据分析师使用(ADS层),做报表、配看板、提数等。

为进一步提高数据消费效率,通过复用数据API的模式打通最后一公里,降低各系统分别对接的成本。针对一次性,或者长期不用的冷僵数据,做归档和删除处理,腾出宝贵的存储空间和计算资源。这套大数据平台,涉及平台管理能力,以及资产管理模块。而数据治理则横跨业务系统到数据平台的全生命周期中。

GPT奇点赋能大数据行业,不只是写SQL还有……——以数据全生命周期视角为例

3. 人、货(数据)、场

大数据环境下的人货场,跟电商场景中的人货场有两点相似,其一,都需要一个存储货物的地方——“仓库”。大数据环境下叫数据仓库。其二,都需要传输,大数据环境下叫“加工”。与实体的货物相比,数据具有两个特殊的属性,使得,它的存储和运输,要比电商场景更为复杂。这两个属性是,“权限等级”、“体积变化”。

数据有等级之分,高敏感的数据,需要做更严格的权限管控,以确保消费安全。体积变化,是指经过一系列的加工(删除delete、drop、修改alter、增加insert、创建create等),数据的整体体积会发生变化(变大or变小)。这使得存储or加工计算都需要具备弹性的能力,能包容、承托住数据的这些变化。

货物的流通VS数据的流通,使得我们还要考虑继承的问题,跨系统的继承、权限继承、表/字段血缘继承。这些因素,使得虚拟场景下的“人、数、场”比实体中的“人、货、场”更为复杂。

基于上章节提及的数据生命周期,我们拆解了每个环节中,人是谁,在做什么事儿,继而数据会发生怎样的变化(体积变大变小,定义更迭)。为了更为清晰的展示这些环节中人的角色,我们将他们逐一做了定义,共9个角色,1数据生产方、2数据拥有者(将数据采集到业务数据库中)、3数据消费方(想用数据作分析,接入数仓)、4数据开发工程师、5数据分析师、6终端的小白用户。过程中,在数仓范围内,有7资产管理者,有8大数据平台的开发者和管理员。在整个数据生命周期范围内,有9数据治理专家。每个角色,都有其要执行的动作,均简要绘制在图上,具体不再赘述。

数据方面,图中标注了离线和实时两种数仓结构,具体的数仓介绍,网络上各种专家分享,内容翔实且精彩,不再赘述。

GPT奇点赋能大数据行业,不只是写SQL还有……——以数据全生命周期视角为例

二、GPT介入后数据生命周期发生的变化

GPT奇点赋能大数据行业,不只是写SQL还有……——以数据全生命周期视角为例

【前提】GPT打通大数据平台的数仓(即要添加企业专有知识 ,才能提升准确度,让GPT在企业内部用起来,提醒,这些信息数据的交换要在安全允许的范围内进行),以获取准确的元数据信息,这样在用户输入自然语言时,GPT能懂,并返回符合企业数据结构特征的结果。其次,GPT还具有coding的能力,所以当它跟企业内部各个系统打通后,还可以扩展能力,代替人,执行某些既定操作。下面,我们以大数据环境中,6个常见环节,GPT是如何辅助人类的逐一做拆解。

1. 数据集成(聚)

GPT协助提效ETL:

  • Extract-Transform-Load:抽取(extract)转换(transform)加载(load)
  • 目前的ETL工具较成熟(如:Kettle、Datastage、Informatica),数据开发人员可以通过输入和点击关键信息,自动生成调度任务,对于没有ETL工具的公司不需要使用GPT

2. 数据开发&建模(养)

1)GPT代写SQL做数据建模和开发

【前提】将表的元数据信息导给 ElasticSearch,结合 GPT 与 ElasticSearch 服务,提高 SQL 生成结果的准确性。

2)GPT代为配置数据质量监控告警

【前提】GPT跟数据质量模块、调度模块、email、飞书等系统打通。

  • 第一步: 输入文字,让GPT找到目标表(支持一次访问多张表);
  • 第二步:页面呈现目标表(表头、部分数据),确认准确;
  • 第三步:输入文字,针对这些表,计算,比过往12个月自身波动绝对值最大值还高的指标,高亮标识出来,并给出字段名称;
  • 第四步:输入文字,针对这些指标,做日常监控,计算超过比例,针对波动率大于等于5%的指标(基于经验,大于历史1年波动绝对值最大值超过5%的,判定为数据异常),email通知该表开发负责人、下游任务创建者、消费方,某些指标可能出现异常,请关注;

【结论】GPT介入后,可以不做前端质量规则配置平台,并节约配置质量规则的人力投入。

3. 资产管理(治)

GPT代做冷僵数据归档和删除:

【前提】GPT跟调度模块、资产管理模块、email、飞书等系统打通。

  • 第一步:输入文字,找到半年以上冷僵数据(未有动销,读、写、查询过的表);
  • 第二步:输入文字,确认这些表,是否有配置跑批任务;
  • 第三步:输入文字,让GPT给这些表的创建者发送email邮件or飞书提醒,一周后,将自动删除这些冷僵数据,若需要保留,请尽快跟资产治理管理员取得联系(此为举例,实际工作中,细节落实时,会更复杂些);
  • 第四步:输入文字,让GPT执行删除冷僵数据的操作;

【结论】GPT介入后,可以不做前端冷僵数据归档和删除平台,可以节约配置冷僵数据定时删除规则的人力投入。

4. 平台管理(管)

GPT代建权限申请流程:

【前提】GPT跟低代码流程中心、大数据权限管理模块打通。

  • 第一步:当人们通过输入文字,问GPT,寻找某张表时,看过元数据信息,确保是目标表,此时,若用户没有权限,可以请GPT帮忙做权限申请;
  • 第二步:GPT根据该表的敏感等级,及审批要求。向申请人的直属老板、表的开发负责人、业务负责人、安全管理员逐层发起申请,过程中,某个环节可随时增加审批节点;
  • 第三步:审批结束后,是通过还是驳回,GPT都会通过飞书oremail,or站内,GPT与人的交互端口,即时向申请者反馈信息;

【结论】GPT介入后,可以不做繁杂的定制化的权限审批流程,可以由安全与业务同学达成一致后,给GPT输入自然语言,形成审批流,以此节约研发人力投入。

5. 数据分析(用)

GPT代做“自助提数”:

【前提】1、与权限(行列权限和加解密),安全审计能力打通。2、打通元数据,确保GPT生成SQL时,对表、字段的描述跟数仓保持一致,可以直接使用。

第一步:输入文字,找目标表(支持一次访问多张表)。“例如我想查询A表,在P条件下的x、y、z字段,可以直接输出SQL语句。当然,经过预训练,或者在数据源仅有一张表的情况下,描述话语甚至可以更加简略。在训练输入了多张表结构后,也可以支持关联分析。”

GPT奇点赋能大数据行业,不只是写SQL还有……——以数据全生命周期视角为例

第二步:尝试在原有SQL的基础上修改一些条件“保留23年第一季度的结果”。

GPT奇点赋能大数据行业,不只是写SQL还有……——以数据全生命周期视角为例

第三步:尝试增删改查表或者对表中数据进行更新“帮我把价格表中的用户单价上调10%”。

GPT奇点赋能大数据行业,不只是写SQL还有……——以数据全生命周期视角为例

第四步:尝试,将SQL翻译为自然语言,以助于帮助了解SQL。

GPT奇点赋能大数据行业,不只是写SQL还有……——以数据全生命周期视角为例

备注:以上是以EverSQL产品举例。

虽然GPT能快速撰写高质量的SQL,但是对于不能接受任何误差的数据场景,准确理解业务需求,并关联到所需的表和字段,需要一定的预训练以提高准确度。快速训练GPT提升特定场景匹配能力,会成为分析师核心竞争力之一。

【结论】GPT介入后,可以不做自助提数的前端平台,特别是拖拉拽的平台,直接用SQL取数能力即可,可以降低写SQL的门槛,可以节约用SQL配置模版的人力投入。针对复用场景,直接将“prompt”保存下来,只要有权限访问,即可复用。

6. BI看板(用)

GPT生成“图表”:

【前提】GTP跟图表生成工具打通。

  • 第一步:同2.1第一步
  • 第二步:同2.1第二步
  • 第三步:输入文字,告知要哪些行、哪些列,生成柱状、饼状、折线图等

【结论】GPT介入后,快速支撑业务的临时性看板需求(自助),可以节约数据分析师配置看板人力投入(只做长期高频BI看板,针对临时性的业务需求,特别是紧急的,无需排队等待,业务小白可以让GPT制作)。

7. 业务应用(用)

  • GPT支持搜索
  • 元数据查询
  • 数据查找
  • 找图、找表

【结论】GPT介入后,后续甚至是语音输入,即可,无需码字,在移动端调取数据会更加方便,很适合销售门店等offline无PC电脑的场景。

基于以上建设,大数据场景下向数字孪生方向的发展加快了步伐。美国国防部、微软在工业化等数字孪生场景中(模型建设、场景设计),均引入生成式AI。智能问答、语音交互获取数据将会实现。

受作者领域认知深度所限,及技术无时无刻不在更新迭代,业界对GPT、AutoGPT、AGI、即时AI……的衍生应用必定是珠零锦粲。无法在一篇中尽现全貌,未来可能会彻底推翻当下的种种尝试而不得知。能为大家带去一点点新的启发,以深感欣慰。文中难免有纰漏或不准确的地方,欢迎大家批评指正。撰写中参考网络上各位同仁的最新观点,拿来主义为打招呼,还望见谅。若有任何建议或意见,欢迎联系作者探讨。

关键词:Chat GPT、生成式AI、AIGC、LLM、AGI、SQL、大数据、数据开发、数据建模、自主取数。

参考资料:

https://baike.baidu.com/item/GPT/62908731?fromModule=lemma_search-box

https://baijiahao.baidu.com/s?id=1761984800865030846&wfr=spider&for=pc

作者:shucay,佳琪,童,alan,伯敖

本文由@shucay 授权发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于CC0协议

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 5 月
1234567
891011121314
15161718192021
22232425262728
293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地 henry 2025-12-11 10:27:...
Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了… Jay 2025-12-11 11:48:25 来源:量子位 Ja...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...