过去两年,生成式AI(GenAI)的发展如火如荼。最初,有人把它和NFT一样看作昙花一现的潮流。但两年后,大部分人已经意识到,这不仅仅是个潮流,而是彻底改变工作方式的转折点,推动我们朝着更快速、更灵活的方向迈进。这些变化值得庆祝,而不是担心!
GenAI对数据管道开发的影响
GenAI在数据管道的开发中带来了显著的变化,尤其是自动生成样板代码的功能,让数据工程师能够专注于业务逻辑。例如,通过简单的提示,GenAI就能实现多个质量检查并执行写入-审核-发布的流程,极大简化了复杂流程。
开发时,如果写的代码超过五行但少于两百行,GenAI是非常合适的工具。对于小于五行的代码,自己写可能更快;而对于超过两百行的代码,使用GenAI可能引入更多的调试工作。
此外,GenAI在数据建模、质量检查和文档生成等方面表现出色。比如给定数据管道代码和业务背景,GenAI可以帮助生成高效的数据质量检查建议和文档样板,大大减少重复劳动。
GenAI对数据管道维护的影响
数据工程师经常面临维护数据管道的挑战,尤其是半夜被叫起来解决管道故障的情况。研究表明,97%的数据工程师曾经历过职业倦怠,其中主要原因之一就是数据管道的维护。
未来,LLMs(大语言模型)有望大幅减少这些故障。比如,GenAI可以根据历史数据自动识别和过滤误报的数据质量问题,大幅减少工程师深夜被叫醒的概率。此外,像内存不足这种常见问题,LLMs也能够自动检测并调整内存设置或执行自适应查询,极大降低维护成本。
GenAI将如何推动数据工程师职业发展的两大方向
生成式AI将使工程师能在更短时间内完成更多工作,从而减少公司对数据工程师数量的需求。未来,数据工程师的角色将逐渐融合为两大方向:
- 数据工程师与软件工程师的融合:随着数据网格架构和GenAI的发展,软件工程师可能会掌握其系统生成的数据并负责从在线系统到数据集的全流程。数据工程师需要学习如何构建在线系统和REST APIs,成为真正的“端到端”系统掌控者。
- 数据工程师与数据分析师的融合:另一部分数据工程师则会转向更贴近业务和产品管理的工作,专注于实验设计、可视化和预测建模等领域。由于管道开发的工作量减少,他们将更多参与数据分析和业务决策。
数据工程师如何为未来做好准备
对数据工程师来说,GenAI带来的变化应被视为积极的转变。使用LLMs可以让日常工作更加轻松,减少维护负担,避免职业倦怠。因此,数据工程师应当:
- 将LLMs整合到日常工作流中,如文档生成、数据建模和质量检查。
- 时刻关注AI领域的最新动态,学习如何使用AI基础设施如向量数据库、检索增强生成(RAG)和自动提示优化工具。
- 探索像Pgvector、Pinecone和Milvus这样的向量数据库,以及训练模型和提示优化的工具,如Predibase和AdalFlow。
未来,数据工程师将更具广泛性和深度,能够更轻松地处理复杂的AI驱动任务。那些顺应变化并提升技能的工程师将在这个AI时代中大放异彩。