工程师_ 你的公司是需要数据科学家还是数据工程师?差别有点大

【IT168编译】关注AI的企业在增加,企业组织也认识到具备相关人才和技能是很重要的。 特别是在最近的AI、机器学习( ML )、非ML预测分析和“大数据”中的应用,显着增加了数据科学家的需求,将来还会继续。 事实上,对数据科学家的巨大需求给许多企业和组织带来了人才短缺,但80%的AI项目涉及数据准备和数据工程,企业组织可能应该寻找更多的数据技术人员而不是数据科学家

许多企业、供应商和创业企业常常把数据科学家和数据工程师混为一谈,虽然有相似之处,但其工作内容大不相同,其中包括两种不同的技能,鱼和耙难以兼顾。

数据科学家vs数据工程师

2000年代中期开始出现数据科学家地位的o’Reilly表示,“对数据科学家的需求增加是由大型互联网公司推进的。 Google、Facebook、LinkedIn和亚马逊以创造性的方式着称,不仅可以存储数据,还可以转化为价值。 的确,希望从数据中获得价值的企业组织关注数据科学和数据科学家。

数据科学家起源于统计建模和数据分析的发展,有着先进的数学和统计、先进的分析和越来越多的机器学习/人工智能背景。 的确,数据科学家的重点是数据科学,如何从大量数据中提取有用的信息,将业务和科学信息需求转化为信息和数学语言。 为了从大量信息中获得见解,数据科学家必须掌握统计学、概率、数学、算法等知识。 这些数据科学家通常只需为了执行程序、高度分析数据的特定需要而学习编程,数据科学家通常只需编写最少的简单代码,就可以完成数据科学的任务,提供干净的数据进行分析。 数据科学家创建假设,测试和分析数据,并以易于理解的形式将结果呈现给组织中的其他人。

但是,没有大量干净的数据,数据科学家就无法完成自己的工作。 数据的提取、整理和移动实际上不是数据科学家的角色,而是数据工程师的角色。 数据工程师具有编程、技术专业知识,以前曾参与过数据整合、中间件、分析、业务数据门户和ETL操作。 数据工程师的重点和技能集中于大数据和分布式系统,具有Java、Python、Scala等编程语言脚本工具的技术经验。 数据工程师面临的挑战是如何从不同系统获取结构化数据和非结构化数据,以及解决与数据相关的非“清洁”数据,如缺少字段、数据类型不匹配等。 数据工程师使用编程、集成、体系结构和系统技能来组织所有数据,并将其放入格式和系统中,数据科学家可以使用该格式和系统来分析、构建数据模型,为组织提供价值。 数据工程师的角色是设计、构建和调度数据的工程师。

数据科学家和数据工程师能一起吗?

数据科学家和数据工程师的作用似乎完全不同,但数据科学家和数据工程师有很多共同的特点和技能。 这些重复的技能包括处理和操作大型数据集、编程应用程序数据、数据分析技能和系统操作的总体熟练程度。

尽管有很多共同点,但数据科学家和数据工程师的工作重点仍然不同,两个角色融为一体的可能性很小。 更重要的是,在招聘数据科学家和数据工程师时,必须提出正确的问题,从候选人中找到正确的技能。

更重要的是,随着数据科学兴起的代码学院、研讨会和培训班提出了新的问题:这些训练和代码学院的重点是数据科学背后的科学,还是数据工程背后的工程、编程,更糟的是,这些活动只是在一点吞噬的教育中混淆了需求

在科学角色或工程角色中,混合角色可能会对企业在ML和数据科学中的成功产生不利影响。 被迫从事数据工程工作、没有背景、技能、资质的数据科学家容易错误配置、误用技术,编写效率低、成本高、浪费时间的程序。 同样,基本上要求有工程背景的人学习复杂的数据科学数学,组织就这些信息得出错误的结论,可能会产生灾难性的结果。 专业化很重要,为了医生必须检查,采血师负责采血。 医生可以为你采血,采血师可以知道检查结果,为什么会危及自己的舒适和健康?

数据科学家在企业组织的哪里?

为了从数据中获取价值,许多企业组织需要数据科学和数据工程,相关技能存在很大差异,因此两者的结合也不太现实。 企业组织可能需要数据科学家和数据工程师,但两者的比例仅为1比1。 对大多数企业组织来说,数据工程师比数据科学家更有意义。 数据科学家学会了处理大量的清洁数据,但更难从许多不同的系统获得大量的清洁数据。 数据移动和清理工作量大于分析抽象数据模型和数据集。

另外,数据科学家在企业组织中应该向谁报告,应该向技术团队报告没有意义。 数据科学家通常不听取特定技术的实施和数据分析,而是挑战特定的业务线。 因此,数据科学家必须向业务战略决策者报告。

有以业务为中心的工具吗

如果数据科学和数据工程是组织中独立的角色,则必须分离必要的工具。 进入数据科学/机器学习领域的很多供应商都使视听混乱,使事情更加混乱。 他们声称工具是为数据科学家准备的,但其主要功能和特性都是为数据工程师准备的,在此基础上装饰一些数据科学的特性毫无意义。 数据科学家需要以模型为中心的分析工具,而不是组织数据、移动数据或将数据从专用环境迁移到云环境。 这就像是把车的零件交给驾驶监督说“自己做这辆车,告诉我驾驶方法”

数据科学家需要的是以数据科学为中心的工具,而不是以工程和编程为中心的工具。 现在,这些工具越来越多,数据科学家可以进行数据挖掘和预测分析。 然而,随着数据科学家深入商业领域,以商业为中心的工具更为适当。 例如,几十年前,如果您希望以电子表格的形式处理大量数据,则需要编程,但是像Excel这样的工具引入了透视表,现在业务经理可以执行各种分析。 Excel等工具将数据科学功能、以业务为中心的数据挖掘和分析工具纳入产品只是时间问题。

随着数据科学家人才短缺的不断扩大,出现了新的工具,这些工具被创建为非技术人员(即业务人员)能够执行、测试和分析数据,战略业务经理开始学习数据科学,数据科学家仍然需要运行非常复杂的数据分析工具。 但是,随着使用方便的工具的增加,基本的分析往往会转移到更多的业务方面。 企业中与ML和数据科学相关的工具和技术也越来越大。

作者: Kathleen Walch

大家都在看

相关专题