数据科学与大数据技术专业主要是关于什么的学科(数据科学与大数据技术的专业介绍)
一段时间以来,我一直对数据科学家如何更好地相互交流他们的数据分析活动以及与领域外的人交流感兴趣。在我看来,我们目前的方法是不够的,因为它们大多是从其他领域(尤其是计算机科学)借用的。其中许多工具都很有用,但它们并不是专门为传达数据分析概念而设计的,并且常常存在不足。今年早些时候,我在院长讲座中谈到了这个问题,以及数据科学领域如何从发展自己的理论中受益,以像其他领域一样简化通信。
我在其他领域注意到的一件事是,这些领域的发展可以部分视为日益专业化的趋势。随着一个领域的人们在某个子专业上变得更加专业,专家需要相互沟通和协调才能生产出完整的产品。随着时间的推移,将一个领域划分为一组专家会推动通信工具的开发,这些工具可作为双方商定的信息交换所。如果没有足够的工具,增加项目人员所涉及的沟通成本将变得太大,整个企业可能会崩溃。FredBrooks在《神话人月》中对软件工程项目进行了著名的描述。
我认为讨论其中一些其他领域以及它们如何克服通信工具增加的专业化和职责分离可能会有用。追溯其他领域的历史是有启发性的,因为它可以为我们讨论数据分析提供基础。我与希拉里·帕克的播客的听众知道,我们经常有一个被称为“类比角”的部分,这是统计的简单版本。
其他领域的专业化
第一个例子来自电影制作和剧本开发。剧本实验室描述了剧本的历史以及剧本开发之前电影制作的工作方式:
在思考编剧的历史时,我们不能将剧本写作理论与电影制作的演变分开。最早的电影通常是个人项目,从构思到完成。这被称为“摄影师系统”,是最原始的电影制作。很快,导演就成为了整个过程的核心,但大多数电影都是在没有明确导演想要拍摄什么的情况下制作的。当导演计划下一步拍摄什么时,工作人员经常等待。
这部电影是一个单人项目,或多或少是线性发展的。这是一个低效的系统——当今大多数电影都是以高度非线性的方式制作的,以适应演员的日程安排和各种制作流程。
如今,剧本是一个重要的交流中心,许多电影制作部门(服装、化妆、发型、道具、布景)都可以围绕它组织活动。想象一下,如果每个部门的代表都必须就其工作的每个细节单独咨询编剧或导演。这将是一场日益复杂的噩梦。有了一份书面文件,比如剧本,每个人都同意对“电影中发生的事情”具有权威性,人们就可以完成工作,而无需不断的来回沟通。
DataFocus企业大数据BI分析系统让数据分析就像搜索www.datafocus.ai/?from=zhihu第二个比喻来自金融。在金融领域,专业化的发展与有限责任类似。这里的“专业化”是指公司所有者与管理者的分离。因此,公司管理者必须有办法向投资者传达公司运营的具体情况。因此,财务报表、会计规则和各种公开文件的制定是为了让投资者分析公司的健康状况。格雷厄姆和多德的开创性安全分析本质上是呼吁投资者根据公开数据评估公司,而不是根据关于什么是良好或安全投资的常见神话和传说。如今,随着所有者和管理者的分离以及两者之间标准化沟通格式(例如S-1、10-K、10-Q等)的创建,我们拥有了全球资本市场体系的基础。
最后一个类比来自西方古典音乐,音乐的作曲家和演奏者之间经常存在分歧。在更复杂的交响乐中,您可能会说存在三个角色:作曲家、表演者和翻译/指挥。然而,在早期古典音乐中,这种划分并不存在,作曲家经常自己演奏音乐,而且常常是他们自己。在这种情况下,不需要写下来,因为音乐可以存储在作曲家的头脑中并演奏。这个概念在电影《阿马德乌斯》中得到了很好的体现,莫扎特将他的歌剧《魔笛》描述为“在我的意大利面条中”(其余的只是涂鸦和胡言乱语)。
数据分析呢?
在当今的数据科学中,或者实际上在科学中,大部分都遵循“垂直整合”模型,即同一个人提出问题、收集数据并分析数据。直到需要将这项工作传播给其他人(包括您自己)时,才真正需要一种沟通方法。在大型合作中,分析沟通需要从一开始就进行,我的经验是,即使在最好的情况下,该方法也是临时的,很难在涉及不同人员的另一个项目中重现。
大多数人都会同意,实际执行分析的软件代码是传达正在执行的操作的重要部分。然而,并不是每个人都需要或想要代码提供的所有细节。也许我们可以从音乐中借鉴的一个概念是乐谱和声部之间的区别。在交响乐中,指挥家需要完美的乐谱,因为他们需要知道每个人在做什么。但第一小提琴手只阅读第一小提琴部分,他们不需要阅读整个乐谱才能在创作成品中发挥重要作用。
为数据科学开发适当的通信工具对于扩展数据分析、让更多人参与以及可重复性/再现性至关重要,以便更多人能够了解分析中发生的情况。在那之前,我认为我们将继续将其他领域的工具插入数据科学过程,这很好。这些工具很有用,但我认为最终并不完美。
DataFocus企业大数据BI分析系统,让数据分析像搜索www.datafocus.ai/?from=zhihu一样简单