作者|Cassie Kozyrkov
编译|VK
来源|https://towardsdatascience.com/can-analysts-and-statisticians-get-along-5c9a65c8d056
当你面对不确定性时,分析师会帮助你提出更好的问题,而统计学家则会给出更严谨的答案。看起来他们好像可以互相协作,可是只是一个美好的梦想,但是这些职业最终以某种方式落到了彼此的咽喉。让我们看看我们是否可以理解分析和统计之间的战争(并提出和平条约)。
定义
由于数据科学职位可能无法准确反映人们的实际工作,所以让我定义一下我的术语:
- 那些关心数据以进行汇总和提取灵感的人就是我所说的分析师。
- 我所谓的统计学家就是那些为数据驱动的决策而严格检验假设的人。
- 拥有对应的知识并且知道怎么做的这两方面都应该具备
- 那些至少缺失了一方面的就是数据骗子。
那些既知道如何做又拥有ML/AI专业知识的人称为数据科学家。这种多面手确实是罕见的。请注意,不同的组织对于如何定义数据科学角色具有不同的标准,因此最好在假设之前检查每个人都在谈论同一件事。
分析可帮助您形成假设,而统计数据可用于检验它们。
分析师专注于快速探索数据集的混乱情况,而统计学家则更多地关注于推断数据之外的内容。
数据饥荒
上个世纪的数据集往往比较小,因为收集数据的工作量和存储在20世纪小型硬盘上的成本造成了瓶颈。即使是一个像样的数据集.
数据饥荒挥之不去的影响之一是数据专业之间的竞争。
无论你身处哪个阵营,你可能会认为另一个阵营在试图做你的工作,而且他们做得很糟糕。
如果你在数据饥荒的黑暗时代接受了数据科学训练,你可能会有一种令人讨厌的刻板印象,这种印象源于你未能理解分析师和统计学家扮演着不同的角色。无论你身处哪个阵营,你可能会认为另一个阵营在试图做你的工作,而且他们做得很糟糕。
双方印象
统计学家对分析师的看法
一句话:马虎。与统计学家不同,大多数分析师没有经过严格的思考,可以准确地思考哪些结论在不确定性下是有效的,但这没关系……只要他们不尝试根据数据得出结论即可。相反,分析师的最高美德是速度,就是尽快找出其数据集中的内容。
在数据中乱窜的想法使许多统计学家误以为是。最近,我不愿意参加这样的谈话:统计学家(不是我!)反对开发更快的分析工具,因为“这会引起滥用。”是的。一种笨的方法,可以踩踏整个分析事业的有效性。
他认为这样的工具对统计学家不利是正确的,但原因是工作是不同。不幸的是,包括他在内的大多数人都不了解这种区别。
如果您无法拆分数据,并且在弄清楚要问的问题之前先查看了所有数据,那么您就在进行分析,而不是统计。那不一定是一件坏事。分析是重要且有用的-这就是我们如何产生灵感以找出应遵循的方向。当分析师试图以更严格的方式出售灵感时,麻烦就开始了。
遵循一条黄金法则:在出手之前先做决定,或者坚持描述眼前的情况。
如果您没有遵循一个黄金法则:在出手之前先做决定,否则,请坚持描述您的数据集。真正的统计学家会对你所谓的“洞见”嗤之以鼻,不要超越它。请不要把自己太当回事,也不要要求别人这么做。
事实上,如果我们把每个人都当作是在做描述性分析,那么在我们的数据推理中,我们都会是最安全的。
除非你告诉我,你的理论让你在出手之前先做决定,否则我就会认为,你给我看的东西只存在于你发现它的地方。人们会在各种各样的事物中发现模式——尤其是当他们被激励着去尽可能多的抱着希望去思考的时候——所以你不会给我留下深刻的印象,除非你在看到模式之前就能预测它的存在。除非你能保证(并证明——数据访问日志,有人知道吗?)你的假设先于你的数据,否则你告诉我的任何事情都应该被视为“好像,应该,你的意见”这种不确定词语。
如果你想在数据分析领域有所突破,你必须遵循一个特定的过程。仅仅因为你的软件吐出一个p值并不意味着真正的统计推断发生了。你必须以一种能够解开你所做事情的哲学正确性的方式来构建环境和收集数据。方程是不够的,它们不能把一个破碎的过程变成一个可信的概括。让我们小心地使用我们的语言,称每件事为“灵感”或“分析”,直到有其他证明。
分析师对统计学家的看法
一句话:迂腐。与分析师不同的是,大多数统计学家都没有接受过帮助你了解哪些兔子洞值得去挖的全面和浅层扫描的训练。对一个分析师来说,你的普通统计学家可能看起来像皇家时间浪费者
许多统计学家喜欢把事情做好,即使这些事情一开始并不总是值得去做。这让人想起了一个严厉的五岁小孩,他把沙堡当成了神圣的地方,并对着想要加入沙堡乐趣的四岁小孩大喊大叫。(这种自以为高人一等的态度也无济于事)
生活中的许多决定根本不值得去努力,如果我们对每件事都采取仔细的统计方法,我们就不会完成很多事情。如果你把所有的注意力都放在第一件事情上,你确定你没有错过更有价值的时间利用吗?
当统计学家在对探索性数据进行不严谨的研究时大声表示反对时,他们在有商业头脑的人看来是可笑的
我常常在想,这种“为了严谨而严谨”的现象,是不是修数学课的结果呢?幼儿园的“如果萨利在一块田里有20只兔子……”这个问题如果一直坚持到研究生院,在研究生院它需要一个三重积分才能得正确答案。
在这么多只兔子之后,谁能责怪统计学家把一切都看得太严肃了呢?这些课程实际上要求你为愚蠢的问题提供复杂的答案吗?那么,你对一个在这十年间成长起来的劳动力有什么期望呢?雇佣大量的数学/统计崇拜者可以让你避免一些问题,但也会让你暴露在其他人面前,包括那些不小心建造每一个沙堡的人。
把我随意的因果推论放在一边,如果你有一个愿意全身心投入到严谨工作中的队友,那么希望这种严谨是值得追求的。如果你的队友不知道该去哪个兔子洞,他们需要有人为他们指出正确的方向。
在分析师的帮助下,统计学家们不再需要在黑暗中摸索前进,在他们的头脑中构建一个宇宙来找出如何提问。相反,他们可以让分析师激发他们的假设和假设。
那么,为什么统计学家不高兴有分析师帮助他们识别什么是值得做的,为什么分析师不高兴把检验我们的结论不是胡说八道?为什么对立和缺乏尊重?
协作
在糟糕的过去,数据集太小而无法拆分,因此您必须在使用它们进行分析和统计之间进行选择。这意味着两组将不得不争夺每个数据集。
在采用现代数据科学方法的组织中,分析人员(灵感/探索)和统计学家(严格/测试)之间的紧密合作是这种文化的一部分。
由于硬件的改进和存储成本的降低,如今许多努力都突破了一个数据集的上限,从而迎来了数据丰富的时代。
将您的数据分为一个探索性数据集,每个人都可以从中挖掘灵感;一个测试数据集,以后将由专家用来严格确认探索阶段发现的任何“见解”。
现在,分析师和统计人员可以收到他们自己的原始数据集,从而使勘探专家可以与测试专家协调工作,每个小组都尽自己最大的努力。
假设的生成和检验之间有效协作的代价是数据量。
分析师可以将其作为指导性的冥想,以找出值得追求的目标,而当他们缩小了企业最关心的范围时,剩下的部分将使统计学家可以严格检查分析师的直觉是否值得采取行动。
欢迎来到数据丰富的现代时代!
尽管今天的典型数据集比上个世纪的数据要大得多(并且更容易共享/访问),但由于初始数据收集非常费力或昂贵,因此有些用例被困在一个数据集时代。我的职业生涯中有一个例子是fMRI数据 -即使在今天,扫描单个人脑也非常昂贵,因此具有数十次扫描的神经科学数据集仍然被认为令人印象深刻。这是天真地假设所有数据都是大数据的原因之一。在某些主题中,信息根本是稀缺的,而从事那些主题的人则面临着一个数据集饥荒的现实。
如果这听起来像您的环境,请思考两方的优缺点,以及你自己本身所需要的跟哪一方可以融洽。
原创文章,作者:磐石,如若转载,请注明出处:https://panchuang.net/2020/03/05/%e5%88%86%e6%9e%90%e5%b8%88%e5%92%8c%e7%bb%9f%e8%ae%a1%e5%ad%a6%e5%ae%b6%e5%8f%af%e4%bb%a5%e5%92%8c%e8%b0%90%e7%9b%b8%e5%a4%84%e5%90%97%ef%bc%9f/