数据科学的5个陷阱与缺陷论文

数据科学的5个陷阱与缺陷论文

数据科学的5个陷阱与缺陷

林琳

最近看新闻,发现数据科学专业已经是北京大学门槛较高的专业了,其实"Data Science"这个词"性感"快十年了,对互联网行业而言,相当于"性感"了一个世纪.

惯性导航传感器具有不需要任何外界信息就能得到位姿参量的特点,在采煤机、机器人等领域实现了精确定位,但是惯导传感器航向角存在随时间产生累积误差的缺点[13-15]。因此,笔者运用惯导与地磁融合的组合惯导,该组合惯导采用三轴地磁传感器数据对惯导进行校正,克服了惯导传感器航向角随时间产生累积误差的难题。笔者构建了多传感器信息的煤矿悬臂式掘进机空间位姿监测系统,以期为实现悬臂式掘进机的自动化和智能化提供技术参考。

从"数据说话""DT时代"到"数据中台""数据驱动(Data Drive/Data Driven)",数据体系的不断演进正在持续地改变大家的工作与决策方式、革新大家的思维方式;同时也产生了新的商业逻辑和发展机会.

3.改善决策机制,实现基层党建工作决策与采油队中心工作决策有序衔接。2013年是“十二五”发展规划的第三年,是中国共产党成立92周年的喜庆之年,也是油田党建工作至关重要的一年。我们坚信,只要严格贯彻执行党的路线方针政策,切实加强基层党建工作,密切联系群众,优化工作环境,抓实工作作风,必定能够激发基层党组织活力,必定能够为油田基层队快速发展提供坚实的组织保障,必定打造出一流队伍、一流管理、一流业绩,不断提高基层队整体发展水平!

1976年,Pascal作者Nikalus Wirth提出了,Algorithms+Data Structures=Programs.

就像之前的SOA、云计算等概念一样,目前数据科学自身的概念还在不断的变革,各家公司的实践者们一边摸索、一边获利,一边总结、一边布道;还参杂着很多凑热闹的同志把概念折腾的更加模糊.所以数据科学本身的能力边界、方法论体系和最佳实践等还不够完善,有很多问题没有办法很好地回答.由此就会产生一些疑惑和误会,"强行数据""随意数据""政治正确数据"等情况比较常见,无论是实际的操作层面,还是方法层面,都存在着一些不小的误会.

1 数据质量杀死自动/智能决策

网易严选的很多业务,比如风控业务,其核心驱动力是数据及算法.在风控业务起步的时候就建立了数据算法驱动风控的方法体系,所以能保证很小的团队(3个人)来支撑严选几十个内外部风险场景,每天执行百万次风险决策.当然,这是数据驱动自动决策/智能决策带来的力量.成功的美好或许会让你按耐不住地想把很多业务运转方式转型过来,但遗憾的是,数据质量保障的缺失会让这一切变成随时会倒塌的空中楼阁.事实上,绝大部分组织对数据质量的理解支撑不了更加自动和智能的决策场景.强行转型与减员增效会让他们原本稳定的业务接近崩溃.

严选风控出现过几次大的故障都跟数据质量紧密相关.2019年8月份的时候,风控在执行每周误判巡检的时候发现整体疑似误判率增加了4倍.最终定位原因是设备号相关的日志内容有些异常,从而导致了相当一部分用户的行为(签到操作)被错误的执行了拦截.

这是一个最常见的问题,数据科学的从业者们,不知道什么是"科学".所以"江湖"上才会有SQL Boy,SQL Girl的称呼.

这是一个很有意思的案例.一些关键的决策:比如用户是不是坏人?某个商品要采购多少量?可能会依赖于不被重视的某个线上日志的一小部分内容.整个质量保障体系很难把视角投入到某个具体应用的某个日志字段在高压力下会不会出错?在传统的应用服务质量保障理念里,日志字段的某个偶尔的小错误,没人会把它当作bug,开发人员更不会去关注.但如果一旦把数据当作了生产资料,如果我们不对应用质量保障的理念和工具进行革新,你的大量的数据分析报告、训练好的算法模型以及做出的决策可能很不可靠,因为生产资料本身就是垃圾,Garbagein,garbageout.

还有一个惊人的现状是,大量用于生产数据的复杂SQL并没有进行真正的测试,甚至,大量的数据系统并不存在所谓的测试环境.我们很难像测试线上服务(比如订单系统)那样去测试数据生产过程的正确性.那么这样通过几万行,甚至几十万行SQL生产出来的数据到底能不能用?这个问题其实很难回答.

设计验证实验.科学与实验是紧密关联的,很多公司往往利用实验来判断方案的好坏,但其实实验更多的是用于帮助验证假设,帮助更加深入地理解我们的用户.用今天头条CEO的话说,更多的时候,AB测试帮助我们理解用户,而不是帮助我们决策.设计一个好的实验并不容易,需要根据假设梳理出要验证的指标、样本集以及可控制的因子(往往是流量).设计实验,需要极强的专业性.

大家都在讨论数据质量的重要性,但是内心又默默觉得这个事情比较低级.因此,很少见到有团队会把大量聪明智慧投入到数据质量的保障上.

除了资源投入的缺失,很多数据团队对数据质量的认知也是各不相同.曾经跟一位在数据行业从业15年,为某知名公司数据体系做出巨大贡献的前辈做过一次深入沟通,聊起数据质量,"你觉得数据质量是什么?"他的回答是:"数据质量,真正需要考虑的是指标一致性.".瞧瞧,就算是非常资深的同行,他的认知还是不够完整,按他对数据质量的理解,数据的支撑能做到报表给人看,这个层面就很完美了,要落地到战术层,落地到线上自动决策基本不可行(因为数据质量的故障难以像线上程序故障一样快速修复,它是一个持续污染的过程).

图(b)为常规区域中轴局部放大图,两种方法都提取出了多边形中轴线,且中轴线在结点处都保持了连续、未出现断裂情况。但由于不同三角形分类点集连结的特性,一些细微的突起处仍会生成骨架线,将其应用于面状河网转单线河网提取时容易将一些由于流域地形产生的细小河流形状变化当作支流提取。在交汇处附近,会出现较多的Z字形波动,转折节点较为明显。且Delaunay三角网提取结果部分段距离两边线存在明显不一致,相较而言本文方法提取结果更为准确。

但这终究不是一个可规模化和标准化的解决方案.如何去降低数据使用的门槛,让一切更直观和更容易解释?我们开展的一些项目,例如SQL on AI、Data Intelligence System(DIS)以及算法平台等,一个共同的目标是降低数据使用门槛,并通过产品的方式固化甚至可视化数据分析过程.

1.在人防上,各油区成立了护卫队。由精明强干具有较高专业技术素质的队员组成,并制定出相关的《工作质量考核要求》、《巡逻队员职责》等制度,定期对巡逻队员培训和考核,实行动态管理。工作中,要运用“七种方式”即:巡回式、埋伏式、封卡式、拉网式、包剿式、卡堵式和联动式,对油区的重点井、重点区块、重点车辆、油线和重点路口实行全天监控,白天巡逻,遇到特殊情况加密巡逻次数,责任落实到人。夜晚采取爬窝守候、设卡埋伏、围攻堵截等措施。同时,油区发生紧急案情时,无论白天还是夜晚,队员们必须在5-10分钟内立即赶到现场,及时处理突发事件,要做到事不过时。才能有力地打击不法分子的嚣张气焰。

2 数据科学的"科学"在哪

数据科学是常常说起的一个词,也是形容我们日常工作的一个词,但当我们说起的时候,内心就会有些心虚,就光看到数据了,"科学"在哪里?如果没有"科学"的部分,我们产出的结论会不会有问题?

中世纪后期的欧洲,尤其是意大利,因为特定的地理环境和社会生产方式,商品经济获得了较大发展,生产力水平也得到了提高,这为资本主义萌芽提供了充分必要条件。商品经济的运行必须依赖于表达自愿行为的市场来运转,这就是自由的体现。这种“自由”,不仅限于生产资料支配(即所有权)等自由,更为本质的主观诉求则是“人的自由”,这也是所有具象自由的共同前提。处在沉闷、腐败、黑暗的欧洲社会和民众急切呼唤着一场提倡“人的自由”的思想解放运动。

一个常见的问题是数据指标之间的相关性到底是不是真的相关?我们做数据分析往往能看到很多有趣的相关性,比如最近几个月买了拖鞋的用户,看起来有更大的可能性在最近一个月复购另外一个商品.但是,这个相关性到底是不是真的存在,还是只是偶然的巧合?分析报告很容易对这个问题视而不见.但如果这个相关性本身经不起推敲,它又如何来指导我们的工作呢?数据分析报告难道要靠运气来驱动业务发展么?

就算有不错的统计基础,给每个假设都加上了PValue,往往还是很容易把相关性与因果性给搞混.两个事情相关,并不能得出结论说他们之间互为因果,我们需要通过因果分析的方法,为数据之间的相关性提出符合业务逻辑和商业逻辑的解释.

如果数据分析遗漏了因果分析这个过程,就会得出一些奇怪的结论.比如,我们发现脚大的用户,买的鞋子一般也是大号.如果缺乏基于业务逻辑的因果分析我们可能会这样指导运营工作:为了让用户的脚变大,我们应该多卖大号的鞋子给他们.

收集与分析数据.分析数据并不仅是直观地去看趋势的高低.分析数据首先需要对业务的主要指标及其相关性有清晰的概念,需要把指标之间的相关因子量化,甚至可计算.个人认为是先有结构化、系统化和量化的体系,再有数据分析.所幸的是,结构化的体系我们可以用系统和服务来支撑.

但有的时候,我们很难直接分析出数据之间的因果关系,很难直观地得出结论,这个时候,我们需要借助科学实验,帮助我们更深入地理解业务.

如何去做科学实验,结合滴滴谢梁的观点,总结如下:

中国高铁国际化,为中国发展提供了更加广阔的地域空间。高铁作为连接世界的纽带,将不断把中国的产业、文化和思想传播出去,让全世界见到一个全新的中国,实现中华民族的伟大复兴。

通过对数据的敏锐度和业务的熟悉程度,来发现和定义问题;

提出结构化、可量化的假设.

数据的可靠性是组织在转型数据驱动过程中一个非常大的陷阱.

大多数村镇生活垃圾产生量低于50 t/d,收集点距离大型焚烧设施大于30 km,小型生活垃圾热处理炉,如焚烧炉、气化炉等,具有垃圾减容减量化程度高、投资建设费用低、选址灵活性好等优点,已在部分西南山区农村大量使用[3]。但小型焚烧炉应用中,往往管理不规范,工况不易稳定,烟气净化系统也比较简单,难以达到烟气排放的控制标准[5]。笔者将讨论小型焚烧炉的适用原则和运行特点,并对提高环境污染控制水平提出建议。

在开展ESP教学之前,定位ESP、EGP和专业英语教学,组织专家和一线授课教师,进行有关主题讨论和论证,明确ESP体系下各个不同课程体系的定位,重点讨论ESP教学在哪些方面异于EGP教学?又与专业英语教学有何差别?这关系到ESP教学的教学设置,关系到如何在ESP教学实践中的把握语言性教学和知识性教学。

分析人员需要专业的量化分析能力和统计学能力.

3 操纵,误导,数据的民主化不足

数据民主化在国外数据社区讨论的很多,国内聊的比较少.数据科学家们通过"黑魔法"制造出一些模型来,然后告诉业务同事该怎么决策,告诉高层业务指标完成的好不好.数据的能力被限制在某一个专业团队,但它的产出却又跟业务紧密相关,这些未知会给业务人员和管理层带来恐惧与不安,数据团队给的结论会不会有可能是被操纵的?会不会出现有意无意的误导?这些问题会很容易让团队之间滋生不信任.

所以数据民主化不足带来的一个重要问题就是信任问题,那该怎么解决?

严选在一次产技共创会中有同事提出,要跟业务"谈恋爱".对于眼下的现实,这确实是解决信任问题的一个好办法.阿里曾经的数据一把手车品觉老师也说过类似的话:数据同学要会"混、通、晒",跟业务同吃同行,建立信任才能互相成功.

数据做为智能决策的输入,是动态变化的.它没法像对代码的依赖那样做静态分析,它的依赖层次动态而不稳定.

4 数据预测的成功不仅是算法模型

老板们经常会把算法能力简单化:预测的不准?找几个算法专家做个模型就能搞定!遗憾的是,现实并不这么简单,可能找100个顶尖的算法专家都没用.

小学语文教学当前的发展明显滞后于教改的进程,要求小学语文教师积极引入新课程理念来改进语文课堂教学,培养学生良好的语文能力。而项目学习则是一种根据教师提供的课题项目而展开自主合作探究的有效学习方式,能够充分体现学生在知识学习中的主体地位。在小学语文课堂中,教师应该贯彻落实这一理念而开展高效教学,培养学生的自主探究能力和团结协作能力。

有人见过用算法来预测下一轮双色球中奖号码的么?有人用算法来预测接近混沌状态的股市涨落么?作为一个旁观者,能利用算法来预测意甲的每场比赛成绩么?

有的业务问题本身是无法预测的,因为它跟过去没有关系(比如双色球);有的业务问题预测成本很高,短时间内无法做出有价值的模型(比如预测股市、预测比赛等),需要考虑投入与回报.事实上,很多算法的成功落地,不光是需要有合适的模型,还需要大量维度的数据作为生产资料,更关键的是要有一个完善可靠的算法工程体系.而后者,往往会被决策者忽略.

决策者在考虑利用算法模型去预测未来时,他需要想明白投入与产出,组织需要投入的不止是几位算法专家就行,还需要建设完善的数据基础体系,还需要建设完善的算法工程体系.决策者如果期望数据和算法能发挥突破性的效应,需要有魄力把成本投入到自己目光不能及的地方,比如基础数据体系,比如算法工程.

5 空中楼阁---基础设施与基础能力的不完备

这个问题比较抽象,对于BI、算法和数据产品的同学而言可能不好理解.不过大家只需要记住:数据的最底层,摇摇欲坠、并不坚实,同样需要一个团队精心守护.

大家在兴奋地玩耍数据,利用数据来驱动业务前进的时候,如果回头望望做Data Infra的同学,如果他们告诉你其实你在用的数据能不能真的算出来、有没有算对,他们也没多少信心的时候,你会不会觉得心惊肉跳,会不会觉得人生其实有些虚无?如果大家有机会采访下各个互联网公司,可以问问他们被抱怨最多或者故障最多的技术团队是哪个?相信答案都比较一致:"大数据基础团队",包括严选的前面几年,这个情况也非常严重(当然现在也没好多少).数据故障频出,数据产出排期长、节奏慢和不稳定等情况都很常见,很多时候我们是用睡觉时间在做人肉保障.每每回想起来,都会心惊.

俗话说,实践是检验真理的唯一标准。但在我国由于管理会计引进的时间较短,且一开始是照搬国外的理论,我国自己的管理会计理论仍处于发展阶段,在许多方面都没有的到研究和论证。没有合理的管理会计理论,不能将管理会计的理念与实际的工作相结合起来。在很多时候只是单独的讨论管理会计的重要性,却忽略了管理会计在实际工作中的应用方法,使管理会计与企业出现脱节,无法发挥其真正的作用。

这当然并不是因为大数据基础行业的从业者敬业精神不足或者能力不足.而是因为大数据体系其实并没有一个非常坚实的工程基础.

(1)数据的基础设施可靠性不足:数据的采集系统、数据的存储系统、数据的计算系统和数据的分析引擎,这些服务的可靠性相比其他的在线服务低一大截.数据平台每天的定时数据计算服务,比如Hive或者spark,成功率如果有98%,已经算是很不错了,而线上服务系统,如果可靠率长期在98%以下,相关团队的人员很难坚持一年不被优化.就算数据成功地被计算出来了,我们的分析引擎,比如impala,查询成功率也长期低于95%,在严选这个数据还要更差一些,impala的查询失败或者超时,几乎每天都有不少.

(2)计算模型不完备和广泛的误解:大数据的计算有2个模型:Streaming和Batch.2个模型对应的基础设施各自独立发展,谁也不理谁.同时,由于信息流转的速度问题,也有人把这2个模型称为实时计算和离线计算.虽然,Streaming&实时计算和Batch&离线计算在很多现实场景中存在着一致性,但本质上,它们是两回事.甚至很多从业者也无法清晰地分清楚这些基本概念,把实时计算和流计算等同,这给数据工作带来了巨大的困扰.

为了适配这2个计算模型,很多组织的Data Infrastructure团队会有独立的流计算团队和批处理团队;会有实时数仓和离线数仓,会有实时指标和离线指标等.这些数仓和指标的研发人员存在着割裂,数仓建设方法论、指标定义也不尽相同.维护成本和解释成本都很高,出错几率也很大.很常见的情况是一个业务的数据需求,往往需要拆解成实时和离线2个方案,共同去实现.现在,这个糟糕的局面没有变的更好.

所谓的外汇资金池,就是可以自由兑换外币经营项目账户和资金账户的管理模式。外汇资金池的构建以委托贷款作为基础,在其作用下,境内企业外汇资金的运用更加便利,外汇资金经营更加高效。

LinkedIn、Uber和阿里等公司都在尝试做批流融合,严选也在尝试,在做计算资源管理和调度层面的融合.但是,融合2种完全不同的计算模型,是一件不美好的事情,直觉上也不大对.个人觉得现实的业务问题可能并不是聚焦在批流2种计算模型的不兼容上,而是聚焦在实时和离线2个时间维度上的不兼容.由于历史原因,实时的数据往往需要依赖流计算模式来产生,从而产生了实时计算等于流计算的误会.而融合实时数据与离线计算,解决起来就容易很多,流处理也需要走向更适合它的场景.

其实能总结的问题远不止这些,比如我们会担心"算法替代思考会不会伤害组织的远见?""大规模依赖A/B测试做决策,可能会导致运营策略的短视"等.

标签:;  ;  ;  ;  ;  ;  ;  ;  

数据科学的5个陷阱与缺陷论文
下载Doc文档

猜你喜欢