一、 什么是数据治理
先来两个定义看看,一个是dama的,一个是我司数据战略里面的:
1、数据治理是对数据资产的管理行使权力和控制的活动集合(规划、监控和执行),数据治理职能指导其他数据管理职能如何执行。
2、数据治理是对数据管理和服务行驶权利和控制的活动集合,在数据管理和服务层面之上进行规划、监督和控制,数据治理是数据体系得以落实的高阶保障。
不论其位置在数据体系的中心,还是在上面宏观指导着,都可以简单的概括为这是针对各项管理职能的管理,讨论的是组织、角色、制度、流程之类略显晦涩的内容。
数据治理这门学问,入手极易,精通极难。说说经验吧,数据治理强调两点,一是高层支持,二是各部门广泛参与。组织内数据治理各项工作的开展都要处理好这两个问题,搞定了就能事半功倍。其实这些书里都写了,不过在数据治理实践中光看书啥用没有。看下面dgi的数据治理框架,写的很清晰透彻,但每一步怎么做就能看出本事了。
想要做好数据治理,那要求还是蛮高的,要懂业务、懂数据、懂技术,所谓上能写制度办法,下能查查数做做分析;另外还要懂权衡、懂策略,甚至学学兵法,因为具体工作八成都是跟人有关,些许复杂。要求虽高,但实践往往要面对无力感和挫败感两种不舒服的体验,只能说还要有合适的性格和心态,不同的人适合不同的岗位了。
二、 商业智能是数据治理的主战场
商业智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定;商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处(gartner定义)。
定义不需要多讲,从上面图片中能看到数据采集、加工、整合、应用的生命周期,以及数据标准、数据质量、数据架构、元数据这些职能域,还有数据开发、数据分析、业务指标体系等等应用视角的内容。在dmbok中商业智能与数据仓库放在一起,数据仓库是矛盾集中的焦点,上游是组织内各个业务源系统,下游支持广泛的数据应用。
数据是流行的资产,需要跨系统、跨业务条线的综合治理,需要有机构统筹规划与决策、协调与推进。企业管理数据资产,就是管理数据的生命周期。数据先被创建或获得,然后存储、维护和使用,最终被销毁。有效的数据管理,数据的生命周期开始于数据获取之前,企业先期制定数据规划、定义数据规范,以期获得实现数据采集、交付、存储和控制所需的技术能力。
为此,无论专业角度还是实践角度,商业智能都是数据治理的主战场,在组织内干系人众多,影响范围深远。
三、数据驱动与数据分析
数据时代,尤其是大数据时代,各种名词概念层出不穷。这里面讨论下商业智能、数据分析、数据挖掘、数据驱动,这些名词出现在不同时期,有不同的背景或场景,不再赘述。
概念虽然带来困惑,但其实也无妨,对组织来说关心的是数据价值的实现,组织应该具备的是认同数据的意义和价值,也就是数据之道。从这里看,数据驱动其实更多是一种文化,建立对应的数据价值体系,涵盖数据采集、报告、分析、行动到价值实现的完整流程。增长黑客和aarrr海盗法则这些更适合初创公司,有完整的流程和指标体系可以参考。对于传统行业来说,主要的困难在于无法真正建立这种数据驱动文化,分开来各项活动都在开展,但在整体上难以形成顺畅的流程。当然,这也是我们努力的目标,至少可以先从数据治理和数据应用的层面做好准备。
聊完数据驱动,说说数据分析,这也需要特别强调和澄清的概念。在我的理解和认知中,商业智能和数据挖掘都是数据分析的手段和方法,当然换个角度来看也可以把商业智能放到最后。然而不谈理论和概念,从实际情况看目前商业智能与it系统关联密切,而数据分析涵盖的范围则更广,所以我更倾向于把商业智能和数据挖掘看做是数据分析的手段和方法。
四、 数据挖掘是数据治理未来的主战场
数据挖掘又称为数据库中知识发现(kdd),它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的过程。广义的数据挖掘是指知识发现的全过程,狭义的数据挖掘是指统计分析、机器学习等发现数据模式的智能方法,即偏重于模型和算法。
实际中我们的工作更多属于广义的数据挖掘,组织对于数据应用的需求逐步从描述阶段进入到挖掘阶段,需求的提升也对应着员工智力程度的提高,呵呵。尤其是大数据时代,数据挖掘是大数据王冠上的明珠,甚至有人认为大数据仅仅是数据挖掘的另外一个名称。数据挖掘涉及数据来源、干系人范围可以超出组织层面,对于数据治理活动来说可以顺利接棒商业智能成为主战场,同时也对数据治理提出了更高的需求。
现在讨论大数据下的数据挖掘,应该和场景关联起来思考问题,因为数据质量和业务需求、技术方案密切相关。场景本身就是需要数据治理需要考虑的问题,以及对应的流程机制都需要进行规划。
数据挖掘直接关心的是数据质量,而数据质量是人与人矛盾分歧最大的职能域,所以通常也配置全套的数据治理手段。大数据背景下数据质量需求得到扩展,一个是可链接性,内外部数据的关联整合;另一个是真实性,这是传统数据质量未曾参与或者说积极回避的事情。真实性比较困难,直接就可以成为数据挖掘、人工智能的应用案例。内外数据关联整合已经开始重点关注和解决了,这个过程中数据标准、元数据等传统数据体系职能范围自然要有所反应,同时还要考虑的是数据隐私与安全。
综上,如果你所在的组织已经完成基本的bi系统建设,需要或已经进入大数据应用建议的水平,那么数据治理的主战场也应该相应转移。数据挖掘将会成为数据治理的主战场,对进军大数据时代的组织来说有足够的必要性和紧迫性;同时数据挖掘是未来组织数据驱动文化的核心,这也为数据治理真正发挥作用提供了机遇。
ps:最近看了点digital twin的内容,数字化的过程会提出很多新问题,尤其是在数据架构模型层面。从下游应用角度来看,当然是多多益善了,数据挖掘深入到每个业务需求中。
注:文中部分图片来在互联网