数据管理之数据孤岛的治理
数据管理之数据孤岛的治理
【数据孤岛的治理】
1.1 什么是“数据孤岛”?
数据孤岛是存在于政府或企业信息化建设中很常见的一种现象,往往由于技术的局限、结构的陈旧等因素所导致。主要分为物理性和逻辑性两种:物理性数据孤岛是指,数据在不同部门相互独立存储、独立维护,彼此间相互孤立。逻辑性数据孤岛是指,不同部门站在自己的角度对数据进行理解和定义,使得一些相同的数据被赋予了不同的含义,无形中加大了跨部门数据合作的沟通成本。
下图是一个很典型的数据孤岛模型。每个部门数据各自为政。权限、数据结构、安全、备份机制、甚至是使用不同的数据库软件。这种模型下,很难进行数据的统一个有效的管理。对组织来说,每一份散落在各个部门之间的数据都是一个被上帝遗弃的孤儿,失去了数据应有的价值。同时对于组织来说,也是资源的极大浪费。严重的阻碍了组织各部门之间的工作效率。试想一下,如果我要管理这么多不同类型的数据和数据库软件,组织的运维人员需要付出多大的代价?
1.2 如何治理数据孤岛
组织消除数据孤岛的最简单方法是将其整合到数据仓库中。
Google Cloud platform的BigQuery就是一个很典型的治理数据孤岛的产品。
1. 创建脚本或者代码整合数据
利用SQL或Python编写的脚本编写代码来提取数据并将其移动到中心位置。唯一的缺点是它很耗时,需要大量的专业知识。
2. 使用ETL工具
提取、转换、加载 (ETL)工具可自动执行整个过程,从而消除移动数据的麻烦。这会从源中提取数据,执行必要的转换,然后将数据加载到接收方数据仓库。这些工具通常托管在组织内部。比如比较常用的有Kettle、Sqoop等等。•提取提取是从一个或多个来源(在线、本地、旧版、SaaS或其他)中检索数据的过程。检索或提取完成后,数据将被加载到暂存区中。•转换转换包括获取数据、清理数据并将其转换为通用格式,以便将其存储在目标数据库、数据存储区、数据仓库或数据湖中。清理通常包括删除重复、不完整或明显有错误的记录。•加载加载是将转换格式后的数据插入目标数据库、数据存储区、数据仓库或数据湖的过程。
3. 基于云的ETL工具
托管在云端的这些 ETL 工具利用供应商提供的专业知识和基础设施。Google Cloud Platform给我们提供了一系列的ETL服务,包括Cloud Data Fusion,Dataflow和Dataproc。
一个简单的流程图如下:
1.3 如何保障数据安全
数据安全是保护数字信息在其整个生命周期内免受操纵和未经授权访问的做法,数据安全是组织安全态势的重要组成部分。
对于企业而言,这包括加密和保护静态和传输中的数据,保护应用程序免受恶意恶意软件或勒索软件攻击,以及制定安全策略来检测和防止数据泄露。
1. 加密
Google Cloud中的静态加密(默认谷歌加密方式)
Google 采用了多层加密措施来保护 Google Cloud 产品中的静态存储的客户数据。Google 会对静态数据进行加密,确保只有经过授权的角色和服务才能访问这些数据,并且对加密密钥的访问权限经过审核。数据在写入磁盘之前被加密。
下图是谷歌云各层级的加密方式:
BigQuery中的静态加密
BigQuery 会在数据写入磁盘之前自动加密所有数据。在授权用户读取数据时,系统将自动解密数据。默认情况下,由 Google 负责管理用于保护您数据的密钥加密密钥。
2. 秘钥管理
客户管理的加密密钥 (CMEK)
CMEK for BigQuery:Cloud KMS如果您想自行控制加密,可为 BigQuery 使用客户管理的加密密钥 (CMEK)。这样您就可以在 Cloud KMS 中控制和管理用于保护数据的 KEK,而不是让 Google 进行管理。
下图就是一个存储服务调用 Google KMS 来检索该数据块的解封装 DEK,对数据块进行解密。
【结语】
数据孤岛的治理是一项挑战。如果有根深蒂固的数据分离文化,改变员工的思维方式的确很困难。同时,有一系列权限和层次结构很难解除,消除孤岛也很困难。最简单的方法是将数据从不同的系统移动到数据仓库中,该数据仓库充当所有收集的数据的存储库。数据仓库经过优化,便于访问和分析,而不是事务处理。这也确保了全面了解公司数据。做到这一步,公司就可以推动整合进程,逐步构建企业数据整合平台。要做到这一切,跨组织配合至关重要,行政领导层也需要全力以赴地支持。当然,随着数据在运营和战略应用程序中的逐步使用,您需要在组织结构中看到的变化也会自然而然发生。