目录
- 背景
- 第一部分 Spark内存管理详解
- 第二部分 Spark参数说明
- 第三部分 Spark内存优化
- 第四部分 常见线上问题解决
- 参考文献及资料
背景
https://www.6aiq.com/article/1635205226188
我们认为数据中台是企业级大数据通过系统化的方式实现统一、标准、安全、共享的数据组织,以服务化的方式赋能前台数据应用,提高数据的使用效率。
数据中台与数据平台最本质的区别在于数据中台是具备业务属性的,输入的是原始数据,输出的是指标。数据中台包含了业务对数据的组织方法论,体现在主题域,业务过程的划分,数据模型的设计,指标、维度、度量的管理,如果我们想确定一个数据是指标还是维度,就必须理解业务。大数据平台提供的是与业务属性无关的工具集合,是数据的加工能力,至于加工的什么数据,平台并不关心。
https://www.secrss.com/articles/15465
第一部分
- 监控数据:监控事件报警数据、监控性能/KPI指标数据两类,特点是实时、代理、海量、时序为主。
- 日志数据:机器运行日志、系统日志、应用日志,特点是海量、实时、非结构化、格式不统一、有业务相关数据。
- 性能数据:APM、NPM、BPM,或应用主动上报的性能数据,特点是海量、实时、贴近业务与用户体验、链路关系、格式不统一。
- 配置数据:围绕CMDB的配置CI、关系、架构数据,特点是CMDB方案较成熟,关系与架构数据复杂但自发现能力困难。
- 流程数据:围绕ITSM,以及其他运维场景工具(监管控析、安全、CMP等)记录的数据,特点是关键流程基于ITSM、实时性不够、大量琐碎工作来源于各类工具。
- 应用运行数据:记录在业务系统数据库中的系统运行数据,特点是与系统相关、贴近业务与用户体验、依赖研发支持、格式不统一。
其中技术平台指支撑运维海量数据的“采、存、算、管、用”的技术架构
鉴于运维数据有着来源多、标准化、实时、海量、非结构化、格式不统一等特点,仅从“技术平台+应用场景”两个角度看运维数据平台,很容易将运维数据相关项目建成一个个数据孤岛式的数据应用场景,无法发挥数据价值。
大数据领域的数据治理主要包括元数据、主数据、数据标准、数据质量、数据模型、数据安全、数据生命周期7部分内容
数据安全
在大数据平台建设初期,安全也许并不是被重点关注的一环。大数据平台的定位主要是服务数据开发人员,提高数据开发效率,提供便捷的开发流程,有效支持数仓建设。大数据平台的用户都是公司内部人员。数据本身的安全性已经由公司层面的网络及物理机房的隔离来得到保证。那么数据平台建设过程中,需要考虑哪些安全性方面的问题?
环境隔离,数据开发人员应当只需关注自己相关业务域的数据,也应该只能访问这一部分数据。从数据的角度,减小了被接触面,降低了被误操作的可能。从数据开发人员的角度,只能访问自己业务域的数据,在数据开发的过程中,可以减少干扰项,提高效率。
数据脱敏,有些敏感数据即使是公司内部的数据开发人员,也需要限制其直接访问的权限。
明晰权责,各业务域数据都有相应的负责人,对自己的数据负责。同时,所有数据访问与操作都有审计信息记录,对数据的转化与流动有据可查。
最后,大数据平台的目标是赋能数据开发人员,提高数据开发效率,而安全管理必然会降低数据平台的便利性。如何平衡安全和便利性的关系,尤为重要。
有赞大数据平台安全建设是在大数据平台本身的发展以及数仓元数据建设的过程中不断演进的。概括起来可以分为三个阶段。
https://tech.youzan.com/bigdatasafety/
参考文献及资料
1、数据治理对运维数据体系的思考与启发,链接:http://blog.itpub.net/69994525/viewspace-2762789/