目录
- 背景
- 第一部分 Spark内存管理详解
- 第二部分 Spark参数说明
- 第三部分 Spark内存优化
- 第四部分 常见线上问题解决
- 参考文献及资料
背景
运维类大数据仓库中通常有两类数据:
1、设备运行产生的数据。主要有:服务器(服务器、网络设备、安全防护设备等)产生的性能容量数据、日志数据(系统日志、应用日志);
2、运维活动产生的数据。主要是运维管理或辅助系统产生的数据。有监控系统、变更系统、应急切换系统等运维业务系统产生的数据。
目前挑战:
国内很多金融企业在大数据技术应用前并不是很重视数据治理,出现像投入大量资源建设大数据平台,但用的时候又发现报表不准、数据质量不高,导致项目没有达到预期效果的普遍性问题。
第一部分 主题和主题域
1.1 理论
主题是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。
简单说,一个主题对应一个分析对象。分析对象就是在决策、分析时重点关注的东西,这个东西其实是非常主观的,在不同的企业,或者企业的不同发展时期,所关注的点会不一样,从而影响有些主题可能存在或者不存在。
数据仓库是面向主题的应用,主要功能是将数据综合、归类并进行分析利用。数据仓库模型设计除横向的分层外,通常还需要根据业务情况纵向划分主题域。主题域是业务对象高度概括的概念层次归类,目的是便于数据的管理和应用。
1.2 案例
覆盖当事人、产品、协议、账户、介质、地理位置、资源项、事件、渠道和通用十大标准主题
一是建设以贴源层、聚合层、萃取层为核心的数据分层体系,实现全行数据的规范统一和共享
第二部分 运维大数据数仓主题设计
https://codeantenna.com/a/wdCtwvu0CH
主题域 | 主题 | 涵盖内容 |
---|---|---|
运维运营 | 变更 | 变更流程数据、变更操作数据、变更附件 |
监控 | 集中监控、应用监控、基础设施监控 | |
应急 | 应急预案、应急操作、故障场景 | |
事件 | 事件数据、问题数据 | |
投产 | 投产操作日志、版本管理 | |
容量规划 | 性能数据 | 服务器产生性能容量数据(内存、CPU) |
容量配置 | 机房容量;动力容量;服务器资源容量;网络容量;私有云容量 | |
系统日志 | 操作系统日志;网络设备日志(DNS、防火墙、交换机);私有云日志 | |
应用日志 | 应用类日志、表清理日志 | |
流量数据 | 网络流量 | |
安全运营 | 运维操作 | 运维登录操作日志 |
安全防护 | 客户端日志、VPN日志、反病毒日志、IPS防护日志、DDOS日志、WAF日志 | |
安全知识 | 漏洞库、病毒码库、安全防护知识库、补丁数据 | |
配置管理 | 系统配置 | 系统节点配置、存储配置 |
网络配置 | 网络设备配置、专线、网络端口配置、IP地址、VLAN | |
设备配置 | 存储设备、服务器设备、机房环境设备、硬件、硬盘、配件 | |
主机配置 | 主机存储、主机操作系统、主机数据库、主机设备、主机CICS | |
应用配置 | 应用版本、应用节点、应用维护信息、表生命周期 | |
参数配置 | 高可用参数、系统软件 | |
架构管理 | 应用架构 | 应用高可用架构数据、应用互访链路 |
组织结构 | 机构部门数据、运维人员数据 |
参考文献及资料
1、数据治理对运维数据体系的思考与启发,链接:http://blog.itpub.net/69994525/viewspace-2762789/
2、数据治理强化个人信息保护,链接:https://new.qq.com/omn/20211025/20211025A03NQX00.html