目录
- 背景
- 第一部分 Spark内存管理详解
- 第二部分 Spark参数说明
- 第三部分 Spark内存优化
- 第四部分 常见线上问题解决
- 参考文献及资料
背景
1、cookie session jwt oauth2 https
https://www.cnblogs.com/holaJava/p/13189125.html
这几种方式本质上都是一种授权鉴权的机制。
cookie:
Cookie是服务器发送到客户端并保存在本地的一小块数据,它会在客户端下次向同一服务器再发起请求时被携带并发送到服务器上。通常,它用于告知服务端两个请求是否来自同一浏览器,如保持用户的登录状态。Cookie 使基于无状态的 HTTP 协议记录稳定的状态信息成为了可能。cookie中的数据以{key:value}的形式存在。
对于Cookie来说,Cookie的同源只关注域名,是忽略协议和端口的。所以一般情况下,https://localhost:80和http://localhost:8080的Cookie是共享的。单个 Cookie 保存的数据不能超过 4K。
session:
Session 代表着服务器和客户端一次会话的过程。Session 对象存储特定用户会话所需的属性及配置信息。这样,当用户在应用程序的 Web 页之间跳转时,存储在 Session 对象中的变量将不会丢失,而是在整个用户会话中一直存在下去。当客户端关闭会话,或者 Session 超时失效时会话结束。
jwt(JSON Web Token)
JWT只是一种token的协议
简单说,JWT是一个身份认证协议(protocol),他的优点是简单和对URL安全。另一个优势是可使服务器免除session存取的压力,同时在集群机或多子站上面,也免除了session需要同步的烦恼。
什么是JWT?JSON Web Token(JWT),是一个开放安全的行业标准,用于多个系统之间传递安全可靠的信息.
oauth2
第三方授权就是,委托第三方来对既定的用户进行鉴定,鉴定成功之后,下发信任凭证,信任凭证和用户挂钩,同时可以使用此凭证来去第三方平台,获得该用户开放的部分信息。直白的说,就是将用户授权的工作交给第三方来做,而自己只维护信任凭证,并且获取用户信息。
首先OAuth只是一个授权协议,不是一个实现或是一个中间件。
2、设计元数据系统
元数据获取层将涉及的各子系统的元数据经过元数据桥 接器导入到元模型中,元数据服务接口可以通过数据访问接 口返回元数据中的数据内容,并生成其他数据系统需要的数 据字典或提供其他应用的访问接口。元数据应用层提供元数 据浏览、查询、分析的用户界面,提供与 ETL 系统、数据质 量管理系统的数据交换机制。对各层的说明如下:
(1)元数据源层。元数据源层包括银行数据仓库涉及的数 据仓库产品、数据挖掘工具、建立数据仓库过程中所需的数 据信息(如 ERWin 文件、Excel 文件)等。
(2)元数据获取层。实现元数据源中各个系统的元数据抽 取。元数据桥接器通过符合双方约定规范的接口或各个产品提供的特定接口实现元数据的抽取,并把抽取出的元数据存 入元数据存储部分中的元数据库。
(3)元数据存储层。实现元数据的存储,存储的元数据包 括业务元数据和技术元数据,元数据按模型主题组织。存储 库的逻辑模型设计须兼顾效率和模型的可扩展性与灵活性。
(4)元数据管理层。由元数据管理和系统管理 2 个部分构 成。元数据管理实现元数据的更新管理、同步管理、版本管 理等功能。系统管理实现用户管理、权限管理、日志管理、 备份与恢复等功能。一些元数据管理部分的功能需要人工或 半人工操作。
(5)元数据服务接口层。包括元数据对外的访问接口,包 括 ETL、DQM、OA 系统或其他系统的服务接口,这些系统 通过元数据服务接口部分访问元数据存储部分的元数据。该 部分为其他用户或系统使用元数据提供了扩展方式。
(6)元数据应用层。提供元数据管理、技术、业务用户的 访问。该部分实现元数据查询、元数据浏览、元数据分析等 基本功能模块。
3、mysql索引介绍
MYSQL数据库属于传统的关系型数据库,底层的数据存储基于操作系统文件系统实现,物理上存储在硬盘。数据的写入按照存储块进行存储,大量的表数据分别存储在磁盘的各个磁道上。
当用户进行表数据条件查询的时候,就需要顺序读取磁盘上的数据。由于磁盘I/O有延迟,达到大数据量将会非常耗时。所以需要有元数据来存储表中行数据和硬盘物理地址的映射关系,即数据库表索引。这样查询时就不会出现全表遍历,而是按图索骥。
Mysql默认存储引擎是InnoDB引擎,该引擎下,每个表的索引是一个B+tree数据结构。
DDL(Data Definition Language)数据定义语言:
适用范围:对数据库中的某些对象(例如,database,table)进行管理,如Create,Alter和Drop.
DDL(数据定义语言,Data Definition Language)
建库、建表、设置约束等:create\drop\alter
4、mvc概念
M-model
V-view
C-controller
MVC是一种前后端代码组织结构思想设计模式。
MVC的主要流程是:客户端发送请求到服务器,由控制器(servlet)接收请求,调用对应的模型层处理数据,模型处理数据之后,再将结果返回给控制器,控制器根据返回的结果调用(渲染)对应的视图响应结果。
MVC的主要意义在于,让视图和模型解耦。
5、ETL流程
ETL是数据处理中流程概念,其中E表示数据抽取、T表示数据转换、L表示数据加载。所以ETL流程指的是在数据处理中对原始数据依次进行数据抽取、数据转换、数据加载的过程。其中:
数据抽取:通常原始数据源(业务数据库等)数据存储形式较为繁杂。数据入库前需要对业务库数据进行筛选表、字段等,对于不同类型的存储类型(结构数据、半结构数据、非结构数据)选取不同的解析方式等。
数据转换:这里的转换有数据转换()和数据清洗(不完整的数据、错误的数据、重复的数据)。
数据加载:数据的加载,指的处理后的数据落盘到数据仓库DW层,或者作为其他数据处理的数据源。例如通过ETL处理后的数据作为机器学习模型的训练和验证数据输入。
https://www.cnblogs.com/yjd_hycf_space/p/7772722.html
6、算法题
7、概率题
参考文献及资料
1、数据治理对运维数据体系的思考与启发,链接:http://blog.itpub.net/69994525/viewspace-2762789/