Fork me on GitHub

机器学习系列文章-特征工程综述

背景

  • 特征工程是什么?
  • 特征工程解决了什么问题?
  • 特征工程的原理?
  • 如何实现特征工程的最佳实现?

在讲解特征工程(Feature Engineering)之前,我们需要明白数据科学中,什么是特征。维基百科中,对于“特征”定义如下:

In machine learning and pattern recognition, a feature is an individual measurable property or characteristic of a phenomenon.

翻译:在机器学习和模式识别中,特征指的是独立可测量属性或现象的特性。

维基百科中的定义:

Feature engineering (or feature extraction) is the process of using domain knowledge to extract features (characteristics, properties, attributes) from raw data. The motivation is to use these extra features to improve the quality of results from a machine learning process, compared with supplying only the raw data to the machine learning process.

特征工程( 或特征萃取)是指:使用领域知识从原始数据中萃取特征的过程。这些萃取得到的特征将会提升机器学习的性能。

事物运行的结果,会受到很多因素的影响,由于技术限制我们通常只能量化提取有限个影响因素。而在这些影响因素(含复合因素)集合中,通常影响权重是不同的。为了减少模型复杂度和计算量等因素,我们会选取权重最重要的影响因素。这个过程其实就是特征工程背后的哲学思想。

过拟合,其实本质是模型过多的关注部分数据,导致性能函数挑选函数会追究极致。针对这部分数据模型性能达到极致。这样模型针对全局数据时候,性能就很难有良好的泛化性能。所以本质还是训练数据的采样未能很好的覆盖所有数据集。

如果数据很好的采样,是否存在模型训练次数的增加,导致参数过拟合呢?在工程实践中,经常有这样的现象。这是否是模型的性能函数选取不当呢?导致性能函数本身挑选函时候有“偏见”。

模型的专注力

参考文献及资料

1、深度了解特征工程,链接:https://zhuanlan.zhihu.com/p/111296130

0%