6. 缺失值处理

缺失值处理

缺失值处理

缺失值处理

  • 数据规范化
  • 维数灾难
  • 特征工程

缺失值处理:

  1. 删除法:
    • 删除行
    • 删除列
  2. 补全法:
    • 均值补全
    • 众数补全
    • 中位数补全
    • 插值法
  3. 预测法:
    • 机器学习算法预测
    • 多重插补法

数据规范化:

规范化的目的是将不同的量纲和范围的数据变换到同一量纲和范围,以便后续的分析和建模。

  1. 最小-最大归一法
  2. 标准法
    • 将数据转化为均值是0,方差是1的正态分布
    • 适用于数据分布大致对撑的数据
  3. max_abs 归一法
    • 将每个特征缩放到 |-1,1|范围,但不会改变数据的稀疏性

维数灾难:指的是随着数据特征维度的增加,数据稀疏性大幅增加,导致计算复杂度显著提高,模型表现下降的问题。

解决方法:

  1. 特征选择:
  2. 降维技术

特征工程:从原始数据中提取出有代表性且能更好描述数据特征的过程。

  1. 特征构造:
  • 创建新特征:结合现有特征,创建出新的有意义的特征,如两个特征的比值、累积量、时序特征等。
  • 分箱处理:将连续特征离散化,适用于某些分类算法,如决策树。
  • 交互特征:引入特征之间的交互项,可以捕捉到特征之间更复杂的关系。
  1. 特征提取:
  • 主题模型(如 LDA):从文本数据中提取主题特征。
  • 频谱分析:从信号数据中提取频率特征。
  1. 特征选择:
  • 过滤法:通过统计检验或评分函数,选择显著特征。
  • 嵌入法:基于模型的特征选择,例如通过正则化方法(Lasso回归)选出的特征。
  • 包裹法:使用一个预测模型,评估特征子集的效果,选择最佳子集。
  1. 特征编码:
  • 独热编码(One-Hot Encoding):将类别特征转化为二元矩阵。
  • 标签编码(Label Encoding):将类别特征转化为整数标签。
  • 目标编码(Target Encoding):用类别特征对应的目标变量的平均值来编码类别特征。

在机器学习中,缺失值处理、数据规范化、维数灾难解决和特征工程是重要的预处理步骤。 它们分别确保了数据的完整性一致性、处理效率、模型性能和特征的有效性。 这些步骤帮助我们从原始数据中提取最具信息量的特征,从而训练出更准确、更可靠的模型。