6. 缺失值处理

缺失值处理

缺失值处理

缺失值处理

数据规范化
维数灾难
特征工程

缺失值处理：

删除法：
- 删除行
- 删除列
补全法：
- 均值补全
- 众数补全
- 中位数补全
- 插值法
预测法：
- 机器学习算法预测
- 多重插补法

数据规范化：

规范化的目的是将不同的量纲和范围的数据变换到同一量纲和范围，以便后续的分析和建模。

最小-最大归一法
标准法
- 将数据转化为均值是0，方差是1的正态分布
- 适用于数据分布大致对撑的数据
max_abs 归一法
- 将每个特征缩放到 |-1,1|范围，但不会改变数据的稀疏性

维数灾难：指的是随着数据特征维度的增加，数据稀疏性大幅增加，导致计算复杂度显著提高，模型表现下降的问题。

解决方法：

特征选择：
降维技术

特征工程：从原始数据中提取出有代表性且能更好描述数据特征的过程。

特征构造：

创建新特征：结合现有特征，创建出新的有意义的特征，如两个特征的比值、累积量、时序特征等。
分箱处理：将连续特征离散化，适用于某些分类算法，如决策树。
交互特征：引入特征之间的交互项，可以捕捉到特征之间更复杂的关系。

特征提取：

主题模型（如 LDA）：从文本数据中提取主题特征。
频谱分析：从信号数据中提取频率特征。

特征选择：

过滤法：通过统计检验或评分函数，选择显著特征。
嵌入法：基于模型的特征选择，例如通过正则化方法（Lasso回归）选出的特征。
包裹法：使用一个预测模型，评估特征子集的效果，选择最佳子集。

特征编码：

独热编码（One-Hot Encoding）：将类别特征转化为二元矩阵。
标签编码（Label Encoding）：将类别特征转化为整数标签。
目标编码（Target Encoding）：用类别特征对应的目标变量的平均值来编码类别特征。

在机器学习中，缺失值处理、数据规范化、维数灾难解决和特征工程是重要的预处理步骤。它们分别确保了数据的完整性一致性、处理效率、模型性能和特征的有效性。这些步骤帮助我们从原始数据中提取最具信息量的特征，从而训练出更准确、更可靠的模型。

Feedback

Was this page helpful?

Glad to hear it! Please tell us how we can improve.

Sorry to hear that. Please tell us how we can improve.