6. 缺失值处理
缺失值处理
缺失值处理
缺失值处理
- 数据规范化
- 维数灾难
- 特征工程
缺失值处理:
- 删除法:
- 删除行
- 删除列
- 补全法:
- 均值补全
- 众数补全
- 中位数补全
- 插值法
- 预测法:
- 机器学习算法预测
- 多重插补法
数据规范化:
规范化的目的是将不同的量纲和范围的数据变换到同一量纲和范围,以便后续的分析和建模。
- 最小-最大归一法
- 标准法
- 将数据转化为均值是0,方差是1的正态分布
- 适用于数据分布大致对撑的数据
- max_abs 归一法
- 将每个特征缩放到 |-1,1|范围,但不会改变数据的稀疏性
维数灾难:指的是随着数据特征维度的增加,数据稀疏性大幅增加,导致计算复杂度显著提高,模型表现下降的问题。
解决方法:
- 特征选择:
- 降维技术
特征工程:从原始数据中提取出有代表性且能更好描述数据特征的过程。
- 特征构造:
- 创建新特征:结合现有特征,创建出新的有意义的特征,如两个特征的比值、累积量、时序特征等。
- 分箱处理:将连续特征离散化,适用于某些分类算法,如决策树。
- 交互特征:引入特征之间的交互项,可以捕捉到特征之间更复杂的关系。
- 特征提取:
- 主题模型(如 LDA):从文本数据中提取主题特征。
- 频谱分析:从信号数据中提取频率特征。
- 特征选择:
- 过滤法:通过统计检验或评分函数,选择显著特征。
- 嵌入法:基于模型的特征选择,例如通过正则化方法(Lasso回归)选出的特征。
- 包裹法:使用一个预测模型,评估特征子集的效果,选择最佳子集。
- 特征编码:
- 独热编码(One-Hot Encoding):将类别特征转化为二元矩阵。
- 标签编码(Label Encoding):将类别特征转化为整数标签。
- 目标编码(Target Encoding):用类别特征对应的目标变量的平均值来编码类别特征。
在机器学习中,缺失值处理、数据规范化、维数灾难解决和特征工程是重要的预处理步骤。 它们分别确保了数据的完整性一致性、处理效率、模型性能和特征的有效性。 这些步骤帮助我们从原始数据中提取最具信息量的特征,从而训练出更准确、更可靠的模型。
Feedback
Was this page helpful?
Glad to hear it! Please tell us how we can improve.
Sorry to hear that. Please tell us how we can improve.