数据挖掘-特征工程

特征抽象

时间戳

  1. 选择合适的时间
  2. 把年月日格式的数据转化为十进制

二值类

将数据量化

多值有序类

多值无序类

信息阉割

One-hot 编码

One-hot编码方式的优点是保存了所以信息的信息量 原则:是通过唯一数值标识每个字符数据在其特征列中的位置属性来实现特征编码 ### 文本类型 ### 图像或语音数据

特征重要性评估(信息在模型中所占的权重)

回归模型系数判断法(通过最优算法得到参数的系数)

注:想要通过逻辑回归的模型各特征参数来评估特征的重要性需要对数据进行=归一化=处理(除去量纲对于数据的影响) ### 信息熵判断法 #### 信息熵 #### 信息增益

特征衍生