数据清洗可以通过5步做好:
1.把所有非数值变量转为数值变量:含有人类知识的变量根据先验知识转化(比如日期转化为天数、年、月、日等,地理转化为经纬度、城市等级等,定序变量保留序数),不含有先验知识的非数值变量通过one-hot encoding一律转成0-1哑变量,此时所有变量都是数值型的了。含有人类知识的变量根据先验知
数据清洗可以通过5步做好:
1.把所有非数值变量转为数值变量:含有人类知识的变量根据先验知识转化(比如日期转化为天数、年、月、日等,地理转化为经纬度、城市等级等,定序变量保留序数),不含有先验知识的非数值变量通过one-hot encoding一律转成0-1哑变量,此时所有变量都是数值型的了。含有人类知识的变量根据先验知