机器学习算法性能改进tips


一 :data
1.数据数量要大,质量要好。
2.如果没有,用模型或者规则要创造数据。
3.清洗数据,数据缺失,如何修复。或者删除无用数据。
4.采样数据,改变数据的大小与分布。
5.重新构建你的问题:根据数据,重新思考是定义回归,二分类,多分类,时间序列,推荐等类型问题。
6.输入数据标准,归一化。
7.改变数据分布使其符合高斯分布。
8.用无监督方法把数据转换到低维空间。
9.用特征选择和特征重要性方法选出符合模型要求的数据。
10.特征工程,可以添加新的特征。


二: 算法

1.k折交叉验证 抽样方法
2.用随机算法或者0规则算法(预测均值或者取余)作为baseline效果
3.线性算法更容易理解,易于训练。评估多种线性算法,选择效果最好的。
4.非线性算法一般要求更多的数据,复杂性也更高,但是性能更好。评估多种非线性算法。
5.在文献中查找能够更好的解决你的问题的算法。
6.标准配置。不是指参数调优。是指如何把每一个算法参数好配置。


 三:调优
算法调优通常会占用你最多的时间。
1.用学习曲线去诊断算法是否过拟合还是欠拟合。
2.如果调参经验丰富,新的参数,直觉通常是对的。
3.从文献中查找使用了什么样的算法和参数。
4.随机搜索算法超参数来配置算法。
5.一步一步网格搜索找到最佳的超参数。
6.优化学习率。
7.不同的方法在同样的数据上效果可能更好。
8.改进方法的扩展可以提高算法性能。
9.向专家请教。


四: 融合
模型融合是算法调优后,针对算法优化的一大改进。调优取不到的效果,模型融合可以做到。
1.用一个新模型去combine多个性能优良的模型。



版权申明

知识共享许可协议
本作品采用知识共享署名-非商业性使用 4.0 国际许可协议进行许可。 转载文章请注明原文出处。

天道酬勤
评分4.8/5 based on 20