预测准确度
95 - 100%:非常好。历史数据具有很明显的趋势或季节性模式。
90 - 94.9%:好。历史数据具有缓和的趋势或季节性模式。
80 - 89.9%:一般。历史数据具有较弱趋势或季节性模式。
0 - 79.9%:差。从历史数据中检测不到趋势或模式。
提高模型预测的准确性的有效办法
1.获取更多数据
拥有更多的数据在任何时候都不坏,更多的数据就能让其“为自己代言”,而不是仅仅依赖于作的假设和弱小的相互关系。获取更多数据会使模型更完善更准确。
2.处理缺失值和异常值.
训练数据中意外的缺失值和异常值通常会降低模型的准确率,或使模型产生的结果出现偏差,最终导致预测不准。这是因为我们没能够准确地分析这一行为以及它与其他变量的关系。因此,认真对待缺失值和异常值非常重要。
3.特征工程.
这一步骤有利于从现有数据中提炼出更多信息,新的信息会根据新特征得以提炼出来,这些信息更能够解释训练数据的变化。因此,一定会使模型准确率更高。
特征转换
数据规范化: 消除变量的偏差值: 消除偏差值的方法有取对数, 做平方根,或者取倒数
数据进行分箱: 数值数据通过分组为箱会变得更加离散
创建特征
从现有的变量中推出新的变量就是创建特征,它有助于揭示数据组的隐藏关系
4.特征选择
特征选择是一个找到属性的最佳子集的过程,它更好地解释了目标变量与变量间的关系
行业知识:基于行业经验,选择那些对目标变量有更大影响的特征。
可视化:就像它的名字,可视化有助于使变量之间的关系更加直观,使变量选择过程更加便捷
统计参数: 我们也考虑P值、信息值和其他统计参数来选择正确的特征
PCA: 这种方法有助于在更低维的空间表现训练数据,同时也表现出数据的内在关系。这是一种降维技术.例如要素分析、降低方差、提高相关性、后向/前向特征选择和其他等
5.多种算法
使用正确的机器学习算法是实现更高准确率的理想方法
6.算法调试
机器学习算法主要靠参数,参数影响机器学习过程的结果. 调试参量的目标就是发现每个参数的最佳值来提高模型的准确性。要想调试这些参数,你就一定要深入理解参数的意义和它们对模型的影响,你可以通过一系列运行良好的模型来重复这一过程
7.集成方法
通过结合多种弱模型的结果以产生更佳结果。可以通过很多方式实现
8.交叉验证
这种方法有助于我们形成更有概括性的关系,在一定程度上减小过拟合,可以从有限的数据中获取尽可能多的有效信息,在数据量较少时,更方便找到适合的模型参数 .