这就是坑,别信过度依赖理论回归模型预测复杂非线性问题。
这事复杂在理论回归模型看似简单,但其实里面门道不少。其实很简单,它就是一种统计方法,用来预测或解释变量之间的关系。先说最重要的,理论回归模型主要有线性回归和非线性回归两种。去年我们跑的那个项目,用了线性回归,大概3000量级的数据量,效果还不错。
另外一点,模型的选择和参数的调整至关重要。比如,我在一开始也以为只要数据足够好,模型就能自动给出准确结果,后来发现不对,还得根据业务场景调整。等等,还有个事,就是数据预处理,这个环节特别关键,如果数据质量不高,用再好的模型也没用。
提醒一个容易踩的坑,就是过拟合。当你的模型对训练数据拟合得很好,但对新数据的预测能力却很差,这就是过拟合。用行话说叫雪崩效应,其实就是前面一个小延迟把后面全拖垮了。这个点很多人没注意,但我觉得值得试试,可以通过交叉验证等方法来避免。
这就是坑,别信。2018年,某公司采用理论回归模型预测股票,结果亏损2亿。