⑴ 训练样本和测试样本分布比例不一样会对结果有什么影响
一般来说,测试样本比例越小,结果就越好。因为训练样本比例大,包含的数据信息就越多。一般测试样本所占比例为1/3-2/3之间为宜,不然参考价值较低。
训练样本的目的是 数学模型的参数,经过训练之后,可以认为你的模型系统确立了下来。
建立的模型有多好,和真实事件的差距大不大,既可以认为是测试样本的目的。
一般训练样本和测试样本相互独立,使用不同的数据。
有人说测试样本集和验证样本集不一样,测试样本集数据主要用于模型可靠程度的检验,验证样本集的样本数据要在同样条件下,再另外采集一些数据用来对模型的准确性进行验证。
有人采用交叉验证,交叉验证指的的训练样本集、测试样本集、验证样本集、三中数据集都组合在一起,数据的划分采用交叉取样的方法。