⑴ 訓練樣本和測試樣本分布比例不一樣會對結果有什麼影響
一般來說,測試樣本比例越小,結果就越好。因為訓練樣本比例大,包含的數據信息就越多。一般測試樣本所佔比例為1/3-2/3之間為宜,不然參考價值較低。
訓練樣本的目的是 數學模型的參數,經過訓練之後,可以認為你的模型系統確立了下來。
建立的模型有多好,和真實事件的差距大不大,既可以認為是測試樣本的目的。
一般訓練樣本和測試樣本相互獨立,使用不同的數據。
有人說測試樣本集和驗證樣本集不一樣,測試樣本集數據主要用於模型可靠程度的檢驗,驗證樣本集的樣本數據要在同樣條件下,再另外採集一些數據用來對模型的准確性進行驗證。
有人採用交叉驗證,交叉驗證指的的訓練樣本集、測試樣本集、驗證樣本集、三中數據集都組合在一起,數據的劃分採用交叉取樣的方法。