㈠ 什麼叫訓練數據(training data)
這個是講AI的artificial neural network時候用的。
例如說你要做一個AND logic。在你建立了一個artificial neural network以後,它是一個沒有任何功能的空白network。這時候你需要training data來train你的network。這個時候的training data,就是已經准備好的,正確的AND logic的input跟output,讓這個artificial neural network來學習這個input和output的關系從而模仿AND logic(Hence artificial intelligence)。
在train好了以後,你要確認你的network時候符合你的training data的要求,你就選一組testing data(比training data數量要少很多,可以是training data的一部分),來test你的network是不是真的被train好了。一般不能達到100%正確,根據情況,一半90%以上,例如95%就不錯了。這里就是為了證明你train的這個network,是針對你的training set是有用的。
至於validation data。你的training data sample,在統計學里,是在你的global population里選出來的,它不一定100%反應你的global population的特性。所以你要在global population里,另外再選一組validation data,來validate你之前通過test的network。也就是為了確認,你這個network,不是只對你的training data有用,而是對global population都有用的。
我是在國外上的大學,大四的時候學過這個。嘿嘿。
補充:
你說的這些我沒學過。
不過我猜測training data應該跟我所學的artificial neural network的有類似。多半是你的system或者model,需要學習你所研究東西的behaviour。所以你用一組以前所得到的正確的data,裡麵包括所有相應的input跟output,來train你的system或者model。(感覺說來說去還是在說AI跟artificial neural network,嘿嘿)
補充二
我說反了嗎?兩年前學的,不太記得了。問問老師或者查查書吧。
㈡ 數據挖掘中的訓練數據集如何成為模型
首先我並不是很明白這個訓練數據集是什麼意思,一般來講我們是訓盯納練模型。至於選用什麼模型這個就看你自己的選擇了,是回歸模型?分類模型?還是其他的什麼模型?
模型訓練完後輸入新的數據滾山(凱備沒格式與訓練數據集一致)到模型中即可做預測
㈢ 機器學習中的數據集合
機器學習中的數據集合
數據集分類
在有監督(supervise)的機器學習中,數據集常被分成2~3個,即:訓練集(train set) 驗證集(validation set) 測試集(test set)。
訓練集用來估計模型,驗證集用來確定網路結構或者控制模型復雜程度的參數,而測試集則檢驗最終選擇最優的模型的性能如何。
Ripley, B.D(1996)在他的經典專著Pattern Recognition and Neural Networks中給出了這三個詞的定義。
Training set:
A set of examples used for learning, which is to fit the parameters [i.e., weights] of the classifier.
Validation set:
A set of examples used to tune the parameters [i.e., architecture, not weights] of a classifier, for example to choose the number of hidden units in a neural network.
Test set:
A set of examples used only to assess the performance [generalization] of a fully specified classifier.
顯然,training set是用來訓練模型或確定模型參數的,如ANN中權值等; validation set是用來做模型選擇(model selection),即做模型的最終優化及確定的,如ANN的結構;而 test set則純粹是為了測試已經訓練好的模型的推廣能力。當然,test set這並不能保證模型的正確性,他只是說相似的數據用此模型會得出相似的結果。但實際應用中,一般只將數據集分成兩類,即training set 和test set,大多數文章並不涉及validation set。
選擇訓練集和測試集
其中一個典型的劃分是訓練集占總樣本的50%,而其它各佔25%,三部分都是從樣本中隨機抽取。樣本少的時候,上面的劃分就不合適了。常用的是留少部分做測試集。然後對其餘N個樣本採用K折交叉驗證法。就是將樣本打亂,然後均勻分成K份,輪流選擇其中K-1份訓練,剩餘的一份做驗證,計算預測誤差平方和,最後把K次的預測誤差平方和再做平均作為選擇最優模型結構的依據。特別的K取N,就是留一法(leave one out)。
數據歸一化問題
數據歸一化屬於數據的預處理。因為sigmoid函數根據不同的變換,輸出在0到1或者-1到1之間,因此如果不做歸一,就會出現樣本輸出超出神經網路輸出的范圍。選擇最大的值max和最小值min,做如下變換
x=(x-min)/(max-min)
就是歸一化。
需要注意的是max和min不應該直接選擇為x中的最大值和最小值。原因是樣本只是有限的觀測,有可能還有更大或者更小的觀測,因此合適的選擇應該max選取xmax大一些和min比xmin小一些的。歸一化並不總是合適的預處理,因為它不能使分布不對稱的樣本變得更對稱一些,標准化要好一些。另外,有時候主成分分析也能起到降維的作用。
㈣ 測試集和訓練集是什麼意思
1.測試集:
機器學習學科中,學習樣本三部分之一,測試集用來檢驗最終選擇最優的模型的性能如何。
2.訓練集:
機器學習學科中,學習樣本三部分之一,訓練集用於建立模型。驗證集用來確定網路臘孫結構或者控制模型復雜程度的參數,而測試集則檢驗最終選擇最優的模型的性能如何。
(4)訓練數據集指什麼擴展閱讀
訓練集用於監督學習中,監督學習是指利用一組已知類別的樣本輪隱鏈調整分類器的參數,使其達到所要求性能的過程,也稱為監督訓練或有教師學習。
監督學習是從標記的訓練數據來推斷一個功能的機器學習任務。訓練數據包括一套訓練示例。在監督學習中,每個實例都是由一個輸入對象和一個期望的輸出值組成。監督學習演算法是分析該訓練數據,並產生一個推斷的功能,其可以用於映射出新的實例。
大數據環境下的機器學習演算法,依攜戚據一定的性能標准,對學習結果的重要程度可以予以忽視。 採用分布式和並行計算的方式進行分治策略的實施,可以規避掉噪音數據和冗餘帶來的干擾,降低存儲耗費,同時提高學習演算法的運行效率。
參考資料來源:網路-測試集
參考資料來源:網路-訓練集
㈤ matlab數據集文件夾劃分
Matlab數據集文件夾劃分可以根據不同的需求來進行,一般來說可握亂以將其分為以下幾類:
1)原始數據集:用於存放原始的數據,包括原始的圖像、視頻、文本等;
2)處理後數據集:用於存放經過處理的數據,包括經過格式轉換、濾波等處理的數據;
3)特徵提取數據集:用於存放提取的特徵,包括提取的圖像特徵、文本特徵、音頻特祥巧征等;
4)訓練數據集:用於存放訓練數據,包括訓練樣本、訓練標簽等;
5)測試數據集:用於存放測試數據,包括測試樣本、測試標簽等。
此外,還可以根據實際情況進行更細致的劃分,比如將原始數據集劃分為訓練集、驗證集和測試集,將特徵提取數據集劃分謹皮鍵為特徵提取和特徵選擇等。
㈥ 誰能解釋下 數據挖掘里的訓練數據、測試數據和驗證數據呀
一般做預測分析時,會將數據分為兩大部分。一部分是訓練數據,用於構建模型,一部分是測試數據,用於檢驗模型。但是,有時候模型的構建過程中也需要檢驗模型,輔助模型構建,所以會將訓練數據在分為拍衡好兩個部分:1)訓練數據;2)驗證數據(Validation Data)。驗證數據用於負責模攔跡型的構建。具體的是:訓練數據(Test Data):用於模型構建襲鉛;驗證數據(Validation Data):可選,用於輔助模型構建,可以重復使用;測試數據(Test Data):用於檢測模型構建,此數據只在模型檢驗時使用,用於評估模型的准確率。絕對不允許用於模型構建過程,否則會導致過渡擬合。
㈦ 什麼是數據集
數據集,又稱為資料集、數據集合或資料集合,是指一種由數據所組成的集合。
Data set(或dataset)是一個數據的集合,通常以表格形式出現。基穗每一列代表一個特定變搏坦卜量。每一行都對應於某一成員的數據集的問題。它列出的價值觀為每一個變數,如身高和體重的一個物體或價值的隨機數。每個數值被稱為數據資料。對應於行數,該信滑數據集的數據可能包括一個或多個成員。