Ⅰ 神經網路對輸入變數個數有沒有要求,六十個可以嗎
可以,但是網路規模太大,很臃腫,需要調整的參數過多,影響收斂速度。
關於隱層節點數:在BP 網路中,隱層節點數的選擇非常重要,它不僅對建立的神經網路模型的性能影響很大,而且是訓練時出現「過擬合」的直接原因,但是目前理論上還沒有一種科學的和普遍的確定方法。 目前多數文獻中提出的確定隱層節點數的計算公式都是針對訓練樣本任意多的情況,而且多數是針對最不利的情況,一般工程實踐中很難滿足,不宜採用。事實上,各種計算公式得到的隱層節點數有時相差幾倍甚至上百倍。為盡可能避免訓練時出現「過擬合」現象,保證足夠高的網路性能和泛化能力,確定隱層節點數的最基本原則是:在滿足精度要求的前提下取盡可能緊湊的結構,即取盡可能少的隱層節點數。研究表明,隱層節點數不僅與輸入/輸出層的節點數有關,更與需解決的問題的復雜程度和轉換函數的型式以及樣本數據的特性等因素有關。
在確定隱層節點數時必須滿足下列條件:
(1)隱層節點數必須小於N-1(其中N為訓練樣本數),否則,網路模型的系統誤差與訓練樣本的特性無關而趨於零,即建立的網路模型沒有泛化能力,也沒有任何實用價值。同理可推得:輸入層的節點數(變數數)必須小於N-1。
(2) 訓練樣本數必須多於網路模型的連接權數,一般為2~10倍,否則,樣本必須分成幾部分並採用「輪流訓練」的方法才可能得到可靠的神經網路模型。
總之,若隱層節點數太少,網路可能根本不能訓練或網路性能很差;若隱層節點數太多,雖然可使網路的系統誤差減小,但一方面使網路訓練時間延長,另一方面,訓練容易陷入局部極小點而得不到最優點,也是訓練時出現「過擬合」的內在原因。因此,合理隱層節點數應在綜合考慮網路結構復雜程度和誤差大小的情況下用節點刪除法和擴張法確定。
Ⅱ 用MATLAB與BP神經網路法處理15組數據,共60個數據,需要多長時間
訓練時長取決於復訓練算製法、訓練目標、樣本數量和網路規模。你的樣本只有15組,數量較少,一般幾秒鍾就能訓練完成。
若從速度的角度出發,人腦神經元之間傳遞信息的速度要遠低於計算機,前者為毫秒量級,而後者的頻率往往可達幾百兆赫。但是,由於人腦是一個大規模並行與串列組合處理系統,因而,在許多問題上可以作出快速判斷、決策和處理,其速度則遠高於串列結構的普通計算機。人工神經網路的基本結構模仿人腦,具有並行處理特徵,可以大大提高工作速度。
Ⅲ 神經網路的數據量多少比較合適
一般來說要1萬以上,越多越好,但要保證採集標准統一,且輸出為相同的數據不能太多。
Ⅳ matlab神經網路訓練一般需要多少數據
你這個問題真的不好回答,因為沒有固定答案,也沒有什麼經驗答案,不能太少也不能太多,因為需要根據實際情況決定了,看你是要做什麼了
Ⅳ 神經網路,訓練樣本500條,為什麼比訓練樣本6000條,訓練完,500條預測比6000條樣本好!
並非訓練樣本越多越好,因課題而異。 1、樣本最關鍵在於正確性和准確性。你所選擇的樣本首先要能正確反映該系統過程的內在規律。我們從生產現場採得的樣本數據中有不少可能是壞樣本,這樣的樣本會干擾你的神經網路訓練。通常我們認為壞樣本只是個別現象,所以我們希望通過盡可能大的樣本規模來抵抗壞樣本造成的負面影響。 2、其次是樣本數據分布的均衡性。你所選擇的樣本最好能涉及到該系統過程可能發生的各種情況,這樣可以極大可能的照顧到系統在各個情況下的規律特徵。通常我們對系統的內在規律不是很了解,所以我們希望通過盡可能大的樣本規模來「地毯式」覆蓋對象系統的方方面面。 3、再次就是樣本數據的規模,也就是你要問的問題。在確保樣本數據質量和分布均衡的情況下,樣本數據的規模決定你神經網路訓練結果的精度。樣本數據量越大,精度越高。由於樣本規模直接影響計算機的運算時間,所以在精度符合要求的情況下,我們不需要過多的樣本數據,否則我們要等待很久的訓練時間。 補充說明一下,不論是徑向基(rbf)神經網路還是經典的bp神經網路,都只是具體的訓練方法,對於足夠多次的迭代,訓練結果的准確度是趨於一致的,方法隻影響計算的收斂速度(運算時間),和樣本規模沒有直接關系。
如何確定何時訓練集的大小是「足夠大」的?
神經網路的泛化能力主要取決於3個因素:
1.訓練集的大小
2.網路的架構
3.問題的復雜程度
一旦網路的架構確定了以後,泛化能力取決於是否有充足的訓練集。合適的訓練樣本數量可以使用Widrow的拇指規則來估計。 拇指規則指出,為了得到一個較好的泛化能力,我們需要滿足以下條件(Widrow and Stearns,1985;Haykin,2008): N = nw / e 其中,N為訓練樣本數量,nw是網路中突觸權重的數量,e是測試允許的網路誤差。 因此,假如我們允許10%的誤差,我們需要的訓練樣本的數量大約是網路中權重數量的10倍。
Ⅵ 人工神經網路分析需要樣本量一般多大
1.樣本量的確定是費用與精度的函數,取決於研究的精度和費用,特別是實踐中費用考慮的更多!
2.抽樣調查,特別是隨機抽樣,樣本有代表性,往往比普查更有效率,甚至精度更高,這里我們主要計算和討論抽樣誤差,非抽樣誤差是人為因素,考質量控制;
3.樣本量的確定有賴於隨機抽樣,或者說主要是針對隨機抽樣,需要統計推斷下的計算樣本量,如果是非概率抽樣,理論上沒有計算和控制樣本量的問題;
4.如果研究只要40-50個樣本,感覺上應該是非概率抽樣(依賴被訪者選擇方式)
5.即使是非概率抽樣,我們很多時候也採用概率和統計分析及推斷思想來進行數據分析和下結論!只是這種方法沒有完善的理論支持,或者說有可能因為研究者的主觀判斷失誤造成偏差;
6.無論是概率抽樣還是非概率抽樣,樣本量越大當然效果越好,結論越穩定(理論上說)
7.40-50個樣本在統計上屬於小樣本,t-檢驗,如果樣本大於60或理想120以上,t分布就是正態分布了,所以40個樣本在統計上是最小推斷總體的樣本,換句話說40-50個樣本是介於小樣本和正態分布大樣本的臨界樣本量;如果不嚴格的話40個樣本就可以比較總體之間的統計差異了;
8.所以,一般來講,針對一個研究對象和人群,要進行比較最少40個樣本,比如男女差異,應該各擁有40人(80人),或者說你們進行配額樣本的時候要保證統計比較的類別至少有40個樣本;
9.那麼40個樣本有代表性嗎? 當然越多越好,越有代表性
10.但如果調查對象非常一致,沒有差異,只要問一個人就行了,所以要考慮研究對象的差異性,如果差異大,當然樣本量要大,如果沒有差異,同質性較高樣本量就少;
11.總體的大小對樣本量的選擇沒有影響,調查研究一般必須在研究前明確總體是誰,大總體沒有影響(上萬人),中等總體有點影響(5000人),小總體有很大影響(千百個人);總體是你要推斷的人群;
12.再者要考慮研究對象在總體中擁有的比例(比如要找艾滋病人),如果比例非常低的話,需要大樣本才能找到;但往往商業研究就採用非概率抽樣了,比如滾雪球抽樣,專家判斷抽樣,配額抽樣等;
13.另外,選擇40個人,如果是經過我們主觀判斷的,有一種說法:叫條件概率,也就是我們越了解研究目的和對象,我們就越能夠做出正確判斷;比如P(A|B),也就是說我們越了解B事件發生的概率,那麼A發生的概率就越確定;就像我們在Google中搜東西,你的關鍵詞=B越准確,得到的結果A就越是你想要的東西;
14.當然,如果你的主觀判斷錯了,就會犯更大的錯誤
15.還有就是希望得到的精度;如果得到的結果是70%加減10%誤差我們可以接受,但如果是總體本身就不到8%,那8%加減10%,尾巴比頭都大顯然不行,當然到底如何確定精度,是研究前你們與客戶要明確的,事先研究設計確定的,不能事後來說;
16.記住:有時候我們研究本身不需要那麼高的精度
17.整個研究設計過程的質量控制可以更有效提升研究品質
18.研究測試的技術(接近自然科學儀器測量)可獲得更好研究品質
19.根據精確的抽樣,需要採用精確的統計分析,否則也達不到效果
20.任何研究都不會完美,都是權衡和保守的過程,總的來講保守不犯錯
21.如果研究有實驗設計和研究設計,所以實驗設計,包括所謂雙盲實驗、正交設計、拉丁方格等,確定樣本分組是非常精細的,有助於研究品質;但設計缺陷會造成降低品質;
22.處置組和對照組的設計,主要應用在傳播效果、廣告效果研究上,需要有設計原則
23.實驗設計也強調對其它影響因素的控制,也就是X對Y的影響,要控制住Z的干擾,更能提高研究品質
24.被訪者的參與度(你的激勵方式)也重要,一分錢一分貨;我們是花錢買信息
25.任何理由都是可解釋的,但這里主要是要用術語,越專業越說行話,別人更相信,所以解釋樣本量的科學性,有時候要用科學,也就是理論;
26.因為有理論,顯得有水平,因為有水平就有話語權,就有執行力!所以權威部門的設計或出面,客戶就相信了!
27.研究過程,不斷修正,比如追加樣本也是解決問題的辦法
28.連續性研究,也會解決或減少對樣本量的需求
29.廣告效果研究經常採用rolling data的方式,因為廣告效果有延遲效應,每周50個樣本,4周一個分析,就是200樣本,第五周分析前4周,第六周分析2-5周數據,進行比較和檢驗,這是常有方法;
Ⅶ 神經網路模型需要多少條數據
輸入指標是什麼意思。輸入維數嗎?數據一是這些數據有意義是一類的,或者說是有內部規律。數量上多一點好一點。訓練樣本個預測樣本2比1左右就好。學習過程要注意的是你的學習速率,這影響最優解的尋找。