導航:首頁 > 數據分析 > 區分哪些是數據挖掘任務

區分哪些是數據挖掘任務

發布時間:2024-02-27 03:31:01

㈠ 數據挖掘是做什麼的

數據挖掘又譯為資料探勘、數據采礦。是一種透過數理模式來分析企業內儲存的大量資料,以找出不同的客戶或市場劃分,分析出消費者喜好和行為的方法。它是資料庫知識發現中的一個步驟。數據挖掘一般是指從大量的數據中自動搜索隱藏於其中的有著特殊關系性的信息的過程。主要有數據准備、規律尋找和規律表示3個步驟。數據挖掘的任務有關聯分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
是一個用數據發現問題、解決問題的學科。
通常通過對數據的探索、處理、分析或建模實現。
我們可以看到數據挖掘具有以下幾個特點:
基於大量數據:並非說小數據量上就不可以進行挖掘,實際上大多數數據挖掘的演算法都可以在小數據量上運行並得到結果。但是,一方面過小的數據量完全可以通過人工分析來總結規律,另一方面來說,小數據量常常無法反映出真實世界中的普遍特性。
非平凡性:所謂非平凡,指的是挖掘出來的知識應該是不簡單的,絕不能是類似某著名體育評論員所說的「經過我的計算,我發現了一個有趣的現象,到本場比賽結束 為止,這屆世界盃的進球數和失球數是一樣的。非常的巧合!」那種知識。這點看起來勿庸贅言,但是很多不懂業務知識的數據挖掘新手卻常常犯這種錯誤。
隱含性:數據挖掘是要發現深藏在數據內部的知識,而不是那些直接浮現在數據表面的信息。常用的BI工具,例如報表和OLAP,完全可以讓用戶找出這些信息。
新奇性:挖掘出來的知識應該是以前未知的,否則只不過是驗證了業務專家的經驗而已。只有全新的知識,才可以幫助企業獲得進一步的洞察力。
價值性:挖掘的結果必須能給企業帶來直接的或間接的效益。有人說數據挖掘只是「屠龍之技」,看起來神乎其神,卻什麼用處也沒有。這只是一種誤解,不可否認的 是在一些數據挖掘項目中,或者因為缺乏明確的業務目標,或者因為數據質量的不足,或者因為人們對改變業務流程的抵制,或者因為挖掘人員的經驗不足,都會導 致效果不佳甚至完全沒有效果。但大量的成功案例也在證明,數據挖掘的確可以變成提升效益的利器

㈡ 十三種常用的數據挖掘的技術

十三種常用的數據挖掘的技術
一、前 沿
數據挖掘就是從大量的、不完全的、有雜訊的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識的過程。數據挖掘的任務是從數據集中發現模式,可以發現的模式有很多種,按功能可以分為兩大類:預測性(Predictive)模式和描述性(Descriptive)模式。在應用中往往根據模式的實際作用細分為以下幾種:分類,估值,預測,相關性分析,序列,時間序列,描述和可視化等。
數據挖掘涉及的學科領域和技術很多,有多種分類法。根據挖掘任務分,可分為分類或預測模型發現、數據總結、聚類、關聯規則發現、序列模式發現、依賴關系或依賴模型發現、異常和趨勢發現等等;根據挖掘對象分,有關系資料庫、面向對象資料庫、空間資料庫、時態資料庫、文本數據源、多媒體資料庫、異質資料庫、遺產資料庫以及環球網Web;根據挖掘方法分,可粗分為:機器學習方法、統計方法、神經網路方法和資料庫方法。機器學習中,可細分為:歸納學習方法(決策樹、規則歸納等)、基於範例學習、遺傳演算法等。統計方法中,可細分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數判別等)、聚類分析(系統聚類、動態聚類等)、探索性分析(主元分析法、相關分析法等)等。神經網路方法中,可細分為:前向神經網路(BP演算法等)、自組織神經網路(自組織特徵映射、競爭學習等)等。資料庫方法主要是多維數據分析或OLAP方法,另外還有面向屬性的歸納方法等等。
二、數據挖掘技術簡述
數據挖掘的技術有很多種,按照不同的分類有不同的分類法。下面著重討論一下數據挖掘中常用的一些技術:統計技術,關聯規則,基於歷史的分析,遺傳演算法,聚集檢測,連接分析,決策樹,神經網路,粗糙集,模糊集,回歸分析,差別分析,概念描述等十三種常用的數據挖掘的技術。
1、統計技術
數據挖掘涉及的科學領域和技術很多,如統計技術。統計技術對數據集進行挖掘的主要思想是:統計的方法對給定的數據集合假設了一個分布或者概率模型(例如一個正態分布)然後根據模型採用相應的方法來進行挖掘。
2、關聯規則
數據關聯是資料庫中存在的一類重要的可被發現的知識。若兩個或多個變數的取值之I司存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出資料庫中隱藏的關聯網。有時並不知道資料庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。
3、基於歷史的MBR(Memory-based Reasoning)分析
先根據經驗知識尋找相似的情況,然後將這些情況的信息應用於當前的例子中。這個就是MBR(Memory Based Reasoning)的本質。MBR首先尋找和新記錄相似的鄰居,然後利用這些鄰居對新數據進行分類和估值。使用MBR有三個主要問題,尋找確定的歷史數據;決定表示歷史數據的最有效的方法;決定距離函數、聯合函數和鄰居的數量。
4、遺傳演算法GA(Genetic Algorithms)
基於進化理論,並採用遺傳結合、遺傳變異、以及自然選擇等設計方法的優化技術。主要思想是:根據適者生存的原則,形成由當前群體中最適合的規則組成新的群體,以及這些規則的後代。典型情況下,規則的適合度(Fitness)用它對訓練樣本集的分類准確率評估。
5、聚集檢測
將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程被稱為聚類。由聚類所生成的簇是一組數據對象的集合,這些對象與同一個簇中的對象彼此相似,與其它簇中的對象相異。相異度是根據描述對象的屬眭值來計算的,距離是經常採用的度量方式。
6、連接分析
連接分析,Link analysis,它的基本理論是圖論。圖論的思想是尋找一個可以得出好結果但不是完美結果的演算法,而不是去尋找完美的解的演算法。連接分析就是運用了這樣的思想:不完美的結果如果是可行的,那麼這樣的分析就是一個好的分析。利用連接分析,可以從一些用戶的行為中分析出一些模式;同時將產生的概念應用於更廣的用戶群體中。
7、決策樹
決策樹提供了一種展示類似在什麼條件下會得到什麼值這類規則的方法。
8、神經網路

在結構上,可以把一個神經網路劃分為輸入層、輸出層和隱含層。輸入層的每個節點對應—個個的預測變數。輸出層的節點對應目標變數,可有多個。在輸入層和輸出層之間是隱含層(對神經網路使用者來說不可見),隱含層的層數和每層節點的個數決定了神經網路的復雜度。
除了輸入層的節點,神經網路的每個節點都與很多它前面的節點(稱為此節點的輸入節點)連接在一起,每個連接對應一個權重Wxy,此節點的值就是通過它所有輸入節點的值與對應連接權重乘積的和作為—個函數的輸入而得到,我們把這個函數稱為活動函數或擠壓函數。
9、粗糙集
粗糙集理論基於給定訓練數據內部的等價類的建立。形成等價類的所有數據樣本是不加區分的,即對於描述數據的屬性,這些樣本是等價的。給定現實世界數據,通常有些類不能被可用的屬性區分。粗糙集就是用來近似或粗略地定義這種類。
10、模糊集
模糊集理論將模糊邏輯引入數據挖掘分類系統,允許定義「模糊」域值或邊界。模糊邏輯使用0.0和1.0之間的真值表示一個特定的值是一個給定成員的程度,而不是用類或集合的精確截斷。模糊邏輯提供了在高抽象層處理的便利。
11、回歸分析
回歸分析分為線性回歸、多元回歸和非線性同歸。在線性回歸中,數據用直線建模,多元回歸是線性回歸的擴展,涉及多個預測變數。非線性回歸是在基本線性模型上添加多項式項形成非線性同門模型。
12、差別分析
差別分析的目的是試圖發現數據中的異常情況,如噪音數據,欺詐數據等異常數據,從而獲得有用信息。
13、概念描述
概念描述就是對某類對象的內涵進行描述,並概括這類對象的有關特徵。概念描述分為特徵性描述和區別性描述,前者描述某類對象的共同特徵,後者描述不同類對象之間的區別,生成一個類的特徵性描述只涉及該類對象中所有對象的共性。
三、結束語
由於人們急切需要將存在於資料庫和其他信息庫中的數據轉化為有用的知識,因而數據挖掘被認為是一門新興的、非常重要的、具有廣闊應用前景和富有挑戰性的研究領域,並應起了眾多學科(如資料庫、人工智慧、統計學、數據倉庫、在線分析處理、專家系統、數據可視化、機器學習、信息檢索、神經網路、模式識別、高性能計算機等)研究者的廣泛注意。作為一門新興的學科,數據挖掘是由上述學科相互交叉、相互融合而形成的。隨著數據挖掘的進一步發展,它必然會帶給用戶更大的利益。

㈢ 什麼是數據挖掘,都有哪些數據挖掘任務

數據挖掘(data
mining),又稱為資料庫中的知識發現(knowledge
discovery
in
database,
kdd),就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單的說,數據挖掘就是從大量數據中提取或「挖掘」知識。

㈣ 什麼是數據挖掘

數據挖掘(Data Mining)是指通過大量數據集進行分類的自動化過程,以通過數據分析來識別趨勢和模式,建立關系來解決業務問題。換句話說,數據挖掘是從大量的、不完全的、有雜訊的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。

原則上講,數據挖掘可以應用於任何類型的信息存儲庫及瞬態數據(如數據流),如資料庫、數據倉庫、數據集市、事務資料庫、空間資料庫(如地圖等)、工程設計數據(如建築設計等)、多媒體數據(文本、圖像、視頻、音頻)、網路、數據流、時間序列資料庫等。也正因如此,數據挖掘存在以下特點:

(1)數據集大且不完整
數據挖掘所需要的數據集是很大的,只有數據集越大,得到的規律才能越貼近於正確的實際的規律,結果也才越准確。除此以外,數據往往都是不完整的。

(2)不準確性
數據挖掘存在不準確性,主要是由雜訊數據造成的。比如在商業中用戶可能會提供假數據;在工廠環境中,正常的數據往往會收到電磁或者是輻射干擾,而出現超出正常值的情況。這些不正常的絕對不可能出現的數據,就叫做雜訊,它們會導致數據挖掘存在不準確性。

(3)模糊的和隨機的
數據挖掘是模糊的和隨機的。這里的模糊可以和不準確性相關聯。由於數據不準確導致只能在大體上對數據進行一個整體的觀察,或者由於涉及到隱私信息無法獲知到具體的一些內容,這個時候如果想要做相關的分析操作,就只能在大體上做一些分析,無法精確進行判斷。
而數據的隨機性有兩個解釋,一個是獲取的數據隨機;我們無法得知用戶填寫的到底是什麼內容。第二個是分析結果隨機。數據交給機器進行判斷和學習,那麼一切的操作都屬於是灰箱操作。

㈤ 數據挖掘的功能 數據挖掘可以挖掘到什麼類型的模式

數據挖掘功能用於指定數據挖掘任務要找的模式類型.一般而言,數據挖掘任務可以分兩類:描述和預測.描述性挖掘任務描述資料庫中的數據的一般性質.預測性挖掘任務對當前數據進行推斷,以做出預測.
概念/類描述:特徵化和區分
數據特徵化
數據區分
挖掘頻繁模式,關聯和相關
關聯分析.假設作為AllElectronics的市場部經理,想確定在相同的事務中,哪些商品經常被一起購買.從AllElectronics事務資料庫中挖掘出來的這種規則的一個例子是
buys (X, "computer") => buys(X, "software") [support = 1%, confidence = 50%]
其中,X是變數,代表顧客.50%的置信度或可信性表示,如果一位顧客購買計算機,則購買軟體的可能性是50%.1%的支持度意味所分析的所有事務的1%顯示計算機與軟體一起購買.這個關聯規則涉及單個重復的屬性或謂詞(即 buys).包含單個謂詞的關聯規則稱作單維關聯規則(single-dimensional association rule).去掉謂詞符號,上面的規則可以簡單地寫成 "computer => software [1%, 50%]".
假設給定涉及購買的AllElectronics關系資料庫.數據挖掘系統還可以發現如下形式的規則:
age(X, "20...29") ^ income(X, "20K...29K") => buys(X, "CD player") [support = 2%, confidence = 60%]
該規則指出,所研究的AllElectronics顧客,2%是20 ~ 29歲,年收入為2000 ~ 29000,並且在AllElectronics購買了CD播放機.這個年齡和收入組的顧客購買CD機的概率為60%.注意,這個屬性稱為一維,上面的規則可以稱作多維關聯規則 (multidimensional association rule).

閱讀全文

與區分哪些是數據挖掘任務相關的資料

熱點內容
費用較高的網路類型是 瀏覽:570
怎麼查看一個網站的後台 瀏覽:967
核桃編程有什麼用處 瀏覽:796
如何用文本把數據導入列印系統 瀏覽:629
電信5s3g能升級4g嗎 瀏覽:153
linux內核缺頁異常 瀏覽:258
word2010取消畫布 瀏覽:943
javajframe更新界面 瀏覽:63
機械硬碟u盤放不進4g文件 瀏覽:81
linux下如何復制黏貼 瀏覽:479
蘋果安裝ipa文件 瀏覽:757
5sqq分享視頻文件 瀏覽:67
華為各版本系統 瀏覽:145
編程中的封裝性是什麼意思 瀏覽:43
程序設計畢業答辯ppt 瀏覽:742
美版5s有鎖版本好 瀏覽:200
解壓文件電腦很卡 瀏覽:551
現金比率在哪個資料庫找到 瀏覽:682
c獲取路徑下所有文件 瀏覽:478
win10列印機離線 瀏覽:503

友情鏈接