導航:首頁 > 數據分析 > 常用的數據分析指標主要包括什麼

常用的數據分析指標主要包括什麼

發布時間:2022-10-08 18:29:02

① APP數據分析的常用指標有哪些

①用戶數據監測

用戶的下載、注冊、瀏覽、點擊、退出、付款等行為是進行App數據分析的基礎數據來源,需要及時對這些數據進行收集、整理,如果能夠藉助BI工具,比如DataFocus,對這些數據進行實時展示,監測數據的變動情況就再好不過了。


②廣告投放效果分析


有時候公司花了很大的金錢和精力去不同渠道投放廣告,但往往收效甚微,沒有達到預期的效果。這時候就需要對這些廣告的投放效果進行一個總結分析,哪些渠道的新增用戶更多、投資回報率更高、注冊轉化率更高?而哪些渠道的效果較差?通過對這些內容的數據分析,優化配置資源,可以將更多的資源投放到表現較好的渠道中。


③App頁面設計分析


設計完成的App一般都會存在一個核心模塊,這是開發者最希望用戶到達的一個界面。藉助對App內用戶的行為監測,對用戶後續的操作行為進行監測,計算出核心模塊到達率,同時可以對App界面設計的合理性進行探究。


④用戶粘性分析


通過廣告在提升App的知名度後,我們需要做的是留住更多的用戶,且最好是活躍用戶。通過監測用戶的活躍情況、留存率和流失率等指標的進行用戶留存分析和粘性分析。流失率的變化可以直觀的反應出該APP在朝好的方向發展還是不好的方向發展,可以幫助調整App的內容,迎合用戶喜好。


⑤用戶畫像分析


通過對使用用戶的一些基礎信息的分類整理,可以對用戶進行畫像,定位該App的核心用戶,並可以針對這些用戶進行後續的研發和推廣。

② 企業財務分析過程中常見的數據分析指標有哪些

大家都知道,對一個公司的財務數據進行分析可以很好的掌握了解該公司的整體狀況。投資如果能夠很好的掌握數據分析常用的指標,就能很好的抓住企業的運營發展情況。那麼在財務分析的過程中,哪些數據指標較為常見呢?接下來, 公司 為大家講解。

一般來說,其實對企業財務數據的解析,主要是針對該企業業務運營成功及財務狀況的綜合總結與評價而作出的詳細數據。在這些數據中,主要包含有企業的償債、運營、獲利以及發展等能力了數據。通過這些數據可以很好的得出企業的財務、經營是否健康發展。從而分析出後續的業務前景與潛力。

接下來,我們就爭對以下幾個常用的數據分析指標給大家做相關解讀。

1、變現能力比率指標

這個主要反應的是一個企業公司生產現金的能力,通俗來說也就是賺錢的能力。表明該企業公司能夠在短時間內現金流產出及資產流動的多少。如:速動比率與流動比率。

速動比率是流動資金總計與存貨的差構成了速動資產總計/流動負債總計。反應的是馬上變現用來償還流動負債的能力。

流動比率是流動資產總計/流動負債總計。反應出企業流動資金在贏得短時間債務的時候,可以變現償還債務的能力,其比率高低會大不相同。

2、負債比率指標

該比率很好的反應出資產、凈資產、債務之間的關系,反應出公司企業嘗付到期長期的債務能力。其中包含,如:產權比率、資產負債比率等。

3、獲利能力比率指標

這個就更加容易理解了,主要指的是企業通過經營獲取收益的能力。該指標對於投資人及債務人都是非常關注的。其中包含有,如:毛利率、凈利率、資產凈利率、凈資產收益率等。

上述指標對於企業財務分析可以說是不僅常見而且還是非常重要的,當然除了這些,還會有其他的相關指標也是一樣重要的。指標的不同,其特點也不同,投資者可以結合其他相關財務分析資料進行學習掌握。今天的內容就介紹到這里,希望能夠幫助到大家。

③ 你知道互聯網業務數據分析常用指標有哪些嗎

常用的數據指標包括三方面:用戶數據、行為數據、業務數據,串成一句話即是:誰,幹了什麼,結果如何

可從用戶來源、用戶存量、用戶增量、用戶健康度四個常用維度去看
用戶來源 :指用戶來源的渠道,比如:網路自然搜索、網路關鍵字投放、搜狗、微信
用戶存量 :指日活DAU(Daily Active User,日活躍用戶數量)、月活MAU(Monthly Active User,月活躍用戶數量)等用戶活躍數據。註:需要說明的是MAU不等於各日的DAU之和,需要對用戶去重統計才有意義。
用戶增量 :指新增用戶,定義新增用戶的流程節點和基於維度不同,統計出來的數據不同,在日常工作中,要和團隊明確統一定義的標准,降低溝通成本
用戶健康度 :可用用戶留存率等指標衡量,關於留存率計算一般有三種演算法

可從訪問次數/頻率、訪問時長、訪問轉化、訪問跳出四個常用維度去看
訪問次數/頻率 :可用PV(Page View,頁面瀏覽量)、UV(Unique Visitor,獨立訪客量)、訪問深度來呈現
PV指頁面訪問次數,UV指訪客人數
訪問深度 :用來衡量用戶對產品的了解程度

訪問時長 :可一定程度量化當前頁面內容對用戶的吸引程度。註:在處理訪問時長數據時,需要注意剔除一些非常大的值,避免用戶去做其他事情頁面沒關這種極端情況帶來的干擾
訪問轉化 :指用戶訪問相關頁面後,轉化成注冊用戶、付費用戶的比率
訪問跳出 :可用彈出率等指標衡量頁面對用戶的質量,註:彈出率是基於訪問次數的

可從業務總量、人均付費、人數、產品健康度四個常用維度去看
總量 :一般會用GMV(Gross Merchandise Volume,成交總額)來度量,
人均付費 :一般用ARPU(Average Revenue Per User,每用戶平均收入)/ARPPU(Average Revenue Per Paying User,每付費用戶帶來的平均收益)
人數 :一般指付費人數
產品健康度 :衡量大多數產品健康度,看其能帶來的收益,即可以用付費率、付費頻次等指標來衡量

上述具體指標,在實際工作中,要根據產品的具體形態調整。比如業務數據的指標,視頻產品一般就會採用觀看時長來衡量總量,觀看人數來度量人數這個指標

④ 數據統計分析常用指標

數據統計分析常用指標
在進行數據分析時,經常會遇到一些分析指標或術語。這些術語是幫助我們打開思路,通過多個角度對數據進行深度解讀,可以說是前人已經總結和使用的數據分析方法。下面是數據統計分析常用的指標或術語:1.平均數一般指算術平均數。算術平均數是指,全部數據累加除以數據個數。它是非常重要的基礎性指標。幾何平均數:適用於對比率數據的平均,並主要用於計算數據平均增長(變化)率。加權平均數:普通的算術平均數的權重相等,算術平均數是特殊的加權平均數(權重都是1)。例如,某人射擊十次,其中二次射中10環,三次射中8環,四次射中7環,一次射中9環,那麼他平均射中的環數為:(10×2+9×1+8×3+7×4)÷10=8.12.絕對數與相對數絕對數是反映客觀現象總體在一定時間、地點條件下的總規模、總水平的綜合性指標,如GDP。此外,也可以表現在一定條件下數量的增減變化。相對數是指兩個有聯系的指標對比計算得到的數值,他是用以反映客觀現象逐漸數量聯系程度的綜合指標。相對數=比較數值(比數)/基礎數值(基數)基數:對比標準的指標數值。比數:是用作與基數對比的指標數值。3.百分比與百分點百分比表示一個數是另一個數的百分之幾的數,也叫百分率。百分點是用以表達不同百分數之間的「算術差距」(即差)的單位。用百分數表達其比例關系,用百分點表達其數值差距。1個百分點=1%,表示構成的變動幅度不宜用百分數,而應該用百分點。舉例說,0.05和0.2分別是數,而且可分別化為百分數(5%和20%)。於是比較這兩個數值有幾種方法:①0.2是0.05的四倍,也就是說20%是5%的四倍,即百分之四百(400%)。②0.2比0.05多三倍,也就是說20%比5%多三倍,即百分之三百(300%)。③0.2比0.05多出0.15,也就是說20%比5%多十五個百分點。4.頻數與頻率頻數是指一組數據中個別數據重復出現的次數。頻數是絕對數,頻率是相對數。5.比例與比率兩者都是相對數。比例是指總體中各部分的數值佔全部數值的比重,通常反映總體的構成和結構。比率是指不同類別數值的對比,它反映的不是部分與整體之間的關系,而是一個整體中各部分之間的關系。這一指標經常會用在社會經濟領域。6.倍數與番數同屬於相對數。倍數是一個數除以另一個數所得的商。A÷B=C,A就是C的倍數。(倍數一般是表示數量的增長或上升幅度,而不適用於表示數量的減少或下降。)番數是指原來數量的2的N次方倍。比如翻一番就是原來數的2倍,翻二番就是原來數乘以4,翻三番就是原來數乘以8。7.同比與環比同比是指與歷史同時期進行比較得到的數據,該指標主要反映的是事物發展的相對情況。如2012年12月與2011年12月相比。英文翻譯同比為year-on-year ratio。環比是指與前一個統計期進行比較得到的數值,該指標主要反映的是事物逐期發展的情況。2010年12月與2010年11月相比。環比英文可翻譯為compare with the performance/figure/statistics last month。同比是與上年的同期水平對比,環比是同一年連環的兩期對比。8.基線和峰值、極值分析峰值:增長曲線的最高點(頂點),如中國總人口2033年將達峰值15億,性別比嚴重失衡。拐點:在數學上指改變曲線向上或向下方向的點。在統計學中指趨勢開始改變的地方,出現拐點後的走勢將保持基本穩定。9.增量與增速增量是指數值的變化方式和程度。如3增大到5,則3的增量為+2;3減少到1,則3的增量為-2。增速是指數值增長程度的相對指標。

⑤ 電商運營數據分析指標有哪些

1)總體運營指標:從流量、訂單、總體銷售業績、整體指標進行把控,起碼對運營的電商平台有個大致了解,到底運營的怎麼樣,是虧是賺。

2)網站流量指標:即對訪問你網站的訪客進行分析,基於這些數據可以對網頁進行改進,以及對訪客的行為進行分析等等。


3)銷售轉化指標:分析從下單到支付整個過程的數據,幫助你提升商品轉化率。也可以對一些頻繁異常的數據展開分析。


4)客戶價值指標:這里主要就是分析客戶的價值,可以建立RFM價值模型,找出那些有價值的客戶,精準營銷等等。


5)商品類指標:主要分析商品的種類,那些商品賣得好,庫存情況,以及可以建立關聯模型,分析那些商品同時銷售的幾率比較高,而進行捆綁銷售。


6)市場營銷活動指標,主要監控某次活動給電商網站帶來的效果,以及監控廣告的投放指標。


7)風控類指標:分析賣家評論,以及投訴情況,發現問題,改正問題。


8)市場競爭指標:主要分析市場份額以及網站排名,進一步進行調整。

⑥ 銷售數據分析指標有哪些

1、售罄率


計算公式:售罄率=(一個周期內)銷售件數/進貨件數


售罄率是指一定時間段某種貨品的銷售占總進貨的比例,是根據一批進貨銷售多少比例才能收回銷售成本和費用的一個考核指標,便於確定貨品銷售到何種程度可以進行折扣銷售清倉處理的一個合理尺度。


2、庫存周轉率


計算公式:存貨周轉率=(一個周期內)銷售貨品成本/存貨成本


庫存天數=365天÷商品周轉率


存貨周轉率是對流動資產周轉率的補充說明,是衡量企業銷售能力及存貨管理水平的綜合性指標。它是銷售成本與平均存貨的比率。


3、庫銷比


計算公式:庫銷比=(一個周期內)本期進貨量/期末庫存


是一個檢測庫存量是否合理的指標,如月庫銷比,年平均庫銷比等,計算方法:月庫銷比,月平均庫存量/月銷售額年平均庫銷比, 年平均庫存量/年銷售額,比率高說明庫存量過大,銷售不暢,過低則可能是生產跟不上。


4、存銷比


計算公式:存銷比=(一個周期內)庫存/周期內日均銷量


存銷比是指在一個周期內,商品庫存與周期內日均銷量的比值,是用天數來反映商品即時庫存狀況的相對數。而更為精確的法則是使用日均庫存和日均銷售的數據來計算,從而反映當前的庫存銷售比例。


5、銷售增長率


計算公式:銷售增長率=(一周期內)銷售金額或數量/(上一周期)銷售金額或數量-1%


類似:環比增長率=(報告期-基期)/基期×100%


銷售增長率是企業本年銷售收入增長額同上年銷售收入總額之比。本年銷售增長額為本年銷售收入減去上年銷售收入的差額,它是分析企業成長狀況和發展能力的基本指標。


6、銷售毛利率


計算公式:銷售毛利率=實現毛利額/實現銷售額*100%


銷售毛利率是毛利占銷售凈值的百分比,通常稱為毛利率。銷售毛利是銷售凈額與銷售成本的差額,如果銷售毛利率很低,表明企業沒有足夠多的毛利額,補償期間費用後的盈利水平就不會高;也可能無法彌補期間費用,出現虧損局面。通過本指標可預測企業盈利能力。


7、老顧客貢獻率


以銷售額為例,計算公式=老顧客貢獻的銷售額/總體顧客的銷售額 x 100%,分子分母也可以換成企業關心的其他指標,比如訂單數、利潤等。


8、品類支持率


計算公式:品類支持率=某品類銷售數或金額÷全品類銷售數或金額×100%


反應該品類對整體的貢獻程度,越大說明對整體的貢獻越大。


9、客單價


計算公式:客單價=總銷售金額÷總銷售客戶數


是指店鋪每一個顧客平均購買商品的金額,也即是平均交易金額。


10、坪效


計算公式: 平效 = 銷售業績÷店鋪面積。


就是指終端賣場1平米的效率,一般是作為評估賣場實力的一個重要標准。


11、 交叉比率


計算公式: 交叉比率=毛利率×周轉率


交叉比率通常以每季為計算周期,交叉比率低的優先淘汰商品。交叉比率數值愈大愈好,因它同時兼顧商品的毛利率及周轉率,其數值愈大,表示毛利率高且周轉又快。

⑦ 商品數據分析三個常用指標是什麼

商品數據分析三個常用指標有:

1、客流量、客單價分析:

主要指本月平均每天人流量、客單價情況,與去年同期對比情況。這組數據在分析門店客流量、客單價時特別要注重門店開始促銷活動期間及促銷活動前的對比分析,促銷活動的開展是否對於提高門店客流量、客單價起到了一定的作用。

(7)常用的數據分析指標主要包括什麼擴展閱讀

商品間接數據的組合分析方法

1、銷售綜合分析

銷售綜合分析的分析指標是銷售額、毛利額、毛利率、庫銷比、售罄率;分析條件是時間段(任意時間段、自然時間段)、經營方式;分析層次是總部,門店,大類,款式,價位帶,單品。

2、關聯分析(同比/環比分析)

將上一級分析的報表條件傳遞給同比分析,用同比分析的結構來檢驗我們對毛利調整策略的結果,看一下數據變化趨勢,以便進行下一階段的商品調整。

3、顧客數與客單價

有效提升銷售額的兩個途徑是:提高實現消費的顧客人數、提高每位顧客購買的金額數。有效顧客(即實現消費的顧客)數高,說明你的商品、價格和服務能吸引、滿足消費者的需求,客單價高,說明你的商品寬度能滿足消費者的一站式購物心理、商品陳列的相關性和連貫性能不斷地激發消費者的購買慾望。

⑧ 數據分析指標有那些

有下面幾個指標:
1. 常規數據指標的監測,不在話下。如用戶量,新用戶量,UGC量(社交產品),銷量,付費量,推廣期間的各種數據等等。這些是最基礎也是最基本,同時也是boss們最關注的指標。你接手這項工作的時候第一任務就是把這些數據梳理好。
2. 渠道分析,或者說流量分析。對於一個在上升期得APP來說,你們會花資源去引流量、去別的渠道拉用戶。 這時候就需要監測各個渠道的好壞,哪個效果好,哪個單價便宜,這都是需要渠道數據監測來完成。當然,你還需要跟蹤監測不同渠道用戶的後續表現,給每個渠道的用戶進行打分,讓BOSS知道哪個渠道值得投,哪個渠道是垃圾。 同時也可以監測iphone和Android用戶的質量區別,一般來說,iphone用戶質量要略高於android用戶。當然,有多餘精力的話還可以監測不同機型之間用戶的表現區別。 總之就是在不同的維度上監測不同用戶的表現。
3. 用戶的核心轉化率。想想你的APP的核心功能是什麼,然後去監測這個核心功能的轉化率。在游戲APP里可能叫付費率,在電商APP里可能叫購買率。不同的行業都有相應的不同轉化率,你可以將自己的產品和行業平均進行對比,看看自己的產品在行業中所處的地位。同時,通過長期的監測,你還可以更具這項數據評判APP不同版本的好壞。
4. 用戶使用時長的監測。 一方面,這是一個監測用戶活躍度的非常好的指標。用戶使用時間長就意味這活躍度高,反之亦然。另一方面,想一想你的APP在設計的時候,當初預計一個正常的用戶每天會用多少時間,上線後用戶真正用的時間是否和你的預計相同? 如果這裡面有很大的偏差,就說明用戶對APP的認知和你當時設想是有不同的。 這個時候你就需要想想如何來調整你的產品,去迎合用戶的認知。(這里說一個題外話,個人認為在對產品做修改的時候一定是想辦法去迎合用戶,而不是想辦法改變用戶讓用戶去適應產品。這里以微博作為例子,用戶一直把微博看做是一款傳媒產品,一款信息交流工具。而微博一直想把它打造成一個綜合社交平台,推出了微博會員,用戶推薦,各種私信評論規則等,後台事實證明這一切都沒有改變用戶對微博的認知,微博所作的一切都是無效的。所以當你苦惱於為什麼用戶沒有按照我的設想去用產品的時候,一定要想著我該怎樣變才能迎合用戶的需求,而不是去想我該怎樣變才能讓用戶認可產品的設計?)
5. 用戶流失情況。 一方面需要監測用戶的流失率,比如新用戶進來後,第一、三、七、三十天還在使用產品的有多少人。流失率的變化可以直觀的反應APP再朝好的方向發展還是不好的方向發展。行業中也有一些平均水平指標,你可以參考這些指標評判自己APP的好壞。另一方面需要找到用戶流失的地方,看看用戶在哪些地方流失了,然後有的放矢,進行相應的改動。如果有能力的話,建模將用戶流失的各種情況都刻畫出來,這樣在產品的後續改動中就更加游刃有餘了。
6. 活躍用戶動態。密切關注APP活躍用戶的動態,傾聽他們的聲音。一旦發現異常立馬組織人員商討對策。活躍用戶(或者說核心用戶)是APP最寶貴的資源,關注他們的一舉一動,這個重要性不需要多說了吧.
7. 用戶特徵描述。這點和指標關系不大,有點建模的意思了。 將用戶的各個指標特徵進行描述,越詳細越好。如性別,年齡,地域,手機型號,網路型號,職業收入,興趣愛好等等。這些數據平時沒什麼用,但對於產品人員來說,有時候會給他們很大的靈感。如果可能的話,還可以分以下維度:如活躍用戶的特徵是什麼樣的,較沉默的用戶的特徵是怎樣的,流失用戶的特徵是怎樣的。
8. 用戶生命周期的監測。這個是專門針對那些社交、游戲類的APP來說的。當你的APP上線一段時間後(6-12個月),你可以回頭看看一個正常的用戶,完整的體驗你的APP的流程是怎樣的,大概需要多少時間。根據這個數據再結合一些其它數據可以大致的估算下你的產品能夠到怎樣的規模,讓你的BOSS們知道這款產品最終能發展成什麼樣。 當然這個很難,產品的發展受到太多因素的影響,光靠你一個數據分析師來預測顯然是不那麼靠譜的。

⑨ 「數據分析」需要哪些「指標」

分析數據需要的指標有:

  1. 常規數據指標的監測,不在話下。如用戶量,新用戶量,UGC量(社交產品),銷量,付費量,推廣期間的各種數據等等。

  2. 渠道分析,或者說流量分析。對於一個在上升期得APP來說,你們會花資源去引流量、去別的渠道拉用戶。

  3. 用戶的核心轉化率。

  4. 用戶使用時長的監測。

  5. 用戶流失情況。

  6. 活躍用戶動態。

  7. 用戶特徵描述。

  8. 用戶生命周期的監測。

⑩ 數據採集與分析的指標有哪些

講解幾個數據分析的常用指標

增長研究社
08-04 · 優質科技領域創作者
評價指標是評判數據表現的衡量標准,它是數據分析中非常重要的部分,也是產品經理必須掌握的重點內容。不同的數分任務採用不同的評價指標,對於同一種任務在不同場景下也會採用不同的評價指標。

例如在檢測垃圾郵件這個場景中,這是一個典型的二分類問題,所以可以用精確率和AUC曲線這兩個指標判斷模型的效果;在人臉識別場景中,使用誤識率、拒識率和ROC曲線這三個指標評判模型的效果。

不同指標的著重點不一樣,一個指標在不同場景下適用性可能不一樣,產品經理需要學習不同指標的特性,在項目中根據實際需要選擇不同的評價指標。下文中我們重點講解一些產品經理常用的評價指標。

01 混淆矩陣

混淆矩陣(Confusion Matrix)是評價模型精度的一種標准格式,用一個N行N列的矩陣形式來表示。矩陣每一列代表預測值,每一行代表實際值。

從混淆矩陣的名字不難看出來,它的作用是表明多個類別之間是否有混淆,也就是模型到底判斷對了多少個結果,有多少個結果判斷錯了。同時混淆矩陣能夠幫助我們理解准確率、精確率和召回率的區別。

面對一個二分類問題時,通常我們會將結果表示為正類與負類,兩者可以隨意指定。在上述區分貓狗圖片的例子中,我們假定貓為正類、狗為負類。那麼在實際進行預測的時候就會出現四種情況,如下圖所示:

混淆矩陣

如果這張圖片是貓,機器預測出來的結果也是貓,這種情況稱為真正類(True Positive,以下簡稱TP);

如果這張圖片是狗,機器預測出來的結果也是狗,這種情況稱為真負類(True Negative,以下簡稱TN);

如果這張圖片是貓,機器預測出來的結果是狗,這種情況稱為假負類(False Negative,以下簡稱FN);

如果這張圖片是狗,機器預測的結果是貓,則為假正類(False Positive,以下簡稱FP)。

02 准確率

准確率(Accuracy)是指預測正確的樣本占總樣本的比例,即模型找到的真正類與真負類與整體預測樣本的比例。用公式表示為:

Accuracy=(TP+TN)/(TP+TN+FP+FN)
准確率的取值范圍為[0,1],一般情況下取值越大,代表模型預測能力越好。

假設上述貓狗圖片分類的例子中,貓狗圖片各有500張。最後模型預測的結果中真正類有318個,真負類有415個,假正類有75個,假負類有182個。根據准確率的定義可以算出來目前模型的准確率為:(318+415)/(1000)=0.73。

准確率是評價模型效果最通用的指標之一,描述模型找到「真」類別的能力。也就是說模型准確識別出貓和狗的概率為0.73。但是在使用的時候有兩點需要我們注意。首先是准確率沒有針對不同類別進行區分,最後求得的准確率對每個類別而言是平等對待的,這種評價方式在很多場景下是有欠缺的。

在本例中,雖然可以看到模型的整體准確率是73.30%,但是從結果中明顯可以看出來,模型對於貓的識別效果遠不如對狗的識別效果。如果我們模型的目的是為了把貓的圖片挑出來,那麼這個准確率就有些虛高。

在實際的病患診斷中,計算機診斷出某患者患有癌症,實際上卻未患癌症與計算機診斷出某患者未患有癌症,而實際上卻患有癌症這兩種情況的重要性不一樣,不能一概而論。我們需要明確後續是降低誤診率還是提高確診率,才能讓後續模型優化更有針對性。

另外在正負樣本極不平衡的情況下,准確率這個指標存在很大的缺陷。例如在銀行的全量客戶中,要尋找適合推薦信託產品的超高凈值客戶是非常難的。因為這部分人群要求存款較多、收入較高,比較稀少,往往只有萬分之一的概率。

如果一個預測客戶適不適合信託產品的模型用准確率去評判,哪怕模型把全部客戶預測成負類,即全部都是不適合的情況,那麼這個模型的精度也有 99% 以上。

但這個指標就失去了原有的意義,因為無法找到任何高凈值的人群。所以我們一再強調,沒有萬能的指標,根據場景選擇合適的指標非常重要。

03 精確率與召回率

精確率(Precision)和召回率(Recall)是一對好兄弟,雖然是兩個不同的評價指標,但它們互相影響,通常一起出現。在很多書上又把精確率稱為查准率,把召回率稱為查全率。

召回率是針對原始樣本而言的指標,它表示原始樣本中的正例有多少被預測正確。

原始樣本中的正例有兩種情況,一種是把原來的正類預測成正類(TP),另一種就是把原來的正類預測為負類(FN),這兩種情況組成了原始樣本所有的正例。計算公式為:

Recall=TP/(TP+FN)
上述模型中識別貓類圖片的召回率為:

318/(318+182)=0.63
從這個角度可以看出來總共500張貓的圖片,模型只找對了318張,相比准確率而言,召回率更真實地反應了模型的效果。

而精確率是針對預測結果而言的指標,它表示預測為正類的樣本中有多少是對的。預測結果為正例有兩種情況,一種就是把正類預測為正類(TP),另一種就是把負類預測為正類(FP)。所以精確率的計算公式為:

Precision=TP/(TP+FP)
即上述模型中識別貓類圖片的精確率為:

318/(318+75)=0.81
從這個指標可以看出來模型總共把393張圖片預測為貓,其中只有318張圖片預測正確。所以模型可能存在欠擬合的情況,將部分狗的照片判斷成貓,判斷為正類的條件太寬松。下一步優化的時候可以選擇適當降低條件以此提高模型效果。如下圖所示可以看出精確率與召回率的區別:

精確率與召回率

在理想情況下,我們希望精確率和召回率兩者都越高越好。

然而事實上這兩者在很多情況下是互相矛盾的。當召回率變高時意味著需要盡可能找到原始樣本的正例,因此模型覆蓋的數量會變多,模型就更高的幾率犯錯,將原本不屬於該分類的樣本也加進來,這就導致精確率下降。

如果我們希望模型盡可能多得找出貓的圖片,我們會想辦法提高召回率;如果我們希望模型找到的圖片少一點但找出來的都是貓的圖片,我們會想辦法提高精確率。

有兩個很典型的場景可以說明這兩個指標實際運用的區別,一個是對於地震的預測,我們希望盡可能預測到所有的地震,哪怕這些預測到的地震中只有少數真正發生了地震,在這個時候我們就可以犧牲精確率。

寧願發出100次警報,但是把10次真實的地震都預測對了,也不希望預測了10次但是只有8次真實的地震被預測出來了,因為只要有1次地震沒被發現都會造成巨大的損失。因此這是一個「寧可抓錯,不可放過」的場景。

還有一種是垃圾郵件分類的場景,我們希望模型能夠盡可能找到所有垃圾郵件,但是我們更不希望把自己正常的郵件被分到垃圾郵件中,哪怕是一封正常的郵件,這會對用戶造成很嚴重的後果。對於少數沒有被識別出來的垃圾郵件,其實用戶是可以容忍的。

這時候我們寧可少分類成垃圾郵件,但必須確保分的都是對的,這就是一個「寧可放過,不可抓錯」的場景。因此在不同的場合中,需要產品經理根據實際情況,自己判斷希望是精確率比較高或是召回率比較高。

另外精確率和准確率是比較容易混淆的兩個評估指標,兩者的核心區別在於:精確率是一個二分類指標,只適用於二分類任務,而准確率能應用於多分類任務。

04 ROC曲線

在邏輯回歸的分類模型里,對於正負例的界定,通常會設一個閾值。大於閾值的樣本判定為正類,小於閾值的樣本為負類。如果我們減小這個閾值,會讓更多的樣本被識別為正類,從而提高了正類的識別率,但同時也會使得更多的負類被錯誤識別為正類。

直接調整閾值可以提升或降低模型的精確率和召回率,也就是說使用精確率和召回率這對指標進行評價時會使得模型多了「閾值」這樣一個超參數,並且這個超參數會直接影響模型的泛化能力。在數學上正好存在ROC曲線能夠幫助我們形象化地展示這個變化過程。

ROC曲線是一個畫在二維平面上的曲線,平面的橫坐標是假正類率(FalsePositive Rate,簡稱FPR),計算公式為:

FPR=FP/(FP+TN)
縱坐標是真正類率(True Positive Rate,簡稱TPR),計算公式為:

TPR=TP/(TP+FN)
對於一個分類器而言,每一個閾值下都會有一個FPR和TPR,這個分類器就可以映射成ROC平面上的一個點。當我們調整這個分類器分類時使用的閾值,就可以得到一個經過(0,0),(1, 1)的曲線,這條曲線就是這個分類器的ROC曲線,如下圖所示。

ROC曲線

從圖中可以看到,所有演算法的ROC曲線都在y=x這條線的上方,因為y=x表示了隨機的猜測的概率。所有二分類問題隨便猜正確或不正確都是50%的准確率。

一般情況下不存在比隨機猜測的准確率更糟糕的演算法,因為我們總是可以將錯誤率轉換為正確率。如果一個分類器的准確率是40%,那麼將兩類的標簽互換,准確率就變為了60%。

從圖中可以看出來,最理想的分類器是到達(0,1)點的折線,代表模型的准確率達到100%,但是這種情況在現實中是不存在的。如果我們說一個分類器A比分類器B好,實際上我們指的是A的ROC曲線能夠完全覆蓋B的ROC曲線。如果有交點,只能說明A在某個場合優於B,如下圖所示。

分類器A與分類器B的ROC曲線

ROC曲線通常搭配著它對應的比率圖一起使用,我們繼續用貓狗圖片分類的例子說明這兩個圖怎麼看。原本我們貓狗的圖片各有500張,如所示圖形的X軸代表預測的概率值,Y軸代表觀察的數量。

假設我們用一個新的分類器對圖片進行分類,分類結果用黑色線代表狗圖片的分布,用灰色代表貓圖片的分布。模型給出的分值越高代表模型判斷這張圖片是貓的把握越大,反之模型的給出的分值越低代表模型判斷這張圖片不是貓的把握越大,也就是說這張圖片更有可能是狗。

從下圖中可以看出來這個分類器的分類效果還是挺好的,基本上基本把兩個物群的分布分開,ROC曲線也非常靠近(0,1)這個點。

某分類器下的ROC曲線

如上圖所示,如果將閾值設為0.3,左邊劃線部分的面積代表模型判斷為狗的圖片數量有300張左右,並且從圖中可以看出來這300張圖片全部分類正確。

如果將閾值設為0.5,則左邊劃線部分的面積代表模型判斷為狗的圖片有530張左右,從圖中重疊部分可以看出來大約有40個分類結果是包含錯誤分類的,這些錯誤分類包括實際是狗的圖片被分成貓的情況以及實際是貓的圖片被分類成狗的情況。

0.3閾值與0.5閾值下的分類結果

這時候我們用另外一個分類器再進行分類,結果如圖3-16所示。可以看到整個分類結果向右偏移,同時模型的效果變差,因為兩個分類結果重疊的部分變大,無論我們把閾值設在哪裡都會比上一個分類器產生更多的錯誤分類。

假如這時我們採用「寧可抓錯,不可放過」的原則把閾值設置為0.8,則右邊劃線部分只有200個左右不會被分類為狗的圖片,其餘800個結果全部會被判定為狗的圖片,盡管這裡面有350個分類結果是錯誤的結果。

新的分類器下的ROC曲線

從上述例子中看出來,ROC曲線可以幫助我們從圖像的角度分辨兩個分類結果的分布情況以及選擇模型合適的閾值。因此也是很多產品經理比較喜愛的指標之一。

這時很多讀者可能會有疑問,既然已經有那麼多評價標准,為什麼還要使用ROC呢?

原因在於ROC曲線有個很好的特性:當測試集中的正負樣本的分布變換的時候,ROC曲線能夠保持不變。在實際的數據集中經常會出現樣本類不平衡,即正負樣本比例差距較大,而且測試數據中的正負樣本也可能隨著時間變化,使用ROC曲線不管是數據集怎麼變換,都有直觀的展示效果。

05 AUC值

ROC曲線一定程度上可以反映分類器的分類效果,但始終是以圖像的形式,不能告訴我們直接的結果。我們希望有一個指標,這個指標越大代表模型的效果越好,越小代表模型的效果越差。於是引入了AUC值(Area Under Curve)的概念。

AUC是數據分析中最常用的模型評價指標之一,實際上AUC代表的含義就是ROC曲線下的面積,如下圖所示,它直觀地反映了ROC曲線表達的分類能力。AUC值通常大於0.5小於1,AUC(面積)越大的分類器,性能越好。

AUC值的圖形展示

AUC值的定義是:從所有正類樣本中隨機選取一個樣本,再從所有負類樣本中隨機選取一個樣本,然後分類器對這兩個隨機樣本進行預測,把正類樣本預測為正類的概率為p1,把負類樣本預測為正類的概率為p0,p1>p0的概率就等於AUC值。

即AUC值是指隨機給定一個正樣本和一個負樣本,分類器輸出該正樣本為正的概率值比分類器輸出該負樣本為正的那個概率值要大的可能性,AUC值越高代表模型的排序能力越強。理論上,如果模型把所有正樣本排在負樣本之前,此時AUC的取值為1,代表模型完全分類正確,但這種情況在實際中不可能出現。

總結AUC值的四種取值結果有:

AUC=1時,代表採用這個預測模型,不管設定什麼閾值都能得出完美預測,模型能夠將所有的正樣本都排在負樣本前面。但是在現實中不存在完美的分類器。

0.5<AUC<1時,代表模型的效果比隨機猜測的准確率高,也就是說模型能夠將大部分的正樣本排在負樣本前面,模型有一定的預測價值。

AUC=0.5時,代表模型的預測效果與隨機猜測一樣,只有50%的准確率。也就是說模型完全不能區分哪些是正樣本哪些是負樣本,沒有預測價值。

AUC<0.5時,代表模型的預測效果比隨機猜測還差;但只要將樣本正負例互換,結果就能優於隨機猜測。

閱讀全文

與常用的數據分析指標主要包括什麼相關的資料

熱點內容
有哪些文件可以刪除可以釋放 瀏覽:738
黃金皓月服武器升級 瀏覽:576
不要u盤能恢復u盤內的文件么 瀏覽:882
華為支持什麼播放文件 瀏覽:883
app什麼時候做壓力測試 瀏覽:361
華為交換機配置文件導出 瀏覽:730
智能雲網路攝像機怎麼連接 瀏覽:249
什麼日語app推薦 瀏覽:797
神州行怎麼升級全球通 瀏覽:459
captureone聯機文件名 瀏覽:173
美國有什麼教育app 瀏覽:272
qq群如何設置群通知 瀏覽:364
u盤關閉了所有文件還是無法彈出 瀏覽:21
蘋果專用win7ios怎麼裝 瀏覽:970
什麼app查詢魔獸角色 瀏覽:816
蘋果葫蘆俠怎麼用 瀏覽:945
怎麼恢復微信的圖片和文件 瀏覽:206
powerpoint可以保存的文件格式有 瀏覽:325
js文本框獲得焦點事件 瀏覽:488
蘋果手機qq怎麼消除匿名發的消息 瀏覽:992

友情鏈接