❶ 大數據分析公司有哪些
星環科技
星環信息科技主要從事大數據時代核心平台資料庫軟體的研發與服務,被Gartner列為國際主流Hadoop發行版廠商。其產品Transwarp Data Hub提供高速SQL引擎Transwarp Inceptor, NoSQL搜索引擎Transwarp Hyperbase、流處理引擎Transwarp Stream和數據挖掘組件Transwarp Discover。
帆軟軟體
帆軟軟體由報表軟體FineReport起家,目前已成為報表領域的權威者,擁有10年企業數據分析的行業經驗。後發布的商業智能自助式BI工具FineBI,提供包括Hadoop、分布式資料庫、多維資料庫的大數據可視化分析;提供PC端、移動端、大屏的可視化方案,廣泛應用於銀行、電商、地產、醫葯、製造、電信、製造、化工等行業,擁有成熟的行業化解決方案。
數據可視化類
數字冰雹
數字冰雹主營大數據可視化業務,提供集設計、程序開發、硬體集成為一體的解決方案,廣泛應用於航天戰場、智慧城市、網路安全、企業管理、工業監控等領域。
海雲數據
海雲數據的產品——圖易能夠集成用戶內部系統大量結構化、非結構化數據,在真實的數據源上,將行業大數據進行多維度的可視分析。目前主要應用於公安、航空、快消、製造、金融、醫療、信息安全等領域。
星圖數據
星圖數據是互聯網大數據服務公司,涉及線上零售、線上娛樂、線上教育等領域。基於分布式大數據獲取與存儲系統進行大數據處理及分析,具有自有的大數據分析體系和雲計算處理技術。
用戶行為/精準營銷分析類
大數據技術使得用戶在互聯網的行為,得到精準定位,從而細化營銷方案、快速迭代產品。這方面的廠商有GrowingIO、神策數據等。
GrowingIO
GrowingIO是基於互聯網的用戶行為數據分析產品,具有無埋點的數據採集技術,可以通過網頁或APP的瀏覽軌跡、點擊記錄和滑鼠滑動軌跡等行為數據,進行實時的用戶行為數據分析,用於優化產品體驗,實現精益化運營。
神策數據
與GrowingIO類似,也是基於用戶網路行為,採集數據進行分析。技術上提供開放的查詢 API 和完整的 SQL 介面,同時與 MapRece 和 Spark 等計算引擎無縫融合,隨時以最高效的方式來訪問干凈、規范的數據。
分析服務類
提供輿情分析的有網路統計、品友互動、Talking data、友盟、中科數據等等。
網路統計
網路統計是專業的網站流量分析工具,和GA類似,提供免費的流量分析、來源分析、網站分析等多種統計分析服務,能夠告訴用戶訪客是如何找到並瀏覽用戶的網站,在網站上做了些什麼,以此來改善訪客在用戶的網站上的使用體驗。
Talking Data
TalkingData是獨立的第三方移動數據服務品牌。其產品及服務涵蓋移動應用數據統計、移動廣告監測、移動游戲運營、公共數據查詢、綜合數據管理等多款極具針對性的產品及服務。在銀行、互聯網、電商行業有廣泛的數據服務應用。
友盟+
第三方全域大數據服務提供商,通過全面覆蓋PC、手機、感測器、無線路由器等多種設備數據,打造全域數據平台。提供全業務鏈數據應用解決方案,包括基礎統計、運營分析、數據決策和數據業務等,幫助企業實現數據化運營和管理。
❷ 發現又出來一個做大數據的公司S+,Splus,看他們的宣傳都是跟DataEye一起的,兩家是什麼關系
去扒一扒公司官網就知道啦,splus.cn,Splus是做游戲大數據的品牌名,是DataEye新做的一個品牌,應該是回DataEye以後要走全方位的答大數據的路子,游戲這塊的業務集中一個品牌名上就是DataEye Splus了,不過splus是DataEye和韓國INCA兩個公司的技術和數據合資而成的,沒想到還有點外資的背景,具體產品上是游戲的數據統計分析Game Analytics(DataEye的老業務啦)和游戲的安全反外掛業務Game Protect,英文名字不太好記,雖然看起來高大上,方便記就叫GA和GP啦,不過你看了會不會想起來google analytics和google play呢?
❸ 數據分析報告怎麼用
數據分析報告怎麼用
本文是作者基於自身多年數據分析的經驗,總結的一體化數據分析框架,簡單地介紹下數據分析能分析能落地的幾點。enjoy~
大數據,這個被炒爛了的概念,現如今已被人工智慧替代。我們先不討論人工智慧,就大數據而言,我們都是在強調他的技術,例如網路熱詞:hadoop+spark,data mining。而我們在用大數據時候,經常用它的來神話它的影響。例如,廣告投放精準化,社會安全管理有序,醫葯行業智能化等。
當然這些是我們的暢想,同時確實也離不開數據分析影響,但是我們有沒有停下腳步去想一想,到底大數據怎麼去落地呢,怎麼去分析?怎麼利用數據來去使企業做出決策,例如:廣告投放精準化?
我們了解什麼叫大數據分析么?
麥肯錫給大數據定義:
「一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統資料庫軟體工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特徵。「
基於我對以上定義的理解,我總結的大數據分析就是,將獲取的數據,打通,整合,找尋規律,立即得出決策信息。
數據獲取
我總結的數據源可分類三類:
(1)一方數據:用戶事實數據
例如用戶在某金融機構購買的理財產品,時間,哪個出單口,姓名,電話等,或者運營數據,例如某互聯金融app,用戶操作行為數據
(2)二方數據:其實這部分叫做廣告投放數據
例如,廣告展示量,活動頁點擊量,廣告來源等。也有公司將這部分數據作為第三方數據,因為有些廣告監測公司會利用此數據和人群數據整合構建自己dmp這樣的公司一般宣稱為第三方公司,三方數據
(3)三方數據:行業數據,也叫公開數據
例如行協的數據,或者互聯網行為數據,例如某互聯網公司用戶在此網站的行為數據,或者嵌入sdk的app後我們能採集到的安裝活躍列表,以及可採集到線下數據。
打通:其實就是利用關鍵點的採集整合一二三方數據。例如我們可以通過手機號將一方和三方數據整合,或者利用cookie,或者imei號等將二方、三方數據整合。但是由於現在監管制度對手機號敏感數據的控制,以及互聯網和移動端數據的跨平台打通技術難點,我們現實的匹配率很低,例如一方和三方的數據匹配達到20%其實就算比較不錯的情況,當然運營商數據除外。
找尋規律:目標就是數據清理,從非結構化數據變成結構化數據,以便統計,數據探索,找尋規律,形成數據分析報告觀點。本文將會在第三部分闡述。
立即決策:將數據分析報告中的觀點系統化或產品化,目前而言,大部分公司還是會依靠人工決策。
為什麼需要大數據分析?看上去大數據分析似乎按照這些步驟來,但是從第一步的數據源來說,其實已經反應了大數據的特點,就是雜亂無章,那麼怎麼從這些數據找尋規律,分析的內容和目標是否對應上,似乎就是我們需要大數據分析的理由
現在,大數據的分析通常採用的數據報表來反映企業運營狀況,同時,對於熱點,人群分析,我們看到的統計值,目標核心都是用數據分析報告提煉的觀點來指導運營,那麼問題來了,怎麼用數據分析來指導數據決策呢?
數據分析的報告思路(本文從移動端的角度進行切入)
基於我對數據分析的理解,我將數據報告會分成三大類:市場分析、運營分析、用戶行為分析。
市場分析
由於市場分析一般而言是定性、定量分析,最近熱播劇《我的前半生》賀函和唐晶的職業就是來去咨詢公司的一般會以訪談、問卷調查來一份市場分析報告去告訴客戶他們的市場佔有量,消費者觀點等。
這里,我們以移動互聯網數據的市場分析為例,通常來說,數據源是公開數據,或者在第三方數據。正如我們所講,將sdk嵌入開發者應用,就可以收集到安裝以及使用列表,那麼開發者使用的sdk越多,我們能收集的數據源也越多,這樣就可以形成安裝app排名,使用app排名,這裡面所說的覆蓋率、活躍率也是這個意思,例如:即此款應用安裝量、使用量在整體金融類的安裝量、使用量佔比。
那麼,這些市場分析的作用呢,一般而言,是對公司市場營銷的總結,比如某金融公司kpi是為了獲客,他們做了一系列營銷,下個月排名我們可以查詢到此款應用的安裝量,是否較上個月上升呢?那麼我們的競品表現呢,他們是不是也做了一些列的營銷活動排名上升下降?我們都可以通過市場分析,競品分析來觀測,但是這部分的觀點由於是市場數據,我們只能通過大量的搜尋官網活動,或者互聯網廣告推測營銷來推測是否競爭對手排名上升和這些營銷活動有關。
同時,根據市場的走勢圖,我們能發現潛在的競爭對手,例如:我們能看出下圖中的工商銀行由於手機屬於高覆蓋高活躍組,即安裝xxapp活躍人群也是最高的,因此,無疑xx銀行是所有銀行組潛在競爭對手。需要更加註意他們的市場策略
運營分析
移動互聯網提出的方法論:3A3R,筆者之前在做咨詢的時候,此方法論也可以將網站分析套用,總結來說3A3R就是:
感知 → 獲取 → 活躍 → 獲取 → 營收 → 傳播 → 感知
這里需要註明下,運營分析只是一個公司的baseline,讓產品經理,運營人員,市場人員根據自己本公司的數據參考做出合理的決定,同時,運營的數據只是參考或者叫警示,若要具體,需要特定細節的分析,例如是否app改版,怎麼改?需要增加哪家渠道合作?
(1)Awareness 感知
根據廣告投放數據進行分析,目的判斷渠道廣告頁對app 或者網站引流情況,同時可以幫助廣告主設計監測表格,以數字角度衡量廣告投放效果
但是,廣告數據一般而言在廣告監測公司手中,或者公開的使用工具上例如GA,我們需要依靠廣告公司設計營銷環節,例如活動頁,加監測代碼,或者在媒體,app應用商店加入代碼便於監測廣告表現,而往往這樣的數據很難載入,一般是由應用商店,或者媒體提供,同時,以上數據,監測公司數據一般而言也不會提供給廣告主,只是會提供統計值,這部分的分析我會在之後詳細寫出,歡迎大家關注我的運營號
言歸正傳,我們看感知數據其實目的就是想衡量我們的大量的營銷投放錢花的對不對,廣告的展示量,點擊量等是最好衡量一個公司的廣告市場部門績效,沒有廣告投放,就無法帶來獲客,因此錢花的值不值,能帶來多少客人,才會有下一步 acquisition。
(2)Acquisition 獲客
獲客是第一步廣告投放拓展,用戶點擊廣告後到達應用商店或者著陸頁後去下載app,訪問網頁後,登陸app後的數據是廣告公司或者應用商店提供不了的數據,因此獲客其實有兩重目的。
目的1:衡量第一步提供的數據是否准確,即是否渠道作弊
目的2:判斷渠道是否好壞
目的3:判斷營銷活動是否有效
例如下圖中,我們發現4成用戶是搜索流量較上個月增加了6%,是不是我們需要增加和sem的合作呢?而在媒體引薦渠道中,我們通過渠道衡量客戶轉化率,點擊-用戶激活的,激活的注冊轉化,可否重點對某應用商店增加合作
下圖是目的3的應用,來衡量三個月內的新增用戶,活躍用戶是否受活動營銷、廣告投放、版本更迭等影響。例如:7月28日的版本更迭,增加新用戶的利器,那麼產品經理需要分析下這個版本到底哪裡的改變,讓用戶增長這么快,而8月份的營銷活動會喚醒沉睡用戶,反應考核運營人員的績效,那麼,是否我們在做促活時候可以借鑒8月的成功經驗呢?而這個成功經驗需要進一步做專題分析
(3)Activities 活躍
獲客後,我們想看看我們的新增、活躍用戶的表現情況,那麼就到了第三步 活躍,其實就是為產品經理改版app或者頁面提供數據支持
活躍分析可參考以下三個步驟:
第一:從頁面瀏覽次數,獨立訪問人數,來圈定主要頁面分析。
例如某款app首頁是pv,uv最高,我們會重點分析首頁。
第二:根據圈定頁面,製作點擊熱力圖,便於產品經理對後續頁面改造提供數據支持,例如我們可以將點擊量小的按鈕在下次改版刪除,對點擊量大的重新排序
第三:根據圈定頁面,製作點擊熱力圖,便於產品經理對後續頁面改造提供數據支持,例如我們可以將點擊量小的按鈕在下次改版刪除,對點擊量大的重新排序
(4)Retention留存分析& Revenue & Refer
這幾個實際上在企業運用的並不多,這里簡要說明下。
① Retention
用戶積累到一定數量後,我們想看下用戶粘性,那麼我們就來到retention,一般是衡量活動效果時候運用的比較多,來看此次活動過後,是否用戶依舊會使用我們的app,但是由於金融app屬性不會像游戲應用每天進行訪問,因此Retention 在實際應用中不會太多,下面的例子是個展示,不做贅述
② Revenue
這些留下來的客戶給公司貢獻多少現金呢?會看收入步驟, 一般公司不會將現金流數據放入在統計平台中,但是我們需要提出用戶貢獻的流水金額數據供我們使用,便於人群劃分,例如下面簡要分析:
Refer 傳播:
最後,我們想讓這些客戶進行傳播;核心是口碑營銷,即用戶自發的轉發給其他用戶鏈接,讓他們下載app或者參與活動,因此傳播的下一個環節又會轉換營銷,但是傳播會受到很多限制,例如沒有獎勵機制的口碑傳播,幾乎轉發量為0,同時,傳播若要衡量比較困難,尤其在大量互聯網用戶基礎上,這樣會造成資源代碼疊加,系統負擔,因此一般企業也不會設計這樣活動讓營銷人員參考
用戶分析
若說大數據分析的核心,其實就是在於用戶分析,正如我們前面所講,用戶分析的步驟流程如下:
即在力所能及的搜集數據范圍內,打通數據,客戶用戶,精準營銷。
第一,我們可以篩選的條件列表,我們可以通過應用條件,位置,標簽條件將數據整合,整合的目的就是刻畫客戶,定出營銷策略。
例如:我們想篩選金融客戶(應用條件篩選),出現在五星級酒店(位置條件),且為母嬰人群(標簽)
但是需要注意的是,條件越多,用戶輪廓越清晰,人群會越少。
第二,根據篩選的人群,我們將線上/線上統計化,或者建模多維度分析。
例如,我們根據篩選的人群,發現男性多於女性,蘋果手機屬性最高,常手機工具使用,那麼我們可以將這部分目標人群用增加手機工具合作、或者和蘋果合作獲客或者促活。
第三,整合以上數據分析,形成人群畫像。
結束語
這篇文章基於我多年數據分析的經驗,總結的一體化數據分析框架,其實就是簡單介紹下數據分析能分析能落地的幾點。當然,這裡面需要大量的數據清洗工作,以及對行業的認知,此篇只是從數據分析角度的概要,內容上的細化,其實可以單拿出來細細分析,尤其用戶畫像那章節。
❹ 視頻圖像解析平台
http://www.netposa.com/2017/0928/vaas/2613.html
產品概述
視頻圖像解析系統遵循《 GA/T 1399公安視頻圖像分析系統》和《GA/ T 1400公安視頻圖像信息應用系統》等標准,通過整合視頻資源、車輛卡口資源、人臉卡口資源、RFID數據資源、WIFI探針資源等多種數據信息,依託於混合雲計算技術、智能視頻結構化分析技術和大數據技術等,面向各類行業用戶,提供統一的視頻圖像解析服務和大數據應用服務的生態系統。
功能特性
1、滿足公安標準的視頻圖像信息採集與共享能力
系統兼容並遵循《 GA/T 1399公安視頻圖像分析系統》和《GA/ T 1400公安視頻圖像信息應用系統》等標准,提供不同廠家、不同終端、不同視圖資源類型的標准化和非標准化的接入、匯聚、整合、共享分發與應用服務。
2、公安視圖資源和社會公共視圖資源的整合與服務能力
系統構建了以人、車、物、案事件為核心的視圖大數據服務體系,接入並整合了各類公安視圖資源、社會化資源和其他感知識別資源信息,為公共安全及社會化應用提供全面的服務與支撐。
公安視圖資源、社會化資源接入與整合示意圖
3、基於深度學習的視頻智能識別與分析應用能力
充分利用 CPU+GPU協同計算能力實現資源動態調配,採用先進的智能分析技術,自動提取實時/歷史/文件視頻圖像中的價值人體、人臉和車輛的細節特徵信息,對目標類型、顏色等形成結構化描述,為事前、事中、事後的事件布防、綜合布控、研判分析提供數據基礎,保證信息查找檢索的高效性,提高公安視頻的應用效率。
視頻實時結構化展示
4、綜合化、立體化、多維度的信息布控能力
面向車站、碼頭、機場、商場等重要場所,提供針對同一目標或多個目標的多個維度、多種信息類型的綜合化、立體化、多維度的布控檢測與預警能力。
綜合布控示意圖
5、一點查詢、全網響應的多級視圖大數據級聯應用
基於各級視頻圖像解析系統,提供跨區域、跨網段、跨系統的省、市、縣多級聯網的資源布控與資源檢索應用,實現一點查詢或布控、全網響應的級聯應用服務能力。
省、市、縣多級級聯檢索與布控
6、以地圖為中心的資源時空一體化指揮與作戰能力
整合地圖可視化與大數據檢索分析,將各類資源時空信息與數據分析應用融入到地圖中,提供時空一體化的指揮與作戰能力。
時空一體化資源檢索
檢索結果展示
7、基於多種視圖大數據的全文檢索與以圖搜圖能力
基於輸入檢索信息的語義分析和圖片特徵提取服務,實現視圖大數據的全文檢索與以圖搜圖功能,快速從千億數據中找到符合的人員、車輛、WIFI、物品等線索信息。
視圖大數據以圖搜圖
8、跨場景多攝像機的人體目標軌跡追蹤
適用於在復雜的治安場景查找人員,依據人體進行追蹤,獲取不同場景下,不同角度的人體目標,形成嫌疑人員活動軌跡。
人體目標追蹤
9、視圖大數據碰撞分析與關系挖掘應用
基於大數據分析技術及深度學習技術,結合實戰業務應用要求,提供人臉、人體、車輛、WIFI、RFID等資源信息的分析模型,滿足千億級記錄信息的目標快速查找、行為追蹤、關系碰撞、研判挖掘等應用需求,為案事件涉及目標的分析檢索、研判比對,提供技術支持和數據支撐。
視圖大數據碰撞分析與關系挖掘應用
10、面向多種視圖數據的連環技戰法應用
基於系統豐富技戰法模型,提供面向多種視圖數據的連環技戰法,實現技戰法關聯應用,確保偵查過程可追溯。
多種視圖數據的連環技戰法
11、基於項目規模的硬體資源高擴展配置支撐能力
根據項目規模及接入處理的數據資源情況,選取高密度伺服器、普通伺服器和高性能GPU伺服器靈活配置組合,保證系統高性能運行的同時,提供低碳、環保、靈活擴展的應用支撐能力。
技術特色
1、標准化的多源異構數據資源服務能力:
符合《GA/ T 1400公安視頻圖像信息應用系統》標准,提供多源、多級數據的接入、存儲、共享、分析,及對外標准化介面服務的能力。
2、精準的視圖智能分析處理能力:
基於深度學習的人員、車輛、物品智能識別演算法,提供高效的視圖內容自動化提取分析與識別解析的能力。
3、高效的CPU+GPU協同計算能力:
根據業務需求,系統自動分析任務類型,按所需要的計算資源,混合調度CPU和GPU資源,打破數據與計算資源壁壘,實現系統整體能力的最大化利用,提供超級計算的能力。
4、快捷的大數據檢索與數據挖掘能力:
針對視頻大數據下的海量視圖信息,能夠進行多種數據融合碰撞,結合案件、WIFI等信息提升資源整體價值,提供千億級數據處理能力。
5、多種業務應用的處理能力:
根據業務需求,系統實現了多種技戰法及業務分析應用,為反恐維穩、指揮處置、治安反恐、偵查破案、公共安全、執法監督、服務民生等應用服務,提供快捷高效的處理能力。
❺ 開發中,GA、Beta、GA、Trial到底是什麼含義
用過maven的都應該知道,創建maven項目時,其版本號默認會以SNAPSHOT結尾,如下:
通過英文很容易就可以知道這是一個快照版本。但是,在開發中,或者使用別的軟體的時候,我們常常會見到各種各樣的版本命名,比如:GA、Beta、OEM等等,不去了解下的話,就很容易被這些版本號整懵了。通過本篇文章,將帶大家了解下常見的一些版本的含義。
快照版本,用於開發階段的命名,快照版是頻繁發布迭代的,這也正是快照的含義。在創建maven項目時,相信大家都有注意過。
內部測試版,一般是打包給內部測試人員使用的版本。
Beta版本,也就是對外發布的測試版本,也可以說是公測版本。如微軟的chromium內核的edge瀏覽器Beta版本
是beta 版做過一些修改,成為正式發布的候選版本。
GA,英文全稱是General Availability,是一種正式版本的命名。比如MySQL就用GA來命令其正式版本
全稱ReleaseCandidate,意為候補的正式版。
全稱Original Equipment Manufacturer,意為「初始設備廠家」。是給計算機廠商隨著計算機販賣的,相信大家對OEM也不陌生(比如激活巨硬的時候~)
Build,用於區分不同的編譯版本,一般為遞增數字或日期。
這個相信我們也比較常見。Trial的意思是:實驗、試用。Trial也就是試用版的意思,用在付費軟體上。試用結束,需要用戶付費才能使用
未注冊版本。也是一種付費軟體的版本命名方式。其跟Trial版的區別就是,Unregistered一般不存在試用期這么一說(不是絕對的,也可能存在免費使用期限),可以一直使用。這種版本一般會閹割掉一些功能,需要注冊(付費)之後才能使用全部功能。
注冊版本,顯然這個是跟Unregistered對應的。
企業版,企業付費購買的版本。比如,windows enterprise版本,企業需要付費購買enterprise版本才有使用windows的許可權(但是現實中恐怕。。。。)
還有常見的javaee或者叫j2ee,也就是Java 的企業版本的命名。
社區版本,這種版本一般都是開源免費的。比如MySQL存在開源的社區版本分支,MySQL也有企業版。像Intellij IDEA也存在社區版。
標准版本。標准版中包含了該軟體的基本組件及一些常用功能,可以滿足一般用戶的需求。比如常見的javase或者j2se。
以上只是列舉了比較常見的(本人)一些版本命名,在介紹的時候都是根據本人的理解進行介紹的,如果有誤,或者讀者想要補充,可以在下方留言,我會定期整合到文章中。
搜索公眾號【Happyjava】,回復【電子書】和【視頻】,即可獲取大量優質電子書和大數據、kafka、nginx、MySQL等視頻資料
❻ 大數據分析一般用什麼工具分析
大數據就是大數據,一般說的可視化是指數據分析,大數據一詞還是內很廣泛的。
數據分析工具的話容 向前面提到的,有很多啊 什麼諸葛IO,tableau還有BDP個人版這些都可以做到,而且操作也比較簡單,我們公司用的就是BDP,老闆一直很推薦,高層們也比較喜歡~·可以給你簡單看下我之前做的一些分析圖表~
❼ 常見的大數據分析工具有哪些
大數據分析的前瞻性使得很多公司以及企業都開始使用大數據分析對公司的決策做出幫助,而大數據分析是去分析海量的數據,所以就不得不藉助一些工具去分析大數據,。一般來說,數據分析工作中都是有很多層次的,這些層次分別是數據存儲層、數據報表層、數據分析層、數據展現層。對於不同的層次是有不同的工具進行工作的。下面小編就對大數據分析工具給大家好好介紹一下。
首先我們從數據存儲來講數據分析的工具。我們在分析數據的時候首先需要存儲數據,數據的存儲是一個非常重要的事情,如果懂得資料庫技術,並且能夠操作好資料庫技術,這就能夠提高數據分析的效率。而數據存儲的工具主要是以下的工具。
1、MySQL資料庫,這個對於部門級或者互聯網的資料庫應用是必要的,這個時候關鍵掌握資料庫的庫結構和SQL語言的數據查詢能力。
2、SQL Server的最新版本,對中小企業,一些大型企業也可以採用SQL Server資料庫,其實這個時候本身除了數據存儲,也包括了數據報表和數據分析了,甚至數據挖掘工具都在其中了。
3、DB2,Oracle資料庫都是大型資料庫了,主要是企業級,特別是大型企業或者對數據海量存儲需求的就是必須的了,一般大型資料庫公司都提供非常好的數據整合應用平台;
接著說數據報表層。一般來說,當企業存儲了數據後,首先要解決報表的問題。解決報表的問題才能夠正確的分析好資料庫。關於數據報表所用到的數據分析工具就是以下的工具。
1、Crystal Report水晶報表,Bill報表,這都是全球最流行的報表工具,非常規范的報表設計思想,早期商業智能其實大部分人的理解就是報表系統,不藉助IT技術人員就可以獲取企業各種信息——報表。
2、Tableau軟體,這個軟體是近年來非常棒的一個軟體,當然它已經不是單純的數據報表軟體了,而是更為可視化的數據分析軟體,因為很多人經常用它來從資料庫中進行報表和可視化分析。
第三說的是數據分析層。這個層其實有很多分析工具,當然我們最常用的就是Excel,我經常用的就是統計分析和數據挖掘工具;
1、Excel軟體,首先版本越高越好用這是肯定的;當然對Excel來講很多人只是掌握了5%Excel功能,Excel功能非常強大,甚至可以完成所有的統計分析工作!但是我也常說,有能力把Excel玩成統計工具不如專門學會統計軟體;
2、SPSS軟體:當前版本是18,名字也改成了PASW Statistics;我從3.0開始Dos環境下編程分析,到現在版本的變遷也可以看出SPSS社會科學統計軟體包的變化,從重視醫學、化學等開始越來越重視商業分析,現在已經成為了預測分析軟體。
最後說表現層的軟體。一般來說表現層的軟體都是很實用的工具。表現層的軟體就是下面提到的內容。
1、PowerPoint軟體:大部分人都是用PPT寫報告。
2、Visio、SmartDraw軟體:這些都是非常好用的流程圖、營銷圖表、地圖等,而且從這里可以得到很多零件;
3、Swiff Chart軟體:製作圖表的軟體,生成的是Flash
❽ 2019數據架構選型必讀:1月資料庫產品技術解析
本期目錄
DB-Engines資料庫排行榜
新聞快訊
一、RDBMS家族
二、NoSQL家族
三、NewSQL家族
四、時間序列
五、大數據生態圈
六、國產資料庫概覽
七、雲資料庫
八、推出dbaplus Newsletter的想法
九、感謝名單
為方便閱讀、重點呈現,本期Newsletter(2019年1月)將對各個板塊的內容進行精簡。需要閱讀全文的同學可點擊文末 【閱讀原文】 或登錄https://pan..com/s/13BgipbaHeMfvm0YPtiYviA
DB-Engines資料庫排行榜
以下取自2019年1月的數據,具體信息可以參考http://db-engines.com/en/ranking/,數據僅供參考。
DB-Engines排名的數據依據5個不同的因素:
新聞快訊
1、2018年9月24日,微軟公布了SQL Server2019預覽版,SQL Server 2019將結合Spark創建統一數據平台。
2、2018年10月5日,ElasticSearch在美國紐約證券交易所上市。
3、亞馬遜放棄甲骨文資料庫軟體,導致最大倉庫之一在黃金時段宕機。受此消息影響,亞馬遜盤前股價小幅跳水,跌超2%。
4、2018年10月31日,Percona發布了Percona Server 8.0 RC版本,發布對MongoDB 4.0的支持,發布對XtraBackup測試第二個版本。
5、2018年10月31日,Gartner陸續發布了2018年的資料庫系列報告,包括《資料庫魔力象限》、《資料庫核心能力》以及《資料庫推薦報告》。
今年的總上榜資料庫產品達到了5家,分別來自:阿里雲,華為,巨杉資料庫,騰訊雲,星環 科技 。其中阿里雲和巨杉資料庫已經連續兩年入選。
6、2018年11月初,Neo4j宣布完成E輪8000萬美元融資。11月15日,Neo4j宣布企業版徹底閉源:
7、2019年1月8日,阿里巴巴以1.033億美元(9000萬歐元)的價格收購了Apache Flink商業公司DataArtisans。
8、2019年1月11日早間消息,亞馬遜宣布推出雲資料庫軟體,亞馬遜和MongoDB將會直接競爭。
RDBMS家族
Oracle 發布18.3版本
2018年7月,Oracle Database 18.3通用版開始提供下載。我們可以將Oracle Database 18c視為採用之前發布模式的Oracle Database 12c第2版的第一個補丁集。未來,客戶將不再需要等待多年才能用上最新版Oracle資料庫,而是每年都可以期待新資料庫特性和增強。Database 19c將於2019年Q1率先在Oracle cloud上發布雲版本。
Oracle Database 18c及19c部分關鍵功能:
1、性能
2、多租戶,大量功能增強及改進,大幅節省成本和提高敏捷性
3、高可用
4、數據倉庫和大數據
MySQL發布8.0.13版本
1、賬戶管理
經過配置,修改密碼時,必須帶上原密碼。在之前的版本,用戶登錄之後,就可以修改自己的密碼。這種方式存在一定安全風險。比如用戶登錄上資料庫後,中途離開一段時間,那麼非法用戶可能會修改密碼。由參數password_require_current控制。
2、配置
Innodb表必須有主鍵。在用戶沒有指定主鍵時,系統會生成一個默認的主鍵。但是在主從復制的場景下,默認的主鍵,會對叢庫應用速度帶來致命的影響。如果設置sql_require_primary_key,那麼資料庫會強制用戶在創建表、修改表時,加上主鍵。
3、欄位默認值
BLOB、TEXT、GEOMETRY和jsON欄位可以指定默認值了。
4、優化器
1)Skip Scan
非前綴索引也可以用了。
之前的版本,任何沒有帶上f1欄位的查詢,都沒法使用索引。在新的版本中,它可以忽略前面的欄位,讓這個查詢使用到索引。其實現原理就是把(f1 = 1 AND f2 > 40) 和(f1 = 2 AND f2 > 40)的查詢結果合並。
2)函數索引
之前版本只能基於某個列或者多個列加索引,但是不允許在上面做計算,如今這個限制消除了。
5、SQL語法
GROUP BY ASC和GROUP BY DESC語法已經被廢棄,要想達到類似的效果,請使用GROUP BY ORDER BY ASC和GROUP BY ORDER BY DESC。
6、功能變化
1)設置用戶變數,請使用SET語句
如下類型語句將要被廢棄SELECT @var, @var:=@var+1。
2)新增innodb_fsync_threshold
該變數是控制文件刷新到磁碟的速率,防止磁碟在短時間內飽和。
3)新增會話級臨時表空間
在以往的版本中,當執行SQL時,產生的臨時表都在全局表空間ibtmp1中,及時執行結束,臨時表被釋放,空間不會被回收。新版本中,會為session從臨時表空間池中分配一個臨時表空間,當連接斷開時,臨時表空間的磁碟空間被回收。
4)在線切換Group Replication的狀態
5)新增了group_replication_member_expel_timeout
之前,如果某個節點被懷疑有問題,在5秒檢測期結束之後,那麼就直接被驅逐出這個集群。即使該節點恢復正常時,也不會再被加入集群。那麼,瞬時的故障,會把某些節點驅逐出集群。
group_replication_member_expel_timeout讓管理員能更好的依據自身的場景,做出最合適的配置(建議配置時間小於一個小時)。
MariaDB 10.3版本功能展示
1、MariaDB 10.3支持update多表ORDER BY and LIMIT
1)update連表更新,limit語句
update t1 join t2 on t1.id=t2.id set t1.name='hechunyang' limit 3;
MySQL 8.0直接報錯
MariaDB 10.3更新成功
2)update連表更新,ORDER BY and LIMIT語句
update t1 join t2 on t1.id=t2.id set t1.name='HEchunyang' order by t1.id DESC limit 3;
MySQL 8.0直接報錯
MariaDB 10.3更新成功
參考:
https://jira.mariadb.org/browse/MDEV-13911
2、MariaDB10.3增補AliSQL補丁——安全執行Online DDL
Online DDL從名字上看很容易誤導新手,以為不論什麼情況,修改表結構都不會鎖表,理想很豐滿,現實很骨感,注意這個坑!
有以下兩種情況執行DDL操作會鎖表的,Waiting for table metadata lock(元數據表鎖):
針對第二種情況,MariaDB10.3增補AliSQL補丁-DDL FAST FAIL,讓其DDL操作快速失敗。
例:
如果線上有某個慢SQL對該表進行操作,可以使用WAIT n(以秒為單位設置等待)或NOWAIT在語句中顯式設置鎖等待超時,在這種情況下,如果無法獲取鎖,語句將立即失敗。 WAIT 0相當於NOWAIT。
參考:
https://jira.mariadb.org/browse/MDEV-11388
3、MariaDB Window Functions窗口函數分組取TOP N記錄
窗口函數在MariaDB10.2版本里實現,其簡化了復雜SQL的撰寫,提高了可讀性。
參考:
https://mariadb.com/kb/en/library/window-functions-overview/
Percona Server發布8.0 GA版本
2018年12月21日,Percona發布了Percona Server 8.0 GA版本。
在支持MySQL8.0社區的基礎版上,Percona Server for MySQL 8.0版本中帶來了許多新功能:
1、安全性和合規性
2、性能和可擴展性
3、可觀察性和可用性
Percona Server for MySQL 8.0中將要被廢用功能:
Percona Server for MySQL 8.0中刪除的功能:
RocksDB發布V5.17.2版本
2018年10月24日,RocksDB發布V5.17.2版本。
RocksDB是Facebook在LevelDB基礎上用C++寫的高效內嵌式K/V存儲引擎。相比LevelDB,RocksDB提供了Column-Family,TTL,Transaction,Merge等方面的支持。目前MyRocks,TiKV等底層的存儲都是基於RocksDB來構建。
PostgreSQL發布11版本
2018年10月18日,PostgreSQL 11發布。
1、PostgreSQL 11的重大增強
2、PostgreSQL 插件動態
1)分布式插件citus發布 8.1
citus是PostgreSQL的一款sharding插件,目前國內蘇寧、鐵總、探探有較大量使用案例。
https://github.com/citusdata/citus
2)地理信息插件postgis發布2.5.1
PostGIS是專業的時空資料庫插件,在測繪、航天、氣象、地震、國土資源、地圖等時空專業領域應用廣泛。同時在互聯網行業也得到了對GIS有性能、功能深度要求的客戶青睞,比如共享出行、外賣等客戶。
http://postgis.net/
3)時序插件timescale發布1.1.1
timescale是PostgreSQL的一款時序資料庫插件,在IoT行業中有非常好的應用。github star數目前有5000多,是一個非常火爆的插件。
https://github.com/timescale/timescaledb
4)流計算插件 pipelinedb 正式插件化
Pipelinedb是PostgreSQL的一款流計算插件,使用這個創建可以對高速寫入的數據進行實時根據定義的聚合規則進行聚合(支持概率計算),實時根據定義的規則觸發事件(支持事件處理函數的自定義)。可用於IoT,監控,FEED實時計算等場景。
https://github.com/pipelinedb/pipelinedb
3、PostgreSQL衍生開源產品動態
1)agensgraph發布 2.0.0版本
agensgraph是兼容PostgreSQL、opencypher的專業圖資料庫,適合圖式關系的管理。
https://github.com/bitnine-oss/agensgraph
2)gpdb發布5.15
gpdb是兼容PostgreSQL的mpp資料庫,適合OLAP場景。近兩年,gpdb一直在追趕PostgreSQL的社區版本,預計很快會追上10的PostgreSQL,在TP方面的性能也會得到顯著提升。
https://github.com/greenplum-db/gpdb
3)antdb發布3.2
antdb是以Postgres-XC為基礎開發的一款PostgreSQL sharding資料庫,亞信主導開發,開源,目前主要服務於亞信自有客戶。
https://github.com/ADBSQL/AntDB
4)遷移工具MTK發布52版本
MTK是EDB提供的可以將Oracle、PostgreSQL、MySQL、MSSQL、Sybase資料庫遷移到PostgreSQL, PPAS的產品,遷移速度可以達到100萬行/s以上。
https://github.com/digoal/blog/blob/master/201812/20181226_01.md
DB2發布 11.1.4.4版本
DB2最新發布Mod Pack 4 and Fix Pack 4,包含以下幾方面的改動及增強:
1、性能
2、高可用
3、管理視圖
4、應用開發方面
5、聯邦功能
6、pureScale
NoSQL家族
Redis發布5.0.3版本
MongoDB升級更新MongoDB Mobile和MongoDB Stitch
2018年11月21日,MongoDB升級更新MongoDB Mobile和MongoDB Stitch,助力開發人員提升工作效率。
MongoDB 公司日前發布了多項新產品功能,旨在更好地幫助開發人員在世界各地管理數據。通過利用存儲在移動設備和後台資料庫的數據之間的實時、自動的同步特性,MongoDB Mobile通用版本助力開發人員構建更快捷、反應更迅速的應用程序。此前,這只能通過在移動應用內部安裝一個可供選擇或限定功能的資料庫來實現。
MongoDB Mobile在為客戶提供隨處運行的自由度方面更進了一步。用戶在iOS和安卓終端設備上可擁有MongoDB所有功能,將網路邊界擴展到其物聯網資產范疇。應用系統還可以使用MongoDB Stitch的軟體開發包訪問移動客戶端或後台數據,幫助開發人員通過他們希望的任意方式查詢移動終端數據和物聯網數據,包括本地讀寫、本地JSON存儲、索引和聚合。通過Stitch移動同步功能(現可提供beta版),用戶可以自動對保存在本地的數據以及後台資料庫的數據進行同步。
本期新秀:Cassandra發布3.11.3版本
2018年8月11日,Cassandra發布正式版3.11.3。
Apache Cassandra是一款開源分布式NoSQL資料庫系統,使用了基於Google BigTable的數據模型,與面向行(row)的傳統關系型資料庫或鍵值存儲key-value資料庫不同,Cassandra使用的是寬列存儲模型(Wide Column Stores)。與BigTable和其模仿者HBase不同,數據並不存儲在分布式文件系統如GFS或HDFS中,而是直接存於本地。
Cassandra的系統架構與Amazon DynamoDB類似,是基於一致性哈希的完全P2P架構,每行數據通過哈希來決定應該存在哪個或哪些節點中。集群沒有master的概念,所有節點都是同樣的角色,徹底避免了整個系統的單點問題導致的不穩定性,集群間的狀態同步通過Gossip協議來進行P2P的通信。
3.11.3版本的一些bug fix和改進:
NewSQL家族
TiDB 發布2.1.2版本
2018 年 12 月 22 日,TiDB 發布 2.1.2 版,TiDB-Ansible 相應發布 2.1.2 版本。該版本在 2.1.1 版的基礎上,對系統兼容性、穩定性做出了改進。
TiDB 是一款定位於在線事務處理/在線分析處理( HTAP: Hybrid Transactional/Analytical Processing)的融合型資料庫產品。除了底層的 RocksDB 存儲引擎之外,分布式SQL層、分布式KV存儲引擎(TiKV)完全自主設計和研發。
TiDB 完全開源,兼容MySQL協議和語法,可以簡單理解為一個可以無限水平擴展的MySQL,並且提供分布式事務、跨節點 JOIN、吞吐和存儲容量水平擴展、故障自恢復、高可用等優異的特性;對業務沒有任何侵入性,簡化開發,利於維護和平滑遷移。
TiDB:
PD:
TiKV:
Tools:
1)TiDB-Lightning
2)TiDB-Binlog
EsgynDB發布R2.5版本
2018年12月22日,EsgynDB R2.5版本正式發布。
作為企業級產品,EsgynDB 2.5向前邁進了一大步,它擁有以下功能和改進:
CockroachDB發布2.1版本
2018年10月30日,CockroachDB正式發布2.1版本,其新增特性如下:
新增企業級特性:
新增SQL特性:
新增內核特性:
Admin UI增強:
時間序列
本期新秀:TimescaleDB發布1.0版本
10月底,TimescaleDB 1.0宣布正式推出,官方表示該版本已可用於生產環境,支持完整SQL和擴展。
TimescaleDB是基於PostgreSQL資料庫開發的一款時序資料庫,以插件化的形式打包提供,隨著PostgreSQL的版本升級而升級,不會因為另立分支帶來麻煩。
TimescaleDB架構:
數據自動按時間和空間分片(chunk)
更新亮點:
https://github.com/timescale/timescaledb/releases/tag/1.0.0
大數據生態圈
Hadoop發布2.9.2版本
2018年11月中旬,Hadoop在2.9分支上發布了新的2.9.2版本,該版本進行了204個大大小小的變更,主要變更如下:
Greenplum 發布5.15版本
Greenplum最新的5.15版本中發布了流式數據載入工具。
該版本中的Greenplum Streem Server組件已經集成了Kafka流式載入功能,並通過了Confluent官方的集成認證,其支持的主要功能如下:
國產資料庫概覽
K-DB發布資料庫一體機版
2018年11月7日,K-DB發布了資料庫一體機版。該版本更新情況如下:
OceanBase遷移服務發布1.0版本
1月4日,OceanBase 正式發布OMS遷移服務1.0版本。
以下內容包含 OceanBase 遷移服務的重要特性和功能:
SequoiaDB發布3.0.1新版本
1、架構
1)完整計算存儲分離架構,兼容MySQL協議、語法
計算存儲分離體系以松耦合的方式將計算與存儲層分別部署,通過標准介面或插件對各個模塊和組件進行無縫替換,在計算層與存儲層均可實現自由的彈性伸縮。
SequoiaDB巨杉資料庫「計算-存儲分離」架構詳細示意
用戶可以根據自身業務特徵選擇面向交易的SQL解析器(例如MySQL或PGSQL)或面向統計分析的執行引擎(例如SparkSQL)。眾所周知,使用不同的SQL優化與執行方式,資料庫的訪問性能可能會存在上千上萬倍的差距。計算存儲分離的核心思想便是在數據存儲層面進行一體化存儲,在計算層面則利用每種執行引擎的特點針對不同業務場景進行選擇和優化,用戶可以在存儲層進行邏輯與物理的隔離,將面向高頻交易的前端業務與面向高吞吐量的統計分析使用不同的硬體進行存儲,確保在多類型數據訪問時互不幹擾,以真正達到生產環境可用的多租戶與HTAP能力。
2、其他更新信息
1)介面變更:
2)主要特性:
雲資料庫
本期新秀:騰訊發布資料庫CynosDB,開啟公測
1、News
1)騰訊雲資料庫MySQL2018年重大更新:
2)騰訊雲資料庫MongoDB2018年重大更新:
3)騰訊雲資料庫Redis/CKV+2018年重大更新:
4)騰訊雲資料庫CTSDB2018年重大更新:
2、Redis 4.0集群版商業化上線
2018年10月,騰訊雲資料庫Redis 4.0集群版完成邀測、公測、商業化三個迭代,在廣州、上海、北京正式全量商業化上線。
產品特性:
使用場景:
官網文檔:
https://cloud.tencent.com/document/proct/239/18336
3、騰訊自研資料庫CynosDB發布,開啟公測
2018年11月22日,騰訊雲召開新一代自研資料庫CynosDB發布會,業界第一款全面兼容市面上兩大最主流的開源資料庫MySQL和PostgreSQL的高性能企業級分布式雲資料庫。
本期新秀:京東雲DRDS發布1.0版本
12月24日,京東雲分布式關系型資料庫DRDS正式發布1.0版本。
DRDS是京東雲精心自研的資料庫中間件產品,獲得了2018年 」可信雲技術創新獎」。DRDS可實現海量數據下的自動分庫分表,具有高性能,分布式,彈性升級,兼容MySQL等優點,適用於高並發、大規模數據的在線交易, 歷史 數據查詢,自動數據分片等業務場景,歷經多次618,雙十一的考驗,已經在京東集團內大規模使用。
京東雲DRDS產品有以下主要特性
1)自動分庫分表
通過簡單的定義即可自動實現分庫分表,將數據實際存放在多個MySQL實例的資料庫中,但呈現給應用程序的依舊是一張表,對業務透明,應用程序幾乎無需改動,實現了對資料庫存儲和處理能力的水平擴展。
2)分布式架構
基於分布式架構的集群方案,多個對等節點同時對外提供服務,不但可有效規避服務的單點故障,而且更加容易擴展。
3)超強性能
具有極高的處理能力,雙節點即可支持數萬QPS,滿足用戶超大規模處理能力的需求。
4)兼容MySQL
兼容絕大部分MySQL語法,包括MySQL語法、數據類型、索引、常用函數、排序、關聯等DDL,DML語句,使用成本低。
參考鏈接:
https://www.jdcloud.com/cn/procts/drds
RadonDB發布1.0.3版本
2018年12月26日,MyNewSQL領域的RadonDB雲資料庫發布1.0.3版本。
推出dbaplus Newsletter的想法
dbaplus Newsletter旨在向廣大技術愛好者提供資料庫行業的最新技術發展趨勢,為社區的技術發展提供一個統一的發聲平台。為此,我們策劃了RDBMS、NoSQL、NewSQL、時間序列、大數據生態圈、國產資料庫、雲資料庫等幾個版塊。
我們不以商業宣傳為目的,不接受任何商業廣告宣傳,嚴格審查信息源的可信度和准確性,力爭為大家提供一個純凈的技術學習環境,歡迎大家監督指正。
至於Newsletter發布的周期,目前計劃是每三個月左右會做一次跟進, 下期計劃時間是2019年4月14日~4月25日, 如果有相關的信息提供請發送至郵箱:[email protected]
感謝名單
最後要感謝那些提供寶貴信息和建議的專家朋友,排名不分先後。
往期回顧:
↓↓別忘了點這里下載 2019年1月 完整版Newsletter 哦~
❾ 餐飲營運TA、TC、GA、GC是什麼意思
TA = Table Average,每桌(單)消費額
TC=Table Count,總共有多少桌(單)
GA=General Average,總平均值
GC=Gain Cell,增益控制
餐飲營運的潮流趨勢:
1、客戶越來越年輕化
《2017中國餐飲消費報告》顯示,現今80後和90後年輕人群在餐飲用戶中佔比接近7成,而90後正在逐漸超越80後,成為餐飲業消費主體,年輕人的消費習慣與觀念也在引領餐飲行業的潮流。
2、網紅店越來越多
隨著80後、90後成為餐飲消費主力,餐飲已從解決溫飽上升到精神情感需求。好吃又好玩的創意餐飲、實現網紅效應、自然健康輕食等代表新興生活方式的餐飲,更能得到年輕消費人群的青睞。
3、外賣需求在增加
動動手指足不出戶點個外賣或夜宵。根據《中國城市夜宵消費趨勢大數據報告》,年輕人成為當之無愧的夜宵主力。90後的總數佔比達59.36%,80後佔比26.14%。在品類上,以小龍蝦為代表的小吃成為夜宵的首選,其次是各類快餐,火鍋位列第三。
以上內容參考:人民健康網—餐飲新勢力的玩法已經大變
❿ 大數據分析師這個職業怎麼樣
近期成為月入兩萬的數據分析師的廣告遍地都是,可能會對一些未入行的同學造成錯覺。我個人感覺數據分析師這個崗位,可能近幾年會消亡。
這不意味著這份工作本身不重要,而是說這份工作本身可能會轉化為產品運營的一些必備技能,而不再需要單獨特設人力去做這件事。或者說,不是再需要你學習SQL或者學習python,只是為了成為一名數據分析師。作為一名數據分析師,職業自身的壁壘正在不斷消減,更加主動的擁抱業務,解決真正的產品和用戶需求,或將成為未來的發展趨勢。
數據分析師的日常工作
我們來看下預設中的分析師的一些工作場景,看看數據分析師核心的工作價值。
取數
數據清洗
數據可視化
統計分析
數據方向建設和規劃
數據報告
取數 — SQL
很多人對數據分析師的預設是SQL達人,包括現在很多數據分析師的核心工作其實就是進行SQL取數。
這項工作的痛點和難點在於,我們為了得到一個結果,通常需要join很多的數據集,然後整個SQL語句就會寫的特別長,而且可能會出現一些問題:比如join的表可能會出現key是重復的情況,造成最終的SQL結果因為重復而變得不可用。所以我們需要專人去專門維護各種各樣的數據集,他們知道每張表應該怎麼用。
但這個其實是關系型資料庫遺留下來的產物——我們完全可以不需要join那麼多的表。現在的分布式計算的框架,已經完全可以支持我們只保留一張大寬表,有需要的所有欄位,然後所有的操作都在這張大寬表上進行,而且可以保證查詢速度。這樣數據分析最大的痛點已經沒有了。至於你說大寬表裡面存了很多重復的數據,是不是很浪費資源(關系型資料庫之所以不用大寬表就是從存儲空間和性能的trade-off角度考慮的):放心,分布式存儲本身是不貴的,而計算效率則是由分布式計算框架進行專門優化的。現在的計算框架計算的響應速度,已經可以在大寬表上可以很快的得到結果了。相比之下,多次join操作反而可能會更慢一些。
同時,現在很多公司的NB框架,其實都已經支持拖拽取數了,也根本不需要寫SQL了。
此外,不得不說的一點是,SQL語句本身真的不難。可能如果你自己靜下心來想學,一個周末的時間肯定能搞定。而資歷老的數據分析師,並不會比資歷輕的數據分析師,在SQL語句的寫作上有什麼本質的區別。以前可能還有一些小表join大表的trick,但現在計算框架大多都已經優化過這些了。所以即使是需要寫SQL的場景,本身也是沒有什麼難度的。
所以,通過大寬表來解放數據分析工作的生產力。即使在一定要寫SQL做join操作的時候,本身也不是一件壁壘特別高的事情。取數這件事兒,對於其他崗位的同學,就已經沒那麼復雜了。
數據清洗 — Python
數據清洗其實是很多強調python進行數據分析課程中,python部分的主要賣點。包括但不限於,怎麼處理異常值,怎麼從一些原始的數據中,得到我們想要的數據。
在日常產品需求過程中,這種需求的場景其實很小。因為數據大部分都是自己產生的,很少會出現沒有預設到的極端值或者異常情況。如果有的話,一般就是生產數據的同學代碼寫的有bug,這種發現了之後修復代碼bug就行。
數據清洗在工作場景的應用在於落表——就是把原始數據變成上面提到的,可以通過SQL提取的hive表。這個工作是需要懂代碼的同學去支持的,他們負責數據的產出,包括數據的准確性,數據的延時性(不能太晚產出)等等。前文提到的生成大寬表,其實也可以是他們的工作。這其中就涉及到一些代碼的效率優化問題,這個就不是簡單懂一點python可以搞定的了,可能涉及到一些數據壓縮格式的轉化,比如Json/Proto buffer到hive表的轉化,還有一些計算框架層面的調優,比如spark設置什麼樣的參數,以及怎麼樣存儲可以更好的提升查詢速度。
所以這部分工作一般是由懂代碼的同學完成的。可能數據團隊會有比較少數的同學,管理支持全公司的基礎表的生成。
數據可視化 — Tableau
很多之前在數據分析做實習的同學,主要的工作內容就是在一個商業化的軟體(比如Tableau)上,做一些統計報表。這樣可以通過這些數據報表,可以很方便的查看到所屬業務的一些關鍵指標。這些商業軟體通常都比較難用,比如可能需要先預計算一下才能輸出結果;而且不太好做自定義功能的開發。稍微復雜一點的需求場景,可能就需要一個專門的同學搗鼓一陣,才能輸出最終的統計報表。
現在有更先進的套路了。
首先可視化。很多公司打通了前端和後端的數據,這樣就可以通過網頁查詢原始的資料庫得到數據結果。而現在很多優秀的前端可視化插件,已經可以提供非常豐富的統計圖形的支持。而且因為代碼是開源的,可以根據公司的需求場景進行針對性的開發,公司可以再輔以配置一些更加用戶友好的操作界面,這樣一些復雜需求也有了簡單拖拽實現的可能。而且這些前端js代碼都是免費的!對於公司來說也能省去一筆商業公司的采買成本。
其次很多商業軟體,都是針對小數據集場景設計的。在一些大數據集的場景,一般需要先預計算一些中間表。而如果自己公司定製化開發的前端展示結果,就可以根據需要自主設置計算邏輯和配置計算資源,先在後端進行預計算,前端最終只是作為一個結果展示模塊,把結果展示和需要的預計算進行解耦。這樣就省去了很多中間表的產出,也會更加快速的得到想要的業務指標,快速迭代。
所以可視化數據的工作量也會大大減少。而且會變成一個人人都可以操作,快速得到結果的場景。
統計分析
對於一名數據分析師而言,統計學分析可能是一塊知識性的壁壘。尤其是在現在ab實驗成為互聯網公司迭代標配的今天。需要把實驗設計的那套理論應用起來:比如ab實驗進行後的顯著性檢驗,多少樣本量的數據才能讓這個結論有效可信呢。
但是,你我都知道,經典的統計分析其實是一個非常套路性的工作。其實就是套公式,對應到代碼層面,可能也就一兩行就搞定了。這個代碼的統計分析結果可以作為ab平台的指標展示在最終的ab結果上,大家看一眼就能明白。即使是對那些可能不知道顯著性是什麼意思的人,你可以跟他簡單說,顯著了才有效,不顯著就別管。
這么一想是不是其實不怎麼需要投入額外的人力進行分析?
其他數據相關的工作
數據層面的規劃和設計。移動互聯網剛剛興起的時候,可能那時候數據分析師需要對每一個數據怎麼來設計一套方案,包括原始的埋點怎麼樣,又要怎麼統計出想要的結果。但現在大部分已經過了快速迭代的時代了,新產品的埋點添加可以參考老產品,這就意味著形成套路了。而一旦形成套路,其實就意味著可以通過程序直接完成或者輔助完成。
數據報告。那就真的是一件人人都能做的事情了,試想誰沒在大學期間做過數據報告呢?以前只是因為數據都是從分析師產出的,而如果人人都能取到數據的話,數據報告是不是也不是一個真需求呢?
在我看來,數據分析師這個崗位的天花板和其他崗位相比起來是比較低的。可能工作一兩年之後,從崗位本身就已經學不到什麼額外的工作知識了。主要的工作內容技術含量不是特別高,技能性的更多的是一些可以簡單上手的東西,而且做的時間長了,在這些技能性的事情上得到的積累並不是很多。
數據分析師更像是一個在時代變遷過程中的一個中間崗位:我們從一個基本沒有數據的時代,突然進入了一個數據極大豐富的時代,在這個過程中,我們都知道重視數據。那怎麼能夠利用這個數據呢?可能之前的那一幫人並沒有太多的經驗,於是老闆就招一些人專門來研究一下它,同時做一些底層數據的優化。
經過多年的迭代,現在互聯網行業的每個人都知道數據的價值,也大概知道了什麼樣的數據是重要的,怎樣可以更好的挖掘數據背後的價值。同時底層的基礎設施也已經支持可以讓一個之前沒有經驗的同學可以快速的上手得到自己想要的關鍵數據。這時候對於一個職業數據分析師來說,他的任務就已經完成了。就如同當人人都會講英語的時候,翻譯其實也就沒有存在的價值了。
此後的數據分析工作,可能不再是一些單獨的人做的工作。它會變成一個產品和運營的基礎工具,而且足夠簡單,沒有取數的門檻。只是產品運營怎麼樣可以更好的認識數據,通過數據本身更好的配合產品運營的工作,這已經超脫我們一般理解的數據分析師的工作了,而是一個產品運營分內的工作。
對於那些已經在從事數據分析師崗位的同學來說,建議不要把心思全部投入到數據分析的本職工作上,以完成任務為核心KPI。而是不要給自己設置邊界,多從用戶的角度思考問題,不要因為是產品運營的工作就不去做了。數據分析師這個職業發展到這個階段,要麼做更加底層的數據建設,要麼擁抱業務,最大化的發掘數據背後背後的價值。不要再死守著數據分析的「固有技能」沾沾自喜了。
數據本身的價值是無窮的,作為數據分析師,你們已經先人一步的掌握它了,要有先發優勢。你們最接近數據的人,是最可能發現用戶的寶藏的人。