【導讀】作為大數據工程師,其必須要掌握的基礎知識就是java與mysql的關系、交互和連接,作為基礎,也是面試考官經常會考的內容,為了幫助大家都能順利通過考試,今天小編就來和大家嘮一嘮java與mysql的關系、交互和連接,好了,開始今天的內容大數據分析師面試必備:java與mysql解析。
1. SQL語言四大類:
DQL 數據查詢語言 select
DML 數據操作語言 insert、update、delete
DDL 數據界說語言 create、alter
DCL 數據控制語言 grant許可權
2. mysql資料庫中的decimal類型(是數值型,不能存放字元串):
舉例:decimal(18,0) 常用於身份證號碼,但是帶x的不可以。
舉例:decimal(5,2)
狀況一:假設小數點前面是3位,後邊是2位,正常狀況。
狀況二:5指的是小數點前後不能超過5位,小數點後有必要是2位。
3. mysql中InnoDB和MyISAM引擎的差異:
innodb支撐:事務和主外鍵
myisam不支撐:事務和主外鍵
4. 【不需要背誦,選擇題考點】向mysql中,a向表中添加數據的幾種寫法,題目:id int 主鍵自增,name varchar(11)
不為空。
5. 操作mysql資料庫表有兩種方式,第一種:點八點吧;第二種:寫代碼。【不需要背誦,只需要了解,考試選擇題會出】
6. 在Java中,簡述面向對象三大特徵。
7. 在Java中,常用關鍵字:
1. 定義類的關鍵字是什麼? class
2. 繼承的關鍵字是什麼? extends
3. 定義介面的關鍵字是什麼? interface
4. 實現介面的關鍵字是什麼? implements
5. 抽象類的關鍵字是什麼? abstract
8. 在Java中,抽象類和介面的區別:
1. 抽象類中可以包含普通方法和抽象方法,介面中只能包含抽象方法
2. 抽象類中可以有構造方法,介面中沒有構造方法
3. 抽象類只能單繼承,可以實現多個介面
9. Java介面中有哪些成員?
1. 構造方法,沒有
2. 常量,默認訪問修飾符public static final,沒有變數
3. 抽象方法,默認訪問修飾符public abstract
10. 在Java中,抽象類和抽象方法的關系:
1. 抽象類中可以包含普通方法和抽象方法,抽象方法一定存在抽象類中。
2. 子類繼承抽象父類,必須實現|重寫抽象方法,除非子類也是抽象類。
3. 【判斷題】抽象類中必須包含抽象方法?【錯誤×】
4. 【判斷題】抽象方法一定存在抽象類中?【正確√】
11. Java重載的特點:
1. 在同一個類中
2. 方法名相同
3. 參數列表(個數、類型、順序)不同
4. 與返回值類型和訪問修飾符無關
12. Java重寫的特點:
1. 在父子類中
2. 方法名相同
3. 參數列表相同
4. 返回值類型相同,或是其子類
5. 訪問修飾符相同,或不能嚴於父類
13. 列舉幾種Java實現多態的形式:
1. 繼承的存在
2. 父類引用指向子類對象 | 向上轉型
3. 父類作為方法的返回值類型,父類作為方法的參數
14. Java介面的特性:單根性和傳遞性
15. 在Java中,throws和throw的區別:
1. throws 聲明異常,用在定義方法小括弧的後面
2. throw 拋出異常,寫在方法體內
以上就是小編今天給大家整理發送的關於大數據分析師面試必備:java與mysql解析的相關內容,希望對各位考生有所幫助,想知道更多關於數據分析師的基本要求有哪些,關注小編持續更新數據分析師崗位解析。
2. 大數據面試題及答案誰能分享一下
大數據時代才剛剛開始。隨著越來越多的公司傾向於大數據運營,人才需求達到歷史最高水平。這對你意味著什麼?如果您想在任何大數據崗位上工作,它只能轉化為更好的機會。您可以選擇成為數據分析師,數據科學家,資料庫管理員,大數據工程師,Hadoop大數據工程師等。在本文中,慧都網將介紹與大數據相關的前10大數據面試問題。
以下是最重要的大數據面試問題以及具體問題的詳細解答。對於更廣泛的問題,答案取決於您的經驗,我們將分享一些如何回答它們的提示。
無論何時進行大數據采訪,采訪者都可能會詢問一些基本問題。無論您是大數據領域的新手還是經驗豐富,都需要基礎知識。因此,讓我們來介紹一些常見的基本大數據面試問題以及破解大數據面試的答案。
1.您對「大數據」一詞有何了解?
答:大數據是與復雜和大型數據集相關的術語。關系資料庫無法處理大數據,這就是使用特殊工具和方法對大量數據執行操作的原因。大數據使公司能夠更好地了解其業務,並幫助他們從定期收集的非結構化和原始數據中獲取有意義的信息。大數據還允許公司採取數據支持的更好的業務決策。
2.大數據的五個V是什麼?
答:大數據的五個V如下:
Volume -Volume表示體積大,即以高速率增長的數據量,即以PB為單位的數據量
Velocity -Velocity是數據增長的速度。社交媒體在數據增長速度方面發揮著重要作用。
Variety -Variety是指不同的數據類型,即各種數據格式,如文本,音頻,視頻等。
Veracity -Veracity是指可用數據的不確定性。由於大量數據帶來不完整性和不一致性,因此產生了准確性。
Value -價值是指將數據轉化為價值。通過將訪問的大數據轉換為價值,企業可以創造收入。
YARN的兩個主要組成部分:
ResourceManager-該組件接收處理請求,並根據處理需要相應地分配給各個NodeManager。
NodeManager-它在每個單個數據節點上執行任務
7.為什麼Hadoop可用於大數據分析?
答:由於數據分析已成為業務的關鍵參數之一,因此,企業正在處理大量結構化,非結構化和半結構化數據。在Hadoop主要支持其功能的情況下,分析非結構化數據非常困難
存儲
處理
數據採集
此外,Hadoop是開源的,可在商用硬體上運行。因此,它是企業的成本效益解決方案。
8.什麼是fsck?
答:fsck代表文件系統檢查。它是HDFS使用的命令。此命令用於檢查不一致性以及文件中是否存在任何問題。例如,如果文件有任何丟失的塊,則通過此命令通知HDFS。
9. NAS(網路附加存儲)和HDFS之間的主要區別是什麼?
答:NAS(網路附加存儲)和HDFS之間的主要區別 -
HDFS在一組計算機上運行,而NAS在單個計算機上運行。因此,數據冗餘是HDFS中的常見問題。相反,復制協議在NAS的情況下是不同的。因此,數據冗餘的可能性要小得多。
在HDFS的情況下,數據作為數據塊存儲在本地驅動器中。在NAS的情況下,它存儲在專用硬體中。
10.格式化NameNode的命令是什麼?
答:$ hdfs namenode -format。
歡迎咨詢慧都在線客服,我們將幫您轉接大數據專家團隊,並發送相關資料給您!
以上就是大數據面試題及答案,希望我的回答對您有幫助!
3. 面試題-關於大數據量的分布式處理
面試題-關於大數據量的分布式處理
題目:生產系統每天會產生一個日誌文件F,數據量在5000W行的級別。文件F保存了兩列數據,一列是來源渠道,一列是來源渠道上的用戶標識。文件F用來記錄當日各渠道上的所有訪問用戶,每訪問一次,記錄一條。
請問如何快速計算出各渠道上新增的用戶?
問題分析:首先本次面試的是有關於分布式數據處理以及數據分析的職位,所以相關的面試題目可能會偏向於使用分布式的思想去解決。但無奈本人當時反應太慢,實在沒向分布式處理方向思考。
方案一:
本題最直觀的一個處理方法就是,直接拿著當日新增的5000W條訪問記錄一條一條的去匹配歷史訪問用戶。若存在歷史訪問記錄,則忽略;若不存在訪問記錄,則保存為新增記錄。很明顯,假若歷史訪問用戶有2億條記錄,則需要和2億條數據比較5000W次。比較次數可想而知。
由於本人一直在做基於資料庫的數據處理工作,很容易就想到將歷史數據保存在資料庫的一張表中,並對來源渠道和用戶標識這兩個欄位建立索引,然後遍歷日誌文件F(5000W次)。根據日誌文件F中的每一行去匹配資料庫中的歷史訪問記錄。由於歷史數據表有索引,單次查詢的速度也非常快。但是需要5000W次的資料庫查詢,很明顯效率低下。
方案二:
既然多次單一查詢無法滿足要求,於是可以先通過一種數據導入技術將當日新增數據導入到資料庫的另一張表中,並和歷史數據做左外關聯。若能關聯成功,則表示此用戶已存在;若關聯失敗,則表示此用戶不存在。
此方案暫且不說5000W條記錄的大表與2億條記錄的大表關聯效率有多高以及使用到的資料庫緩沖區的資源有多少,單就5000W條訪問記錄導入資料庫表,都是一個不小的時間花費。
方案三:
很明顯,面試時方案二的回答並未達到面試官的預期,最初被遺憾的PASS掉。一家很有潛力,自己很看好的公司,並計劃做為自己未來發展方向的職位,就這樣丟下我,揚長而去了。
這幾天又看了下分布式相關的介紹,突然想到這道題。一下子醒悟過來,其實還是因為對題目要考察的點分析得不夠透徹。當時以為只是僅僅考數據處理效率的一個題目,其實考的是一種將復雜問題拆分為簡單問題的拆分思想。了解到這一層,一種新的方式立馬在腦海中浮現出來。具體如下:
假如現在有N(N>=2)個存儲塊,並存在一個函數f(來源渠道,用戶標識),對於給定的一組(來源渠道,用戶標識),總能將其分發到一個固定的存儲塊內。那麼可以使用此函數將5000W行訪問記錄盡量均勻的分發至N個存儲塊上,並同時使用此函數將歷史訪問記錄也分發至這些存儲塊上。由於相同的一組記錄,肯定會被分配至同一個存儲塊,所以比較時,只需要分別比較各個存儲塊上當日新增記錄與歷史訪問用戶,然後將N個存儲塊上比較的結果匯總,即可得到最終結果。
假設歷史訪問用戶數據已通過函數f(來源渠道,用戶標識)被分發至了N個歷史文件H1、H2、…、HN。則詳細處理步驟如下:
1、將F中的內容使用函數f(來源渠道,用戶標識),分發至文件F1、F2、…、FN內。(可開M(M>=2)個並行,且若N-M越大,同時向同一文件寫入數據的概率越小)
2、將文件F1、F2、…、FN內的訪問記錄去重。(可開N個並行分別處理對應的N個文件)。
3、將文件Fn(1=<n<=N)去重後的結果與對應的歷史文件Hn比較得出新增用戶結果Rn。(可開N個並行分別處理對應的N個文件且當N足夠大時,實際要處理數據的量級就會相當小)。
4、合並第3步得到的結果R1、R2、…、RN即可得到當日新增用戶。(可並行)
5、為使歷史數據文件H1、H2、…、HN中的數據最全,將結果R1、R2、…、RN分別寫入對應的歷史文件中。(可並行)
本方案主要有以下優點:
1、數據的分發、處理、合並都可並行處理,明顯提高了處理效率。
2、由於每個存儲塊上的新增數據,只需要與它對應存儲塊上的歷史數據比較即可,大大減少了比較次數。(對於當日每一條記錄來說,都只需要與大約歷史的N分之一條數據去比較)
3、基本不需要考慮歷史全量數據的保存及獲取問題。
本方案缺點:
1、處理方案明顯變的復雜許多,不僅需要處理數據的分發,處理,還需要一個並行的快速收集方法。
2、可能需要多台伺服器並行處理。
本方案難點:
1、一個穩定(對於相同的一組來源渠道和用戶標識,必定會被分發至同一存儲塊)、快速(根據一條來源渠道和用戶標識數據,可以快速的計算出它將要被分發至的存儲塊)、均勻(當日新增數據及歷史數據都能盡量均勻的被分發至N個存儲塊,最理想的情況是每個存儲塊上分發到的數據都是總數據的N分之一)的分發函數至關重要。
2、如何分發、並行處理及匯總數據。
4. 大數據分析師面試題:Redis的耐久化戰略
【導讀】眾所周知,大數據分析師的面試流程與其他行業的不大一樣,比如你面試一份文員工作,只需要攜帶簡歷就可以了,不過要想面試成功大數據分析師,不僅需要攜帶簡歷,還要做好考試的准備,這是每一個大數據分析師的入職必經流程,今天小編就來和大家說說大數據分析師面試題:Redis的耐久化戰略,希望對各位考生有所幫助。
一、RDB介紹
RDB 是 Redis
默許的耐久化計劃。在指定的時間距離內,實行指定次數的寫操作,則會將內存中的數據寫入到磁碟中。即在指定目錄下生成一個mp.rdb文件。Redis
重啟會通過載入mp.rdb文件恢復數據。
可以在redis.windows.conf配備文件中修正save來進行相應的配備
注意事項
60秒內10000條數據則保存
這兒有三個save,只需滿意其間任意一條就可以保存
比方:
(1)在redis中保存幾條新的數據,用kill
-9粗暴殺死redis進程,模仿redis缺點失常退出,導致內存數據丟掉的場景(或許在,也或許不在,根據save的狀況)
(2)手動設置一個save檢查點,save 5 1
寫入幾條數據,等候5秒鍾,會發現自動進行了一次mp rdb快照,在mp.rdb中發現了數據
失常停掉redis進程,再從頭發起redis,看方才刺進的數據還在
二、AOF介紹
AOF :Redis 默許不打開。它的呈現是為了補償RDB的缺乏(數據的不一致性),所以它採用日誌的方法來記載每個寫操作,並追加到文件中。Redis
重啟的會根據日誌文件的內容將寫指令早年到後實行一次以結束數據的恢復作業。(appendonly yes)
注意事項注意事項
可以在redis.windows.conf中進行配備
打開AOF
將appendonly 的no 改為 yes
下面是文件名可以運用默許的文件名,也可以自己改
注意事項
appendfsync運用默許的everysec就可以了
以上就是小編今天給大家整理發送的關於大數據分析師面試題:Redis的耐久化戰略的相關內容,希望對各位考生有所幫助,想知道更多關於數據分析師的基本要求有哪些,關注小編持續更新數據分析師崗位解析。
5. 數據分析師面試題目和答案:動手題
【導讀】眾所周知,隨著社會的發展,數據分析師成為了炙手可熱的熱門執業,一方面是其高薪待遇另一方面就是其未來廣闊的發展前景。一般情況下用人單位會給問答題和動手題來檢測應聘者的真實實力,可以說面試筆試是非常重要的一個環節。它可以直接測驗你對數據分析具體理論的掌握程度和動手操作的能力。為此小編就以此為例和大家說說2020年數據分析面試解答技巧:動手題,希望對大家有所幫助。
動手題
1. 我給你一組數據,如果要你做數據清洗,你會怎麼做?
實際上,這一道題中,面試官考核的是基本的數據清洗的准則,數據清洗是數據分析必不可少的重要環節。你可能看到這個數據存在 2 個問題:典韋出現了 2
次,張飛的數學成績缺失。
針對重復行,你需要刪掉其中的一行。針對數據缺失,你可以將張飛的數學成績補足。
2. 豆瓣電影數據集關聯規則挖掘
在數據分析領域,有一個很經典的案例,那就是「啤酒 +
尿布」的故事。它實際上體現的就是數據分析中的關聯規則挖掘。不少公司會對這一演算法進行不同花樣的考察,但萬變不離其宗。
如果讓你用 Apriori 演算法,分析電影數據集中的導演和演員信息,從而發現兩者之間的頻繁項集及關聯規則,你會怎麼做?
以上就是小編今天給大家整理發送的關於「數據分析師面試題目和答案:動手題」的相關內容,希望對大家有所幫助。想了解更多關於數據分析及人工智慧就業崗位分析,關注小編持續更新。
6. 大數據技術Hadoop面試題
單項選擇題
1.下面哪個程序負責HDFS數據存儲。
a)NameNode
b)Jobtracker
c)Datanode
d)secondaryNameNode
e)tasktracker
2.HDfS中的block默認保存幾份?
a)3份
b)2份
c)1份
d)不確定
3.下列哪個程序通常與NameNode在一個節點啟動?
a)SecondaryNameNode
b)DataNode
c)TaskTracker
d)Jobtracker
4.Hadoop作者
a)MartinFowler
b)KentBeck
c)Dougcutting
5.HDFS默認BlockSize
a)32MB
b)64MB
c)128MB
6.下列哪項通常是集群的最主要瓶頸
a)CPU
b)網路
c)磁碟
d)內存
7.關於SecondaryNameNode哪項是正確的?
a)它是NameNode的熱備
b)它對內存沒有要求
c)它的目的是幫助NameNode合並編輯日誌,減少NameNode啟動時間
d)SecondaryNameNode應與NameNode部署到一個節點
多選題
8.下列哪項可以作為集群的管理工具
a)Puppet
b)Pdsh
c)ClouderaManager
d)d)Zookeeper
9.配置機架感知的下面哪項正確
a)如果一個機架出問題,不會影響數據讀寫
b)寫入數據的時候會寫到不同機架的DataNode中
c)MapRece會根據機架獲取離自己比較近的網路數據
10.Client端上傳文件的時候下列哪項正確
a)數據經過NameNode傳遞給DataNode
b)Client端將文件切分為Block,依次上傳
c)Client只上傳數據到一台DataNode,然後由NameNode負責Block復制工作
11.下列哪個是Hadoop運行的模式
a)單機版
b)偽分布式
c)分布式
12.Cloudera提供哪幾種安裝CDH的方法
a)Clouderamanager
b)Tarball
c)Yumd)Rpm
判斷題
13.Ganglia不僅可以進行監控,也可以進行告警。()
14.BlockSize是不可以修改的。()
15.Nagios不可以監控Hadoop集群,因為它不提供Hadoop支持。()
16.如果NameNode意外終止,SecondaryNameNode會接替它使集群繼續工作。() 1 2 3
7. 面試問你們大數據項目的數據結構是怎樣的
一些最常見的編程面來試問自題:
1.數組編碼面試問題
數組是最基本的數據結構,它將元素存儲在一個連續的內存位置。這也是面試官們熱衷的話題之一。以下是一些熱門的基於數組的編程面試問題:
1.如何在一個1到100的整數數組中找到丟失的數字?(方法)
2.如何在給定的整數數組中找到重復的數字? (方法)
3.如何在未排序整數數組中找到最大值和最小值? (方法)
4.如何找到數組所有和等於一個給定數的數對? (方法)
5.如果一個數組包含多重復制,那麼如何找到重復的數字? (方法)
6.在Java中如何從給定數組中刪除多重復制? (方法)
7.如何使用快速排序演算法對整數數組進行排序? (方法)
8.如何從數組中刪除多重復制? (方法)
9.如何在Java中對數組進行反向操作? (方法)
10.如何在不使用任何庫的情況下從數組中刪除多重復制? (方法)
這些問題不僅可以幫助你提高解決問題的能力,還可以提高你對數組數據結構的認識。
8. 大數據研究與應用協會市場推廣面試問題
傳統的用戶研究包括品牌研究、客戶滿意度研究、商圈研究、市場細分、渠道研究、產品定價研究以及產品測試,這些研究大多數用市場調研的方法來實現。市場調研由於調研方法帶來的諸多問題,導致結果的代表性、准確性以及研究的效率都存在不同程度的挑戰。我們相信,隨著大數據的發展,大數據將對市場與用戶研究方法將帶來革命性的變化。本文將介紹大數據目前在市場與用戶研究方面的應用與探索。
一、大數據用於品牌研究
品牌認知度、品牌形象和品牌滿意度研究是品牌研究的三大重要部分。
1)品牌認知度是品牌資產的重要組成部分,品牌認知度是衡量消費者對品牌內涵及價值的認識和理解度的標准,同時也是公司競爭力的一種體現。
2)而品牌形象是品牌在公眾心中所表現出的個性特徵,它體現公眾特別是消費者對品牌的評價與認知,以及對品牌所具有的一切聯想。品牌形象分為三個層級的形象:產品或服務本身的形象、使用者的形象、產品或提供者的形象。
3)品牌滿意度是消費者通過對一個品牌產品或服務的可感知效果與對比預期相比較後,所形成的愉悅或失望的狀態,可以不滿意、滿意、滿足、愉悅等四種情緒,一個擁有高滿意度的品牌,其顧客的購買率及重復購買率也在相應提升,因此品牌滿意度的研究也非常重要。
在傳統的市場研究中,品牌認知、品牌形象和品牌滿意度研究是通過市場調查的手段來實現。在大數據時代,我們可以利用互聯網大數據輔助品牌認知度、品牌形象和品牌滿意度研究。我們可以通過網路爬蟲技術,對新聞媒體、社會化媒體等網站實時全網監測,實時掌握網民對品牌和競品的品牌提及量、產品提及量以及提及量的趨勢,掌握自己品牌和競爭的品牌形象評價;通過品牌和產品的正負面評論的監測,及時了解對品牌消費者對品牌的滿意度情況,及時發現問題。過去,進行品牌認知度、品牌形象以及品牌滿意度的市場調研,從調查開始到報告產生,至少需要半個月到一個月,而且由於成本和操作性的限制,只能選取一些代表性的人群和地點做代表性的抽樣不夠全面。利用大數據手段,我們可以實現更快更全面以及更真實的統計,這對我們及時的了解品牌認知度、品牌形象以及品牌滿意度的現狀和趨勢非常有幫助。
專欄:企業實施大數據的五大關鍵
專欄:大數據應用於企業運營
大數據在電信行業的應用
二、大數據用於忠誠度研究
凈推薦值研究方法是客戶忠誠度研究中的重要方法。凈推薦值(NPS)研究方法由國際知名咨詢公司貝恩咨詢客戶忠誠度業務的創始人佛瑞德·賴克霍徳(Fred Reichheld)在2003《哈佛大學商業評論》文章「你需要致力於增長的一個數字」的文章中首次提到。該方法通過調查客戶問題「您有多大可能向您的朋友或同事推薦我們公司的產品或服務?(0-10分)」 來獲得,根據客戶的回答分數分成三組:
第一組給公司9分或10分,稱之為「推薦者」(promoters);他們是對公司產品或服務滿意度和忠誠度非常高的客戶,在當今社會化媒體營銷時代,他們是公司產品或服務免費營銷人員,他們會推薦朋友和親人來購買。
第二組給公司7分或8分,為「被動滿意者」(passively satisfied);他們對公司產品或服務既無不滿意,也無滿意的客戶,較易被其他競爭者吸引。
第三組給0至6分,是「貶損者」(detractors)。他們對公司的產品或服務非常不滿意,不僅僅停止購買公司的產品或服務,他們會盡一切可能勸周圍的人不要買,同時會轉向其他競爭者。
NPS值即為推薦者所佔百分比與貶低者所佔百分比的差值(如下圖)。NPS的業務邏輯是:推薦者會繼續購買並且推薦給其他人來加速你的成長,而貶損者則能破壞你的名聲,不僅僅停止購買,而且勸說周圍朋友購買,讓你在負面的口碑中阻止成長,NPS則是反映了這兩股力量較量的結果。Fred Reichheld實證研究證明NPS和長期利潤成長有正相關性,NPS表現越好,未來企業利潤的成長就會越好。
圖:NPS計算方法
大家可能會問,NPS分數在多少為比較理想的狀態。實證研究表明,NPS分數在NPS的得分值在50%以上被認為是表現不錯,得分值在70-80%之間則證明公司擁有一批高忠誠度的好客戶(如蘋果、Google等互聯網公司的NPS超過70%),大部分公司的NPS值在5-10%之間,更差的公司NPS還可能是負值。當然,我們僅了解NPS是不夠的,NPS本身不能提供具體的改進意見,我們還需要結合影響滿意度的原因深入研究,尤其是對貶損者指標進行深入的滿意度研究,挖掘「貶損」背後的原因。
大數據技術革新傳統NPS研究方式。大部分NPS的研究其數據獲取方式都採用調查問卷的方式,這種方式很容易受到抽樣方式、客戶心態甚至活動禮品等多方面的影響,導致數據失真。在大數據時代,NPS的數據可以來源於客服系統的語音數據和評價文本數據、電商平台購物用戶的打分及用戶評論文本數據以及社會化媒體如微博、論壇等的評論文本數據,這些數據我們都稱之為「用戶反饋數據」。我們可以利用語音分析技術、文本分析技術將這些非結構化的「用戶反饋數據」結構化,從而更好的進行數據挖掘,識別「貶損者」和「推薦者」,全面和快速的計算NPS,並可以利用這些大數據,了解「貶損者」的「貶損」的原因。如果還能夠把業務系統和運營系統的「用戶行為數據」關聯整合進來,我們不僅僅通過「用戶反饋數據」了解用戶「貶損」原因,還可以了解「貶損者」的歷史「用戶行為數據,將更有利於我們更好的洞察用戶,更全面、更及時優化「貶損者」的用戶體驗和改進方向;同時可以定向為「推薦者」展開更多的優惠促銷或者附加增值服務。通過大數據手段可以更好的實時掌握NPS,還可以洞察NPS「推薦」或「貶損」的原因,為市場推廣、客戶服務、業務運營等部門的關鍵應用場景提供決策支撐,有利於進一步提升用戶親密度和忠誠度。
三、大數據用於市場細分
市場細分是按照消費者在市場需求、購買動機、購買行為和購買能力方面的差異,運用系統方法將整體市場即全部顧客和潛在顧客劃分為數個不同的消費者群(子市場),以便選擇確定自己的目標市場。市場細分的基礎是購買者對產品需求的差異性。但是,這種差異性一般很難直接度量,故常用其它比較容易度量以及和需求密切相關的變數來對市場進行細分。這些變數包括地理、人口統計學屬性、行為以及消費心態等變數:地理細分是將市場劃分為不同的區域市場,例如可按下列地理特徵將市場細分:行政區劃、城市規模、資源狀況和氣候;人口統計學細分人口統計變數來細分市場,常用來細分市場的人口學變數有年齡、性別、民族、居住地、家庭規模與生命周期等;行為和態度細分是根據消費者對產品的購買動機、購買行為和使用情況來細分;心理細分是按消費者的社會階層、生活方式、人格特徵劃分為不同的群體。市場細分既可以按照以上單維度細分,也可以組合以上維度進行多重標准細分,同時按照多重標准可以將消費者分為比較小的、同質性更高的群體。
區別於傳統的市場細分,大數據應用於市場細分在以下方面起到更為重要的作用:
1)數據採集的維度更為全面,數據採集更為實時,尤其是在行為數據的採集更為及時、細膩和全方位;
2)用大數據演算法進行細分模型建模,可以吸納更多的細分維度,從而可以細分出更小、同質性更高的細分群體;
3)數據更新更快,計算速度更快,市場細分模型更新速度更快,更能及時反映用戶需求的變化,從而可以做出更准確、及時細分;
4)市場細分可以和營銷渠道、營銷活動進行實時關聯和調優,通過大數據演算法判定的細分群體可以實時的進行最有效營銷活動推薦,並可以用大數據計算最為有效推廣渠道觸達這些細分群體。
四、大數據用於產品測試
產品測試指的是企業運用專業的技術手段和研究方法進行以獲得目標消費者(或用戶)對相關產品的認知或評價,以測試新產品的接受度或改進現有產品。產品測試在產品的各生命周期均有應用:
在產品的開發期,產品處於研發和概念階段,此時可以對已有產品進行測試,以了解消費者認為需要改進的方面;或者對尚未成型的產品進行概念性的測試,指導產品經理對正在開放的產品做調整和改進;
在產品介紹期,產品准備投放市場以及剛剛投放市場不久,企業可以通過產品測試以了解最有效的銷售渠道和促銷方式,以及對產品的包裝、價格進行測試;
在產品的成長期和成熟期,企業可以通過自身產品和競爭產品進行對比測試,及時掌握消費者(或用戶)對產品的評價和態度;
在產品的衰退期,為了延長產品生命周期,企業會進行產品的改進或者產品新方向的測試。
以上不同階段的產品測試,傳統的實施方法一般是通過市場調查方式來實現,通常是對消費者(或用戶)進行調查或者訪問,利用多種訪問或調查工具來實現。在大數據和互聯網時代,我們可以用更快和更為准確的方式來進行產品測試:
在產品的開發期,我們可以通過電商平台或者微博、論壇等社會化媒體對現有產品的網上評論進行收集,通過自然語言處理和數據挖掘手段,以了解消費者的不滿和產品改進方向;或者灰度測試來了解新版本的效果,即讓一部分用戶繼續用老版本,一部分用戶開始用新版本,如果用戶對新版本沒有什麼反對意見,那麼逐步擴大范圍,把所有用戶都遷移到新版本上面來。灰度測試和發布可以保證整體產品系統的穩定,在初始灰度的時候就可以發現、調整問題。
在產品的介紹期,產品的包裝、外觀設計和價格等也可以通過灰度測試和發布的方式來掌握消費者的反饋以進行相關的調優。
在產品的成長期和成熟期,我們同樣可以通過大數據手段對電商平台和社會化媒體收集消費者對自身產品和競爭產品的評論,通過自然語言處理和數據挖掘掌握消費者對產品的不滿,以改進我們自己的產品。像寶潔這種對傳統市場調查非常重視的企業,目前已經逐漸開始利用大數據方式進行產品測試,尤其是通過電商平台對每一個產品都能收集評價和反饋,幫助產品的改進和創新。
五、大數據與商圈研究以及空間商業智能
商圈是指商店以其所在地點為中心沿著一定的方向和距離擴展所能吸引顧客的范圍。按照離商店的距離,商圈分為三層,包括核心商圈,次級商圈和邊緣商圈。核心商圈是離商店最近,顧客密度最高,約占商店顧客的55%-70%;次級商圈是指位於核心商圈外圍的商圈,顧客分布較為分散,約占商店顧客的15-20%;邊緣商圈是於商圈的最外緣,包含商圈剩下的客戶,此商圈顧客最為分散,數量最少。
按照商圈的性質,商圈可以分為六大類,包括:
(1)商業區,商業集中的地區;
(2)住宅區,住宅區住戶數量至少1000戶以上;
(3)文教區,其附近有一所或以上的學校;
(4)辦公區,辦公大樓較多的地區;
(5)工業區,即工廠較多的地區;
(6)混合區,以上5類的混合,如住商混合、住教混合、工商混合等。
影響商圈的因素可以分為內部因素和外部因素。內部因素包括:
店鋪經營商品的種類。經營傳統商品、日常用品的店鋪吸引顧客的區域范圍較小,商圈范圍小;經營非常用品,吸引顧客的能力強,商圈范圍廣。
店鋪的經營規模。隨著店鋪經營規模的擴大,其商圈也在隨之擴大,但增大到一定規模時,商圈范圍也不會擴大;
店鋪的經營特徵。經營同類商品的兩個店鋪即便同處一地的同一條街道,其對顧客的吸引力也會有所不同,相應的商圈規模也不一樣。經營靈活、商品齊全、服務周到,在顧客中留有良好形象的店鋪,顧客競爭力強,自然商圈規模相對也會較其他同行業店鋪大;
店鋪的主體設計,包括店鋪所在樓層構成及配置,吸引顧客的設施狀況,如停車場停車位的多少以及其所處位置等。
影響商圈的外部因素包括:
店鋪的促銷手段。利用人員推銷與營業推廣活動等可以吸引更多的次級以及邊緣商圈的顧客,可以更好擴張商圈范圍;
競爭店鋪的位置。相互競爭的兩店之間距離越大,它們各自的商圈也越大。如潛在顧客居於兩家同行業店鋪之間,各自店鋪分別會吸引一部分潛在顧客,造成客流分散,商圈都會因此而縮小。但有些相互競爭的店鋪毗鄰而設,顧客因有較多的比較、選擇機會而被吸引過來,則商圈反而會因競爭而擴大;
人口流動性。人口流動是指在交通要道、繁華商業區、公共場所過往的人口。一個地區的流動人口越多,在這一地區經營的店鋪的潛在顧客就越多。
交通地理狀況。交通地理條件與商圈規模密切相關。在商業繁華地帶,交通條件發達,人口流動性強,有大量的潛在顧客,因而商圈范圍也就越大;反之,店鋪設在交通偏僻地區,顧客主要是分布在店鋪附近的居住人口,其商圈范圍一般較小。
人口統計學特徵和消費特徵。包括商圈的客戶性別、年齡、收入、家庭規模、消費支出能力等。
基於商圈的地理信息和數據挖掘可以應用於商鋪選址、銷售區域分配、物流配送路徑優化、潛在消費者空間分布、線下廣告投放優化、城市規劃等數據可以通過大數據的手段進行獲取。在這些應用中,商鋪選址應用最多,尤其是應用於銀行、快消、電信、醫葯、傢具等行業。
傳統的商圈相關信息獲取是通過市場調查的手段獲得。在大數據時代,商圈相關的位置、客流和消費者信息是可以通過大數據獲取的,尤其是通過電信運營商或具有地圖服務能力的互聯網企業。如中國聯通推出的商鋪選址大數據應用服務,中國聯通可以把城市區域進行柵格化處理,分析每個柵格(不同位置)的用戶群信息、客流信息等,為零售商進行店鋪選址的決策依據,並且已經成功的應用到煙草直營零售終端的分析和選址優化中。而國內的一些城市的相關企業也在啟動智慧商圈的基礎服務。他們藉助為公眾提供免費WiFi服務的同時,把商圈人流數據收集成為城市大數據,建立智慧商圈大數據分析平台和應用服務,通過智慧商圈服務數據分析平台的應用服務於城市管理,比如了解商圈人流、客流,為城市規劃和交通線路設計提供依據和參考,也可以為商家選址和廣告促銷提供依據。在國外,一家名為PiinPoint的企業,他們提供基於網路的分析工具,可以幫助企業和商鋪選址進行優化,它能夠收集各種數據,包括人口、稅率、交通信息和房產信息等,對不同的待選地址進行深度分析,並吸引了許多有擴張計劃的美國零售商。
對於大數據與商圈信息的結合研究,無論是工業界還是學術界都在積極探索,甚至這些研究發展已經逐步發展為空間商業智能的探索。美國密西根大學中國信息研究中心主任鮑曙明是這樣界定的空間商業智能:空間商業智能是商業智能服務的一種擴展,涉及到空間和網點的分布,周邊的人口、環境、地理等等之間的關系。大數據、移動技術以及雲計算是未來發展趨勢,如何將這些新技術和空間商業智能有機整合,提升應用的能力,並將地理智慧普及到更廣泛的商業領域,目前還處於探索階段,還需要業界同仁共同努力。
近兩年興起的室內定位技術ibeacon將會對空間商業智能的發展有著更為積極的促進作用。iBeacon是蘋果公司2013年9月發布的移動設備用OS(iOS7)上配備的新功能,通過軟體和硬體的結合,從而大大提高室內精度,從原來的幾百米或者幾十米的定位精度提高到一米以內的定位精度。這種能力將極大的強化購物體驗,如當客戶走到某個商品前,手機應用自動跳出商品的介紹和促銷信息。對於商家,也可以更加精準的判別潛在消費者,及時的向消費者進行精準營銷。隨著iBeacon的發展,商家位置信息將更為精準,線下商品信息更為豐富,尤其是極大彌補室內定位的數據源,這對空間商業智能的發展是極大的利好。
總之,大數據應用於市場和用戶研究仍仍處於探索階段,依然面臨著諸多的挑戰,尤其是數據採集的不全面的問題、數據質量的問題以及數據處理和分析技術有待加強尤其是非結構化數據的處理和分析技術。但我們不可否認的是,大數據應用與市場和用戶研究將帶來研究速度和效率的極大提升。隨著大數據相關技術的發展和成熟,我們有理由相信,利用大數據進行更好的市場洞察和用戶洞察洞察。市場與用戶研究的同仁,我們一起擁抱大數據吧。