【導讀】作為大數據工程師,其必須要掌握的基礎知識就是java與mysql的關系、交互和連接,作為基礎,也是面試考官經常會考的內容,為了幫助大家都能順利通過考試,今天小編就來和大家嘮一嘮java與mysql的關系、交互和連接,好了,開始今天的內容大數據分析師面試必備:java與mysql解析。
1. SQL語言四大類:
DQL 數據查詢語言 select
DML 數據操作語言 insert、update、delete
DDL 數據界說語言 create、alter
DCL 數據控制語言 grant許可權
2. mysql資料庫中的decimal類型(是數值型,不能存放字元串):
舉例:decimal(18,0) 常用於身份證號碼,但是帶x的不可以。
舉例:decimal(5,2)
狀況一:假設小數點前面是3位,後邊是2位,正常狀況。
狀況二:5指的是小數點前後不能超過5位,小數點後有必要是2位。
3. mysql中InnoDB和MyISAM引擎的差異:
innodb支撐:事務和主外鍵
myisam不支撐:事務和主外鍵
4. 【不需要背誦,選擇題考點】向mysql中,a向表中添加數據的幾種寫法,題目:id int 主鍵自增,name varchar(11)
不為空。
5. 操作mysql資料庫表有兩種方式,第一種:點八點吧;第二種:寫代碼。【不需要背誦,只需要了解,考試選擇題會出】
6. 在Java中,簡述面向對象三大特徵。
7. 在Java中,常用關鍵字:
1. 定義類的關鍵字是什麼? class
2. 繼承的關鍵字是什麼? extends
3. 定義介面的關鍵字是什麼? interface
4. 實現介面的關鍵字是什麼? implements
5. 抽象類的關鍵字是什麼? abstract
8. 在Java中,抽象類和介面的區別:
1. 抽象類中可以包含普通方法和抽象方法,介面中只能包含抽象方法
2. 抽象類中可以有構造方法,介面中沒有構造方法
3. 抽象類只能單繼承,可以實現多個介面
9. Java介面中有哪些成員?
1. 構造方法,沒有
2. 常量,默認訪問修飾符public static final,沒有變數
3. 抽象方法,默認訪問修飾符public abstract
10. 在Java中,抽象類和抽象方法的關系:
1. 抽象類中可以包含普通方法和抽象方法,抽象方法一定存在抽象類中。
2. 子類繼承抽象父類,必須實現|重寫抽象方法,除非子類也是抽象類。
3. 【判斷題】抽象類中必須包含抽象方法?【錯誤×】
4. 【判斷題】抽象方法一定存在抽象類中?【正確√】
11. Java重載的特點:
1. 在同一個類中
2. 方法名相同
3. 參數列表(個數、類型、順序)不同
4. 與返回值類型和訪問修飾符無關
12. Java重寫的特點:
1. 在父子類中
2. 方法名相同
3. 參數列表相同
4. 返回值類型相同,或是其子類
5. 訪問修飾符相同,或不能嚴於父類
13. 列舉幾種Java實現多態的形式:
1. 繼承的存在
2. 父類引用指向子類對象 | 向上轉型
3. 父類作為方法的返回值類型,父類作為方法的參數
14. Java介面的特性:單根性和傳遞性
15. 在Java中,throws和throw的區別:
1. throws 聲明異常,用在定義方法小括弧的後面
2. throw 拋出異常,寫在方法體內
以上就是小編今天給大家整理發送的關於大數據分析師面試必備:java與mysql解析的相關內容,希望對各位考生有所幫助,想知道更多關於數據分析師的基本要求有哪些,關注小編持續更新數據分析師崗位解析。
Ⅱ 有哪些關於大數據的碩士畢設題目
大數據(Big Data)又稱為巨量資料,指需要新處理模式才能具有更強的決策力、洞察力和流版程優化能權力的海量、高增長率和多樣化的信息資產。「大數據」概念最早由維克托·邁爾·舍恩伯格和肯尼斯·庫克耶在編寫《大數據時代》中提出,指不用隨機分析法(抽樣調查)的捷徑,而是採用所有數據進行分析處理。對於「大數據」(Big data)研究機構Gartner給出了定義,「大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的「加工能力」,通過「加工」實現數據的「增值」。
Ⅲ 和大數據有關的畢業論文題目
大數據只是一個時代背景,具體內容可以班忙做
Ⅳ 面試題-關於大數據量的分布式處理
面試題-關於大數據量的分布式處理
題目:生產系統每天會產生一個日誌文件F,數據量在5000W行的級別。文件F保存了兩列數據,一列是來源渠道,一列是來源渠道上的用戶標識。文件F用來記錄當日各渠道上的所有訪問用戶,每訪問一次,記錄一條。
請問如何快速計算出各渠道上新增的用戶?
問題分析:首先本次面試的是有關於分布式數據處理以及數據分析的職位,所以相關的面試題目可能會偏向於使用分布式的思想去解決。但無奈本人當時反應太慢,實在沒向分布式處理方向思考。
方案一:
本題最直觀的一個處理方法就是,直接拿著當日新增的5000W條訪問記錄一條一條的去匹配歷史訪問用戶。若存在歷史訪問記錄,則忽略;若不存在訪問記錄,則保存為新增記錄。很明顯,假若歷史訪問用戶有2億條記錄,則需要和2億條數據比較5000W次。比較次數可想而知。
由於本人一直在做基於資料庫的數據處理工作,很容易就想到將歷史數據保存在資料庫的一張表中,並對來源渠道和用戶標識這兩個欄位建立索引,然後遍歷日誌文件F(5000W次)。根據日誌文件F中的每一行去匹配資料庫中的歷史訪問記錄。由於歷史數據表有索引,單次查詢的速度也非常快。但是需要5000W次的資料庫查詢,很明顯效率低下。
方案二:
既然多次單一查詢無法滿足要求,於是可以先通過一種數據導入技術將當日新增數據導入到資料庫的另一張表中,並和歷史數據做左外關聯。若能關聯成功,則表示此用戶已存在;若關聯失敗,則表示此用戶不存在。
此方案暫且不說5000W條記錄的大表與2億條記錄的大表關聯效率有多高以及使用到的資料庫緩沖區的資源有多少,單就5000W條訪問記錄導入資料庫表,都是一個不小的時間花費。
方案三:
很明顯,面試時方案二的回答並未達到面試官的預期,最初被遺憾的PASS掉。一家很有潛力,自己很看好的公司,並計劃做為自己未來發展方向的職位,就這樣丟下我,揚長而去了。
這幾天又看了下分布式相關的介紹,突然想到這道題。一下子醒悟過來,其實還是因為對題目要考察的點分析得不夠透徹。當時以為只是僅僅考數據處理效率的一個題目,其實考的是一種將復雜問題拆分為簡單問題的拆分思想。了解到這一層,一種新的方式立馬在腦海中浮現出來。具體如下:
假如現在有N(N>=2)個存儲塊,並存在一個函數f(來源渠道,用戶標識),對於給定的一組(來源渠道,用戶標識),總能將其分發到一個固定的存儲塊內。那麼可以使用此函數將5000W行訪問記錄盡量均勻的分發至N個存儲塊上,並同時使用此函數將歷史訪問記錄也分發至這些存儲塊上。由於相同的一組記錄,肯定會被分配至同一個存儲塊,所以比較時,只需要分別比較各個存儲塊上當日新增記錄與歷史訪問用戶,然後將N個存儲塊上比較的結果匯總,即可得到最終結果。
假設歷史訪問用戶數據已通過函數f(來源渠道,用戶標識)被分發至了N個歷史文件H1、H2、…、HN。則詳細處理步驟如下:
1、將F中的內容使用函數f(來源渠道,用戶標識),分發至文件F1、F2、…、FN內。(可開M(M>=2)個並行,且若N-M越大,同時向同一文件寫入數據的概率越小)
2、將文件F1、F2、…、FN內的訪問記錄去重。(可開N個並行分別處理對應的N個文件)。
3、將文件Fn(1=<n<=N)去重後的結果與對應的歷史文件Hn比較得出新增用戶結果Rn。(可開N個並行分別處理對應的N個文件且當N足夠大時,實際要處理數據的量級就會相當小)。
4、合並第3步得到的結果R1、R2、…、RN即可得到當日新增用戶。(可並行)
5、為使歷史數據文件H1、H2、…、HN中的數據最全,將結果R1、R2、…、RN分別寫入對應的歷史文件中。(可並行)
本方案主要有以下優點:
1、數據的分發、處理、合並都可並行處理,明顯提高了處理效率。
2、由於每個存儲塊上的新增數據,只需要與它對應存儲塊上的歷史數據比較即可,大大減少了比較次數。(對於當日每一條記錄來說,都只需要與大約歷史的N分之一條數據去比較)
3、基本不需要考慮歷史全量數據的保存及獲取問題。
本方案缺點:
1、處理方案明顯變的復雜許多,不僅需要處理數據的分發,處理,還需要一個並行的快速收集方法。
2、可能需要多台伺服器並行處理。
本方案難點:
1、一個穩定(對於相同的一組來源渠道和用戶標識,必定會被分發至同一存儲塊)、快速(根據一條來源渠道和用戶標識數據,可以快速的計算出它將要被分發至的存儲塊)、均勻(當日新增數據及歷史數據都能盡量均勻的被分發至N個存儲塊,最理想的情況是每個存儲塊上分發到的數據都是總數據的N分之一)的分發函數至關重要。
2、如何分發、並行處理及匯總數據。
Ⅳ 大數據技術Hadoop筆試題
大數據技術Hadoop筆試題
導讀:Hadoop有高容錯性的特點,並且設計用來部署在低廉的(low-cost)硬體上。以下是由我J.L為您整理推薦的面試筆試題目和經驗,歡迎參考閱讀。
單項選擇題
1. 下面哪個程序負責 HDFS 數據存儲。
a)NameNode
b)Jobtracker
c)Datanode
d)secondaryNameNode
e)tasktracker
2. HDfS 中的 block 默認保存幾份?
a)3 份
b)2 份
c)1 份
d)不確定
3. 下列哪個程序通常與 NameNode 在一個節點啟動?
a)SecondaryNameNode
b)DataNode
c)TaskTracker
d)Jobtracker
4. Hadoop 作者
a)Martin Fowler
b)Kent Beck
c)Doug cutting
5. HDFS 默認 Block Size
a)32MB
b)64MB
c)128MB
6. 下列哪項通常是集群的最主要瓶頸
a)CPU
b)網路
c)磁碟
d)內存
7. 關於 SecondaryNameNode 哪項是正確的?
a)它是 NameNode 的熱備
b)它對內存沒有要求
c)它的目的是幫助 NameNode 合並編輯日誌,減少 NameNode 啟動時間
d)SecondaryNameNode 應與 NameNode 部署到一個節點
多選題
8. 下列哪項可以作為集群的管理工具
a)Puppet
b)Pdsh
c)Cloudera Manager
d)d)Zookeeper
9. 配置機架感知的下面哪項正確
a)如果一個機架出問題,不會影響數據讀寫
b)寫入數據的時候會寫到不同機架的 DataNode 中
c)MapRece 會根據機架獲取離自己比較近的網路數據
10. Client 端上傳文件的時候下列哪項正確
a)數據經過 NameNode 傳遞給 DataNode
b)Client 端將文件切分為 Block,依次上傳
c)Client 只上傳數據到一台 DataNode,然後由 NameNode 負責 Block 復制工作
11. 下列哪個是 Hadoop 運行的模式
a)單機版
b)偽分布式
c)分布式
12. Cloudera 提供哪幾種安裝 CDH 的方法
a)Cloudera manager
b)Tar ball
c)Yum d)Rpm
判斷題
13. Ganglia 不僅可以進行監控,也可以進行告警。( )
14. Block Size 是不可以修改的。( )
15. Nagios 不可以監控 Hadoop 集群,因為它不提供 Hadoop 支持。( )
16. 如果 NameNode 意外終止,SecondaryNameNode 會接替它使集群繼續工作。( )
17. Cloudera CDH 是需要付費使用的。( )
18. Hadoop 是 Java 開發的,所以 MapRece 只支持 Java 語言編寫。( )
19. Hadoop 支持數據的隨機讀寫。( )
20. NameNode 負責管理 metadata,client 端每次讀寫請求,它都會從磁碟中讀取或則會寫入 metadata 信息並反饋 client 端。( )
21. NameNode 本地磁碟保存了 Block 的位置信息。( )
22. DataNode 通過長連接與 NameNode 保持通信。( )
23. Hadoop 自身具有嚴格的許可權管理和安全措施保障集群正常運行。( )
24. Slave 節點要存儲數據,所以它的磁碟越大越好。( )
25. hadoop dfsadmin –report 命令用於檢測 HDFS 損壞塊。( )
26. Hadoop 默認調度器策略為 FIFO( )
27. 集群內每個節點都應該配 RAID,這樣避免單磁碟損壞,影響整個節點運行。( )
28. 因為 HDFS 有多個副本,所以 NameNode 是不存在單點問題的。( )
29. 每個 map 槽就是一個線程。( )
30. Maprece 的 input split 就是一個 block。( )
31. NameNode 的 Web UI 埠是 50030,它通過 jetty 啟動的 Web 服務。( )
32. Hadoop 環境變數中的 HADOOP_HEAPSIZE 用於設置所有 Hadoop 守護線程的內存。它默認是 200 GB。( )
33. DataNode 首次加入 cluster 的時候,如果 log 中報告不兼容文件版本,那需要 NameNode執行“Hadoop namenode -format”操作格式化磁碟。( )
別走開,答案在後面哦!
1. 下面哪個程序負責 HDFS 數據存儲。答案C datanode
a)NameNode
b)Jobtracker
c)Datanode
d)secondaryNameNode
e)tasktracker
2. HDfS 中的 block 默認保存幾份? 答案A默認3分
a)3 份
b)2 份
c)1 份
d)不確定
3. 下列哪個程序通常與 NameNode 在一個節點啟動?答案D
a)SecondaryNameNode
b)DataNode
c)TaskTracker
d)Jobtracker
此題分析:
hadoop的集群是基於master/slave模式,namenode和jobtracker屬於master,datanode和 tasktracker屬於slave,master只有一個,而slave有多個SecondaryNameNode內存需求和NameNode在一個數量級上,所以通常secondary NameNode(運行在單獨的物理機器上)和NameNode運行在不同的機器上。
JobTracker和TaskTracker
JobTracker 對應於 NameNode
TaskTracker 對應於 DataNode
DataNode 和NameNode 是針對數據存放來而言的
JobTracker和TaskTracker是對於MapRece執行而言的
maprece中幾個主要概念,maprece整體上可以分為這么幾條執行線索:obclient,JobTracker與TaskTracker。
1、JobClient會在用戶端通過JobClient類將應用已經配置參數打包成jar文件存儲到hdfs,並把路徑提交到Jobtracker, 然後由JobTracker創建每一個Task(即MapTask和ReceTask)並將它們分發到各個TaskTracker服務中去執行。
2、JobTracker是一個master服務,軟體啟動之後JobTracker接收Job,負責調度Job的每一個子任務task運行於 TaskTracker上,並監控它們,如果發現有失敗的task就重新運行它。一般情況應該把JobTracker部署在單獨的機器上。
3、TaskTracker是運行在多個節點上的slaver服務。TaskTracker主動與JobTracker通信,接收作業,並負責直接執行每一個任務。TaskTracker都需要運行在HDFS的DataNode上。
4. Hadoop 作者 答案C Doug cutting
a)Martin Fowler
b)Kent Beck
c)Doug cutting
5. HDFS 默認 Block Size 答案:B
a)32MB
b)64MB
c)128MB
(因為版本更換較快,這里答案只供參考)
6. 下列哪項通常是集群的最主要瓶頸:答案:C磁碟
a)CPU
b)網路
c)磁碟IO
d)內存
該題解析:
首先集群的目的是為了節省成本,用廉價的pc機,取代小型機及大型機。小型機和大型機有什麼特點?
1.cpu處理能力強
2.內存夠大
所以集群的瓶頸不可能是a和d
3.網路是一種稀缺資源,但是並不是瓶頸。
4.由於大數據面臨海量數據,讀寫數據都需要io,然後還要冗餘數據,hadoop一般備3份數據,所以IO就會打折扣。
7. 關於 SecondaryNameNode 哪項是正確的?答案C
a)它是 NameNode 的熱備
b)它對內存沒有要求
c)它的目的是幫助 NameNode 合並編輯日誌,減少 NameNode 啟動時間
d)SecondaryNameNode 應與 NameNode 部署到一個節點。
多選題:
8. 下列哪項可以作為集群的管理?答案:ABD
a)Puppet
b)Pdsh
c)Cloudera Manager
d)Zookeeper
9. 配置機架感知的下面哪項正確:答案ABC
a)如果一個機架出問題,不會影響數據讀寫
b)寫入數據的時候會寫到不同機架的 DataNode 中
c)MapRece 會根據機架獲取離自己比較近的網路數據
10. Client 端上傳文件的時候下列哪項正確?答案B
a)數據經過 NameNode 傳遞給 DataNode
b)Client 端將文件切分為 Block,依次上傳
c)Client 只上傳數據到一台 DataNode,然後由 NameNode 負責 Block 復制工作
該題分析:
Client向NameNode發起文件寫入的請求。
NameNode根據文件大小和文件塊配置情況,返回給Client它所管理部分DataNode的信息。
Client將文件劃分為多個Block,根據DataNode的地址信息,按順序寫入到每一個DataNode塊中。
11. 下列哪個是 Hadoop 運行的模式:答案ABC
a)單機版
b)偽分布式
c)分布式
12. Cloudera 提供哪幾種安裝 CDH 的方法?答案:ABCD
a)Cloudera manager
b)Tarball
c)Yum
d)Rpm
判斷題:
13. Ganglia 不僅可以進行監控,也可以進行告警。( 正確)
分析:此題的目的是考Ganglia的'了解。嚴格意義上來講是正確。ganglia作為一款最常用的Linux環境中的監控軟體,它擅長的的是從節點中按照用戶的需求以較低的代價採集數據。但是ganglia在預警以及發生事件後通知用戶上並不擅長。最新的ganglia已經有了部分這方面的功能。但是更擅長做警告的還有Nagios。Nagios,就是一款精於預警、通知的軟體。通過將Ganglia和Nagios組合起來,把Ganglia採集的數據作為Nagios的數據源,然後利用Nagios來發送預警通知,可以完美的實現一整套監控管理的系統。
14. Block Size 是不可以修改的。(錯誤 )
分析:它是可以被修改的Hadoop的基礎配置文件是hadoop-default.xml,默認建立一個Job的時候會建立Job的Config,Config首先讀入hadoop-default.xml的配置,然後再讀入hadoop- site.xml的配置(這個文件初始的時候配置為空),hadoop-site.xml中主要配置需要覆蓋的hadoop-default.xml的系統級配置。
15. Nagios 不可以監控 Hadoop 集群,因為它不提供 Hadoop 支持。(錯誤 )
分析:Nagios是集群監控工具,而且是雲計算三大利器之一
16. 如果 NameNode 意外終止,SecondaryNameNode 會接替它使集群繼續工作。(錯誤 )
分析:SecondaryNameNode是幫助恢復,而不是替代,如何恢復,可以查看
17. Cloudera CDH 是需要付費使用的。(錯誤 )
分析:第一套付費產品是Cloudera Enterpris,Cloudera Enterprise在美國加州舉行的 Hadoop 大會 (Hadoop Summit) 上公開,以若干私有管理、監控、運作工具加強 Hadoop 的功能。收費採取合約訂購方式,價格隨用的 Hadoop 叢集大小變動。
18. Hadoop 是 Java 開發的,所以 MapRece 只支持 Java 語言編寫。(錯誤 )
分析:rhadoop是用R語言開發的,MapRece是一個框架,可以理解是一種思想,可以使用其他語言開發。
19. Hadoop 支持數據的隨機讀寫。(錯 )
分析:lucene是支持隨機讀寫的,而hdfs只支持隨機讀。但是HBase可以來補救。HBase提供隨機讀寫,來解決Hadoop不能處理的問題。HBase自底層設計開始即聚焦於各種可伸縮性問題:表可以很“高”,有數十億個數據行;也可以很“寬”,有數百萬個列;水平分區並在上千個普通商用機節點上自動復制。表的模式是物理存儲的直接反映,使系統有可能提高高效的數據結構的序列化、存儲和檢索。
20. NameNode 負責管理 metadata,client 端每次讀寫請求,它都會從磁碟中讀取或則會寫入 metadata 信息並反饋 client 端。(錯誤)
此題分析:
NameNode 不需要從磁碟讀取 metadata,所有數據都在內存中,硬碟上的只是序列化的結果,只有每次 namenode 啟動的時候才會讀取。
1)文件寫入
Client向NameNode發起文件寫入的請求。
NameNode根據文件大小和文件塊配置情況,返回給Client它所管理部分DataNode的信息。
Client將文件劃分為多個Block,根據DataNode的地址信息,按順序寫入到每一個DataNode塊中。
2)文件讀取
Client向NameNode發起文件讀取的請求。
21. NameNode 本地磁碟保存了 Block 的位置信息。( 個人認為正確,歡迎提出其它意見)
分析:DataNode是文件存儲的基本單元,它將Block存儲在本地文件系統中,保存了Block的Meta-data,同時周期性地將所有存在的Block信息發送給NameNode。NameNode返迴文件存儲的DataNode的信息。
Client讀取文件信息。
22. DataNode 通過長連接與 NameNode 保持通信。( )
這個有分歧:具體正在找這方面的有利資料。下面提供資料可參考。
首先明確一下概念:
(1).長連接
Client方與Server方先建立通訊連接,連接建立後不斷開,然後再進行報文發送和接收。這種方式下由於通訊連接一直存在,此種方式常用於點對點通訊。
(2).短連接
Client方與Server每進行一次報文收發交易時才進行通訊連接,交易完畢後立即斷開連接。此種方式常用於一點對多點通訊,比如多個Client連接一個Server.
23. Hadoop 自身具有嚴格的許可權管理和安全措施保障集群正常運行。(錯誤 )
hadoop只能阻止好人犯錯,但是不能阻止壞人干壞事
24. Slave 節點要存儲數據,所以它的磁碟越大越好。( 錯誤)
分析:一旦Slave節點宕機,數據恢復是一個難題
25. hadoop dfsadmin –report 命令用於檢測 HDFS 損壞塊。(錯誤 )
26. Hadoop 默認調度器策略為 FIFO(正確 )
27. 集群內每個節點都應該配 RAID,這樣避免單磁碟損壞,影響整個節點運行。(錯誤 )
分析:首先明白什麼是RAID,可以參考網路磁碟陣列。這句話錯誤的地方在於太絕對,具體情況具體分析。題目不是重點,知識才是最重要的。因為hadoop本身就具有冗餘能力,所以如果不是很嚴格不需要都配備RAID。具體參考第二題。
28. 因為 HDFS 有多個副本,所以 NameNode 是不存在單點問題的。(錯誤 )
29. 每個 map 槽就是一個線程。(錯誤 )
分析:首先我們知道什麼是map 槽,map 槽->map slotmap slot 只是一個邏輯值 ( org.apache.hadoop.mapred.TaskTracker.TaskLauncher.numFreeSlots ),而不是對應著一個線程或者進程
30. Maprece 的 input split 就是一個 block。(錯誤 )
31. NameNode 的 Web UI 埠是 50030,它通過 jetty 啟動的 Web 服務。(錯誤 )
32. Hadoop 環境變數中的 HADOOP_HEAPSIZE 用於設置所有 Hadoop 守護線程的內存。它默認是 200 GB。( 錯誤)
hadoop為各個守護進程(namenode,secondarynamenode,jobtracker,datanode,tasktracker)統一分配的內存在hadoop-env.sh中設置,參數為HADOOP_HEAPSIZE,默認為1000M。
33. DataNode 首次加入 cluster 的時候,如果 log 中報告不兼容文件版本,那需要 NameNode執行“Hadoop namenode -format”操作格式化磁碟。(錯誤 )
分析:
首先明白介紹,什麼ClusterID
ClusterID
添加了一個新的標識符ClusterID用於標識集群中所有的節點。當格式化一個Namenode,需要提供這個標識符或者自動生成。這個ID可以被用來格式化加入集群的其他Namenode。
二次整理
有的同學問題的重點不是上面分析內容:內容如下:
這個報錯是說明 DataNode 所裝的Hadoop版本和其它節點不一致,應該檢查DataNode的Hadoop版本
;Ⅵ 有關大數據,有哪些題目
題目得按專業課來算
比如數據挖掘,題目多是一些演算法理論
比如hadoop,題目就是hadoop生態和組件功能
比如資料庫,題目就是數據模型和分布式理論
比如可視化,題目就是報表操作了