① 如何進行大數據分析及處理
聚雲化雨的處理方式
聚雲:探碼科技全面覆蓋各類數據的處理應用。以數據為原料,通過網路數據採集、生產設備數據採集的方式將各種原始數據凝結成雲,為客戶打造強大的數據存儲庫;
化雨:利用模型演算法和人工智慧等技術對存儲的數據進行計算整合讓數據與演算法產生質變反應化雲為雨,讓真正有價值的數據流動起來;
開渠引流,潤物無聲:將落下「雨水」匯合成數據湖泊,對數據進行標注與處理根據行業需求開渠引流,將一條一條的數據支流匯合集成數據應用中,為行業用戶帶來價值,做到春風化雨,潤物無聲。
② 如何提高大數據業務系統的性能
本文介紹如何提升 java Web 服務性能,主要介紹了三種方法:一是採用 Web 服務的非同步調用,二是引入 Web 服務批處理模式,三是壓縮 SOAP 消息。重點介紹在編程過程中如何使用非同步 Web 服務以及非同步調用和同步調用的差異點。本文還示範了如何在項目中使用以上三種方法,以及各種方法所適合的應用場景。 Java Web 服務簡介 Web 服務是一種面向服務架構的技術,通過標準的 Web 協議提供服務,目的是保證不同平台的應用服務可以互操作。Web 服務(Web Service)是基於 XML 和 HTTP 通訊的一種服務,其通信協議主要基於 SOAP,服務的描述通過 WSDL、UDDI 來發現和獲得服務的元數據。 這種建立在 XML 標准和 Internet 協議基礎上的 Web 服務是分布式計算的下一步發展方向,Web 服務為那些由不同資源構建的商業應用程序之間的通信和協作帶來了光明的前景,從而使它們可以彼此協作,而不受各自底層實現方案的影響。 JAX-RPC 1.0 是 Java 方面的 Web 服務的原始標准 , 但是由於 JAX-RPC 1.0 對 Web 服務功能的認識有一定的局限,於是 JAX-WS 2.0 應用而生。JAX-WS 2.0 開發工作的主要目標是對各項標准進行更新,成功實現了業界對 JAX-RPC 1.X 的各種期望。此外,JAX-WS 2.0 直接支持 XOP/MTOM,提高了系統附件傳送能力以及系統之間的互操作性。 實例剖析 Web 服務性能瓶頸 通過以上簡述不難體會到,Web 服務以其 XML + HTTP 的松耦合、平台無關的特性,集萬般寵愛於一身,必將成為未來數據共享的基礎。但與此同時我們也應當認識到世間完事萬物均有其矛盾的兩面性:有優點,必將存在缺點,Web 服務亦是如此。就像當初 JAVA 大行其道的時候性能成為其致命詬病一樣,Web 服務也同樣面臨性能問題,似乎“性能問題”天生就是“平台無關”揮之不去的冤家。但問題終歸要解決,實踐是檢驗和分析問題的唯一途徑,讓我們先來創建一個簡單的 Web 服務再來審視和分析隱含其中的性能問題。 創建服務 創建服務 Java Bean: 首先我們創建一個盡可能簡單的書店服務 Bean,服務的內容只有一個 qryBooksByAuthor,即根據作者 (Author) 查詢其名下的書籍 (List)。 圖 1. 書店服務 Bean(BookStoreSrvBean) 服務 Input- 作者 (Author) 的實體類 : 圖 2. 作者實體類 (Author) 服務出參 Output- 書籍 (Book) 列表的實體類: 圖 3. 書籍實體類 (Book) 至此我們的服務代碼已經完成,我們不在此討論此服務的業務合理性,創建此服務的目的只是舉一個盡可能簡單的實例以分析 web 服務的性能。 下面的任務就是開發 Web 服務了,手工編寫及發布符合規范的 Web 服務過程極為繁瑣,在此使用 IBM 的 Rational Software Architect(後面簡稱 RSA)來進行 Web 服務的伺服器端以及客戶端的開發。 發布 Web 服務 創建動態 Web 項目 : 發布 Web 服務的前提當然需要一個 J2EE 的 Web 項目,打開 RSA->File->New->Dynamic Web Project, 項目名稱為 testWebService, 其餘選項根據需要進行選擇 ( 注意需要選擇加入 Web 項目到 EAR)。創建好的 Web 項目和 EAR 項目效果如下 : 圖 4. Web 項目以及應用項目的結構 創建 Web 服務: 選中導入的 com.ibm.test.ws.srv.BookStoreSrvBean,右鍵 New->Other->Web Service 來創建並發布 Web 服務。創建的時候選擇常用的 JAX-WS 標准 , 並選擇生成 WSDL 文件。由於 Web 服務的創建不是本文重點,此部分內容暫且省略。服務創建完成之後就可以發布到上一步建好的 Web 項目中了。 創建客戶端 使用 RSA,客戶端的創建工作將會非常簡單:右鍵點擊上面生成的 WSDL 文件 ->Web Services->Generate Client 圖 5. 創建客戶端界面 在此界面,根據實際情況選擇 server,JAX-WS 標准以及 Client 代碼的目標項目,然後點擊下一步。 圖 6. 輸入客戶端信息 此界面暫時使用默認配置,某些特殊選項將在後面章節進行描述。 客戶端調用 由於 JAX-WS 規范大部分的 stub 調用代碼是實時生成的,我們只需要修改客戶端 WSDL 的 port 就可以用以下代碼進行 Web 服務的調用。這里修改 WSDL 埠的目的是讓客戶端調用 RSA 提供的 TCP/IP Monitor 的虛擬埠,這樣我們就可以很輕易地看到 Web 服務實際的調用以及返回的 SOAP 消息了。 客戶端調用代碼如下 : 圖 7. 客戶端調用代碼 使用 TCP/IP Monitor 看到的 SOAP 消息如下 : 圖 8. Web 服務調用產生的 SOAP 消息 Java Web 服務性能分析 從以上實例我們可以看到,Web 服務的調用與傳統的 RPC 還是有較大差異的。最大的特點是調用雙方使用 XML 格式的 SOAP 規范消息進行傳輸,這樣以文本進行傳輸的好處是拋棄了私有協議,無論調用雙方是何種平台,只要能夠構造以及解析 XML 文本,並且存在雙方都支持的傳輸協議,那麼調用就成為了可能。而 XML 的日益規范以及 HTTP 協議的普及更是給這兩個必要條件提供了堅強的後盾,Web 服務成為未來通用的服務提供標准已是不爭的事實。 但是相信使用過 Web 服務的人都曾經經受過其性能不佳的窘境,原因為何我們結合剛才的實例可以分析出以下幾點: ● SOAP 文本消息轉化導致效率低下 從剛才的 TCP/IP Monitor 監測到的 request 以及 response 的消息我們可以看到,在發送消息時,我們傳入了 Author 對象,在實際的調用發生時,這個 Author 對象會被轉化成 XML 格式的 SOAP 消息,此消息在到達 Server 端會被解析並重新構造成 Server 端的 Author 對象。Response 也是同理,Books List 也會經歷 XML 序列化和反序列化的過程。最糟糕的是,這種過程會在每一次調用的時候都會發生,這種構造以及解析的過程都會極大地消耗 CPU,造成資源的消耗。 ●SOAP 文本消息傳輸導致傳輸內容膨脹 以 request 參數 Author 為例,必要的信息僅僅是”Bruce Eckel”這幾個位元組,但轉化成 XML 消息後,可以從 SOAP 消息看到,多了很多 SOAP 規范的標簽,這些信息會導致需要傳輸的內容急劇增大,幾個位元組很可能會變成幾千位元組。當調用頻度和參數內容增多的時候,這種傳輸內容的膨脹將不是一個可以忽略的影響,它不但會吃掉網路的帶寬,還會給 Server 的數據吞吐能力造成負擔,後果可想而知。 ●同步阻塞調用在某些情況下導致性能低下 同步阻塞調用是指客戶端在調用 Web 服務發送 request 後一直處於阻塞狀態,客戶端線程就會掛起,一直處於等待狀態,不能進行其他任務的處理。這樣就會造成線程的浪費,如果相應線程佔用了一些資源,也不能夠及時釋放。 這個問題在純客戶端訪問 Server 端的情況下並不明顯,但如果是兩個 Server 端之間進行 Web 服務調用的話,阻塞模式就會成為調用 Server 端的性能瓶頸。 Web 服務性能優化實踐 使用非同步方式調用 web 服務 先需要強調一點的是,這里的非同步方式指的是客戶端的非同步,無論客戶端是同步還是非同步,都對服務端沒有任何影響。我們期望的理想結果是:當客戶端發送了調用請求後不必阻塞等待 server 端的返回結果。最新的 JAX-WS 標准中增加了這一非同步調用的特性,更好的消息是,RSA 工具中也對 JAX-WS 的這一特性進行了支持,這樣就極大地方便了我們進行非同步調用客戶端的創建。 其實講客戶端配置為非同步模式極其簡單,只要在 RSA 生成 Client 端代碼時將‘ Enable asynchronous invocation for generated client ’ 選中即可 , 如下圖 : 圖 9. 非同步客戶端創建選項 這樣在生成的客戶端的 BookStoreSrvBeanService 中就會多了 qryBooksByAuthorAsync 的非同步方法。既然是非同步方法,回調 (Call Back) 就是必不可少的,在下面的非同步客戶端測試代碼中可以看到匿名內部類作為回調 handler 的具體使用方法 : 圖 10. 非同步客戶端調用示例代碼 測試代碼的輸出結果如下: 圖 11. 非同步調用控制台輸出 可以看到,當 Web 服務沒有返回時,客戶端仍然有機會做自己的輸出 :“not done yet, can do something else…”。有些人可能會認為作為客戶端此處的輸出並無實際意義,但試想如果一個 server 作為客戶端去訪問一個 Web 服務,如果在服務等待期間能夠有機會脫離阻塞狀態執行自己需要的代碼,甚至可以使用 wait 等方法釋放被當前線程佔用的資源,那麼對於此 server 來說這將是一個對性能提升起到本質作用的因素。 使 web 服務支持批處理模式 ● 批處理模式簡介 批處理顧名思義是採用一次性處理多條事務的方式來取代一次一條事務的傳統處理方式。Java Database Connectivty (JDBC) 中提供了大量的批處理 API 用於優化資料庫操作性能,例如 Statement.executeBatch() 可以一次性接收並執行多條 SQL 語句。批處理思想可以方便的移植到 Web 服務調用場景以達到優化 Web 服務調用響應的目的。通過實際 Web 服務調用時間戳分析不難看出網路通訊是 Web 服務性能的瓶頸之一,因此通過減少網路通訊開銷來優化 Web 服務性能,批處理模式是其中較為直接的一種實現方式。 ●批處理模式適應性 批處理模式雖然作用顯著,但是也不適合所有場景。使用批處理模式處理 Web 服務請求時需要考慮一下幾點: 1.不同 Web 服務執行時間差異性 不同 Web 服務執行時間不盡相同,因此在同時處理多 Web 服務請求時需要考慮這種時間差異性。一般情況下是等待最長處理時間的 Web 服務執行完畢後匯總所有 Web 服務執行結果從而返回到客戶端,因此存在批處理多 Web 服務反而比順序單次調用 Web 服務消耗更長時間可能性。需要在採用批處理模式前對 Web 服務性能有清晰的了解,盡可能將性能參數相似的 Web 服務納入批處理,而分別處理執行時間差異較大的 Web 服務。一般建議將性能差異在 30% 以內的多 Web 服務可以考慮納入批處理。比方說 AccountWebService 中有一個獲取用戶賬戶列表的 Web 服務 getUserAccounts,這個 Web 服務執行需要 15 秒,另外 UserWebService 中有一個獲取用戶目前 pending 的待處理通知 getUserPendingNotifications,這個 Web 服務執行需要 2 秒時間,我們可以看到這兩個 Web 服務執行時間差異較大,因此在這種情況下我們不建議將這兩個 Web 服務納入批處理。而 AccountWebService 中有一個增加第三方用戶賬號的 Web 服務 addThirdPartyNonHostAccount,該 Web 服務執行需要 3 秒,此時就就可以考慮能將 getUserPendingNotifications Web 服務和 addThirdPartyNonHostAccount 放在一個批處理中一次性調用處理。 2.不同 Web 服務業務相關性 一般情況下建議考慮將存在業務相關性的多 Web 服務放入批處理中,只有業務存在相關性的多 Web 服務才會涉及到減少調用次數以提高應用系統性能的需求。比方說用戶在增加第三方賬號 addThirdPartyNonHostAccount 以後會默認自動發送一條 pending 的 notification 給用戶用以提示用戶來激活增加的賬號,因此這種場景下可以完美的將 addThirdPartyNonHostAccount Web 服務和 getUserPendingNotifications Web 服務放入一個批處理中,在用戶增加完三方賬號後系統自動刷新 pending notification 區域以提示用戶激活賬號。UserWebService 中有一個獲取用戶主賬號的 Web 服務 getUserHostAccounts 和獲取用戶三方賬號的 Web 服務 getUserNonHostAccounts,MetaDataService 中有一個獲取國家金融機構假期數據的 Web 服務 getFinacialAgencyHolidays,該 Web 服務明顯和 getUserHostAccounts,getUserNonHostAccounts 不存在業務上相關性,因此不應該將它們納入批處理。 3.盡量避免將存在依賴關系的多 Web 服務放入同一個批處理中 將多個存在依賴關系的多 Web 服務放入同一批處理中需要專門考慮、處理多 Web 服務彼此間的依賴關系,進而無法將方便的這些 Web 服務並發執行而不得不串列執行有依賴關系的 Web 服務,最悲觀情況下批處理響應時間將是批處理中所有 Web 服務串列執行時間和。原則上即使批處理中 Web 服務間存在依賴關系,通過動態指定依賴關系也可以實現多 Web 服務的批處理調用。但是這樣將大大增加批處理實現的技術復雜性,因此不建議如此操作。 4.多線程方式處理批處理 Web 服務請求 批處理模式在服務實現端一般通過多線程處理方法來並發處理多個 Web 服務調用請求。通過集中的解析器解析批處理模式請求,之後針對每一個 Web 服務調用會啟動一個單獨的線程來處理此 Web 請求,同時會有一個總的線程管理器來調度不同 Web 服務執行線程,監控線程執行進度等。在所有線程執行完成後匯總 Web 服務執行結果返回客戶端。 ●批處理實現方式 批處理實現方式一般有兩種:靜態批處理模式,動態批處理模式: 靜態批處理模式實現較為簡單,但是相對缺乏靈活性。靜態批處理的核心思想就是在已有 Web 服務的基礎上通過組合封裝的方式來得到批處理的目的。舉例來說將系統中已有的 Web 服務請求結構組合成一個新的數據對象模型作為 Web 服務批處理請求結構,在客戶端進行批處理調用時通過初始化批處理請求數據對象,並將特定的 Web 服務請求對象賦值給批處理請求對象屬性的方式。同理在服務實現端在生成批處理響應數據對象時也是通過將具體 Web 服務的響應組合起來生成並返回客戶端。 動態批處理模式實現較為復雜,但也能提供更大的操作靈活性。動態批處理模式一般需要應用採用 Java 反射 API 開發具有容器功能的批處理實現框架。客戶端可以動態的向容器中增加 Web 服務調用請求,比方說客戶端可以動態的將 addThirdPartyNonHostAccount,getUserPendingNotifications 兩個 Web 服務加入到這個容器中然後發起一個框架提供的批處理 Web 服務調用請求。該批處理 Web 服務在實現端將解析容器並將其中的各個 Web 服務請求抽取解析並啟動獨立的線程來處理。 壓縮 SOAP 當 Web Service SOAP 消息體比較大的時候,我們可以通過壓縮 soap 來提高網路傳輸性能。通過 GZIP 壓縮 SOAP 消息,得到二進制數據,然後把二進制數據作為附件傳輸。以前常規方法是把二進制數據 Base64 編碼,但是 Base64 編碼後的大小是二進制數據的 1.33 倍。辛苦壓縮的,被 Base64 給抵消差不多了。是否可以直接傳輸二進制數據呢? JAX-WS 的 MTOM 是可以的,通過 HTTP 的 MIME 規范, SOAP message 可以字元,二進制混合。我們在 client 和 server 端各注冊一個 handler 來處理壓縮和解壓。 由於壓縮後的 SOAP 消息附件與消息體中的部分不是基於 MTOM 自動關聯的,需要單獨處理附件。在生成 client 端和 server 端代碼的時候需要 enable MTOM。 Handler 具體代碼在本文代碼附件中, test.TestClientHanlder, test.TestServerHanlder。 寫好了 handler 了之後還要為 service 注冊 handler。 客戶端 handler 樣例代碼如下: 客戶端代碼 public boolean handleMessage(MessageContext arg0) { SOAPMessageContext ct = (SOAPMessageContext) arg0; boolean isRequestFlag = (Boolean) arg0 .get(MessageContext.MESSAGE_OUTBOUND_PROPERTY); SOAPMessage msg = ct.getMessage(); if (isRequestFlag) { try { SOAPBody body = msg.getSOAPBody(); Node port = body.getChildNodes().item(0); String portContent = port.toString(); NodeList list = port.getChildNodes(); for (int i = 0; i < list.getLength(); i++) { port.removeChild(list.item(i)); } ByteArrayOutputStream outArr = new ByteArrayOutputStream(); GZIPOutputStream zip = new GZIPOutputStream(outArr); zip.write(portContent.getBytes()); zip.flush(); zip.close(); byte[] arr = outArr.toByteArray(); TestDataSource ds = new TestDataSource(arr); AttachmentPart attPart = msg.createAttachmentPart(); attPart.setDataHandler(new DataHandler(ds)); msg.addAttachmentPart(attPart); } catch (SOAPException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } } return true; } Web 服務端 handler 樣例代碼如下: 服務端代碼 public boolean handleMessage(MessageContext arg0) { SOAPMessageContext ct = (SOAPMessageContext) arg0; boolean isRequestFlag = (Boolean) arg0 .get(MessageContext.MESSAGE_OUTBOUND_PROPERTY); SOAPMessage msg = ct.getMessage(); if (!isRequestFlag) { try { Object obj = ct.get(“Attachments”); Attachments atts = (Attachments) obj; List list = atts.getContentIDList(); for (int i = 1; i < list.size(); i++) { String id = (String) list.get(i); DataHandler d = atts.getDataHandler(id); InputStream in = d.getInputStream(); ByteArrayOutputStream out = new ByteArrayOutputStream(); GZIPInputStream zip = new GZIPInputStream(in); byte[] arr = new byte[1024]; int n = 0; while ((n = zip.read(arr)) > 0) { out.write(arr, 0, n); } Document doc = DocumentBuilderFactory.newInstance() .newDocumentBuilder() .parse(new ByteArrayInputStream(out.toByteArray())); SOAPBody body = msg.getSOAPBody(); Node port = body.getChildNodes().item(0); port.appendChild(doc.getFirstChild().getFirstChild()); } } catch (SOAPException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } catch (SAXException e) { e.printStackTrace(); } catch (ParserConfigurationException e) { e.printStackTrace(); } } return true; } 在 web.xml 中 service-ref 部分添加 handler. Server 端 handler 也是同樣添加。 配置代碼 <handler-chains> <handler-chain> <handler> <handler-name>TestClientHandler</handler-name> <handler-class>test.TestClientHandler </handler-class> </handler> </handler-chain> </handler-chains> 結束語 以上三種解決方案是根據筆者的經驗和分析,針對 Web 服務當前所面臨的性能瓶頸進行提出的。並且,這幾種解決方案在實際項目使用中都取得了比較好的效果。 綜上所述, 在實際項目中,根據不同的需求採用上述方法中一個或者多個組合,可以使 Web 服務性能更加優化。 文章來源:伯樂在線
③ 有沒有人知道哪個BI工具處理大數據的性能好,而且處理速度快
國外:tableau、PowerBI、QlikView
但是國外BI產品大多無法適應中國式復雜報表,本土化做的沒有國內的好,而且對漢化程度也有限,如果不是英語水平很高,且有特殊需求建議你選擇國貨哦~
國內:ElephantBI、OurwayBI、 永洪BI、FineBI
1、ElephantBI:
ElephantBI 是企業大數據管理分析和商業智能平台,實時連接聚合企業所有數據,包括MySQL、PostgreSQL、Oracle Databas等資料庫,HRM、CRM,ERP、OA等業務系統和本地excel文件。而且它的數據中心支持在線設計和編輯。
ElephantBI採用先進的敏捷BI模式,反應靈敏,可以深入挖掘大數據價值,更快獲得全局洞察,助力企業精準制定數據支持的商業決策。
2、OurwayBI
奧威BI 商業智能BI工具,能集成用友/金蝶/SAP/鼎捷ERP的商業智能BI數據可視化分析軟體,真正做到零開發,安裝即可用。將AI技術融入到產品中,除此之外,還包括百貨商超、醫葯連鎖、服裝連鎖、房地產、酒店連鎖、生產製造等10+行業標准數據可視化BI解決方案。(引用自其官網)
3、永洪BI
國內的老牌BI產品。把大數據分析所需的產品功能全部融入一個平台下,進行統一管控。
為各種規模的企業提供靈活易用的全業務鏈的大數據分析解決方案,但永洪BI個人感覺劣勢在產品的視覺、定製以及行業化方案上,比較不實用。
4、FineBI
是國內名氣比較大的一款BI 產品,採用B/S架構,在瀏覽器端對數據進行分析和查看,以及系統平台的管理。更像是一款企業數據管理應用。而且使用的時候需要搭配FineReport,性價比方面待考量。
④ 如何為大數據處理構建高性能Hadoop集群
越來越多的企業開始使用Hadoop來對大數據進行處理分析,但Hadoop集群的整體性能卻取決於CPU、內存、網路以及存儲之間的性能平衡。而在這篇文章中,我們將探討如何為Hadoop集群構建高性能網路,這是對大數據進行處理分析的關鍵所在。
關於Hadoop
「大數據」是鬆散的數據集合,海量數據的不斷增長迫使企業需要通過一種新的方式去管理。大數據是結構化或非結構化的多種數據類型的大集合。而 Hadoop則是Apache發布的軟體架構,用以分析PB級的非結構化數據,並將其轉換成其他應用程序可管理處理的形式。Hadoop使得對大數據處理成為可能,並能夠幫助企業可從客戶數據之中發掘新的商機。如果能夠進行實時處理或者接近實時處理,那麼其將為許多行業的用戶提供強大的優勢。
Hadoop是基於谷歌的MapRece和分布式文件系統原理而專門設計的,其可在通用的網路和伺服器硬體上進行部署,並使之成為計算集群。
Hadoop模型
Hadoop的工作原理是將一個非常大的數據集切割成一個較小的單元,以能夠被查詢處理。同一個節點的計算資源用於並行查詢處理。當任務處理結束後,其處理結果將被匯總並向用戶報告,或者通過業務分析應用程序處理以進行進一步分析或儀表盤顯示。
為了最大限度地減少處理時間,在此並行架構中,Hadoop「moves jobs to data」,而非像傳統模式那樣「moving data to jobs」。這就意味著,一旦數據存儲在分布式系統之中,在實時搜索、查詢或數據挖掘等操作時,如訪問本地數據,在數據處理過程中,各節點之間將只有一個本地查詢結果,這樣可降低運營開支。
Hadoop的最大特點在於其內置的並行處理和線性擴展能力,提供對大型數據集查詢並生成結果。在結構上,Hadoop主要有兩個部分:
Hadoop分布式文件系統(HDFS)將數據文件切割成數據塊,並將其存儲在多個節點之內,以提供容錯性和高性能。除了大量的多個節點的聚合I/O,性能通常取決於數據塊的大小——如128MB。而傳統的Linux系統下的較為典型的數據塊大小可能是4KB。
MapRece引擎通過JobTracker節點接受來自客戶端的分析工作,採用「分而治之」的方式來將一個較大的任務分解成多個較小的任務,然後分配給各個TaskTrack節點,並採用主站/從站的分布方式(具體如下圖所示):
Hadoop系統有三個主要的功能節點:客戶機、主機和從機。客戶機將數據文件注入到系統之中,從系統中檢索結果,以及通過系統的主機節點提交分析工作等。主機節點有兩個基本作用:管理分布式文件系統中各節點以及從機節點的數據存儲,以及管理Map/Rece從機節點的任務跟蹤分配和任務處理。數據存儲和分析處理的實際性能取決於運行數據節點和任務跟蹤器的從機節點性能,而這些從機節點則由各自的主機節點負責溝通和控制。從節點通常有多個數據塊,並在作業期間被分配處理多個任務。
部署實施Hadoop
各個節點硬體的主要要求是市縣計算、內存、網路以及存儲等四個資源的平衡。目前常用的並被譽為「最佳」的解決方案是採用相對較低成本的舊有硬體,部署足夠多的伺服器以應對任何可能的故障,並部署一個完整機架的系統。
Hadoop模式要求伺服器與SAN或者NAS進行直接連接存儲(DAS)。採用DAS主要有三個原因,在標准化配置的集群中,節點的縮放數以千計,隨著存儲系統的成本、低延遲性以及存儲容量需求不斷提高,簡單配置和部署個主要的考慮因素。隨著極具成本效益的1TB磁碟的普及,可使大型集群的TB級數據存儲在DAS之上。這解決了傳統方法利用SAN進行部署極其昂貴的困境,如此多的存儲將使得Hadoop和數據存儲出現一個令人望而卻步的起始成本。有相當大一部分用戶的Hadoop部署構建都是採用大容量的DAS伺服器,其中數據節點大約1-2TB,名稱控制節點大約在1-5TB之間,具體如下圖所示:
來源:Brad Hedlund, DELL公司
對於大多數的Hadoop部署來說,基礎設施的其他影響因素可能還取決於配件,如伺服器內置的千兆乙太網卡或千兆乙太網交換機。上一代的CPU和內存等硬體的選擇,可根據符合成本模型的需求,採用匹配數據傳輸速率要求的千兆乙太網介面來構建低成本的解決方案。採用萬兆乙太網來部署Hadoop也是相當不錯的選擇。
萬兆乙太網對Hadoop集群的作用
千兆乙太網的性能是制約Hadoop系統整體性能的一個主要因素。使用較大的數據塊大小,例如,如果一個節點發生故障(甚至更糟,整個機架宕機),那麼整個集群就需要對TB級的數據進行恢復,這就有可能會超過千兆乙太網所能提供的網路帶寬,進而使得整個集群性能下降。在擁有成千上萬個節點的大型集群中,當運行某些需要數據節點之間需要進行中間結果再分配的工作負載時,在系統正常運行過程中,某個千兆乙太網設備可能會遭遇網路擁堵。
每一個Hadoop數據節點的目標都必須實現CPU、內存、存儲和網路資源的平衡。如果四者之中的任意一個性能相對較差的話,那麼系統的潛在處理能力都有可能遭遇瓶頸。添加更多的CPU和內存組建,將影響存儲和網路的平衡,如何使Hadoop集群節點在處理數據時更有效率,減少結果,並在Hadoop集群內添加更多的HDFS存儲節點。
幸運的是,影響CPU和內存發展的摩爾定律,同樣也正影響著存儲技術(TB級容量的磁碟)和乙太網技術(從千兆向萬兆甚至更高)的發展。預先升級系統組件(如多核處理器、每節點5-20TB容量的磁碟,64-128GB內存),萬兆乙太網卡和交換機等網路組件是重新平衡資源最合理的選擇。萬兆乙太網將在Hadoop集群證明其價值,高水平的網路利用率將帶來效益更高的帶寬。下圖展示了Hadoop集群與萬兆乙太網的連接:
許多企業級數據中心已經遷移到10GbE網路,以實現伺服器整合和伺服器虛擬化。隨著越來越多企業開始部署Hadoop,他們發現他們完全不必要大批量部署1U的機架伺服器,而是部署更少,但性能更高的伺服器,以方便擴展每個數據節點所能運行的任務數量。很多企業選擇部署2U或4U的伺服器(如戴爾 PowerEdge C2100),每個節點大約12-16個核心以及24TB存儲容量。在這種環境下的合理選擇是充分利用已經部署的10GbE設備和Hadoop集群中的 10GbE網卡。
在日常的IT環境中構建一個簡單的Hadoop集群。可以肯定的是,盡管有很多細節需要微調,但其基礎是非常簡單的。構建一個計算、存儲和網路資源平衡的系統,對項目的成功至關重要。對於擁有密集節點的Hadoop集群而言,萬兆乙太網能夠為計算和存儲資源擴展提供與之相匹配的能力,且不會導致系統整體性能下降。
⑤ FineBI的大數據處理性能怎麼樣
帆軟抄的產品有自成一套的襲系統,特別是對於中國式的報表,其處理能力還是相當不錯的。但是要說到處理大數據的能力,還是稍有欠缺,且FineBI必須由理解業務的用戶進行操作,才能對數據進行分析。其實說到大數據處理性能,推薦一款叫Datafocus的工具,能連接多樣資料庫,處理龐大的數據量,秒級響應。
⑥ 如何進行大數據分析及處理
聚雲化雨的處理方式
聚雲:探碼科技全面覆蓋各類數據的處理應用。以數據為原料,通過網路數據採集、生產設備數據採集的方式將各種原始數據凝結成雲,為客戶打造強大的數據存儲庫;
化雨:利用模型演算法和人工智慧等技術對存儲的數據進行計算整合讓數據與演算法產生質變反應化雲為雨,讓真正有價值的數據流動起來;
開渠引流,潤物無聲:將落下「雨水」匯合成數據湖泊,對數據進行標注與處理根據行業需求開渠引流,將一條一條的數據支流匯合集成數據應用中,為行業用戶帶來價值,做到春風化雨,潤物無聲。
⑦ 大數據需突破存儲、性能瓶頸
大數據需突破存儲、性能瓶頸
大數據的核心是大量數據的分析能力
在亟待優先解決的IT問題千頭萬緒的情況下,在大數據價值日益凸顯的背景下,企業需要首先提高數據中心的成本效益,以滿足不斷變化的業務需求,加大大數據的應用和相關基礎設施的構建,滿足對於大數據環境下數據中心高性能、高可擴展性、高安全性和高可用性的要求。
大數據核心分析能力需要強大的後台支撐
所謂大數據,最為核心的就要看對於大量數據的核心分析能力。但是,大數據核心分析能力的影響不僅存在於數據管理策略、數據可視化與分析能力等方面,從根本上也對數據中心IT基礎設施架構甚至機房設計原則等提出了更高的要求。為了達到快速高效的處理大量數據的能力,整個IT基礎設施需要進行整體優化設計,應充分考量後台數據中心的高節能性、高穩定性、高安全性、高可擴展性、高度冗餘,基礎設施建設這五個方面,同時更需要解決大規模節點數的數據中心的部署、高速內部網路的構建、機房散熱以及強大的數據備份等問題。
大數據離不開效益型數據中心的構建
深入了解大數據應用的數據中心經濟學對於提高企業的實際利潤率,具有十分重要的價值。數據中心經濟學能夠提供一個框架,幫助IT管理者認識存儲的總體擁有成本(TCO)的長期價值影響。利用數據中心經濟學確定存儲決策、計算資源的准確支出,將能夠幫助企業系統化地持續降低成本,並更好的支持企業採用大數據技術。
大數據更需要突破存儲、性能瓶頸
大數據應用除了數據規模巨大之外,還意味著擁有龐大的文件數量。因此如何管理文件系統層累積的元數據是一個難題,處理不當的話會影響到系統的擴展能力和性能,而傳統的NAS系統就存在這一瓶頸。所幸的是,基於對象的存儲架構就不存在這個問題,它可以在一個系統中管理十億級別的文件數量,而且還不會像傳統存儲一樣遭遇元數據管理的困擾。基於對象的存儲系統還具有廣域擴展能力,可以在多個不同的地點部署並組成一個跨區域的大型存儲基礎架構。此外,大數據應用還存在實時性的問題,特別是涉及到與網上交易或者金融類相關的應用。
⑧ 如何打造高性能大數據分析平台
大數據分析系統作為一個關鍵性的系統在各個公司迅速崛起。但是這種海量規模的數據帶來了前所未有的性能挑戰。同時,如果大數據分析系統無法在第一時間為運營決策提供關鍵數據,那麼這樣的大數據分析系統一文不值。本文將從技術無關的角度討論一些提高性能的方法。下面我們將討論一些能夠應用在大數據分析系統不同階段的技巧和准則(例如數據提取,數據清洗,處理,存儲,以及介紹)。本文應作為一個通用准則,以確保最終的大數據分析平台能滿足性能要求。
1. 大數據是什麼?
大數據是最近IT界最常用的術語之一。然而對大數據的定義也不盡相同,所有已知的論點例如結構化的和非結構化、大規模的數據等等都不夠完整。大數據系統通常被認為具有數據的五個主要特徵,通常稱為數據的5 Vs。分別是大規模,多樣性,高效性、准確性和價值性。
互聯網是個神奇的大網,大數據開發和軟體定製也是一種模式,這里提供最詳細的報價,如果真的想做,可以來這里,這個手技的開始數字是一八七中間的是三兒零最後的是一四二五零,按照順序組合起來就可以找到,想說的是,除非想做或者了解這方面的內容,如果只是湊熱鬧的話,就不要來了。
據Gartner稱,大規模可以被定義為「在本(地)機數據採集和處理技術能力不足以為用戶帶來商業價值。當現有的技術能夠針對性的進行改造後來處理這種規模的數據就可以說是一個成功的大數據解決方案。
這種大規模的數據沒將不僅僅是來自於現有的數據源,同時也會來自於一些新興的數據源,例如常規(手持、工業)設備,日誌,汽車等,當然包括結構化的和非結構化的數據。
據Gartner稱,多樣性可以定義如下:「高度變異的信息資產,在生產和消費時不進行嚴格定義的包括多種形式、類型和結構的組合。同時還包括以前的歷史數據,由於技術的變革歷史數據同樣也成為多樣性數據之一 「。
高效性可以被定義為來自不同源的數據到達的速度。從各種設備,感測器和其他有組織和無組織的數據流都在不斷進入IT系統。由此,實時分析和對於該數據的解釋(展示)的能力也應該隨之增加。
根據Gartner,高效性可以被定義如下:「高速的數據流I/O(生產和消費),但主要聚焦在一個數據集內或多個數據集之間的數據生產的速率可變上」。
准確性,或真實性或叫做精度是數據的另一個重要組成方面。要做出正確的商業決策,當務之急是在數據上進行的所有分析必須是正確和准確(精確)的。
大數據系統可以提供巨大的商業價值。像電信,金融,電子商務,社交媒體等,已經認識到他們的數據是一個潛在的巨大的商機。他們可以預測用戶行為,並推薦相關產品,提供危險交易預警服務,等等。
與其他IT系統一樣,性能是大數據系統獲得成功的關鍵。本文的中心主旨是要說明如何讓大數據系統保證其性能。
2. 大數據系統應包含的功能模塊
大數據系統應該包含的功能模塊,首先是能夠從多種數據源獲取數據的功能,數據的預處理(例如,清洗,驗證等),存儲數據,數據處理、數據分析等(例如做預測分析??,生成在線使用建議等等),最後呈現和可視化的總結、匯總結果。
下圖描述了大數據系統的這些高層次的組件
描述本節的其餘部分簡要說明了每個組分,如圖1。
2.1 各種各樣的數據源當今的IT生態系統,需要對各種不同種類來源的數據進行分析。這些來源可能是從在線Web應用程序,批量上傳或feed,流媒體直播數據,來自工業、手持、家居感測的任何東西等等。
顯然從不同數據源獲取的數據具有不同的格式、使用不同的協議。例如,在線的Web應用程序可能會使用SOAP / XML格式通過HTTP發送數據,feed可能會來自於CSV文件,其他設備則可能使用MQTT通信協議。
由於這些單獨的系統的性能是不在大數據系統的控制范圍之內,並且通常這些系統都是外部應用程序,由第三方供應商或團隊提供並維護,所以本文將不會在深入到這些系統的性能分析中去。
2.2 數據採集第一步,獲取數據。這個過程包括分析,驗證,清洗,轉換,去重,然後存到適合你們公司的一個持久化設備中(硬碟、存儲、雲等)。
在下面的章節中,本文將重點介紹一些關於如何獲取數據方面的非常重要的技巧。請注意,本文將不討論各種數據採集技術的優缺點。
2.3 存儲數據第二步,一旦數據進入大數據系統,清洗,並轉化為所需格式時,這些過程都將在數據存儲到一個合適的持久化層中進行。
在下面的章節中,本文將介紹一些存儲方面的最佳實踐(包括邏輯上和物理上)。在本文結尾也會討論一部分涉及數據安全方面的問題。
2.4 數據處理和分析第三步,在這一階段中的一部分干凈數據是去規范化的,包括對一些相關的數據集的數據進行一些排序,在規定的時間間隔內進行數據結果歸集,執行機器學習演算法,預測分析等。
在下面的章節中,本文將針對大數據系統性能優化介紹一些進行數據處理和分析的最佳實踐。
2.5 數據的可視化和數據展示最後一個步驟,展示經過各個不同分析演算法處理過的數據結果。該步驟包括從預先計算匯總的結果(或其他類似數據集)中的讀取和用一種友好界面或者表格(圖表等等)的形式展示出來。這樣便於對於數據分析結果的理解。
3. 數據採集中的性能技巧
數據採集是各種來自不同數據源的數據進入大數據系統的第一步。這個步驟的性能將會直接決定在一個給定的時間段內大數據系統能夠處理的數據量的能力。
數據採集??過程基於對該系統的個性化需求,但一些常用執行的步驟是 - 解析傳入數據,做必要的驗證,數據清晰,例如數據去重,轉換格式,並將其存儲到某種持久層。
涉及數據採集過程的邏輯步驟示如下圖所示:
下面是一些性能方面的技巧:
來自不同數據源的傳輸應該是非同步的。可以使用文件來傳輸、或者使用面向消息的(MoM)中間件來實現。由於數據非同步傳輸,所以數據採集過程的吞吐量可以大大高於大數據系統的處理能力。 非同步數據傳輸同樣可以在大數據系統和不同的數據源之間進行解耦。大數據基礎架構設計使得其很容易進行動態伸縮,數據採集的峰值流量對於大數據系統來說算是安全的。
如果數據是直接從一些外部資料庫中抽取的,確保拉取數據是使用批量的方式。
如果數據是從feed file解析,請務必使用合適的解析器。例如,如果從一個XML文件中讀取也有不同的解析器像JDOM,SAX,DOM等。類似地,對於CSV,JSON和其它這樣的格式,多個解析器和API是可供選擇。選擇能夠符合需求的性能最好的。
優先使用內置的驗證解決方案。大多數解析/驗證工作流程的通常運行在伺服器環境(ESB /應用伺服器)中。大部分的場景基本上都有現成的標准校驗工具。在大多數的情況下,這些標準的現成的工具一般來說要比你自己開發的工具性能要好很多。
類似地,如果數據XML格式的,優先使用XML(XSD)用於驗證。
即使解析器或者校等流程使用自定義的腳本來完成,例如使用java優先還是應該使用內置的函數庫或者開發框架。在大多數的情況下通常會比你開發任何自定義代碼快得多。
盡量提前濾掉無效數據,以便後續的處理流程都不用在無效數據上浪費過多的計算能力。
大多數系統處理無效數據的做法通常是存放在一個專門的表中,請在系統建設之初考慮這部分的資料庫存儲和其他額外的存儲開銷。
如果來自數據源的數據需要清洗,例如去掉一些不需要的信息,盡量保持所有數據源的抽取程序版本一致,確保一次處理的是一個大批量的數據,而不是一條記錄一條記錄的來處理。一般來說數據清洗需要進行表關聯。數據清洗中需要用到的靜態數據關聯一次,並且一次處理一個很大的批量就能夠大幅提高數據處理效率。
數據去重非常重要這個過程決定了主鍵的是由哪些欄位構成。通常主鍵都是時間戳或者id等可以追加的類型。一般情況下,每條記錄都可能根據主鍵進行索引來更新,所以最好能夠讓主鍵簡單一些,以保證在更新的時候檢索的性能。
來自多個源接收的數據可以是不同的格式。有時,需要進行數據移植,使接收到的數據從多種格式轉化成一種或一組標准格式。
和解析過程一樣,我們建議使用內置的工具,相比於你自己從零開發的工具性能會提高很多。
數據移植的過程一般是數據處理過程中最復雜、最緊急、消耗資源最多的一步。因此,確保在這一過程中盡可能多的使用並行計算。
一旦所有的數據採集的上述活動完成後,轉換後的數據通常存儲在某些持久層,以便以後分析處理,綜述,聚合等使用。
多種技術解決方案的存在是為了處理這種持久(RDBMS,NoSQL的分布式文件系統,如Hadoop和等)。
謹慎選擇一個能夠最大限度的滿足需求的解決方案。
4. 數據存儲中的性能技巧
一旦所有的數據採集步驟完成後,數據將進入持久層。
在本節中將討論一些與數據數據存儲性能相關的技巧包括物理存儲優化和邏輯存儲結構(數據模型)。這些技巧適用於所有的數據處理過程,無論是一些解析函數生的或最終輸出的數據還是預計算的匯總數據等。
首先選擇數據範式。您對數據的建模方式對性能有直接的影響,例如像數據冗餘,磁碟存儲容量等方面。對於一些簡單的文件導入資料庫中的場景,你也許需要保持數據原始的格式,對於另外一些場景,如執行一些分析計算聚集等,你可能不需要將數據範式化。
大多數的大數據系統使用NoSQL資料庫替代RDBMS處理數據。
不同的NoSQL資料庫適用不同的場景,一部分在select時性能更好,有些是在插入或者更新性能更好。
資料庫分為行存儲和列存儲。
具體的資料庫選型依賴於你的具體需求(例如,你的應用程序的資料庫讀寫比)。
同樣每個資料庫都會根據不同的配置從而控制這些資料庫用於資料庫復制備份或者嚴格保持數據一致性?這些設置會直接影響資料庫性能。在資料庫技術選型前一定要注意。
壓縮率、緩沖池、超時的大小,和緩存的對於不同的NoSQL資料庫來說配置都是不同的,同時對資料庫性能的影響也是不一樣的。
數據Sharding和分區是這些資料庫的另一個非常重要的功能。數據Sharding的方式能夠對系統的性能產生巨大的影響,所以在數據Sharding和分區時請謹慎選擇。
並非所有的NoSQL資料庫都內置了支持連接,排序,匯總,過濾器,索引等。
如果有需要還是建議使用內置的類似功能,因為自己開發的還是不靈。
NoSQLs內置了壓縮、編解碼器和數據移植工具。如果這些可以滿足您的部分需求,那麼優先選擇使用這些內置的功能。這些工具可以執行各種各樣的任務,如格式轉換、壓縮數據等,使用內置的工具不僅能夠帶來更好的性能還可以降低網路的使用率。
許多NoSQL資料庫支持多種類型的文件系統。其中包括本地文件系統,分布式文件系統,甚至基於雲的存儲解決方案。
如果在互動式需求上有嚴格的要求,否則還是盡量嘗試使用NoSQL本地(內置)文件系統(例如HBase 使用HDFS)。
這是因為,如果使用一些外部文件系統/格式,則需要對數據進行相應的編解碼/數據移植。它將在整個讀/寫過程中增加原本不必要的冗餘處理。
大數據系統的數據模型一般來說需要根據需求用例來綜合設計。與此形成鮮明對比的是RDMBS數據建模技術基本都是設計成為一個通用的模型,用外鍵和表之間的關系用來描述數據實體與現實世界之間的交互。
在硬體一級,本地RAID模式也許不太適用。請考慮使用SAN存儲。
5. 數據處理分析中的性能技巧
數據處理和分析是一個大數據系統的核心。像聚合,預測,聚集,和其它這樣的邏輯操作都需要在這一步完成。
本節討論一些數據處理性能方面的技巧。需要注意的是大數據系統架構有兩個組成部分,實時數據流處理和批量數據處理。本節涵蓋數據處理的各個方面。
在細節評估和數據格式和模型後選擇適當的數據處理框架。
其中一些框架適用於批量數據處理,而另外一些適用於實時數據處理。
同樣一些框架使用內存模式,另外一些是基於磁碟io處理模式。
有些框架擅長高度並行計算,這樣能夠大大提高數據效率。
基於內存的框架性能明顯優於基於磁碟io的框架,但是同時成本也可想而知。
概括地說,當務之急是選擇一個能夠滿足需求的框架。否則就有可能既無法滿足功能需求也無法滿足非功能需求,當然也包括性能需求。
一些這些框架將數據劃分成較小的塊。這些小數據塊由各個作業獨立處理。協調器管理所有這些獨立的子作業?在數據分塊是需要當心。
該數據快越小,就會產生越多的作業,這樣就會增加系統初始化作業和清理作業的負擔。
如果數據快太大,數據傳輸可能需要很長時間才能完成。這也可能導致資源利用不均衡,長時間在一台伺服器上運行一個大作業,而其他伺服器就會等待。
不要忘了查看一個任務的作業總數。在必要時調整這個參數。
最好實時監控數據塊的傳輸。在本機機型io的效率會更高,這么做也會帶來一個副作用就是需要將數據塊的冗餘參數提高(一般hadoop默認是3份)這樣又會反作用使得系統性能下降。
此外,實時數據流需要與批量數據處理的結果進行合並。設計系統時盡量減少對其他作業的影響。
大多數情況下同一數據集需要經過多次計算。這種情況可能是由於數據抓取等初始步驟就有報錯,或者某些業務流程發生變化,值得一提的是舊數據也是如此。設計系統時需要注意這個地方的容錯。
這意味著你可能需要存儲原始數據的時間較長,因此需要更多的存儲。
數據結果輸出後應該保存成用戶期望看到的格式。例如,如果最終的結果是用戶要求按照每周的時間序列匯總輸出,那麼你就要將結果以周為單位進行匯總保存。
為了達到這個目標,大數據系統的資料庫建模就要在滿足用例的前提下進行。例如,大數據系統經常會輸出一些結構化的數據表,這樣在展示輸出上就有很大的優勢。
更常見的是,這可能會這將會讓用戶感覺到性能問題。例如用戶只需要上周的數據匯總結果,如果在數據規模較大的時候按照每周來匯總數據,這樣就會大大降低數據處理能力。
一些框架提供了大數據查詢懶評價功能。在數據沒有在其他地方被使用時效果不錯。
實時監控系統的性能,這樣能夠幫助你預估作業的完成時間。
6. 數據可視化和展示中的性能技巧
精心設計的高性能大數據系統通過對數據的深入分析,能夠提供有價值戰略指導。這就是可視化的用武之地。良好的可視化幫助用戶獲取數據的多維度透視視圖。
需要注意的是傳統的BI和報告工具,或用於構建自定義報表系統無法大規模擴展滿足大數據系統的可視化需求。同時,許多COTS可視化工具現已上市。
本文將不會對這些個別工具如何進行調節,而是聚焦在一些通用的技術,幫助您能打造可視化層。
確保可視化層顯示的數據都是從最後的匯總輸出表中取得的數據。這些總結表可以根據時間短進行匯總,建議使用分類或者用例進行匯總。這么做可以避免直接從可視化層讀取整個原始數據。
這不僅最大限度地減少數據傳輸,而且當用戶在線查看在報告時還有助於避免性能卡頓問題。
重分利用大化可視化工具的緩存。緩存可以對可視化層的整體性能產生非常不錯的影響。
物化視圖是可以提高性能的另一個重要的技術。
大部分可視化工具允許通過增加線程數來提高請求響應的速度。如果資源足夠、訪問量較大那麼這是提高系統性能的好辦法。
盡量提前將數據進行預處理,如果一些數據必須在運行時計算請將運行時計算簡化到最小。
可視化工具可以按照各種各樣的展示方法對應不同的讀取策略。其中一些是離線模式、提取模式或者在線連接模式。每種服務模式都是針對不同場景設計的。
同樣,一些工具可以進行增量數據同步。這最大限度地減少了數據傳輸,並將整個可視化過程固化下來。
保持像圖形,圖表等使用最小的尺寸。
大多數可視化框架和工具的使用可縮放矢量圖形(SVG)。使用SVG復雜的布局可能會產生嚴重的性能影響。
7. 數據安全以及對於性能的影響
像任何IT系統一樣安全性要求也對大數據系統的性能有很大的影響。在本節中,我們討論一下安全對大數據平台性能的影響。
- 首先確保所有的數據源都是經過認證的。即使所有的數據源都是安全的,並且沒有針對安全方面的需求,那麼你可以靈活設計一個安全模塊來配置實現。
- 數據進過一次認證,那麼就不要進行二次認證。如果實在需要進行二次認證,那麼使用一些類似於token的技術保存下來以便後續繼續使用。這將節省數據一遍遍認證的開銷。
- 您可能需要支持其他的認證方式,例如基於PKI解決方案或Kerberos。每一個都有不同的性能指標,在最終方案確定前需要將其考慮進去。
- 通常情況下數據壓縮後進入大數據處理系統。這么做好處非常明顯不細說。
- 針對不同演算法的效率、對cpu的使用量你需要進行比較來選出一個傳輸量、cpu使用量等方面均衡的壓縮演算法。
- 同樣,評估加密邏輯和演算法,然後再選擇。
- 明智的做法是敏感信息始終進行限制。
- 在審計跟蹤表或登錄時您可能需要維護記錄或類似的訪問,更新等不同的活動記錄。這可能需要根據不同的監管策略和用戶需求個性化的進行設計和修改。
- 注意,這種需求不僅增加了數據處理的復雜度,但會增加存儲成本。
- 盡量使用下層提供的安全技術,例如操作系統、資料庫等。這些安全解決方案會比你自己設計開發性能要好很多。
8. 總結
本文介紹了各種性能方面的技巧,這些技術性的知道可以作為打造大數據分析平台的一般准則。大數據分析平台非常復雜,為了滿足這種類型系統的性能需求,需要我們從開始建設的時候進行考量。
本文介紹的技術准則可以用在大數據平台建設的各個不同階段,包括安全如何影響大數據分析平台的性能。