醫療大數據生態圈_國家籌建三大健康醫療大數據集團各有哪些特色

⑴ 大數據學什麼框架什麼是生態圈

大數據平台中的主流框架主要有以下三種：

(一)Hadoop生態圈

HDFS：分布式文件系統，解決版大權數據的存儲
Yarn(MapRece)：分布式計算框架，解決大數據的計算
Hive：Hadoop中的數據分析引擎，支持SQL
HBase：基於HDFS的NoSQL資料庫
ZooKeeper：分布式協調服務，可以用於實現HA(高可用架構)
其他

(二)Spark生態圈

Spark Core：Spark的核心，用於離線計算
Spark SQL：Spark的數據分析引擎，支持SQL語句
Spark Streaming：Spark的流式計算引擎，但本質依然是離線計算
MLlib：機器學習框架

(三)Flink生態圈

Flink DataSet：Flink批處理(離線計算)API
Flink DataStream：Flink流處理(實時計算)API
Flink Table&SQL：Flink的數據分析引擎，支持SQL語句
MLlib：機器學習框架

⑵ 大數據分析技術生態圈一覽

大數據分析技術生態圈一覽
大數據領域讓人暈頭轉向。為了幫助你，我們決定製作這份廠商圖標和目錄。它並不是全面列出了這個領域的每家廠商，而是深入探討大數據分析技術領域。我們希望這份資料新穎、實用。
這是一款面向Hadoop的自助服務式、無資料庫模式的大數據分析應用軟體。
Platfora
這是一款大數據發現和分析平台。
Qlikview
這是一款引導分析平台。
Sisense
這是一款商業智能軟體，專門處理復雜數據的商業智能解決方案。
Sqream
這是一款快速、可擴展的大數據分析SQL資料庫。
Splunk
這是一款運維智能平台。
Sumologic
這是一項安全的、專門定製的、基於雲的機器數據分析服務。
Actian
這是一款大數據分析平台。
亞馬遜Redshift
這是一項PB級雲端數據倉庫服務。
CitusData
可擴展PostgreSQL。
Exasol
這是一種用於分析數據的大規模並行處理(MPP)內存資料庫。
惠普Vertica
這是一款SQL on Hadoop大數據分析平台。
Mammothdb
這是一款與SQL兼容的MPP分析資料庫。
微軟SQL Server
這是一款關系資料庫管理系統。
甲骨文Exadata
這是一款計算和存儲綜合系統，針對甲骨文資料庫軟體進行了優化。
SAP HANA
這是一款內存計算平台。
Snowflake
這是一款雲數據倉庫。
Teradata
這是企業級大數據分析和服務。
數據探查
Apache Drill
這是一款無資料庫模式的SQL查詢引擎，面向Hadoop、NoSQL和雲存儲。
Cloudera Impala
這是一款開源大規模並行處理SQL查詢引擎。
谷歌BigQuery
這是一項全面託管的NoOps數據分析服務。
Presto
這是一款面向大數據的分布式SQL查詢引擎。
Spark
這是一款用於處理大數據的快速通用引擎。
平台/基礎設施
亞馬遜網路服務(AWS)
提供雲計算服務
思科雲
提供基礎設施即服務
Heroku
為雲端應用程序提供平台即服務
Infochimps
提供雲服務的大數據解決方案
微軟Azure
這是一款企業級雲計算平台。
Rackspace
託管專業服務和雲計算服務
Softlayer(IBM)
提供雲基礎設施即服務
數據基礎設施
Cask
這是一款面向Hadoop解決方案的開源應用程序平台。
Cloudera
提供基於Hadoop的軟體、支持和服務。
Hortonworks
管理HDP――這是一款開源企業Apache Hadoop數據平台。
MAPR
這是面向大數據部署環境的Apache Hadoop技術。
垂直領域應用/數據挖掘
Alpine Data Labs
這是一種高級分析平台，可處理Apache Hadoop和大數據。
R
這是一種免費軟體環境，可處理統計計算和圖形。
Rapidminer
這是一款開源預測分析平台
SAS
這是一款軟體套件，可以挖掘、改動、管理和檢索來自眾多數據源的數據。
提取、轉換和載入(ETL)
IBM Datastage
使用一種高性能並行框架，整合多個系統上的數據。
Informatica
這是一款企業數據整合和管理軟體。
Kettle-Pentaho Data Integration
提供了強大的提取、轉換和載入(ETL)功能。
微軟SSIS
這是一款用於構建企業級數據整合和數據轉換解決方案的平台。
甲骨文Data Integrator
這是一款全面的數據整合平台。
SAP
NetWeaver為整合來自各個數據源的數據提供了靈活方式。
Talend
提供了開源整合軟體產品
Cassandra
這是鍵值資料庫和列式資料庫的混合解決方案。
CouchBase
這是一款開源分布式NoSQL文檔型資料庫。
Databricks
這是使用Spark的基於雲的大數據處理解決方案。
Datastax
為企業版的Cassandra資料庫提供商業支持。
IBM DB2
這是一款可擴展的企業資料庫伺服器軟體。
MemSQL
這是一款分布式內存資料庫。
MongoDB
這是一款跨平台的文檔型資料庫。
MySQL
這是一款流行的開源資料庫。
甲骨文
這是一款企業資料庫軟體套件。
PostgresSQL
這是一款對象關系資料庫管理系統。
Riak
這是一款分布式NoSQL資料庫。
Splice Machine
這是一款Hadoop關系資料庫管理系統。
VoltDB
這是一款內存NewSQL資料庫。
Actuate
這是一款嵌入式分析和報表解決方案。
BiBoard
這是一款互動式商業智能儀錶板和可視化工具。
Chart.IO
這是面向資料庫的企業級分析工具。
IBM Cognos
這是一款商業智能和績效管理軟體。
D3.JS
這是一種使用HTML、SVG和CSS可視化顯示數據的JavaScript庫。
Highcharts
這是面向互聯網的互動式JavaScirpt圖表。
Logi Analytics
這是自助服務式、基於Web的商業智能和分析應用軟體。
微軟Power BI
這是互動式數據探查、可視化和演示工具。
Microstrategy
這是一款企業商業智能和分析軟體。
甲骨文Hyperion
這是企業績效管理和商業智能系統。
Pentaho
這是大數據整合和分析解決方案。
SAP Business Objects
這是商業智能解決方案。
Tableau
這是專注於商業智能的互動式數據可視化產品系列。
Tibco Jaspersoft
這是商業智能套件。

⑶ 國家籌建三大健康醫療大數據集團，各有哪些特色

從此前發布的公開信息可見，三大健康醫療大數據集團均以國有資本為主體，三大集團由國家衛生和計劃生育委員會統一牽頭組織，由國家健康醫療大數據安全管理委員會（大數據辦）統一監管。
4月份，中國健康醫療大數據產業發展集團公司由中國電子信息產業集團公司、國家開發投資公司、中國聯合網路通信有限公司、中國國有企業結構調整基金股份有限公司宣布正式籌建；隨後，中國健康醫療大數據科技發展集團公司由中國科學院控股有限公司、中國銀行、工商銀行、中國電信、中國信達、廣州城投等公司宣布籌建，公司將於7月底之前完成籌備，與相關試點城市政府簽約，並進駐項目建設現場。
6月20日，中國健康醫療大數據股份有限公司宣布籌建，由中國移動通信集團公司與浪潮集團有限公司作為發起方，攜手國新控股、國家開發銀行、工商銀行、農業銀行、中國銀行、建設銀行、交通銀行等多家企業共同組建。
2016年6月，國務院辦公廳印發了《關於促進和規范健康醫療大數據應用發展的指導意見》（以下簡稱《意見》），將健康醫療大數據應用發展納入國家大數據戰略布局，並從夯實應用基礎、全面深化應用、規范和推動「互聯網+健康醫療」服務、加強保障體系建設等四個方面部署了14項重點任務和重大工程。三大集團公司的籌備成立將有助於推動該《意見》落到實處。
金小桃告訴記者，「組建以國有資本為主體的三個健康醫療大數據集團，目標非常明確：

一是通過健康醫療大數據應用促進優質醫療資源下沉到基層群眾，努力提高人民群眾獲得感；

二是通過健康醫療大數據支持三醫聯動、分級診療、異地結算和遠程服務等，為深化醫改注入新動力；

三是通過健康醫療大數據應用發展，創新健康服務新業態，發展健康科技產品，推進覆蓋一二三產業的全健康產業鏈的發展，促進數字經濟為國民經濟增添新動能。」
金小桃表示，健康醫療大數據是涉及到國家戰略安全、群眾生命安全以及隱私保護安全的重要戰略性資源，以國有資本為主體建設三大健康醫療大數據集團公司，「這是承擔國家使命、落實國家戰略的重要舉措」。在未來的健康醫療大數據應用發展過程中，歡迎各方力量加入國家重點項目建設、健康產業和數字經濟發展隊伍，實現共建共享共贏。

三大集團目標任務一致，發展各具特色

三大集團公司的目標任務就是承擔國家健康醫療大數據中心、區域中心和應用發展中心的建設和健康醫療科技文化產業園等經濟發展運營工作。金小桃強調，三大集團所承擔的建設任務，總體目標是一致的，但是有其區域特點，有其發展特色，形成集群優勢，為國家經濟發展注入新的活力，最終建成國民經濟重要支柱產業。「特別是在產業發展上，各集團公司將根據各地不同的實際情況，形成不同的發展模式、產業形態及應用方向。」
據金小桃介紹，根據國務院要求，總體規劃是建設一個國家數據中心，加七個區域中心，並結合各地實際情況，建設若干個應用和發展中心，也就是「1+7+X」的健康醫療大數據應用發展的總體規劃。
一個國家中心將容納全體公民健康醫療大數據，形成以「全息數字人」為願景的健康科技產業生態圈，涵蓋每個公民所有涉及到生產、生活、生命的全過程全周期的生理心理社會環境等數據，預計數據採集和應用的規模將達到1000 ZB以上。
七個區域中心，將按照國家總體規劃、按照地域布局進行建設。「現在我們已經在華南和華東進行了國家第一批試點，也就是在福建省和江蘇省兩個省分別建兩個區域中心。其他的區域中心也很快將通過調研、專家論證和國家批復以後進入正式建設階段。」
X個應用發展中心主要指國家中心和七個區域中心建設帶動下，各省區市在依法依規負責收集匯聚上報國家的健康醫療大數據基礎上，開展應用創新及產業園建設。
「通過這樣的總體規劃，我們在推動國家健康醫療大數據中心建設的過程中，既避免了過去數據分散、互不聯通、共享困難形成的數據孤島和數據煙囪等問題，同時也為既有區域集中應用和國家一體化大數據中心的建設提出了方向和要求。有利於健康醫療大數據採集、存儲、應用過程中的互聯互通和共建共享，有利於開發應用創新和產業集群發展。」金小桃稱。

⑷ 一文看懂大數據的技術生態圈

一文看懂大數據的技術生態圈

大數據本身是個很寬泛的概念，Hadoop生態圈（或者泛生態圈）基本上都是為了處理超過單機尺度的數據處理而誕生的。你可以把它比作一個廚房所以需要的各種工具。鍋碗瓢盆，各有各的用處，互相之間又有重合。你可以用湯鍋直接當碗吃飯喝湯，你可以用小刀或者刨子去皮。但是每個工具有自己的特性，雖然奇怪的組合也能工作，但是未必是最佳選擇。

大數據，首先你要能存的下大數據。傳統的文件系統是單機的，不能橫跨不同的機器。HDFS（Hadoop Distributed FileSystem）的設計本質上是為了大量的數據能橫跨成百上千台機器，但是你看到的是一個文件系統而不是很多文件系統。比如你說我要獲取/hdfs/tmp/file1的數據，你引用的是一個文件路徑，但是實際的數據存放在很多不同的機器上。你作為用戶，不需要知道這些，就好比在單機上你不關心文件分散在什麼磁軌什麼扇區一樣。HDFS為你管理這些數據。存的下數據之後，你就開始考慮怎麼處理數據。雖然HDFS可以為你整體管理不同機器上的數據，但是這些數據太大了。一台機器讀取成T上P的數據（很大的數據哦，比如整個東京熱有史以來所有高清電影的大小甚至更大），一台機器慢慢跑也許需要好幾天甚至好幾周。對於很多公司來說，單機處理是不可忍受的，比如微博要更新24小時熱博，它必須在24小時之內跑完這些處理。那麼我如果要用很多台機器處理，我就面臨了如何分配工作，如果一台機器掛了如何重新啟動相應的任務，機器之間如何互相通信交換數據以完成復雜的計算等等。這就是MapRece / Tez / Spark的功能。MapRece是第一代計算引擎，Tez和Spark是第二代。MapRece的設計，採用了很簡化的計算模型，只有Map和Rece兩個計算過程（中間用Shuffle串聯），用這個模型，已經可以處理大數據領域很大一部分問題了。那什麼是Map什麼是Rece？考慮如果你要統計一個巨大的文本文件存儲在類似HDFS上，你想要知道這個文本里各個詞的出現頻率。你啟動了一個MapRece程序。Map階段，幾百台機器同時讀取這個文件的各個部分，分別把各自讀到的部分分別統計出詞頻，產生類似（hello, 12100次），（world，15214次）等等這樣的Pair（我這里把Map和Combine放在一起說以便簡化）；這幾百台機器各自都產生了如上的集合，然後又有幾百台機器啟動Rece處理。Recer機器A將從Mapper機器收到所有以A開頭的統計結果，機器B將收到B開頭的詞彙統計結果（當然實際上不會真的以字母開頭做依據，而是用函數產生Hash值以避免數據串化。因為類似X開頭的詞肯定比其他要少得多，而你不希望數據處理各個機器的工作量相差懸殊）。然後這些Recer將再次匯總，（hello，12100）＋（hello，12311）＋（hello，345881）= （hello，370292）。每個Recer都如上處理，你就得到了整個文件的詞頻結果。這看似是個很簡單的模型，但很多演算法都可以用這個模型描述了。Map＋Rece的簡單模型很黃很暴力，雖然好用，但是很笨重。第二代的Tez和Spark除了內存Cache之類的新feature，本質上來說，是讓Map/Rece模型更通用，讓Map和Rece之間的界限更模糊，數據交換更靈活，更少的磁碟讀寫，以便更方便地描述復雜演算法，取得更高的吞吐量。有了MapRece，Tez和Spark之後，程序員發現，MapRece的程序寫起來真麻煩。他們希望簡化這個過程。這就好比你有了匯編語言，雖然你幾乎什麼都能幹了，但是你還是覺得繁瑣。你希望有個更高層更抽象的語言層來描述演算法和數據處理流程。於是就有了Pig和Hive。Pig是接近腳本方式去描述MapRece，Hive則用的是SQL。它們把腳本和SQL語言翻譯成MapRece程序，丟給計算引擎去計算，而你就從繁瑣的MapRece程序中解脫出來，用更簡單更直觀的語言去寫程序了。有了Hive之後，人們發現SQL對比Java有巨大的優勢。一個是它太容易寫了。剛才詞頻的東西，用SQL描述就只有一兩行，MapRece寫起來大約要幾十上百行。而更重要的是，非計算機背景的用戶終於感受到了愛：我也會寫SQL！於是數據分析人員終於從乞求工程師幫忙的窘境解脫出來，工程師也從寫奇怪的一次性的處理程序中解脫出來。大家都開心了。Hive逐漸成長成了大數據倉庫的核心組件。甚至很多公司的流水線作業集完全是用SQL描述，因為易寫易改，一看就懂，容易維護。自從數據分析人員開始用Hive分析數據之後，它們發現，Hive在MapRece上跑，真雞巴慢！流水線作業集也許沒啥關系，比如24小時更新的推薦，反正24小時內跑完就算了。但是數據分析，人們總是希望能跑更快一些。比如我希望看過去一個小時內多少人在充氣娃娃頁面駐足，分別停留了多久，對於一個巨型網站海量數據下，這個處理過程也許要花幾十分鍾甚至很多小時。而這個分析也許只是你萬里長征的第一步，你還要看多少人瀏覽了跳蛋多少人看了拉赫曼尼諾夫的CD，以便跟老闆匯報，我們的用戶是猥瑣男悶騷女更多還是文藝青年／少女更多。你無法忍受等待的折磨，只能跟帥帥的工程師蟈蟈說，快，快，再快一點！於是Impala，Presto，Drill誕生了（當然還有無數非著名的交互SQL引擎，就不一一列舉了）。三個系統的核心理念是，MapRece引擎太慢，因為它太通用，太強壯，太保守，我們SQL需要更輕量，更激進地獲取資源，更專門地對SQL做優化，而且不需要那麼多容錯性保證（因為系統出錯了大不了重新啟動任務，如果整個處理時間更短的話，比如幾分鍾之內）。這些系統讓用戶更快速地處理SQL任務，犧牲了通用性穩定性等特性。如果說MapRece是大砍刀，砍啥都不怕，那上面三個就是剔骨刀，靈巧鋒利，但是不能搞太大太硬的東西。這些系統，說實話，一直沒有達到人們期望的流行度。因為這時候又兩個異類被造出來了。他們是Hive on Tez / Spark和SparkSQL。它們的設計理念是，MapRece慢，但是如果我用新一代通用計算引擎Tez或者Spark來跑SQL，那我就能跑的更快。而且用戶不需要維護兩套系統。這就好比如果你廚房小，人又懶，對吃的精細程度要求有限，那你可以買個電飯煲，能蒸能煲能燒，省了好多廚具。上面的介紹，基本就是一個數據倉庫的構架了。底層HDFS，上面跑MapRece／Tez／Spark，在上面跑Hive，Pig。或者HDFS上直接跑Impala，Drill，Presto。這解決了中低速數據處理的要求。那如果我要更高速的處理呢？如果我是一個類似微博的公司，我希望顯示不是24小時熱博，我想看一個不斷變化的熱播榜，更新延遲在一分鍾之內，上面的手段都將無法勝任。於是又一種計算模型被開發出來，這就是Streaming（流）計算。Storm是最流行的流計算平台。流計算的思路是，如果要達到更實時的更新，我何不在數據流進來的時候就處理了？比如還是詞頻統計的例子，我的數據流是一個一個的詞，我就讓他們一邊流過我就一邊開始統計了。流計算很牛逼，基本無延遲，但是它的短處是，不靈活，你想要統計的東西必須預先知道，畢竟數據流過就沒了，你沒算的東西就無法補算了。因此它是個很好的東西，但是無法替代上面數據倉庫和批處理系統。還有一個有些獨立的模塊是KV Store，比如Cassandra，HBase，MongoDB以及很多很多很多很多其他的（多到無法想像）。所以KV Store就是說，我有一堆鍵值，我能很快速滴獲取與這個Key綁定的數據。比如我用身份證號，能取到你的身份數據。這個動作用MapRece也能完成，但是很可能要掃描整個數據集。而KV Store專用來處理這個操作，所有存和取都專門為此優化了。從幾個P的數據中查找一個身份證號，也許只要零點幾秒。這讓大數據公司的一些專門操作被大大優化了。比如我網頁上有個根據訂單號查找訂單內容的頁面，而整個網站的訂單數量無法單機資料庫存儲，我就會考慮用KV Store來存。KV Store的理念是，基本無法處理復雜的計算，大多沒法JOIN，也許沒法聚合，沒有強一致性保證（不同數據分布在不同機器上，你每次讀取也許會讀到不同的結果，也無法處理類似銀行轉賬那樣的強一致性要求的操作）。但是丫就是快。極快。每個不同的KV Store設計都有不同取捨，有些更快，有些容量更高，有些可以支持更復雜的操作。必有一款適合你。除此之外，還有一些更特製的系統／組件，比如Mahout是分布式機器學習庫，Protobuf是數據交換的編碼和庫，ZooKeeper是高一致性的分布存取協同系統，等等。有了這么多亂七八糟的工具，都在同一個集群上運轉，大家需要互相尊重有序工作。所以另外一個重要組件是，調度系統。現在最流行的是Yarn。你可以把他看作中央管理，好比你媽在廚房監工，哎，你妹妹切菜切完了，你可以把刀拿去殺雞了。只要大家都服從你媽分配，那大家都能愉快滴燒菜。你可以認為，大數據生態圈就是一個廚房工具生態圈。為了做不同的菜，中國菜，日本菜，法國菜，你需要各種不同的工具。而且客人的需求正在復雜化，你的廚具不斷被發明，也沒有一個萬用的廚具可以處理所有情況，因此它會變的越來越復雜。

以上是小編為大家分享的關於一文看懂大數據的技術生態圈的相關內容，更多信息可以關注環球青藤分享更多干貨

導航:首頁 > 網路數據 > 醫療大數據生態圈

醫療大數據生態圈

與醫療大數據生態圈相關的資料

友情鏈接