❶ 什麼是大數據,它對新聞業有什麼影響
什麼是大數據,它對新聞業有什麼影響?
答:(1)大數據及其特點
「大數據」(Big Data,Massive Datasets)是指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
大數據具有4V特徵,即海量的數據規模(volume)、快速的數據流轉(velocity)、多樣的數據類型(variety)和價值密度低(value)四大特徵。
在互聯網行業中,大數據是指互聯網公司在日常運營中生成、累積的用戶網路行為數據。大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。目前,大數據技術已廣泛應用於電子商務、O2O、物流配送等領域,對新聞生產也產生了一定的影響。
(2)大數據對新聞報道的幫助
①提升新聞報道的質量。由於大數據能夠精準地檢測出確切的數據信息,不僅檢測范圍廣大,而且能夠呈現整體的事實並預測事件的發展趨勢。因此利用大數據技術,可以有效地檢測出媒體的報道方式和報道成果是否有缺陷。另外,新聞工作者可以藉助計算機網路技術,利用新聞媒體以及合作機構資料庫來挖掘大量的數據信息,進行深層次的數據挖掘,有了這樣的技術,媒體的新聞報道水準將得到有效的提升。
②准確預測新聞報道走向。未來新聞業務層面的一個發展方向是趨勢預測性新聞,以往新聞報道的選題更多來源於正在發生或已經發生的事實,如果媒體能夠廣泛藉助大數據技術來進行重大趨勢的預測與分析,那麼,它對 社會 的影響力就能得到提升。
③減輕新聞報道工作人員的工作量。大數據技術的靈活運用,催生了數據新聞和機器人寫作。數據新聞是將數據轉化為信息的一種新聞生產形式,表現形式以數據和圖表為主,這不僅大大增強了新聞報道的真實性、准確性和可說服性,還緩解了新聞報道人員的工作壓力。機器人寫作則是通過計算機對數據進行分析,按照新聞結構來對數據進行整理和自動撰寫,平均每分鍾就能夠生產出兩條新聞報道,這也為新聞報道撰稿人員分擔了不少的工作量。
④使新聞報道更能滿足受眾需求。一方面,新聞生產者和發布者通過對受眾的新聞閱讀行為進行大數據分析,可以找出影響受眾的各方面因素,使新聞報道的受眾定位更加准確;另一方面,大數據技術不僅對受眾的行為進行普遍化分析,而且還強調受眾的個性化特徵,從而促使媒體機構為受眾提供更加個性化的新聞報道和服務。
❷ 在小程序開發中如何基於大數據實現新聞推送
在小程序開發中基於大數據實現新聞推送的方法:
1、在公眾平台開通消息推送功能,並添加消息模板。
2、從模板庫選擇模板也可以創建一個模板,模板添加之後,模板id是接下來要用的。
3、在需要觸發消息推送的頁面添加提交表單的事件。目的是得到formID,formID是消息推送時必須的參數。
4、配置消息模板參數,並傳給後台。
5、推送消息即可。
❸ 大數據時代對媒體傳播帶來哪些影響
據前瞻產業研究院《中國大數據產業發展前景與投資戰略規劃分析報告》顯示,大數據對傳媒業產生了革命性的影響,其實,不僅傳媒行業會受到大數據帶來的影響,大數據也對傳媒學術研究產生巨大的沖擊和挑戰。目前已經有學者開始就大數據對傳媒研究的影響進行了初步分析,但總體而言,新聞傳播學界對大數據的研究偏重於現象描述和情況介紹,對大數據給學術研究帶來的挑戰和學術創新問題的研究卻較少。
在大數據環境下,理性假設的前提遇到了挑戰,大數據技術極大地減少了受眾搜索信息的成本,受眾可以輕而易舉地獲取決策所需的各種信息,並利用數據處理技術對信息的收益進行計算,在此基礎上作出決策,這使得有限理性範式失去了解釋力。同時,信息成本和交易成本的大幅下降,使網路空間出現了許多新的組織形態和交易形式,如以分享、合作為主題的維基網路、開放源代碼、網路共享等,這些新的組織形式無法用理性範式進行解釋,如果從理性的角度計算成本收益關系,那麼人們沒有動力進行網路分享與合作。
❹ 大數據演算法:分類演算法
KNN演算法,即K近鄰(K Nearest Neighbour)演算法,是一種基本的分類演算法。其主要原理是:對於一個需要分類的數據,將其和一組已經分類標注好的樣本集合進行比較,得到距離最近的K個樣本,K個樣本最多歸屬的類別,就是這個需要分類數據的類別。下面我給你畫了一個KNN演算法的原理圖。
圖中,紅藍綠三種顏色的點為樣本數據,分屬三種類別 、 、 。對於待分類點 ,計算和它距離最近的5個點(即K為5),這5個點最多歸屬的類別為 (4個點歸屬 ,1個點歸屬 ),那麼 的類別被分類為 。
KNN的演算法流程也非常簡單,請看下面的流程圖。
KNN演算法是一種非常簡單實用的分類演算法,可用於各種分類的場景,比如新聞分類、商品分類等,甚至可用於簡單的文字識別。對於新聞分類,可以提前對若干新聞進行人工標注,標好新聞類別,計算好特徵向量。對於一篇未分類的新聞,計算其特徵向量後,跟所有已標注新聞進行距離計算,然後進一步利用KNN演算法進行自動分類。
讀到這你肯定會問,如何計算數據的距離呢?如何獲得新聞的特徵向量呢?
KNN演算法的關鍵是要比較需要分類的數據與樣本數據之間的距離,這在機器學習中通常的做法是:提取數據的特徵值,根據特徵值組成一個n維實數向量空間(這個空間也被稱作特徵空間),然後計算向量之間的空間距離。空間之間的距離計算方法有很多種,常用的有歐氏距離、餘弦距離等。
對於數據 和 ,若其特徵空間為n維實數向量空間 ,即 , ,則其歐氏距離計算公式為
這個歐式距離公式其實我們在初中的時候就學過,平面幾何和立體幾何里兩個點之間的距離,也是用這個公式計算出來的,只是平面幾何(二維幾何)里的n=2,立體幾何(三維幾何)里的n=3,而機器學習需要面對的每個數據都可能有n維的維度,即每個數據有n個特徵值。但是不管特徵值n是多少,兩個數據之間的空間距離的計算公式還是這個歐氏計算公式。大多數機器學習演算法都需要計算數據之間的距離,因此掌握數據的距離計算公式是掌握機器學習演算法的基礎。
歐氏距離是最常用的數據計算公式,但是在文本數據以及用戶評價數據的機器學習中,更常用的距離計算方法是餘弦相似度。
餘弦相似度的值越接近1表示其越相似,越接近0表示其差異越大,使用餘弦相似度可以消除數據的某些冗餘信息,某些情況下更貼近數據的本質。我舉個簡單的例子,比如兩篇文章的特徵值都是:「大數據」「機器學習」和「極客時間」,A文章的特徵向量為(3, 3, 3),即這三個詞出現次數都是3;B文章的特徵向量為(6, 6, 6),即這三個詞出現次數都是6。如果光看特徵向量,這兩個向量差別很大,如果用歐氏距離計算確實也很大,但是這兩篇文章其實非常相似,只是篇幅不同而已,它們的餘弦相似度為1,表示非常相似。
餘弦相似度其實是計算向量的夾角,而歐氏距離公式是計算空間距離。餘弦相似度更關注數據的相似性,比如兩個用戶給兩件商品的打分分別是(3, 3)和(4, 4),那麼兩個用戶對兩件商品的喜好是相似的,這種情況下,餘弦相似度比歐氏距離更合理。
我們知道了機器學習的演算法需要計算距離,而計算距離需要還知道數據的特徵向量,因此提取數據的特徵向量是機器學習工程師們的重要工作,有時候甚至是最重要的工作。不同的數據以及不同的應用場景需要提取不同的特徵值,我們以比較常見的文本數據為例,看看如何提取文本特徵向量。
文本數據的特徵值就是提取文本關鍵詞,TF-IDF演算法是比較常用且直觀的一種文本關鍵詞提取演算法。這種演算法是由TF和IDF兩部分構成。
TF是詞頻(Term Frequency),表示某個單詞在文檔中出現的頻率,一個單詞在一個文檔中出現的越頻繁,TF值越高。
詞頻:
IDF是逆文檔頻率(Inverse Document Frequency),表示這個單詞在所有文檔中的稀缺程度,越少文檔出現這個詞,IDF值越高。
逆文檔頻率:
TF與IDF的乘積就是TF-IDF。
所以如果一個詞在某一個文檔中頻繁出現,但在所有文檔中卻很少出現,那麼這個詞很可能就是這個文檔的關鍵詞。比如一篇關於原子能的技術文章,「核裂變」「放射性」「半衰期」等詞彙會在這篇文檔中頻繁出現,即TF很高;但是在所有文檔中出現的頻率卻比較低,即IDF也比較高。因此這幾個詞的TF-IDF值就會很高,就可能是這篇文檔的關鍵詞。如果這是一篇關於中國原子能的文章,也許「中國」這個詞也會頻繁出現,即TF也很高,但是「中國」也在很多文檔中出現,那麼IDF就會比較低,最後「中國」這個詞的TF-IDF就很低,不會成為這個文檔的關鍵詞。
提取出關鍵詞以後,就可以利用關鍵詞的詞頻構造特徵向量,比如上面例子關於原子能的文章,「核裂變」「放射性」「半衰期」這三個詞是特徵值,分別出現次數為12、9、4。那麼這篇文章的特徵向量就是(12, 9, 4),再利用前面提到的空間距離計算公式計算與其他文檔的距離,結合KNN演算法就可以實現文檔的自動分類。
貝葉斯公式是一種基於條件概率的分類演算法,如果我們已經知道A和B的發生概率,並且知道了B發生情況下A發生的概率,可以用貝葉斯公式計算A發生的情況下B發生的概率。事實上,我們可以根據A的情況,即輸入數據,判斷B的概率,即B的可能性,進而進行分類。
舉個例子:假設一所學校里男生佔60%,女生佔40%。男生總是穿長褲,女生則一半穿長褲一半穿裙子。假設你走在校園中,迎面走來一個穿長褲的學生,你能夠推斷出這個穿長褲學生是男生的概率是多少嗎?
答案是75%,具體演算法是:
這個演算法就利用了貝葉斯公式,貝葉斯公式的寫法是:
意思是A發生的條件下B發生的概率,等於B發生的條件下A發生的概率,乘以B發生的概率,除以A發生的概率。還是上面這個例子,如果我問你迎面走來穿裙子的學生是女生的概率是多少。同樣帶入貝葉斯公式,可以計算出是女生的概率為100%。其實這個結果我們根據常識也能推斷出來,但是很多時候,常識受各種因素的干擾,會出現偏差。比如有人看到一篇博士生給初中學歷老闆打工的新聞,就感嘆讀書無用。事實上,只是少見多怪,樣本量太少而已。而大量數據的統計規律則能准確反映事物的分類概率。
貝葉斯分類的一個典型的應用場合是垃圾郵件分類,通過對樣本郵件的統計,我們知道每個詞在郵件中出現的概率 ,我們也知道正常郵件概率 和垃圾郵件的概率 ,還可以統計出垃圾郵件中各個詞的出現概率 ,那麼現在一封新郵件到來,我們就可以根據郵件中出現的詞,計算 ,即得到這些詞出現情況下,郵件為垃圾郵件的概率,進而判斷郵件是否為垃圾郵件。
現實中,貝葉斯公式等號右邊的概率,我們可以通過對大數據的統計獲得,當有新的數據到來的時候,我們就可以帶入上面的貝葉斯公式計算其概率。而如果我們設定概率超過某個值就認為其會發生,那麼我們就對這個數據進行了分類和預測,具體過程如下圖所示。
訓練樣本就是我們的原始數據,有時候原始數據並不包含我們想要計算的維度數據,比如我們想用貝葉斯公式自動分類垃圾郵件,那麼首先要對原始郵件進行標注,需要標注哪些郵件是正常郵件、哪些郵件是垃圾郵件。這一類需要對數據進行標注才能進行的機器學習訓練也叫作有監督的機器學習。
❺ 大數據新聞與傳統數據新聞有哪些區別
1,大數據已經成為在IT業被廣泛應用的一個工具,其涉及領域非常廣泛,包括教育機構,企業,甚至政府機關,這些單位都會去在做自己的大數據平台。
5,其實大數據主要體現是還是其工具性,通常大數據是在雲計算底層平台,可以促進雲計算的服務更加有效,或者直接供給到需要服務的人手中。這就要求大數據要有高度的准確性和分析事物的合理性,只有這樣的數據,才是有用的。
❻ 中國之聲宣傳語:大數據時代,每敲擊一下鍵盤,就成為互聯網海量信息的一部分...求完整內容
大數據時代,你的指尖每敲擊一下鍵盤,就自動上傳為互聯網海量數據的一部分;我們每播出一條新聞 ,就成為這個時代數據的一部分。用信息刻錄時代,為社會留痕,也續存夢想。
❼ 大數據熱門詞彙匯總
大數據熱門詞彙匯總
可以說,大數據是如今IT行業最熱門的趨勢之一,它催生出了處理大數據的一批全新技術。而新技術帶來了新的熱門詞彙:首字母縮略詞、專業術語和產品名稱等。連"大數據"這個短語本身都讓人犯暈。許多人一聽到"大數據",覺得是指"大量數據",而大數據的涵義絕不僅僅涉及數據量的多寡。
下面是我們認為你要熟悉的幾個熱門詞彙,按字母順序排列。
ACID
ACID的全稱是原子性、一致性、隔離性和持久性,這其實是一組需求或屬性:如果這四個方面都得到遵守,就能在處理過程中確保資料庫事務的數據完整性。雖然ACID問世已有一段時日,但是事務數據量的急劇增長把更多的注意力投向在處理大數據時需要滿足ACID的規定。
大數據三要素
如今的IT系統在生成數量、速度和種類都很"龐大"的數據。
數量:IDC公司估計,今年全球信息總量將達到2.7澤位元組(這相當於27億太位元組),而且每兩年就翻一番。
速度:讓IT管理人員們頭痛的不僅僅是數據數量,還有數據從金融系統、零售系統、網站、感測器、無線射頻識別(RFID)晶元以及Facebook和推特等社交網路源源而來的速度越來越快。
種類:如果回到5年前或可能10年前,IT人員處理的主要是字母數字數據,它們很容易存儲在關系資料庫中整齊排列的行和列中。現在不再是這樣了。如今,推特和Facebook上的帖子、各種文檔及網頁內容等非結構化數據都是大數據組合的一部分。
列式(或列型)資料庫
一些新一代資料庫(如開源Cassandra和惠普的Vertica資料庫)被設計成了按列存儲數據,而不是像傳統的SQL資料庫那樣按行存儲數據。這種設計提供了更快的磁碟訪問速度,提高了處理大數據時的性能。對數據密集型業務分析應用系統而言,列式資料庫尤其受到歡迎。
數據倉庫
數據倉庫這個概念存在至今已有大概25年了,具體指將數據從多個操作IT系統復制到面向業務分析應用系統的輔助離線資料庫
但是隨著數據量急劇增長,數據倉庫系統正在迅速改變。它們需要存儲更多的數據以及更多種類的數據,因而數據倉庫管理成為一大難題。10年或20年前,數據可能每周或每月復制到數據倉庫系統中;而如今,數據倉庫的更新要頻繁得多,有的甚至實時更新。
ETL
將數據從一個資料庫(比如支持銀行應用事務處理系統的資料庫)轉移到另一個資料庫(比如用於業務分析的數據倉庫系統)時,就要用到提取、轉換和載入(ETL)軟體。數據從一個資料庫傳送到另一個資料庫時,常常需要對數據進行重新格式化和清理操作。
由於數據量急劇增長,數據處理速度大大加快,對ETL工具的性能要求也大大提高了。
Flume
Flume是屬於Apache Hadoop大家族(其他技術包括HBase、Hive、Oozie、Pig和Whirr)的一項技術,這種框架用於為Hadoop填充數據。該技術使用散布於應用伺服器、Web伺服器、移動設備及其他系統上的軟體代理,收集數據,並將數據傳送到Hadoop系統。
比如說,公司可以使用在Web伺服器上運行的Apache Flume,收集來自推特帖子的數據,以便分析。
地理空間分析
推動大數據潮流的一個趨勢是,由如今的IT系統生成和收集的地理空間數據越來越多。常言道,一幅圖片的信息量抵得上1000個單詞;所以難怪越來越多的地圖、圖表、照片及其他基於地理位置的內容是導致如今大數據呈爆炸式增長的主要動因。
地理空間分析是一種特殊形式的數據可視化(參閱下面的"可視化"條目),在地理地圖上覆蓋數據,以幫助用戶更清楚地理解大數據分析的結果。
Hadoop
Hadoop是一種開源平台,用於開發分布式、數據密集型的應用程序。它由Apache軟體基金會控制。
Hadoop的發明者是雅虎公司的開發者道格o卡廷(Doug Cutting),他在谷歌實驗室的MapRece概念這個基礎上開發出了Hadoop,以他兒子的玩具象命名。
另外,HBase是一種非關系資料庫,它是作為Hadoop項目的一部分開發而成的。Hadoop分布式文件系統(HDFS)是Hadoop的一個關鍵組成部分。Hive則是建立在Hadoop基礎上的數據倉庫系統。
內存中資料庫
計算機在處理事務或執行查詢時,一般從磁碟驅動器獲取數據。但是當IT系統處理大數據時,這個過程可能實在太慢。
內存中資料庫系統利用計算機的主內存來存儲經常使用的數據,因而大大縮短了處理時間。內存中資料庫產品包括SAP HANA和甲骨文Times Ten內存中資料庫。
Java
Java是一種編程語言,由現隸屬甲骨文公司的Sun開發,於1995年發布。Hadoop和其他許多大數據技術都是使用Java開發而成的,它仍是大數據領域一種主要的開發技術。
Kafka
Kafka是一種高吞吐量的分布式消息傳送系統,最初是在LinkedIn開發而成,用於管理該服務網站的活動流(關於網站使用情況的數據)和操作數據處理流水線(關於伺服器組件的性能)。
Kafka在處理大量流式數據時很有效,而流式數據是許多大數據計算環境的一個關鍵問題。由推特開發的Storm是另一種大行其道的流處理技術。
Apache軟體基金會已將Kafka列為一個開源項目。所以,別以為這是有缺陷的軟體。
延遲時間
延遲時間是指數據從一個點傳送到另一個點過程中的延遲,或者是某個系統(如應用程序)響應另一個系統的延遲數量。
雖然延遲時間不是什麼新術語,但是隨著數據量不斷增長,IT系統竭力跟上步伐,如今你更常聽到這個術語。簡單地說,"低延遲"是好事,"高延遲"是壞事。
映射/化簡
映射/化簡(Map/Rece)這種方法是指把一個復雜的問題分解成多個較小的部分,然後將它們分發到多台計算機上,最後把它們重新組裝成一個答案。
谷歌的搜索系統用到了映射/化簡概念,這家公司有一個品牌名為MapRece的框架。
谷歌在2004年發布的一份白皮書描述了它使用映射/化簡的情況。Hadoop之父道格o卡廷充分認識到了其潛力,開發出了同樣借用映射/化簡概念的第一個版本的Hadoop。
NoSQL資料庫
大多數主流的資料庫(如甲骨文資料庫和微軟SQL Server)基於關系型體系結構,使用結構化查詢語言(SQL)用於開發和數據管理。
但是名為"NoSQL"(有些人現在稱NoSQL表示"不是只有SQL")的新一代資料庫系統基於支持者們認為更適合處理大數據的體系結構。
一些NoSQL資料庫是為提高可擴展性和靈活性設計的,另一些NoSQL資料庫在處理文檔及其他非結構化數據方面比較有效。典型的NoSQL資料庫包括Hadoop/HBase、Cassandra、MongoDB和CouchDB,而甲骨文等一些知名開發商已推出了各自的NoSQL產品。
Oozie
Apache Oozie是一種開源工作流引擎,用於幫助管理面向Hadoop的處理工作。使用Oozie,一系列工作可以用多種語言(如Pig和MapRece)來加以定義,然後彼此關聯起來。比如說,一旦從操作應用程序收集數據的作業已完成,程序員就可以啟動數據分析查詢任務。
Pig
Pig是Apache軟體基金會的另一個項目,這個平台用於分析龐大的數據集。就其本質而言,Pig是一種編程語言,可用於開發在Hadoop上運行的並行計算查詢。
定量數據分析
定量數據分析是指使用復雜的數學或統計模型,解釋金融和商業行為,或者甚至預測未來的行為。
由於如今收集的數據量急劇增加,定量數據分析已變得更加復雜。但是如果公司知道如何利用海量數據,獲得更好的可視性,深入了解公司業務,並且洞察市場發展趨勢,那麼更多的數據也有望在數據分析方面帶來更多的機會。
一個問題是,擁有這種分析技能的人才嚴重匱乏。知名咨詢公司麥肯錫表示,光美國就需要150萬名擁有大數據分析技能的分析員和管理員。
關系資料庫
關系資料庫管理系統(RDBM)是如今使用最廣泛的一種資料庫,包括IBM的DB2、微軟的SQL Server和甲骨文資料庫。從銀行應用系統、零售店的銷售點系統到庫存管理應用軟體,大多數的企業事務處理系統都在RDBM上運行。
但有些人認為,關系資料庫可能跟不上如今數據量和種類都呈爆炸式增長的形勢。比如說,RDBM當初在設計時著眼於處理字母數字數據,處理非結構化數據時不是同樣有效。
分片
隨著資料庫變得越來越龐大,處理起來也變得越來越困難。分片(sharding)是一種資料庫分區技術,把資料庫分成了更小、更容易管理的部分。具體來說,資料庫被橫向分區,以便單獨管理資料庫表中的不同行。
分片方法讓龐大資料庫的片段可以分布在多台伺服器上,從而提高資料庫的整體運行速度和性能。
另外,Sqoop是一種開源工具,用於將來自非Hadoop來源(如關系資料庫)的數據轉移到Hadoop環境。
文本分析
導致大數據問題的因素之一是,從推特和Facebook等社交媒體網站、外部新聞源,甚至公司內部收集而來以便分析的文本數量越來越多。由於文本是非結構化數據(不像通常存儲在關系資料庫中的結構化數據),主流的業務分析工具面對文本時常常束手無策。
文本分析採用了一系列方法(關鍵字搜索、統計分析法和語言研究法等),從基於文本的數據中獲得洞察力。
非結構化數據
就在不久前,大部分數據還是結構化數據,這種字母數字信息(如來自銷售交易的財務數據)很容易存儲在關系資料庫中,並由商業智能工具來分析。
但是如今共計2.7澤位元組的存儲數據中很大一部分是非結構化數據,比如基於文本的文檔、推特消息、發布在Flickr上的照片、發布在YouTube上的視頻,等等。(頗有意思的是,每分鍾有長達35個小時的視頻內容上傳到YouTube。)處理、存儲和分析所有這些凌亂的非結構化數據常常是如今的IT系統面臨的難題。
可視化
隨著數據量的增長,人們使用靜態的圖表和圖形來理解數據越來越困難了。這就導致開發新一代的數據可視化和分析工具,能夠以新的方式呈現數據,從而幫助人們理解海量信息。
這些工具包括:標以色碼的熱圖,三維圖形,顯示一段時間內變化的動畫可視化,以及在地理地圖上覆蓋數據的地理空間呈現。今天的先進數據可視化工具還具有更強的互動性,比如允許用戶放大某個數據子集,進行更仔細的檢查。
Whirr
Apache Whirr是一組Java類庫,用於運行大數據雲服務。更確切地說,它可以加快在亞馬遜彈性計算雲(EC2)和Rackspace等虛擬基礎設施上開發Hadoop集群的過程。
XML
可擴展標記語言(XML)用來傳輸和存儲數據(別與HTML混為一談,後者用來顯示數據)。藉助XML,程序員們就可以創建通用的數據格式,並通過互聯網共享信息和格式。
由於XML文檔可能非常龐大、復雜,它們往往被認為導致IT部門面臨大數據挑戰。
堯位元組
堯位元組(yottabyte)是一種數據存儲度量指標,相當於1000澤位元組。據知名調研機構IDC公司估計,今年全球存儲的數據總量預計將達到2.7澤位元組,比2011年增長48%。所以,我們離達到堯位元組這個大關還有很長一段路,不過從目前大數據的增長速度來看,那一天的到來可能比我們想像的要快。
順便說一下,1澤位元組相當於1021位元組的數據。它相當於1000艾位元組(EB)、100萬拍位元組(PB)和10億太位元組(TB)。
ZooKeeper
ZooKeeper是由Apache軟體基金會創建的一項服務,旨在幫助Hadoop用戶管理和協調跨分布式網路的Hadoop節點。
ZooKeeper與HBase緊密集成,而HBase是與Hadoop有關的資料庫。ZooKeeper是一項集中式服務,用於維護配置信息、命名服務、分布式同步及其他群組服務。IT管理人員用它來實現可靠的消息傳遞機制、同步流程執行及實施冗餘服務。
❽ 大數據輿情監測分析怎麼做
首先要拿到數據,然後抽取關鍵字,對關鍵字進行統計
❾ 數據新聞的功能與優勢
目前,在大數據新聞製作上已經積累了經驗的國際媒體有《衛報》《紐約時報》《華盛頓郵報》等,但它們也處於探索階段。通過對國內外代表性媒體的大數據新聞實踐進行研究,可以總結出大數據新聞的四個功能,即描述、判斷、預測、信息定製。
《衛報》網頁2012年1月5日發布了一個有關「阿拉伯之春」的大數據新聞報道。報道利用動態圖表,以時間軸為主線描述了自2010年12月一突尼西亞男子自焚至2011年12月的一年間,17個阿拉伯國家發生的一場政治運動。網民可以通過這個四維動態的報道,清楚地從宏觀到微觀,全面了解阿拉伯之春在不同國家的不同表現形式。圖表上方設置了時間的推拉按鈕,網民推拉到自己想觀看的時間點,可以清楚地看到相同時間點上不同國家發生的相關事件。畫面的下方是各個國家的標簽,網民也可以通過國家標記,來關注某個具體國家在縱向時間軸上的政治演變進程。不同的政治事件用不同顏色來標示:綠色為群眾性抗議活動,淺藍色為國際上的相關反應,黃色為政治事件,紅色為政權更替。如果網民想了解某個事件的具體內容,點擊不同顏色的標示,隨即獲取深度報道的鏈接。這種新聞報道方式,將涉及十幾個國家、時間跨度長達一年的復雜的「阿拉伯之春」,以明晰的動態方式呈現出來,純文字報道難以達到這樣的傳播效果。
大數據新聞還能夠描述那些看不見的短期過程,比如流言如何在社交網路上傳播。《衛報》通過追蹤分析260萬份推特內容,利用可視化動態圖表描述了從流言開始傳播到辟謠結束的整個過程。它也是以時間為軸,利用圓圈大小、顏色變化來描述整個過程,綠色的圈代表散布流言的推文,紅色的圈代表更正這個流言的推文,灰色的是中立的評價推文,黃色的是對流言持懷疑態度的推文。圈的大小代表了推文的影響程度,圈越大影響程度越大。如果想了解具體的內容,點到哪個圈,屏幕旁邊即刻呈現這個圈所代表的推文的發布者、發布日期、轉推人數等等信息。通過這個動態的演進過程,人們可以清楚地看到,社交網路並不像一般想像的那樣,是一味擴散虛假消息的場所。其實在假消息出現不久,社交網路上各種辟謠的消息就已經出現了。
從這兩個例子可以看出,大數據新聞的報道方式能夠在宏觀上對某個事件看得更加清楚與全面,事件復雜的演進過程以及這個過程中的各個方面,都能描述得直觀且有趣。 2011年8月,一個黑人穆斯林男子乘計程車在倫敦街頭遭到警方攔截,雙方發生槍戰,該男子當街死亡。兩天後,約300人聚集在倫敦市中心的警察局進行抗議,後來演變成持續多天的騷亂事件,抗議者引燃了汽車、商店和公交車。當天夜裡,倫敦其他地區也發生了類似襲警、搶劫、縱火等事件。一些媒體評論指出,這與貧富差距有關。英國首相卡梅倫接受采訪時,聲稱騷亂事件與貧富差距無關。
英國《衛報》記者利用大數據的分析結果,做了關於這一事件的系列報道,其中的一個報道主題,便是騷亂與貧困有沒有關聯。記者利用谷歌融合圖表,在倫敦地區地圖上標記出騷亂分子的居住地信息(黃色點)、實際發生騷亂的地點(灰色點),以及貧困地區分布(越偏紅色表示越貧窮)。根據這張倫敦市中心的圖,網民可以將圖擴展到整個大倫敦地區來看,也可以聚焦到具體的街區放大來看,觀察每個被標記的騷亂點的人流從哪裡來,到哪兒去,從而清楚地看到貧苦與騷亂之間存在的某種關聯。這種關系的表達,比起單純的文字報道來,表現清晰,說服力強。 2013年「十一」長假期間,九寨溝發生遊客大量滯留現象並引發群體性事件。如果新聞媒體或旅遊當局能夠在此前運用中國的局部大數據進行預測性報道,完全可以避免這樣的群體性事件發生。因為傳媒可以根據這方面的大數據,提前報道在哪個具體時間段內,有多少人從哪些地方前往九寨溝,其中男人、女人、老人、兒童各有多少等等。
這只是一個小例子,大數據能夠預測社會和人們日常生活中的各個方面。通過挖掘大數據,傳媒在技術上可以製作出可視化、互動式的圖表,告知很多事項。微觀的如流行疾病來襲、交通擁堵情況;宏觀的如經濟指數變動、某種社會危機的來臨等等。網路開辟了「網路預測」網頁,以「大數據,知天下」的口號推出,預測的產品有高考、世界盃、電影票房等等。它們後期准備上線的產品擴展到了更廣的領域,比如金融預測、房地產預測等等。 利用大數據的分析結果,滿足網民的信息個性化要求,是國外媒體的最新嘗試。例如Five thirty eight數據博客,在2014年5月23日新辟讀者來信專欄「親愛的莫娜」。其第一期開篇語闡釋的目的是:「我開這個專欄是為了幫助讀者回答一些生活中重要的或者嚴肅的問題,比如我是不是很正常、我處在世界的哪個地位層面等等,目的不是為了給讀者答疑解惑,不是告訴讀者應該做什麼和不應該做什麼。恰恰相反,我提供數據來解釋、描述你的經歷。」
綜觀這個專欄,讀者的提問五花八門,比較嚴肅的如:「美國有多少人從來沒有喝過一滴酒?」「美國有多少男性空乘人員?」也有比較私人的如:「我該多久換一次襪子?」「婚前同居會不會導致離婚」等等。專欄作者利用美國范圍內的大數據,即刻將分析結果告知當事人,但避免給出指導性意見,僅告知各種數據的分析結果,讓網民自己依照分析結果來處理自己面臨的問題。這個專欄與傳統的紙媒讀者來信專欄不同,不是通過星座、血型、生辰八字或偽裝成閱歷豐富的專家,來提供些心靈雞湯式的回答,只用數據來說話。
這種嘗試在媒體中並不少見。2011年,BBC廣播公司曾根據2012年政府的財政預算聯合畢馬威會計師事務所做了一個預算計算器,用戶只需要輸入一些日常信息,例如買多少啤酒,用多少汽油等,就能夠算出新的預算會讓你付多少稅,明年生活會不會更好。
根據用戶需求提供個性化的大數據服務,是未來的發展趨勢。這些報道有一個共性,媒體都致力於以用戶的需求為中心,利用大數據詮釋宏觀社會現象對用戶的影響,或者回答用戶困惑的問題。媒體可以精準定位,經過後台計算,按照用戶的接收習慣、工作習慣和生活習慣將服務推送到用戶眼前。
❿ 新聞上說的大數據是什麼意思
大數據的定義。大數據,又稱巨量資料,指的是所涉及的數據資料量規模巨大到無法通過人腦甚至主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。
大數據的特點。數據量大、數據種類多、 要求實時性強、數據所蘊藏的價值大。在各行各業均存在大數據,但是眾多的信息和咨詢是紛繁復雜的,我們需要搜索、處理、分析、歸納、總結其深層次的規律。
大數據的採集。科學技術及互聯網的發展,推動著大數據時代的來臨,各行各業每天都在產生數量巨大的數據碎片,數據計量單位已從從Byte、KB、MB、GB、TB發展到PB、EB、ZB、YB甚至BB、NB、DB來衡量。大數據時代數據的採集也不再是技術問題,只是面對如此眾多的猛陵源數據,我們怎樣才能找到其內在規律。
大數據的挖掘和處理。大數據必然無法用人腦來推算、估測,或者用單台的計算機進行處理,必須採用分布式計算架構,依託雲計算的分布式處理、分布式資料庫、枝態雲存儲和虛擬化技術,因此,大數據的挖掘和處理必須用到雲技術。
大數據的應用。大數據可應用於各行各業,將人們收集到的龐大數據進行分析整理,實現資訊的有效利用。舉個例子,比如在奶牛基因層面尋找與產奶量相關的主效基因,我們可以首先對奶牛全基因組進行汪扒掃描,盡管我們獲得了所有表型信息和基因信息,但是由於數據量龐大,這就需要採用大數據技術,進行分析比對,挖掘主效基因。例子還有很多。
大數據的意義和前景。總的來說,大數據是對大量、動態、能持續的數據,通過運用新系統、新工具、新模型的挖掘,從而獲得具有洞察力和新價值的東西。以前,面對龐大的數據,我們可能會一葉障目、可見一斑,因此不能了解到事物的真正本質,從而在科學工作中得到錯誤的推斷,而大數據時代的來臨,一切真相將會展現在我么面前。