大數據新聞深度挖掘_大數據挖掘主要涉及哪些技術

1. 輿情大數據信息去哪裡查詢呢

一般來說，最為常見的方法的就是指派專人去網上各個平台進行搜查，如輿情信息網站、網路輿情網、社交媒體平台等。還有就是藉助搜索引擎工具進行收集查詢，如通過檢索與政務相關的輿情關鍵詞進行相關信息數據的收集。
由於上面兩種方式都是需要靠人工進行搜集篩選，執行起來需要耗費大量的人力物力，且無法確保輿情信息接收的及時性。所以，建議藉助像蟻坊軟體這類專業的輿情監測系統進行輿情大數據信息收集查閱。

2. 大數據技術有在工業領域的成功應用案例嗎

. 深圳市兒童醫院成功部署IBM集成平台與商業智能分析系統
IBM利用其行業領先的大數據與分析技術，支持深圳市兒童醫院搭建信息集成平台，整合原有分散在多系統中的海量數據，實現各部門的信息共享;同時通過商業智能分析對集成數據進行深入挖掘，為醫院各部門人員的科學決策提供全面的輔助，提升醫院的服務水平和管理能力。
2. Informatica幫助紫金農商銀行深挖數據價值
紫金農商銀行ODS數據倉庫項目建設使用Informatica產品完成數據的載入、清洗、轉換工作顯得尤為簡單，圖形化、流程化設計使維護人員能夠快速、順暢的操作，即使數據源結構發生變化，也不會像以前必須修改大量的程序代碼，只需要在PowerCenter中配置一下即可。
3. 華為大數據一體機服務於北大重點實驗室
經過大量的前期調查，比較和分析准備工作，北大重點實驗室選擇了華為基於高性能伺服器RH5885 V2的HANA數據處理平台。HANA提供的對大量實時業務數據進行快速查詢和分析以及實時數據計算等功能，在很大程度上得益於華為RH5885 V2伺服器的高可靠、高性能和高可用性的支撐。
4. IBM攜手漢端科技為飛鶴乳業打造全產業鏈可追溯體系
IBM、漢端科技與中國飛鶴乳業聯合宣布，通過利用IBM業界領先的全面大數據與分析能力，和漢端科技在商業智能領域豐富的行業經驗，飛鶴乳業實現了產品的可追溯與食品安全的數字化管理，完成了系統數字化、透明化、服務化的升級。
5. 浪潮大數據平台大大提升了濟南的警務工作能力
浪潮在幫助濟南公安局在搭建雲數據中心的基礎上構建了大數據平台，以開展行為軌跡分析、社會關系分析、生物特徵識別、音視頻識別、銀行電信詐騙行為分析、輿情分析等多種大數據研判手段的應用，為指揮決策、各警種情報分析、研判提供支持，做到圍繞治安焦點能夠快速精確定位、及時全面掌握信息、科學指揮調度警力和社會安保力量迅速解決問題。
6. 英特爾攜杭州誠道科技構建智能交通
面對大數據挑戰，杭州市和杭州誠道科技有限公司緊密合作，部署了基於英特爾大數據解決方案的誠道重點車輛動態監管系統，通過集中的數據中心將全市卡口、電子警察、視頻監控、流量檢測設備、信號機、誘導設備等有效地連接起來，從交通案件偵破能力、交通警察對機動車輛的監管能力到利用關聯車輛的數據分析能力，都得到了極大提升。
7. 步步高集團借Oracle Exadata 大大提高了IT投資回報率
步步高集團採用 Oracle Exadata資料庫雲伺服器搭建信息化平台，憑借Oracle Exadata資料庫雲伺服器的高擴展性、安全性和冗餘性，步步高集團得以在該基礎架構上運行一系列Oracle零售行業以及Oracle的應用軟體。此外，基於Oracle Exadata的步步高IT新架構比傳統架構擁有更好的性價比，最大限度地增加了IT的投資回報率。
8. 華為Anti-DDoS助阿里巴巴檢測DDoS變革
阿里巴巴現網多個數據中心出口都部署了華為的Anti-DDoS解決方案，平均每天防護的DDoS攻擊次數超過100次，每年達數萬次，峰值防護的DDoS攻擊流量超過100Gbps。如今，DDoS攻擊在阿里巴巴安全工程師眼裡已經習以為常，由華為Anti-DDoS方案自動調度進行清洗防護即可。「雙11」期間，華為Anti-DDoS方案一如既往地成功防護了多輪DDoS攻擊事件，有力保障了阿里巴巴網路交易的順暢平穩。
9. 華為大數據方案在福建移動的應用
為進一步提升外呼成功率，從2014年初開始，福建移動聯合華為公司開展基於大數據的精準營銷工作，採用大數據分析的方法選擇外呼目標價值用戶。基於大數據分析方法和傳統外呼方法分別提供20萬目標客戶清單，在前台無感知下進行對比驗證，確保對比效果不受人為因素影響，經過外呼驗證，基於大數據分析方法較傳統方法外呼成功率提升50%以上，有效支撐了福建移動4G用戶發展戰略。
10. 北京市人民政府「12345」便民電話中心選擇Oracle Exadata 實現便攜服務
為了進一步提升部門的調度能力、辦理水平和群眾滿意度，北京市人民政府「12345」便民電話中心選擇Oracle Exadata資料庫雲伺服器，升級成為北京市非緊急救助服務綜合受理調度平台，通過Oracle Exadata Database Machine支撐起新平台的資料庫訪問需求。升級後的平台能夠整合全市的便民呼叫服務，支撐來自群眾的各類訴求、求助、批評和建議，並可為公眾提供方便、快捷的公共信息服務，真正成為全市的輿情中心、信息匯集中心和城市名片。

11. 民生銀行借IBM BigInsights應對金融業的大數據挑戰
IBM BigInsights大數據解決方案和企業級NoSQL資料庫SequoiaDB合作，為民生銀行搭建低成本、高性能、高可靠且水平擴張的數據平台，幫助民生銀行通過大數據分析應對金融業的大數據挑戰，完善交易流水查詢分析系統,產業鏈金融管理系統，以及私人銀行產品貨架管理系統。
12. 中信銀行信用卡實施EMC Greenplum 數據倉庫解決方案
中信銀行信用卡中心選擇實施EMC Greenplum 數據倉庫解決方案。Greenplum 數據倉庫解決方案為中信銀行信用卡中心提供了統一的客戶視圖，藉助客戶統一視圖，中信銀行信用卡中心可以更清楚地了解其客戶價值體系，從而能夠為客戶提供更有針對性和相關性的營銷活動。基於數據倉庫，中信銀行信用卡中心現在可以從交易、服務、風險、權益等多個層面分析數據。通過提供全面的客戶數據，營銷團隊可以對客戶按照低、中、高價值來進行分類，根據銀行整體經營策略積極地提供相應的個性化服務。
13. 惠普助力雅昌集團掘金大數據
成立於1993年的雅昌集團首創「傳統印刷+IT技術+文化藝術」的商業模式，形成環環相扣的文化產業鏈，為藝術市場提供全面、綜合的一站式服務。基於企業內容數據管理體系，惠普為雅昌搭建了從數據採集、處理、管理到應用的全過程處理流程，使雅昌可以快速利用所需數據，縮短新品上線時間，快速響應市場變化。
14. 德國足球隊採用SAP大數據方案迎戰世界盃
德國足協和SAP公司通過聯合創新引入SAP Match Insights解決方案，該方案基於SAP HANA平台運行處理海量數據，可以為球員和教練提供一個簡明的用戶界面，幫助雙方開展互動性更強的對話，分析球隊訓練、備戰和比賽情況，從而提升球員和球隊的成績。
15. 1號店借Oracle Exadata改善終端客戶體驗
1號店採用Oracle Exadata資料庫雲伺服器成功優化統一整合的數據平台，滿足了不斷增長的業務處理需求，並進一步改善了終端客戶體驗。經過Oracle Exadata整合後的新平台採用混合負載互備架構，將平均處理性能提升7倍，既可以支持目前規劃業務量的業務處理，還能夠隨著業務量的增長進行在線升級、擴容，滿足處理能力和數據量的增長需求。軟、硬體集成設計的Oracle Exadata 協助解決了1號店的I/O瓶頸問題，實現了比傳統架構更高的性能和可擴展性。同時，基於Exadata的1號店IT新架構比傳統架構擁有更好的性價比，最大限度地發揮了IT投資回報率。
16. 大數據在青島銀行：提升銀行交易性能、簡化運營和管理
利用IBM大數據專家PureData，青島銀行能夠高效集成業務數據，簡化運維。PureData for Transactions作為青島銀行重要業務處理系統，能夠在一個系統中整合超過幾十個資料庫，同時提供良好的性能、可用性和可擴展性支持實現廣泛的業務目標，例如地域擴張，突發的業務交易高峰，新櫃面、流程銀行等大規模的業務上線等。
17. Informatica方案幫助南京兒童醫院實現信息互通共享
南京市兒童醫院目前已建成包括HIS、LIS、PACS、電子病歷EMR、醫生工作站、移動護理、病案、財務管理、庫房管理和手術麻醉等幾十個應用系統，這些異構系統間數據調用分散，不能集中統一標准化管理。通過採用Informatica ETL工具構建數據倉庫系統，並基於數據倉庫建設醫院數據調用公共資源中心庫，南京市兒童醫院實現了實時的數據交互和信息共享，干凈、標準的數據為跨應用系統數據關聯分析打下扎實基礎。
18. 東吳大學採用達索系統EXALEAD啟動大數據應用暨產學合作
台灣東吳大學採用達索系統EXALEAD大數據智能應用開發解決方案，全方位地整合校務信息，積極開發校務經營發展的各項應用。此外還將啟動三方產學合作計劃，協助建立校內大數據相關課程、人才培訓和實習機制，使學生自入學就開始不斷提升其未來職場所需的關鍵競爭力，學用合一，實現學校、學生、企業三贏。
19. 網路大腦PK人腦大數據押高考作文題
為了幫助考生更好地備考，網路高考作文預測通過對過去八年高考作文題及作文範文、海量年度搜索風雲熱詞、歷年新聞熱點等原始數據與實時更新的「活數據」進行深度挖掘分析，以「概率主題模型」模擬人腦思考，反向推導出作文主題及關聯詞彙，為考生預測出2014年高考作文的六大命題方向。

20. IBM助力同仁醫院構築強大的分析體系
同仁醫院通過與IBM合作，同仁醫院建立起了強大的分析能力和體系，包括對臨床、運營、科研、考核等信息的分析，實現智慧的醫院管理與考核;同時也能看到醫療設備的平均故障間隔周期，從而降低了設備的故障率、平均維修時間。這一切都讓工作效率穩步提升，也緩解了病人看病難的問題，提高了患者就醫滿意度。
21. 微軟助上海市浦東新區衛生局更加智能化
作為上海市公共衛生的主導部門，浦東新區衛生局在微軟SQL Server 2012的幫助之下，積極利用大數據，推動衛生醫療信息化走上新的高度：公共衛生部門可通過覆蓋區域的居民健康檔案和電子病歷資料庫，快速檢測傳染病，進行全面的疫情監測，並通過集成疾病監測和響應程序，快速進行響應。與此同時，得益於非結構化數據的分析能力的日益加強，大數據分析技術也使得臨床決策支持系統更智能。
22. 湖南電信通過分析掌握電信市場動向、針對性定製營銷計劃
利用IBM大數據專家PureData，湖南電信實現了通過分析掌握市場整體經營情況、快速制定市場策略以及加強客戶經理營銷維系的高效執行。PureData for Analytics作為湖南電信本地數據集市建設工程重要組成部分，高效整合了湖南電信旗下各本地網數據，為進一步分析創造先機。
23. 攜程借SQL Server增強了數據採集和掌控
作為國內領先的綜合性旅行服務公司，攜程計算機技術有限公司曾面臨分支機構、服務城市和員工數量的增長所帶來的運營數據分散和數據集成難的 IT 問題。藉助微軟SQL Server 2012 商業智能解決方案，攜程增強了其對所有下屬分支機構的數據採集和掌控，大大減少了計劃性停機時間以及非計劃性停機的時間，靈活的部署選項也可以根據攜程的需要實現從伺服器到雲的擴展。
24. 上海公共研發平台部署Oracle Exadata應對擴展需求
上海公共研發平台部署Oracle Exadata資料庫雲伺服器，以應對其系統和應用的擴展需求。Oracle Exadata融合了一系列同類最佳的預配置的伺服器、網路、存儲和軟體，能為數據倉庫和在線事務處理應用程序提供超強性能。上海公共研發平台運行Oracle Exadata期間相對穩定，CPU佔用率控制在5%以內，極大改善了用戶應用體驗。同時，Exadata平台的可擴展性極好的滿足了上海公共研發平台的系統需求，目前整個公共研發平台的20多個應用系統已經全部遷移到Exadata上，應用部署量增長1倍，且運行十分穩定。
25. 360手機衛士10KB解決iPhone騷擾
360手機衛士通過對海量數據的運算和精準匹配下發，將一組大小僅為10KB的數據即1000個騷擾號碼同步到用戶手機上，打造個性化的騷擾號碼資料庫，此外，每天更新的騷擾號碼庫數據，會依據標記趨勢調整騷擾號碼庫中各類數據比例，即每一位360手機衛士用戶手機中的1000個騷擾號碼都是動態的，隨地域、身份以及騷擾趨勢的變化而變化。
26. 神州數碼助張家港市更「智慧」
在張家港實踐的城市案例中，市民登錄這款「神州數碼」研發的市民公共信息服務平台後，市民只要憑借自己的身份證和密碼，即可通過該系統平台進行240餘項「在線預審」服務、130餘項「網上辦事」服務等，還可通過手機及時查看辦事狀態。相比於以前來說，市民辦事的時間最少可以節省一半以上。

27. IBM助中網組委會構建安全和敏捷的內聯網
IBM專門為中網設計了具有實時大數據分析功能的MatchTracker(賽事追蹤系統)，可以為球迷提供數據呈現、計分等功能。 MatchTracker基於IBM SlamTracker分析技術，使球迷能夠利用歷史和實時性數據，洞悉比分之後的態勢和策略。此外，IBM還為中網組委會構建了安全和敏捷的內聯網。
28. Cortana基於微軟Bing大數據預測世界盃
微軟為Cortana增加了世界盃預測的功能，基於微軟Bing大數據，並綜合考慮世界盃各支球隊的過往比賽結果、比賽時間、天氣情況、主場優勢以及其他因素，使用大量的博彩市場公開數據、民意調查、社交媒體以及其它在線數據，利用大數據分析來判斷每場比賽的結果。
29. 中科曙光助同濟大學科研領域再創新高
為了滿足爆炸式增長的用戶和數據量，同濟大學攜手中科曙光，在全面整合雲計算平台和現有資產的基礎上，採用 DS800-F20存儲系統、Gridview集群管理系統，以及Hadoop分布式計算平台構建出了業內領先的大數據柔性處理平台，使得同濟大學在信息學科及其交叉學科研究領域邁上一個新台階。
30. 華為助農行完成海量數據分布式處理的需求
華為向農行提供了良好的計算平台，基於華為RH2288 V2伺服器的分布式並行計算集群進行測試，以及還提供了快速響應客戶需求的研發能力，以及業界最快捷的售後服務。農行的測試結果表明，華為解決方案完全滿足農行對海量數據進行分布式處理的要求。

3. 什麼是大數據，它對新聞業有什麼影響

什麼是大數據，它對新聞業有什麼影響？

答：（1）大數據及其特點

「大數據」（Big Data，Massive Datasets）是指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合，是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

大數據具有4V特徵，即海量的數據規模（volume）、快速的數據流轉（velocity）、多樣的數據類型（variety）和價值密度低（value）四大特徵。

在互聯網行業中，大數據是指互聯網公司在日常運營中生成、累積的用戶網路行為數據。大數據技術的戰略意義不在於掌握龐大的數據信息，而在於對這些含有意義的數據進行專業化處理。目前，大數據技術已廣泛應用於電子商務、O2O、物流配送等領域，對新聞生產也產生了一定的影響。

（2）大數據對新聞報道的幫助

①提升新聞報道的質量。由於大數據能夠精準地檢測出確切的數據信息，不僅檢測范圍廣大，而且能夠呈現整體的事實並預測事件的發展趨勢。因此利用大數據技術，可以有效地檢測出媒體的報道方式和報道成果是否有缺陷。另外，新聞工作者可以藉助計算機網路技術，利用新聞媒體以及合作機構資料庫來挖掘大量的數據信息，進行深層次的數據挖掘，有了這樣的技術，媒體的新聞報道水準將得到有效的提升。

②准確預測新聞報道走向。未來新聞業務層面的一個發展方向是趨勢預測性新聞，以往新聞報道的選題更多來源於正在發生或已經發生的事實，如果媒體能夠廣泛藉助大數據技術來進行重大趨勢的預測與分析，那麼，它對社會的影響力就能得到提升。

③減輕新聞報道工作人員的工作量。大數據技術的靈活運用，催生了數據新聞和機器人寫作。數據新聞是將數據轉化為信息的一種新聞生產形式，表現形式以數據和圖表為主，這不僅大大增強了新聞報道的真實性、准確性和可說服性，還緩解了新聞報道人員的工作壓力。機器人寫作則是通過計算機對數據進行分析，按照新聞結構來對數據進行整理和自動撰寫，平均每分鍾就能夠生產出兩條新聞報道，這也為新聞報道撰稿人員分擔了不少的工作量。

④使新聞報道更能滿足受眾需求。一方面，新聞生產者和發布者通過對受眾的新聞閱讀行為進行大數據分析，可以找出影響受眾的各方面因素，使新聞報道的受眾定位更加准確；另一方面，大數據技術不僅對受眾的行為進行普遍化分析，而且還強調受眾的個性化特徵，從而促使媒體機構為受眾提供更加個性化的新聞報道和服務。

4. 新媒體遇上大數據　隱私保護仍是「痛點」

新媒體遇上大數據隱私保護仍是「痛點」_數據分析師考試

大數據並不是簡單地買幾台伺服器把數據存下來，而是要將大數據與實際接軌，突出工具化、服務化和實用化，讓大數據能解決具體問題。

新媒體在運用大數據過程中，一個非常關鍵的問題是隱私保護。在使用大數據過程中保護個人隱私，需要司法機關發布有效的法律判例，對侵犯隱私行為形成輿論壓力；同時要加強大數據隱私保護研究

7月9日，金磚國家領導人第七次會晤在俄羅斯烏法舉行。

當天，人民日報全媒體平台「烹」出一張圖解:《金磚國家大數據》。

這並非新媒體與大數據的第一次結合。

前不久由中國社會科學院發布的《中國新媒體發展報告(2015)》稱，中國新媒體已超越「跨行業」，初步呈現「全產業」發展新趨勢。移動化、大數據化和智能化的新媒體已成為具備高強滲透度的產業基因，可深度融合於經濟產業各領域之中。

專注研究新媒體與數據新聞的清華大學新聞與傳播學院教授沈陽認為，當前，大數據在新媒體中應用廣泛，貫穿於新媒體發展的各個方面。

大數據運用廣泛

人民日報全媒體平台發布的《金磚國家大數據》，只是近期新媒體運用大數據的一個例子。

早在大數據這一概念進入公眾視野不久，便有媒體將大數據運用於新聞報道之中。

2014年春運期間，互聯網上就出現了一張可以呈現國內春節人口遷徙實況的地圖，這張盡顯中國春運遷徙實景的圖片更是登上央視《新聞聯播》進行權威盤點。自從春運開始，這張地圖多次被電視、報紙等媒體引用，成為用數據解讀春運狀況的一個樣本。據稱，這是國內首個運用大數據播報國內春節人口遷徙實況的地圖。

相較於電視、報紙等傳統媒體，新媒體對大數據的運用更加頻繁，作為新媒體代表之一的「澎湃新聞」便是如此:今年2月，「澎湃新聞」出品了《大數據告訴你，梅西的右腳現在有多恐怖》；3月，《落馬老虎大數據:除「軍虎」外，69人共花兩千多年入省部級》「走」下生產線。

在沈陽看來，將大數據應用於報道內容，只是新媒體運用大數據的一個方面。

在與《法制日報》記者交談過程中，沈陽列出了新媒體「遇上」大數據的多個「場景」:在做新媒體功能研發時，哪些要素需要增強、哪些需要減弱，可以運用大數據分析進行修正；在策劃選題時，可以通過大數據分析篩選出哪些話題關注度高、最熱門；在內容推送過程中，可以利用大數據對用戶興趣進行分析並梳理出來；新聞發出後，受眾有哪些評論、轉發多少、分享情況，這些都可以通過大數據獲得結果；即便是在廣告投放環節，也可以通過大數據分析、預判廣告與用戶是否匹配、廣告對新媒體品牌價值是否會有影響。

「大數據貫穿於新媒體的各個方面。」沈陽說。

「完美」並非絕對

盡管大數據很重要、很管用，但沈陽很早就發現，「大數據，沒有看起來那麼美」。

「數據真實性是一個不可迴避的問題。目前，水軍、僵屍粉、刷閱讀量等情況都有存在，這在一定程度上給數據提供了虛假成分。」沈陽說，不過，從宏觀上講，可以控制這些虛假成分。

如何控制「水分」?沈陽舉例說，在統計微博粉絲時，可以將范圍縮小至帶V的粉絲，因為帶V粉絲造假成本高；如果要更精準的數據，可以進一步縮小范圍，如近期活躍的帶V粉絲。「當然，這樣篩選數據會面臨高成本的問題」。

沈陽在早期的研究中還關注到大數據的另外兩個問題:樣本代表性和相關性誤差。

沈陽認為，我們不可能搜集到全數據，而與大數據相關的形容詞往往是大規模、精準、細化，在調用如此「完美」的數據時，如何注意情景和樣本的適用性是一個問題。正如網路民意與現實民意的討論，微博不代表網路，網路不代表社會，朋友圈也是小圈子，跳出圈子看世界不容易，切勿陷入相同的悖論。在選樣、測量、誤差校正不盡如人意時，好數據將劣化，大數據將虛化。

相關性誤差，則更偏向於技術。沈陽認為，在要素構成簡單的情景中，可以利用大數據，基於一定演算法和模型對變數元素進行相關性分析。然而，在復雜系統中，僅有相關性解釋還不夠，易走偏。比如一個明顯不對的結論:一個城市的網頁數越高，其網路形象就越好。雖然數據統計證實了網頁數和網路形象存在一般的正相關，但忽略了負面事件帶來的網頁量爆發等，因此結論也是不科學的。相關性要真正體現在數據之間、數據與真實事件影射的現象之間、真實事件的客觀聯繫上。

「大數據並不是簡單地買幾台伺服器把數據存下來，而是要將大數據與實際接軌，突出工具化、服務化和實用化，讓大數據能解決具體問題。」沈陽說。

隱私保護日益突出

基於多年研究大數據的心得，沈陽認為，新媒體在運用大數據過程中，一個非常關鍵的問題是，隱私保護。「目前，隱私保護問題越來越突出」。

此前，《法制日報》記者在參加一次論壇時，工信部相關部門一名負責人曾表達這樣的觀點:大數據時代到來後，隨著互聯網技術及其應用的發展，大數據、雲計算技術方式的使用，個人信息的價值不斷被挖掘、被使用，但是安全保護是一個很大的問題。

工信部相關部門這名負責人認為，大數據時代的個人信息安全面臨三大問題。

「一個問題是數據未經授權被搜集，這種情況發生得比較多。」工信部相關部門這名負責人說，第二個問題是超出范圍使用。所謂超范圍使用，是指企業通過一定的所謂合法的形式拿到個人信息，但是拿到以後使用信息的目的、用途以及范圍，並非信息權利主體所熟知。這種情況包括，當互聯網對一些數據信息進行更進一步或者深層挖掘時，這種挖掘在一定程度上有可能侵犯了權利主體的權益。因為互聯網企業之前可能告訴權利主體，獲取信息是基於特定的目的或者在特定范圍內使用，但是進一步挖掘就有可能觸犯了約定。第三個問題是數據保存。曾有網路社區存儲的幾千萬用戶信息被黑客拿到後轉賣給第三家，最後造成信息濫用。

在新媒體廣泛使用、深度挖掘大數據的時代，如何保護公民隱私?

工信部相關部門這名負責人提出了一個觀點:信息保護人人有責。

「在信息安全保護方面，很重要的一點在於，權利人自身要加強保護意識。」工信部相關部門這名負責人說，現在，不管是要求政府部門監管，還是要求司法機關動起來，一個重要前提是人人保護信息，這樣才可能使信息保護問題得到根本解決，否則只靠公權力機關單方面去做是沒有用的。當然，在提倡人人保護信息的同時，執法保護也是一個很重要的方面。

在沈陽看來，在使用大數據過程中保護個人隱私，一方面需要司法機關發布有效的法律判例，對侵犯隱私行為形成輿論壓力；另一方面要加強大數據隱私保護研究。

以上是小編為大家分享的關於新媒體遇上大數據隱私保護仍是「痛點」的相關內容，更多信息可以關注環球青藤分享更多干貨

5. 大數據的價值在於開放和跨界深度挖掘

大數據的價值在於開放和跨界深度挖掘

在專家們看來，數據的開放和跨界融合，是大數據產業得以發展壯大的關鍵。發展大數據產業，也是推動互聯網＋的必然需求。

大數據並不遙遠

收集美國氣象局、中國氣象局、歐洲天氣預報中心的公開數據，加上對各大河流的地貌數據，東方科技董事長李勝利用自己的獨特演算法，就可以提前預測全球任何一個水電站是否會遭遇大洪水……這就是「東方祥雲」項目的魅力所在，也讓大眾真實感受到大數據的魔力。

在大數據商業模式大賽的決賽中，「東方祥雲」項目最終獲得一等獎，從惠及民生的角度來說，這一獎項實至名歸。

中國是一個水資源匱乏但水害多發的國家，僅2013年全國因洪澇災害死亡的人數就達1148人。2007年7月，貴州平塘發生特大洪水，造成5.7億元直接經濟損失。2012年7月，該縣再次遭遇特大洪水，不但無一人傷亡，直接經濟損失也降到6000萬元。

「原因在於，2010年受災後，平塘縣安裝了我們的山洪災害預警監測平台，得到洪水預報，及時採取措施。」李勝告訴記者，全國約有15萬座水電站、水庫，如果使用東方祥雲的大數據技術進行來水預報服務，並合理調度用水，可為水庫、水電站節省90%的運維成本。

在這次比賽中，這樣的項目並不少見。比如，大賽獲獎項目「蜂能」，通過智能用電終端和強大的數據運算系統，採集設備用電數據，對其分析並進行節電和需求優化管理，可實現節約用電10%~20%。

「在一些具體的產業，大數據已經應用得非常廣。實際上，大數據挖掘是推動互聯網的有效方式。」清華大學教授韓亦舜對記者表示，本次大賽的眾多獲獎項目，就體現出「大數據時代已經到來」。

開放才有價值

在專家們看來，大數據只有開放才有價值，封閉、不流通的數據無法形成產業。

「如果沒有美國氣象局等機構在網路公開的氣象數據，我們即便有最精確的演算法，也無法做到水庫水位的提前預報。氣象數據和地貌、水文數據的跨界與溝通，才能讓我們的計算更加准確。」李勝坦言。

韓亦舜指出，包含豐富的數據源是大數據產業發展的前提。但是，我國政府、企業和行業信息化系統建設往往缺少統一規劃和科學論證，系統之間缺乏統一的標准，形成了眾多「信息孤島」，而且受行政壟斷和商業利益所限，數據開放程度較低，這給數據利用造成極大障礙，亟須改變。「雲上貴州」提出逐步開放數據，無疑具有重大的意義。

貴州省經濟和信息化委員會主任李保芳也向記者表示，政府數據資源應當在安全前提下逐步有序適當開放。「事實上，政府通過數據開放，改進公眾服務和社會管理，營造創新環境和釋放商業機會，市民、企業和政府都將是開放數據的受益者。」

仍待深度挖掘

貴州省經信委提供的相關報告顯示，2014年貴州大數據信息產業實現規模總量1460億元，電子信息產業單月規模達到130億元。

韓亦舜認為，未來，人類一切生產、生活包括民生、環保、公共安全、城市服務、工商業活動都將囊括在智慧體系的理想服務之下，而智慧的來源便是大數據。

「大數據作為一種資源，其獨特性在於可重復利用，而且可以在不斷的挖掘中繼續產生新的價值。」阿里巴巴集團副總裁、大數據專家塗子沛指出，從目前來看，亟須對數據進行深度挖掘。

「目前，在大數據產業領域，我國與各工業強國基本上處於同一起跑線。只要充分利用大數據產生的力量，未來可以幫助中國產業實現彎道超車。

以上是小編為大家分享的關於大數據的價值在於開放和跨界深度挖掘的相關內容，更多信息可以關注環球青藤分享更多干貨

6. 九派新聞是什麼樣的平台

九派新聞屬於省級的新聞媒體。

2015年9月23日，由湖北省打造的「九派新聞」終端上線。九派新聞定位為全國性輿論平台，以「資訊奔流，激越中國」為口號，將運用大數據技術構建新媒體產業融合平台。

九派新媒體平台堅持「大數據新聞」的明確定位，數據新聞、深度報道、民生服務、智庫風格成為其鮮明特色，依靠國內獨創的大數據採集挖掘技術驅動，探索構建戰略性的傳媒生態系統。

九派號：

九派號將為入駐成員提供三大服務：開放基於移動互聯網內容創作場景的內容管理系統，用戶可根據創作需求自主發布文章、圖集、視頻等。

開放的新媒體終端，一鍵發布，及時互動實現優質原創內容在全國范圍內的傳播。

開放數據統計系統，為成員單位提供實時動態的內容分析、訂閱用戶、用戶分析、閱讀量、關注量和收藏量等數據追蹤。

7. 大數據挖掘主要涉及哪些技術

1、數據科學與大數據技術
本科專業，簡稱數據科學或大數據。
2、大數據技術與應用回
高職院校專業。
相關專業名答稱：大數據管理與應用、大數據採集與應用等。
大數據專業強調交叉學科特點，以大數據分析為核心，以統計學、計算機科學和數學為三大基礎支撐性學科，培養面向多層次應用需求的復合型人才。

8. 大數據時代的數據怎麼挖掘

3月13日下午，南京郵電大學計算機學院、軟體學院院長、教授李濤在CIO時代微講座欄目作了題為《大數據時代的數據挖掘》的主題分享，深度詮釋了大數據及大數據時代下的數據挖掘。

眾所周知，大數據時代的大數據挖掘已成為各行各業的一大熱點。
一、數據挖掘
在大數據時代，數據的產生和收集是基礎，數據挖掘是關鍵，數據挖掘可以說是大數據最關鍵也是最基本的工作。通常而言，數據挖掘也稱為DataMining，或知識發現Knowledge Discovery from Data，泛指從大量數據中挖掘出隱含的、先前未知但潛在的有用信息和模式的一個工程化和系統化的過程。
不同的學者對數據挖掘有著不同的理解，但個人認為，數據挖掘的特性主要有以下四個方面：
1.應用性（A Combination of Theory and Application）：數據挖掘是理論演算法和應用實踐的完美結合。數據挖掘源於實際生產生活中應用的需求，挖掘的數據來自於具體應用，同時通過數據挖掘發現的知識又要運用到實踐中去，輔助實際決策。所以，數據挖掘來自於應用實踐，同時也服務於應用實踐，數據是根本，數據挖掘應以數據為導向，其中涉及到演算法的設計與開發都需考慮到實際應用的需求，對問題進行抽象和泛化，將好的演算法應用於實際中，並在實際中得到檢驗。
2.工程性（An Engineering Process）：數據挖掘是一個由多個步驟組成的工程化過程。數據挖掘的應用特性決定了數據挖掘不僅僅是演算法分析和應用，而是一個包含數據准備和管理、數據預處理和轉換、挖掘演算法開發和應用、結果展示和驗證以及知識積累和使用的完整過程。而且在實際應用中，典型的數據挖掘過程還是一個交互和循環的過程。
3.集合性（A Collection of Functionalities）：數據挖掘是多種功能的集合。常用的數據挖掘功能包括數據探索分析、關聯規則挖掘、時間序列模式挖掘、分類預測、聚類分析、異常檢測、數據可視化和鏈接分析等。一個具體的應用案例往往涉及多個不同的功能。不同的功能通常有不同的理論和技術基礎，而且每一個功能都有不同的演算法支撐。
4.交叉性（An Interdisciplinary Field）：數據挖掘是一門交叉學科，它利用了來自統計分析、模式識別、機器學習、人工智慧、信息檢索、資料庫等諸多不同領域的研究成果和學術思想。同時一些其他領域如隨機演算法、資訊理論、可視化、分布式計算和最優化也對數據挖掘的發展起到重要的作用。數據挖掘與這些相關領域的區別可以由前面提到的數據挖掘的3個特性來總結，最重要的是它更側重於應用。
綜上所述，應用性是數據挖掘的一個重要特性，是其區別於其他學科的關鍵，同時，其應用特性與其他特性相輔相成，這些特性在一定程度上決定了數據挖掘的研究與發展，同時，也為如何學習和掌握數據挖掘提出了指導性意見。如從研究發展來看，實際應用的需求是數據挖掘領域很多方法提出和發展的根源。從最開始的顧客交易數據分析（market basket analysis）、多媒體數據挖掘（multimedia data mining）、隱私保護數據挖掘（privacy-preserving data mining）到文本數據挖掘（text mining）和Web挖掘（Web mining），再到社交媒體挖掘（social media mining）都是由應用推動的。工程性和集合性決定了數據挖掘研究內容和方向的廣泛性。其中，工程性使得整個研究過程里的不同步驟都屬於數據挖掘的研究范疇。而集合性使得數據挖掘有多種不同的功能，而如何將多種功能聯系和結合起來，從一定程度上影響了數據挖掘研究方法的發展。比如，20世紀90年代中期，數據挖掘的研究主要集中在關聯規則和時間序列模式的挖掘。到20世紀90年代末，研究人員開始研究基於關聯規則和時間序列模式的分類演算法（如classification based on association），將兩種不同的數據挖掘功能有機地結合起來。21世紀初，一個研究的熱點是半監督學習（semi-supervised learning）和半監督聚類（semi-supervised clustering），也是將分類和聚類這兩種功能有機結合起來。近年來的一些其他研究方向如子空間聚類（subspace clustering）（特徵抽取和聚類的結合）和圖分類（graph classification）（圖挖掘和分類的結合）也是將多種功能聯系和結合在一起。最後，交叉性導致了研究思路和方法設計的多樣化。
前面提到的是數據挖掘的特性對研究發展及研究方法的影響，另外，數據挖掘的這些特性對如何學習和掌握數據挖掘提出了指導性的意見，對培養研究生、本科生均有一些指導意見，如應用性在指導數據挖掘時，應熟悉應用的業務和需求，需求才是數據挖掘的目的，業務和演算法、技術的緊密結合非常重要，了解業務、把握需求才能有針對性地對數據進行分析，挖掘其價值。因此，在實際應用中需要的是一種既懂業務，又懂數據挖掘演算法的人才。工程性決定了要掌握數據挖掘需有一定的工程能力，一個好的數據額挖掘人員首先是一名工程師，有很強大的處理大規模數據和開發原型系統的能力，這相當於在培養數據挖掘工程師時，對數據的處理能力和編程能力很重要。集合性使得在具體應用數據挖掘時，要做好底層不同功能和多種演算法積累。交叉性決定了在學習數據挖掘時要主動了解和學習相關領域的思想和技術。
因此，這些特性均是數據挖掘的特點，通過這四個特性可總結和學習數據挖掘。
二、大數據的特徵
大數據（bigdata）一詞經常被用以描述和指代信息爆炸時代產生的海量信息。研究大數據的意義在於發現和理解信息內容及信息與信息之間的聯系。研究大數據首先要理清和了解大數據的特點及基本概念，進而理解和認識大數據。
研究大數據首先要理解大數據的特徵和基本概念。業界普遍認為，大數據具有標準的「4V」特徵：
1.Volume（大量）：數據體量巨大，從TB級別躍升到PB級別。
2.Variety（多樣）：數據類型繁多，如網路日誌、視頻、圖片、地理位置信息等。
3.Velocity（高速）：處理速度快，實時分析，這也是和傳統的數據挖掘技術有著本質的不同。
4.Value（價值）：價值密度低，蘊含有效價值高，合理利用低密度價值的數據並對其進行正確、准確的分析，將會帶來巨大的商業和社會價值。
上述「4V」特點描述了大數據與以往部分抽樣的「小數據」的主要區別。然而，實踐是大數據的最終價值體現的唯一途徑。從實際應用和大數據處理的復雜性看，大數據還具有如下新的「4V」特點：
5.Variability（變化）：在不同的場景、不同的研究目標下數據的結構和意義可能會發生變化，因此，在實際研究中要考慮具體的上下文場景（Context）。
6.Veracity（真實性）：獲取真實、可靠的數據是保證分析結果准確、有效的前提。只有真實而准確的數據才能獲取真正有意義的結果。
7.Volatility（波動性）/Variance（差異）：由於數據本身含有噪音及分析流程的不規范性，導致採用不同的演算法或不同分析過程與手段會得到不穩定的分析結果。
8.Visualization（可視化）：在大數據環境下，通過數據可視化可以更加直觀地闡釋數據的意義，幫助理解數據，解釋結果。
綜上所述，以上「8V」特徵在大數據分析與數據挖掘中具有很強的指導意義。
三、大數據時代下的數據挖掘
在大數據時代，數據挖掘需考慮以下四個問題：
大數據挖掘的核心和本質是應用、演算法、數據和平台4個要素的有機結合。
因為數據挖掘是應用驅動的，來源於實踐，海量數據產生於應用之中。需用具體的應用數據作為驅動，以演算法、工具和平台作為支撐，最終將發現的知識和信息應用到實踐中去，從而提供量化的、合理的、可行的、且能產生巨大價值的信息。
挖掘大數據中隱含的有用信息需設計和開發相應的數據挖掘和學習演算法。演算法的設計和開發需以具體的應用數據作為驅動，同時在實際問題中得到應用和驗證，而演算法的實現和應用需要高效的處理平台，這個處理平台可以解決波動性問題。高效的處理平台需要有效分析海量數據，及時對多元數據進行集成，同時有力支持數據化對演算法及數據可視化的執行，並對數據分析的流程進行規范。
總之，應用、演算法、數據、平台這四個方面相結合的思想，是對大數據時代的數據挖掘理解與認識的綜合提煉，體現了大數據時代數據挖掘的本質與核心。這四個方面也是對相應研究方面的集成和架構，這四個架構具體從以下四個層面展開：
應用層（Application）：關心的是數據的收集與演算法驗證，關鍵問題是理解與應用相關的語義和領域知識。
數據層（Data）：數據的管理、存儲、訪問與安全，關心的是如何進行高效的數據使用。
演算法層（Algorithm）：主要是數據挖掘、機器學習、近似演算法等演算法的設計與實現。
平台層（Infrastructure）：數據的訪問和計算，計算平台處理分布式大規模的數據。
綜上所述，數據挖掘的演算法分為多個層次，在不同的層面有不同的研究內容，可以看到目前在做數據挖掘時的主要研究方向，如利用數據融合技術預處理稀疏、異構、不確定、不完整以及多來源數據；挖掘復雜動態變化的數據；測試通過局部學習和模型融合所得到的全局知識，並反饋相關信息給預處理階段；對數據並行分布化，達到有效使用的目的。
四、大數據挖掘系統的開發
1.背景目標
大數據時代的來臨使得數據的規模和復雜性都出現爆炸式的增長，促使不同應用領域的數據分析人員利用數據挖掘技術對數據進行分析。在應用領域中，如醫療保健、高端製造、金融等，一個典型的數據挖掘任務往往需要復雜的子任務配置，整合多種不同類型的挖掘演算法以及在分布式計算環境中高效運行。因此，在大數據時代進行數據挖掘應用的一個當務之急是要開發和建立計算平台和工具，支持應用領域的數據分析人員能夠有效地執行數據分析任務。
之前提到一個數據挖掘有多種任務、多種功能及不同的挖掘演算法，同時，需要一個高效的平台。因此，大數據時代的數據挖掘和應用的當務之急，便是開發和建立計算平台和工具，支持應用領域的數據分析人員能夠有效地執行數據分析任務。
2.相關產品
現有的數據挖掘工具
有Weka、SPSS和SQLServer，它們提供了友好的界面，方便用戶進行分析，然而這些工具並不適合進行大規模的數據分析，同時，在使用這些工具時用戶很難添加新的演算法程序。
流行的數據挖掘演算法庫
如Mahout、MLC++和MILK，這些演算法庫提供了大量的數據挖掘演算法。但這些演算法庫需要有高級編程技能才能進行任務配置和演算法集成。
最近出現的一些集成的數據挖掘產品
如Radoop和BC-PDM，它們提供友好的用戶界面來快速配置數據挖掘任務。但這些產品是基於Hadoop框架的，對非Hadoop演算法程序的支持非常有限。沒有明確地解決在多用戶和多任務情況下的資源分配。
3.FIU-Miner
為解決現有工具和產品在大數據挖掘中的局限性，我們團隊開發了一個新的平台——FIU-Miner，它代表了A Fast,Integrated,and User-Friendly System for Data Miningin Distributed Environment。它是一個用戶友好並支持在分布式環境中進行高效率計算和快速集成的數據挖掘系統。與現有數據挖掘平台相比，FIU-Miner提供了一組新的功能，能夠幫助數據分析人員方便並有效地開展各項復雜的數據挖掘任務。
與傳統的數據挖掘平台相比，它提供了一些新的功能，主要有以下幾個方面：
A.用戶友好、人性化、快速的數據挖掘任務配置。基於「軟體即服務」這一模式，FIU-Miner隱藏了與數據分析任務無關的低端細節。通過FIU-Miner提供的人性化用戶界面，用戶可以通過將現有演算法直接組裝成工作流，輕松完成一個復雜數據挖掘問題的任務配置，而不需要編寫任何代碼。
B.靈活的多語言程序集成。允許用戶將目前最先進的數據挖掘演算法直接導入系統演算法庫中，以此對分析工具集合進行擴充和管理。同時，由於FIU-Miner能夠正確地將任務分配到有合適運行環境的計算節點上，所以對這些導入的演算法沒有實現語言的限制。
C.異構環境中有效的資源管理。FIU-Miner支持在異構的計算環境中（包括圖形工作站、單個計算機、和伺服器等）運行數據挖掘任務。FIU-Miner綜合考慮各種因素（包括演算法實現、伺服器負載平衡和數據位置）來優化計算資源的利用率。
D.有效的程序調度和執行。
應用架構上包括用戶界面層、任務和系統管理層、邏輯資源層、異構的物理資源層。這種分層架構充分考慮了海量數據的分布式存儲、不同數據挖掘演算法的集成、多重任務的配置及系統用戶的交付功能。一個典型的數據挖掘任務在應用之中需要復雜的主任務配置，整合多種不同類型的挖掘演算法。因此，開發和建立這樣的計算平台和工具，支持應用領域的數據分析人員進行有效的分析是大數據挖掘中的一個重要任務。
FIU-Miner系統用在了不同方面：如高端製造業、倉庫智能管理、空間數據處理等，TerraFly GeoCloud是建立在TerraFly系統之上的、支持多種在線空間數據分析的一個平台。提供了一種類SQL語句的空間數據查詢與挖掘語言MapQL。它不但支持類SQL語句，更重要的是可根據用戶的不同要求，進行空間數據挖掘，渲染和畫圖查詢得到空間數據。通過構建空間數據分析的工作流來優化分析流程，提高分析效率。
製造業是指大規模地把原材料加工成成品的工業生產過程。高端製造業是指製造業中新出現的具有高技術含量、高附加值、強競爭力的產業。典型的高端製造業包括電子半導體生產、精密儀器製造、生物制葯等。這些製造領域往往涉及嚴密的工程設計、復雜的裝配生產線、大量的控制加工設備與工藝參數、精確的過程式控制制和材料的嚴格規范。產量和品質極大地依賴流程管控和優化決策。因此，製造企業不遺餘力地採用各種措施優化生產流程、調優控制參數、提高產品品質和產量，從而提高企業的競爭力。
在空間數據處理方面，TerraFly GeoCloud對多種在線空間數據分析。對傳統數據分析而言，其難點在於MapQL語句比較難寫，任務之間的關系比較復雜，順序執行之間空間數據分許效率較低。而FIU-Miner可有效解決以上三個難點。
總結而言，大數據的復雜特徵對數據挖掘在理論和演算法研究方面提出了新的要求和挑戰。大數據是現象，核心是挖掘數據中蘊含的潛在信息，並使它們發揮價值。數據挖掘是理論技術和實際應用的完美結合。數據挖掘是理論和實踐相結合的一個例子。

9. 數據新聞的功能與優勢

目前，在大數據新聞製作上已經積累了經驗的國際媒體有《衛報》《紐約時報》《華盛頓郵報》等，但它們也處於探索階段。通過對國內外代表性媒體的大數據新聞實踐進行研究，可以總結出大數據新聞的四個功能，即描述、判斷、預測、信息定製。
《衛報》網頁2012年1月5日發布了一個有關「阿拉伯之春」的大數據新聞報道。報道利用動態圖表，以時間軸為主線描述了自2010年12月一突尼西亞男子自焚至2011年12月的一年間，17個阿拉伯國家發生的一場政治運動。網民可以通過這個四維動態的報道，清楚地從宏觀到微觀，全面了解阿拉伯之春在不同國家的不同表現形式。圖表上方設置了時間的推拉按鈕，網民推拉到自己想觀看的時間點，可以清楚地看到相同時間點上不同國家發生的相關事件。畫面的下方是各個國家的標簽，網民也可以通過國家標記，來關注某個具體國家在縱向時間軸上的政治演變進程。不同的政治事件用不同顏色來標示：綠色為群眾性抗議活動，淺藍色為國際上的相關反應，黃色為政治事件，紅色為政權更替。如果網民想了解某個事件的具體內容，點擊不同顏色的標示，隨即獲取深度報道的鏈接。這種新聞報道方式，將涉及十幾個國家、時間跨度長達一年的復雜的「阿拉伯之春」，以明晰的動態方式呈現出來，純文字報道難以達到這樣的傳播效果。
大數據新聞還能夠描述那些看不見的短期過程，比如流言如何在社交網路上傳播。《衛報》通過追蹤分析260萬份推特內容，利用可視化動態圖表描述了從流言開始傳播到辟謠結束的整個過程。它也是以時間為軸，利用圓圈大小、顏色變化來描述整個過程，綠色的圈代表散布流言的推文，紅色的圈代表更正這個流言的推文，灰色的是中立的評價推文，黃色的是對流言持懷疑態度的推文。圈的大小代表了推文的影響程度，圈越大影響程度越大。如果想了解具體的內容，點到哪個圈，屏幕旁邊即刻呈現這個圈所代表的推文的發布者、發布日期、轉推人數等等信息。通過這個動態的演進過程，人們可以清楚地看到，社交網路並不像一般想像的那樣，是一味擴散虛假消息的場所。其實在假消息出現不久，社交網路上各種辟謠的消息就已經出現了。
從這兩個例子可以看出，大數據新聞的報道方式能夠在宏觀上對某個事件看得更加清楚與全面，事件復雜的演進過程以及這個過程中的各個方面，都能描述得直觀且有趣。 2011年8月，一個黑人穆斯林男子乘計程車在倫敦街頭遭到警方攔截，雙方發生槍戰，該男子當街死亡。兩天後，約300人聚集在倫敦市中心的警察局進行抗議，後來演變成持續多天的騷亂事件，抗議者引燃了汽車、商店和公交車。當天夜裡，倫敦其他地區也發生了類似襲警、搶劫、縱火等事件。一些媒體評論指出，這與貧富差距有關。英國首相卡梅倫接受采訪時，聲稱騷亂事件與貧富差距無關。
英國《衛報》記者利用大數據的分析結果，做了關於這一事件的系列報道，其中的一個報道主題，便是騷亂與貧困有沒有關聯。記者利用谷歌融合圖表，在倫敦地區地圖上標記出騷亂分子的居住地信息（黃色點）、實際發生騷亂的地點（灰色點），以及貧困地區分布（越偏紅色表示越貧窮）。根據這張倫敦市中心的圖，網民可以將圖擴展到整個大倫敦地區來看，也可以聚焦到具體的街區放大來看，觀察每個被標記的騷亂點的人流從哪裡來，到哪兒去，從而清楚地看到貧苦與騷亂之間存在的某種關聯。這種關系的表達，比起單純的文字報道來，表現清晰，說服力強。 2013年「十一」長假期間，九寨溝發生遊客大量滯留現象並引發群體性事件。如果新聞媒體或旅遊當局能夠在此前運用中國的局部大數據進行預測性報道，完全可以避免這樣的群體性事件發生。因為傳媒可以根據這方面的大數據，提前報道在哪個具體時間段內，有多少人從哪些地方前往九寨溝，其中男人、女人、老人、兒童各有多少等等。
這只是一個小例子，大數據能夠預測社會和人們日常生活中的各個方面。通過挖掘大數據，傳媒在技術上可以製作出可視化、互動式的圖表，告知很多事項。微觀的如流行疾病來襲、交通擁堵情況；宏觀的如經濟指數變動、某種社會危機的來臨等等。網路開辟了「網路預測」網頁，以「大數據，知天下」的口號推出，預測的產品有高考、世界盃、電影票房等等。它們後期准備上線的產品擴展到了更廣的領域，比如金融預測、房地產預測等等。利用大數據的分析結果，滿足網民的信息個性化要求，是國外媒體的最新嘗試。例如Five thirty eight數據博客，在2014年5月23日新辟讀者來信專欄「親愛的莫娜」。其第一期開篇語闡釋的目的是：「我開這個專欄是為了幫助讀者回答一些生活中重要的或者嚴肅的問題，比如我是不是很正常、我處在世界的哪個地位層面等等，目的不是為了給讀者答疑解惑，不是告訴讀者應該做什麼和不應該做什麼。恰恰相反，我提供數據來解釋、描述你的經歷。」
綜觀這個專欄，讀者的提問五花八門，比較嚴肅的如：「美國有多少人從來沒有喝過一滴酒？」「美國有多少男性空乘人員？」也有比較私人的如：「我該多久換一次襪子？」「婚前同居會不會導致離婚」等等。專欄作者利用美國范圍內的大數據，即刻將分析結果告知當事人，但避免給出指導性意見，僅告知各種數據的分析結果，讓網民自己依照分析結果來處理自己面臨的問題。這個專欄與傳統的紙媒讀者來信專欄不同，不是通過星座、血型、生辰八字或偽裝成閱歷豐富的專家，來提供些心靈雞湯式的回答，只用數據來說話。
這種嘗試在媒體中並不少見。2011年，BBC廣播公司曾根據2012年政府的財政預算聯合畢馬威會計師事務所做了一個預算計算器，用戶只需要輸入一些日常信息，例如買多少啤酒，用多少汽油等，就能夠算出新的預算會讓你付多少稅，明年生活會不會更好。
根據用戶需求提供個性化的大數據服務，是未來的發展趨勢。這些報道有一個共性，媒體都致力於以用戶的需求為中心，利用大數據詮釋宏觀社會現象對用戶的影響，或者回答用戶困惑的問題。媒體可以精準定位，經過後台計算，按照用戶的接收習慣、工作習慣和生活習慣將服務推送到用戶眼前。

10. 怎麼分析新聞報道情況

親親您好，一、研究背景

2010年，「互聯網之父」蒂姆·伯納斯—李說了這樣一句話：「Date-driven journalism is the future」(數據驅動新聞代表未來)這句話在當時被廣泛傳播，使「數據新聞」開始進入公眾的視野。關於數據新聞的定義，目前在新聞傳播屆採用最多的依然出自歐洲新聞中心和開放知識基金會共同編寫的《數據新聞手冊》中的表述：「與其他類型的新聞區別或許在於將傳統的新聞敏感和使用數字信息講述一則好故事的能力相結合而帶來新的可能性，數據新聞能夠幫助記者使用數據圖表講述一個錯綜復雜的故事。」[1]一些國內學者根據自己的理解，也對「數據新聞」下了定義：「數據新聞是以數據為中心，密切圍繞數據來組織報道，同時與數據相關的各種技術在新聞生產中都被賦予了重要地位。」[2]結合上述兩種對「數據新聞」的解釋，我們認為：「數據新聞」就是在新聞報道中，以數據作為支撐整個新聞報道的核心論據，圍繞數據進行信息的採集、整理、分析與呈現工作，最終形成的新聞報道。數據新聞的本質不僅是對數據的呈現，而更在於挖掘數據背後隱藏的意義與價值。

現代體育離不開數據，體育競賽過程中會產生大量的數據，數據永遠都是體育賽事的核心。不論是奧運會、世界盃或是各種職業聯賽，其比賽的最終結果都可以通過數據表現出來，而運動員的表現同樣可以通過數據得以呈現。因此，體育媒體行業的工作人員想要報道好體育新聞，必然需要和各種數據打交道，數據顯然對於體育媒體人來說相較於其他行業更具重要性。如今在大數據時代下，體育新聞人同樣可以憑借大數據技術，來挖掘體育賽事數據，形成生動、有深度的新聞報道，大數據技術為體育新聞生產注入新動力。

二、研究目的

(一)了解目前我國網路媒體對體育數據新聞的應用現狀

相較於傳統媒體，我國網路媒體較早開始了數據新聞實踐，並表現出專門頻道為主，專題報道為輔的運行模式。而傳統媒體方面，雖然也在數據新聞方面有過一些嘗試，但由於自身條件的限制，使得數據新聞在傳統媒體上總是難以施展拳腳。比如，電視媒體在製作數據新聞時會受到播出時間的限制，紙媒則由於版面容量的問題限制數據新聞的刊載。而其在網路媒體上則不會受到版面和時間的限制，這就導致傳統媒體的數據新聞在數量和質量上都無法與網路媒體相比。所以本文選取了兩家網路媒體——《新浪體育》與《肆客足球》作為研究的主體，將這兩家網媒在俄羅斯世界盃期間製作的數據新聞為研究樣本，來探析目前我國網媒對體育數據新聞的應用現狀。

(二)研究當下我國網媒在製作體育數據新聞時存在的問題並提出對策

本文通過對俄羅斯世界盃期間《新浪體育》與《肆客足球》製作的130篇體育數據新聞進行全樣本內容分析，發現並分析當下網媒上的體育數據新聞在製作和傳播應用中存在的問題，在借鑒西方主流媒體發展經驗的基礎上，結合我國的國情，為國內體育數據新聞的報道提供可借鑒策略。

三、研究結果以及問題分析

(一)新聞選題全面多樣、特色鮮明，但預測類新聞相對較少

本文將選題角度劃分為六種類型，分別是：預測、賽後、回顧、場外、專題以及人物。隨後將全部130篇體育數據新聞按照這六個類目進行統計整理，在俄羅斯世界盃期間，《新浪體育》和《肆客足球》製作發表的體育數據新聞，在六個類型的選題方面都有涉及，其中專題類新聞最多共有34篇，占總體樣本的26%左右；而預測類新聞最少，只有11篇，占總體樣本的9%左右。通過以上數據我們發現，目前網媒製作的體育數據新聞選題覆蓋比較全面，且結合自身特色的專題類報道成為了數據新聞的「主力軍」，但同時又比較缺乏對預測類新聞的製作。

(二)體育數據新聞內容以文字敘述為主，可視化設計水平參差不齊

本文將選取的體育數據新聞內容劃分為兩種類型，即非可視化數據新聞和可視化數據新聞。再將非可視化數據新聞分為純文字和圖文兩種，將可視化數據新聞分為圖表、視頻、H5三種。經過統計整理發現：在俄羅斯世界盃期間，《新浪體育》與《肆客足球》發表的體育數據新聞在內容上主要以文字敘述數據的方式為主，共有67篇；在可視化數據新聞作品中，主要以H5形式的作品為主，共有32篇，占可視化數據新聞的51%；而視頻類數據新聞較少，只佔可視化數據新聞的5%左右。經過分析，發現目前網媒對體育數據新聞的報道內容多以文字敘述為主，依然處於數據新聞製作的早期形態；在數據可視化製作方面，多愛採用H5的方式製作數據新聞，同時也存在一些以各類數據圖表為內容的可視化作品。另外視頻數據新聞製作水平較低，多為動圖配字幕的形式，所以目前的體育數據新聞可視化水平有待進一步發展。

(三)體育數據新聞的數據來源多樣，但通過自己挖掘的數據較少

本文將選取的130篇數據新聞的數據來源進行統計，發現目前我國網媒在製作數據新聞時採集的數據主要來源於四個方面：一、自己挖掘；二、專業數據機構(主要為一些國外數據機構如：OPTA、Transfer Market、Squawka);三、官方網站(國際足聯官網、機構官網、足協官網、維基網路)；四、外媒。經過統計整理發現：《新浪體育》與《肆客足球》在製作數據新聞使所採用的數據來源具有多樣化的特點。這其中共69篇新聞的數據來自官方網站，占總體樣本的53%左右；而利用通過自己的工作人員挖掘整理的數據進行報道的新聞只有15篇，占總體樣本的11%。經過分析發現，目前我國網媒獲取數據的渠道較多，說明大數據時代數據的開放程度變得越來越高；另一方面，目前我國網媒的數據新聞製作者應提高大數據挖掘技術，進一步提升自主生產、挖掘數據新聞的水平。

四、研究結論及建議

數據新聞起於西方、興於西方，《衛報》是最早踐行數據新聞的西方主流媒體，其製作的數據新聞獲得業界高度贊譽。根據本研究對我國網媒應用體育數據新聞的現狀分析，同時借鑒英國《衛報》在體育數據新聞方面的成功案例，可以得出以下研究結論及建議

(一)提高預測類數據新聞比重，發揮數據新聞價值優勢

通過對我國網媒體育數據新聞應用現狀的分析，發現目前我國網媒製作的體育數據新聞雖然題材多樣，生產效率較高，但仍然缺乏一些具有深度的新聞報道。作為一名數據新聞記者，一定要有高水準的數據素養，具備敏銳的數據感知和分析能力，要能夠在大數據的海洋中捕撈出最具新聞價值的數據信息，深挖數據背後所隱藏的故事，最終擬成有價值的選題呈現給受眾，這樣才能夠使復雜的數據發揮出最大的價值。

如要改變現狀，一方面，新聞機構要對自己的數據新聞記者組織培訓，邀請業界富有能力、經驗的數據新聞記者來為自己的數據新聞團隊授業解惑；另一方面，高校作為培養國家人才的大熔爐，也必須設立專門的數據新聞課程，來為社會培養具備高水準數據素養的新聞人才。雖然目前國內於2013年開始，也有幾家高校開辟了數據新聞專業，畢竟還處於探索階段，且培養出來的人才數量有限，還遠遠不能滿足社會的需要。

(二)提高數據可視化製作水平

通過對我國網媒體育數據新聞應用現狀的分析，發現目前我國網媒製作的體育數據新聞的可視化設計水平有待提高。「可視化」(visualization),來源於「visual」,原意是「視覺的」、「形象的」。事實上，將任何抽象的事物、過程變成圖形、圖像的表示都可以稱為可視化[1]。

提高數據可視化呈現水平，首先，媒體需要在自己的數據新聞團隊里組建一個得力的視覺團隊。記者在將數據信息進行可視化處理時，需要兼備新聞、技術與藝術素養的專業人員來做視覺專業的工作。一個相對完整的視覺團隊大致包括選題策劃、文字攝影攝像記者、數據編輯、美術設計、電腦制圖、版面編輯和網頁設計等層面的人員。

其次，在設計環節要對數據可視化工作有高要求。《衛報》「數據博客」前主編西蒙·羅傑斯曾說：「對好圖表的追求，就像是要更多的陽光和免費巧克力。」數據新聞的可視化絕不是隨意的將數據以圖表的形式展現，在數據可視化的製作中還需要將圖表進行美化，使可視化效果盡可能的貼合視覺感受，只有經過這樣嚴苛地工作過程，才能為受眾帶來更好的閱讀體驗，良好的閱讀體驗是數據新聞生存的根本。

(三)搭建屬於自己的高水平資料庫

經過分析發現，目前我國的網路媒體基本沒有建立屬於自己的資料庫，在製作數據新聞時，主要依靠兩種渠道：一種是通過記者在網上查找搜尋數據；一種是花錢從專業的數據公司購買數據。如此現狀，可能導致媒體人在製作數據新聞時受到數據開放程度的限制，而無法製作優質的數據新聞作品。數據新聞又稱「數據驅動新聞」，因此必須要有高水平的資料庫做支撐，才能保障數據新聞的質量。建立資料庫同樣有兩種途徑：一種是採集公共數據，主要是來自社會權威渠道的一些公開數據源；另一種是媒體自身的數據資料庫，是媒體在長期的新聞報道中積累起來的新聞素材和數據信息。基於這些渠道，我們便可以建立起一個高質量、結構化的專業資料庫，為數據新聞報道打下良好的基礎。

從整體來看，我國的體育數據新聞在俄羅斯世界盃報道中的應用尚處於探索發展階段，存在不少問題。數據新聞作為時代的產物，必然具有先進性，這種新型的新聞報道模式在我國擁有廣闊的應用前景，值得學者、媒體對其進行研究。在今後的發展中，我國的體育新聞媒體需要改進數據新聞製作模式與方法，以追求更高質量的數據新聞作品。另一方面，更應將數據人才培養放在首位。只有人才隊伍的壯大，才能夠最終使我國的體育數據新聞獲得強大的生命力，實現永續發展，實現追趕超越。

導航:首頁 > 網路數據 > 大數據新聞深度挖掘

大數據新聞深度挖掘

與大數據新聞深度挖掘相關的資料

友情鏈接