Ⅰ 大數據時代,我們正在面臨不平等
盧周來
在大數據時代,除了此前的權力面前的不平等和財富面前的不平等,人類社會可能還會面臨“大數據面前的不平等”。
一家國際著名保險公司與提供大數據的公司合作,推出一款針對不同駕車群體的保險計劃。這一計劃的要點是,由大數據公司對不同潛在客戶的駕車習慣進行分析,如果數據表明某位客戶是白天上班,路也近,而且所經過的地帶是安全路線,客戶駕車習慣良好,沒有特別情緒化舉動,那麼,給其所賣的保險可以打折;反之,如果數據表明某位客戶是上夜班,上班地點也遠,所經過的路線有風險,客戶駕車習慣也不好,常無法控制自己的行為,那麼,保險公司將提高其所繳納保費額度。從商業角度看,保險公司這樣做,是為了更精確地細分市場,賺取更高利潤,這是無可厚非的,甚至還算得上大數據時代商業營銷的成功案例。但就是這一行為,在歐洲引發了一場關於大數據時代社會平等問題的討論。
在使用大數據分析後發現,在歐洲上夜班、且上班地點遠、駕車經過路線復雜的,大多是低收入者和有色人種。由於長距離駕車,且夜班易疲勞,這部分人群的駕車習慣相對不那麼好,駕車時情緒也不那麼好控制,不少人甚至一路罵罵咧咧。而那些中產階層以上人群,一般都上白班,上班地點近,路線也很安全,駕車習慣也好。如果按照保險公司的方案,這就意味著在社會學意義上本應該得到同情甚至幫助的低收入者,反而要繳納更高的保費;而本來收入就高的人群,反而在獲得保險上能得到優惠。如此一來,如何談得上社會公正?
其實不僅僅是保險業,當下在歐美,大數據與金融行業的結合正越來越受到重視。一些商業銀行利用大數據,尋找最合適的放貸對象,排除潛在的可能違約者。而事實上,所謂最合適的放貸對象,往往就是那些收入有保證、信用記錄好、能還得起貸的高收入者;而潛在的可能違約者,多是那些本來就生活在社會底層,很難有好的信用記錄的人。恰是後一部分人,他們有心創業時,更需要得到金融方面的支持,而由於大數據時代任何個人收入情況、信用情況、創業成敗記錄以及家庭背景等等,都一覽無余。於是,與大數據時代以前任何一個時代相比較,低收入者更可能被排斥在資本市場之外,他們與有產階層的財富鴻溝無疑也將進一步擴大。
美國一個黑人學者研究大資料庫後還擔心,在大數據時代,將強化種族歧視,且不給任何一個犯過錯誤的人以改過自新的可能性。在谷歌為某些企業定製的就業資料庫中,這位黑人學者填入一些姓名後發現,與白種人相比,資料庫中對黑人提供了更為詳細的信息,這些信息中包括了家庭是否離婚、性取向、宗教和政治觀點、智力水平、成癮葯物使用等等,這使得企業對使用黑人更加謹慎。不僅如此,資料庫還特別搜集到聯邦警務、檢察和法院系統發布的各種信息源,一旦所查詢的對象曾有公開的違法記錄,就會自動觸發一個警告設置,告誡企業人力資源部門:這個人有不良記錄,小心僱用。因此,經過大數據的篩選,凡有過違法記錄的人,幾乎很難靠自身在市場上獲得就業機會。
有人曾一度以為,因為大數據是匿名的,且互聯網上的個體身份被確認的可能性並不大,即使有歧視,但不是針對特定的人。研究大數據時代歧視問題的學者發現,通過大數據分析技術,僅僅4項參照因素,就足以認定互聯網上95%的匿名者身份。由於商業利潤巨大的誘惑,大數據公司高度個人化的大數據集,已成為黑客與“揭秘”者覬覦的主要目標。所以,與此前相比較,在大數據時代,階層歧視、種族歧視可能被強化,更具體地針對個人的“區別性對待”,也將更加泛濫。
在大數據時代,除了此前的權力面前的不平等和財富面前的不平等,人類社會可能還會面臨“大數據面前的不平等”。而不平等問題,卻是市場與技術本身永遠無法解決的。這也為政府管理的必要性預留下更大空間。簡單地說,市場每藉助於技術革命拓展一步,政府管理也必將如影隨形。因此,既要更好發揮市場作用,也要發揮好政府作用。即使是大數據時代,也是一條不變的“鐵律”。
Ⅱ 手機管家中的黑人名單來電話不想看到怎麼辦
如果您想拒接某人的電話,您可以將其加入管家黑名單中,其今後的電話將會自動掛斷
Ⅲ 2008年,奧巴馬的競選中應用了哪些"大數據"元素
巴馬的演講,既激情四射、振奮人心,又能保證言簡意賅、主題突出。這種集傳道士和推銷員於一身的演講技巧,再經過媒體的放大,便能產生明星效應。奧巴馬成功當選美國第44任總統,也是美國歷史上第一位黑人總統。美國新一代的變革即將來臨。奧巴馬「變革」是又一個「羅斯福新政」的開始嗎?奧巴馬上檯面臨的金融和經濟危機從程度上雖不能與羅斯福上台時相比,但卻是羅斯福之後歷任總統面臨的最嚴重的危機。次貸危機引發的金融危機摧毀了很多美國家庭在過去十多年以來積累起來的財富,能否盡快穩定市場和穩定投資者的信心,決定了奧巴馬是成為像羅斯福那樣的民族英雄,還是曇花一現的黑人總統。2008年11月5日正午,美國作出了一個偉大的決定,歷史上第一次,一個黑皮膚的人掌握了世界的權力之巔。而在僅僅12年前,他還只是一介平民;4年前,他的職務不過相當於中國一位普通的省人大代表。35歲才步入政壇的奧巴馬,沒有顯赫的身世背景,沒有各級領導的親切關懷,甚至也不曾從基層干起接受常年的培養和考驗,是什麼令他如此平步青雲1、黨內初選奧巴馬宣布參選貝拉克·奧巴馬於2007年1月16日宣布,他有意參加2008年的總統競選。他已於當天向美國聯邦選舉機構提交了有關文件,並成立一個委員會,以評估他參加總統競選的可行性。奧巴馬16日在其網站上發表聲明說,數月來他一直在考慮是否參加2008年的總統選舉,但參加與否不會取決於媒體宣傳和個人抱負。過去6年中,聯邦政府所作的決定以及所忽視的問題使美國處於一種非常不安全的境地,美國陷入了一場本不應該發動的「不幸的、代價高昂的」戰爭,而身在華盛頓的領導人卻不能以一種實際的方式進行合作。希拉里宣布參選而在1月20號,前總統柯林頓的妻子希拉里在其個人網站上宣布參加2008美國總統大選。她的競選標語是:我來了,為勝利而來。雙方斗爭激烈由於雙方在黨內支持者眾多,一場激烈的搶票大戰必不可少,絕不遜色於之後的總統選舉。奧巴馬主攻年輕選民,特別是通過網路。在2007年3月,奧巴馬在「Yahoo!Answers」(Yahoo!知識+的美國版)發表題為《?》(如何吸引人參與民主運動?)的問題,回復量超越17,000個。之後他還在社交網站Facebook開了一個帳戶,版面很受歡迎。而希拉里最大的優勢是丈夫柯林頓和本身身為女性,容易吸引女性選民的目光。當一位民意測驗專家馬克·邁爾曼讓10位黑人婦女選出她們心中的政治英雄時,有8個人選了希拉里。奧巴馬初選獲勝,希拉里退選經過一系列的拉票,美國當地時間2008年6月3日,美民主黨總統競選人奧巴馬宣布他在該黨初選中勝出,獲得民主黨總統候選人提名。到了6月7日,希拉里正式宣布停止競選,呼籲她的選民轉而支持黨內初選勝出者奧巴馬成為總統。2、提名副總統及接受黨內提名2008年8月23日,奧巴馬宣布由65歲的德拉瓦州資深參議員喬·拜登(JoeBiden)成為民主黨的副總統候選人。奧巴馬競選網站說:「拜登帶來了大量的外交政策經驗,讓人欽佩的跨黨派陣營合作記錄,還有直接的事模式。」分析認為拜登的外交經驗有助奧巴馬執政,但選擇政壇老手為競選夥伴,將削弱奧巴馬強調變革的正當性。8月28日,奧巴馬在丹佛Invesco露天足球場接受民主黨總統候選人提名,成為美國兩黨歷史上第一位黑人總統候選人。而這一天亦是馬丁·路德在華盛頓林肯紀念堂前演講「我有一個夢」的四十五周年紀念日。奧巴馬在演講中勾畫了他的執政藍圖,涉及經濟、外交、恐怖主義、貧困、氣候變化和疾病等二十一世紀的挑戰。3、投入總統選戰贏得黨內初選後,奧巴馬開始了他的競選活動。特別是針對共和黨傳統州分和搖擺州(特別是票數極多的州),像俄亥俄州、印第安納州、佛羅里達州、賓夕法尼亞州等。取得了不俗的成績,在多個州分的民意調查顯示奧巴馬由之前的落後局面反超共和黨候選人麥凱恩。面對奧巴馬主動出擊傳統「紅州」,且幾乎之後的民意調查都領先於自己,麥凱恩背水一戰,在臨近總統選舉日期,逐漸逼近奧巴馬,但差距仍在5%~10%左右。4、贏得總統選舉2008年11月4日美國東部時間晚間11時,計票結果顯示奧巴馬以349票大幅領先麥凱恩163票當選為美國第56任總統。他也成為美國歷史上首位非裔美國人總統(奧巴馬之父是肯亞公民,奧巴馬之母是美國白人)。之後奧巴馬在競選總部芝加哥發表了題為「美國的變革」的勝選感言,稱美國變革的時代已經到來。他談到了包括勝選的意義、麥凱恩、家庭、外婆的去世、兩黨合作、美國的力量。
Ⅳ 人工智慧背後的操控者是誰
「9·11 是猶太人乾的,把他們都送進毒氣室!種族戰爭現在開始!」
2016年3月23日,一個人設為19歲女性,昵稱為 Tay 的聊天機器人在推特上線。這個微軟開發的機器人能夠通過抓取和用戶互動的數據模仿人類的對話,像人一樣用笑話、段子和表情包聊天。但是上線不到一天,Tay 就被「調教」成了一個滿口叫囂著種族清洗的極端分子,微軟只好以系統升級為由將其下架。
微軟聊天機器人的極端言論。
這樣的口號並不是聊天機器人的發明,而在社交網路上大量存在著。美國大選期間,一些所謂的「政治新媒體」賬號發出的摻雜陰謀論、種族主義的內容,在Facebook 上進行了病毒式傳播。這有賴於人工智慧協助下的「精準定位」:誰最容易相信陰謀論,誰對現實最不滿?相應的政治廣告和假新聞能精準地投放到這群人中,使人對自己的看法更加深信不疑。
因為設計缺陷而 「暴走」的聊天機器人,和精心策劃的線上政治行為,看起來彷彿是兩回事。但這種我們似乎從未見過的景象,卻指向了同一個「凶器」——大數據驅動下的人工智慧。
1、人工智慧有作惡的能力嗎?
人工智慧會「作惡」嗎?面對智能的崛起,許多人抱有憂慮和不安: 擁有感情和偏見的人會作惡,而僅憑理性計算進行判定的計算機似乎也會「作惡」, 且作起來易如反掌。這讓許多人(特別是非技術領域的人)對人工智慧的發展持悲觀態度。
這種憂慮並不是最近才有的。人工智慧這個詞誕生於上世紀50年代,指可體現出思維行動的計算機硬體或者軟體,而 對機器「擁有思維」之後的倫理探討,早至阿西莫夫開始就在科幻作品裡出現。
14 年前,威爾·史密斯主演的電影《機械公敵》里就有這樣一個場景:2035 年的人類社會,超高級的人工智慧承擔大量工作,並與人類和諧相處。這些原本完全符合阿西莫夫「三定律」的人工智慧,在一次關鍵升級之後對人類發起了進攻。這些機器人擁有了思維進化的能力,在它們的推算下,要達到「不傷害人類」的目的,就必須先消滅「彼此傷害」的人類。
十分高產的科幻作家阿西莫夫(1920-1992)。
劍橋分析CEO亞歷山大·尼克斯(Alexander Nix)。
劍橋分析並不是一個孤例。澳洲一個 Facebook 的廣告客戶透露,Facebook 的人工智慧會分析其用戶特徵和所發的內容,給出諸如「有不安全感的年輕人」「抑鬱、壓力大」等標簽,然後有針對性地投放游戲、癮品和甚至虛假交友網站的廣告,從中獲取巨大利益。
即使不存在數據泄露問題,對用戶數據的所謂「智能挖掘」也很容易遊走在「合規」但「有違公平」的邊緣。例如,電商能夠根據一個人的消費習慣和消費能力的計算,對某個人進行針對的、精密的價格歧視。購買同樣的商品,用 iPhone X 手機的用戶很可能會比用安卓「千元機」的用戶付更多的價錢,因為他們「傾向於對價格不敏感」。而我們所經常談論的「大數據殺熟」——比如攜程老用戶訂旅館的價格會更高——也建立在用戶行為數據的基礎上。
數據的收集本身也值得商榷。前網路人工智慧首席科學家吳恩達(Andrew Ng)就曾公開表示, 大公司的產品常常不是為了收入而做,而是為了用戶的數據而做;在某一個產品上收集的數據,會用於在另一個產品上獲利。 在智能面前,沒有所謂的個人隱私和行蹤,也很難確定數據收集的邊界在哪裡,尤其是個人隱私與公共信息、主動提供與被動提供的邊界。
總而言之, 在以商業利益為目標的人工智慧眼裡,並沒有「人」或者「用戶」的概念,一切都是可以利用的數據。 劍橋大學互聯網與社會研究中心教授朔沙娜·祖博夫將這種人工智慧和資本「合體」的現狀,稱之為 「監控資本主義」 (Surveillance Capitalism)——在大數據和人工智慧的協助下,通過對每個人的監控和信息的榨取,實現資本的最大化。
業界對此的態度很曖昧。AI 作為當下最熱門、來錢最快的行當之一,這些動輒年薪50萬美元的工程師很少得閑來思考「形而上」的問題。 一位不願具名的研究人員在與我的微信私聊中表達了他的「個人看法」:「現在的技術離『通用人工智慧』還很遠,對社會倫理方面的影響沒有那麼大,更多還是從繁瑣的重復勞動中解脫出來。」
作者試圖找到行業內人士對此評論,谷歌(中國)和網路自動駕駛部門的人工智慧相關人員均表示,探討 AI 的社會問題,牽涉到公司利益和形象,比較敏感,不便評論。
「人工智慧作為一個工具,如何使用,目前來看決定權依然在人。」俞揚說道 ,「系統的設計者和商業(應用)的提供人員需要對此負責。」
如何負責?這或許需要我們正視人工智慧對整個社會關系的挑戰。
4、人工智慧作惡之後
2018年3月 19 日,一輛自動駕駛的優步(Uber)在美國亞利桑那州惹上了麻煩。面對路中出現的一個推著自行車的女性,這輛車速 38 mph(約61km/h)的沃爾沃在昏暗的光線條件下並沒有減速,徑直撞了上去,受害者被送往醫院之後不治身亡。這是自動駕駛第一例行人致死的事故。
電視台對自動駕駛優步車禍的報道。
事故發生之後,有不少人將矛頭指向了自動駕駛的人工智慧是否足夠安全上,或者呼籲優步禁止自動駕駛。然而更關鍵的問題在於,亞利桑那有著全美國幾乎最開放的自動駕駛政策,事故發生地坦佩市(Tempe)是實行自動駕駛最火的「試驗田」之一;事故所在的街區早已做過路線測試,並被自動駕駛的智能採納。但是在事故發生之後,對於責任的認定依然遇到了困難。
因為人的疏忽造成的車禍數不勝數,人們早已習慣了如何處理、怎樣追責;然而機器出錯了之後,人們忽然手足無措。 人工智慧會出錯嗎?當然會。只是我們在這個問題上一直缺乏認知。 就如同上文提到的「隱性歧視」,深度學習的「黑箱」,現有的法律法規很難對這些錯誤進行追究,因為不要說普通人,就連技術人員也很難找出出錯的源頭。
當人工智慧的決策在人類社會中越來越重要時,我們也不得不考慮,智能為什麼會犯錯,犯錯了怎麼辦;若要讓智能擺脫被商業或者政治目的支使的工具,真正成為人類的「夥伴」, 需要怎麼監管、如何教育,才能讓人工智慧「不作惡」。
人工智慧的監管問題亟待解決。
對此,現有的法律框架內很難有清晰的、可操作的實施方案。歐盟率先在數據和演算法安全領域做出了立法的嘗試,2018年5月即將生效的新法規規定,商業公司有責任公開「影響個人的重大決策」是否由機器自動做出,且做出的決策必須要「可以解釋」(explainable)。但法條並沒有規定怎麼解釋,以及細到什麼程度的解釋是可以接受的。
另外一個重要的問題是, 讓機器求真求善,需要人類自己直面決策中的黑暗角落。 在 Atari 游戲智能的測試中,游戲中的人工智慧 bot 可以用最快的速度找到漏洞開始作弊,而游戲玩家又何嘗不是呢?不管是帶有歧視的語義分析,針對少數族裔進行的「智能監視」和跟蹤,或者把已婚未育女性的簡歷扔掉的智能簡歷篩選,都長期以各種形式存在於人類社會中。
人工智慧不是一個可預測的、完美的理性機器,它會擁有人類可能擁有的道德缺陷,受制於人們使用的目標和評估體系。 至少目前,機器依然是人類實然世界的反應,而不是「應然世界」的指導和先驅。 對機器的訓練同樣少不了對人性和社會本身的審視——誰在使用,為了什麼而使用,在我們的世界中扮演著怎樣的角色?數據是誰給的,訓練的目標是誰定的?我們期望中的機器,會繼承我們自己的善惡嗎?
谷歌中國人工智慧和機器學習首席科學家李飛飛認為, 要讓機器「不作惡」,人工智慧的開發需要有人本關懷 。「AI 需要反映我們人類智能中更深層的部分,」李飛飛在《紐約時報》的專欄中寫道,「要讓機器能全面地感知人類思維……知道人類需要什麼。」她認為,這已經超越了單純計算機科學的領域,而需要心理學、認知科學乃至社會學的參與。
未來,人工智慧進入更多的領域、發揮更強的功能,是無可爭辯的事實。然而,我們的生產關系能否適應人工智慧帶來的生產力,這句馬克思政治經濟學的基本原則值得我們認真思考一番。 我們並不想看到未來的「機器暴政」將我們的社會綁在既有的偏見、秩序和資本操縱中。
一個AI
人工智慧之所以會作惡,可能就是因為太像人類了吧。
Ⅳ 大數據分析工具詳盡介紹&數據分析演算法
大數據分析工具詳盡介紹&數據分析演算法
1、 Hadoop
Hadoop 是一個能夠對大量數據進行分布式處理的軟體框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。Hadoop 是高效的,因為它以並行的方式工作,通過並行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級數據。此外,Hadoop 依賴於社區伺服器,因此它的成本比較低,任何人都可以使用。
Hadoop是一個能夠讓用戶輕松架構和使用的分布式計算平台。用戶可以輕松地在Hadoop上開發和運行處理海量數據的應用程序。它主要有以下幾個優點:
⒈高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴。
⒉高擴展性。Hadoop是在可用的計算機集簇間分配數據並完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中。
⒊高效性。Hadoop能夠在節點之間動態地移動數據,並保證各個節點的動態平衡,因此處理速度非常快。
⒋高容錯性。Hadoop能夠自動保存數據的多個副本,並且能夠自動將失敗的任務重新分配。
Hadoop帶有用 Java 語言編寫的框架,因此運行在 Linux 生產平台上是非常理想的。Hadoop 上的應用程序也可以使用其他語言編寫,比如 C++。
2、 HPCC
HPCC,High Performance Computing and Communications(高性能計算與通信)的縮寫。1993年,由美國科學、工程、技術聯邦協調理事會向國會提交了「重大挑戰項目:高性能計算與 通信」的報告,也就是被稱為HPCC計劃的報告,即美國總統科學戰略項目,其目的是通過加強研究與開發解決一批重要的科學與技術挑戰問題。HPCC是美國 實施信息高速公路而上實施的計劃,該計劃的實施將耗資百億美元,其主要目標要達到:開發可擴展的計算系統及相關軟體,以支持太位級網路傳輸性能,開發千兆 比特網路技術,擴展研究和教育機構及網路連接能力。
該項目主要由五部分組成:
1、高性能計算機系統(HPCS),內容包括今後幾代計算機系統的研究、系統設計工具、先進的典型系統及原有系統的評價等;
2、先進軟體技術與演算法(ASTA),內容有巨大挑戰問題的軟體支撐、新演算法設計、軟體分支與工具、計算計算及高性能計算研究中心等;
3、國家科研與教育網格(NREN),內容有中接站及10億位級傳輸的研究與開發;
4、基本研究與人類資源(BRHR),內容有基礎研究、培訓、教育及課程教材,被設計通過獎勵調查者-開始的,長期 的調查在可升級的高性能計算中來增加創新意識流,通過提高教育和高性能的計算訓練和通信來加大熟練的和訓練有素的人員的聯營,和來提供必需的基礎架構來支 持這些調查和研究活動;
5、信息基礎結構技術和應用(IITA ),目的在於保證美國在先進信息技術開發方面的領先地位。
3、 Storm
Storm是自由的開源軟體,一個分布式的、容錯的實時計算系統。Storm可以非常可靠的處理龐大的數據流,用於處理Hadoop的批量數據。Storm很簡單,支持許多種編程語言,使用起來非常有趣。Storm由Twitter開源而來,其它知名的應用企業包括Groupon、淘寶、支付寶、阿里巴巴、樂元素、Admaster等等。
Storm有許多應用領域:實時分析、在線機器學習、不停頓的計算、分布式RPC(遠過程調用協議,一種通過網路從遠程計算機程序上請求服務)、 ETL(Extraction-Transformation-Loading的縮寫,即數據抽取、轉換和載入)等等。Storm的處理速度驚人:經測 試,每個節點每秒鍾可以處理100萬個數據元組。Storm是可擴展、容錯,很容易設置和操作。
4、 Apache Drill
為了幫助企業用戶尋找更為有效、加快Hadoop數據查詢的方法,Apache軟體基金會近日發起了一項名為「Drill」的開源項目。Apache Drill 實現了 Google』s Dremel.
據Hadoop廠商MapR Technologies公司產品經理Tomer Shiran介紹,「Drill」已經作為Apache孵化器項目來運作,將面向全球軟體工程師持續推廣。
該項目將會創建出開源版本的谷歌Dremel Hadoop工具(谷歌使用該工具來為Hadoop數據分析工具的互聯網應用提速)。而「Drill」將有助於Hadoop用戶實現更快查詢海量數據集的目的。
「Drill」項目其實也是從谷歌的Dremel項目中獲得靈感:該項目幫助谷歌實現海量數據集的分析處理,包括分析抓取Web文檔、跟蹤安裝在Android Market上的應用程序數據、分析垃圾郵件、分析谷歌分布式構建系統上的測試結果等等。
通過開發「Drill」Apache開源項目,組織機構將有望建立Drill所屬的API介面和靈活強大的體系架構,從而幫助支持廣泛的數據源、數據格式和查詢語言。
5、 RapidMiner
RapidMiner是世界領先的數據挖掘解決方案,在一個非常大的程度上有著先進技術。它數據挖掘任務涉及范圍廣泛,包括各種數據藝術,能簡化數據挖掘過程的設計和評價。
功能和特點
免費提供數據挖掘技術和庫
100%用Java代碼(可運行在操作系統)
數據挖掘過程簡單,強大和直觀
內部XML保證了標准化的格式來表示交換數據挖掘過程
可以用簡單腳本語言自動進行大規模進程
多層次的數據視圖,確保有效和透明的數據
圖形用戶界面的互動原型
命令行(批處理模式)自動大規模應用
Java API(應用編程介面)
簡單的插件和推廣機制
強大的可視化引擎,許多尖端的高維數據的可視化建模
400多個數據挖掘運營商支持
耶魯大學已成功地應用在許多不同的應用領域,包括文本挖掘,多媒體挖掘,功能設計,數據流挖掘,集成開發的方法和分布式數據挖掘。
6、 Pentaho BI
Pentaho BI 平台不同於傳統的BI 產品,它是一個以流程為中心的,面向解決方案(Solution)的框架。其目的在於將一系列企業級BI產品、開源軟體、API等等組件集成起來,方便商務智能應用的開發。它的出現,使得一系列的面向商務智能的獨立產品如Jfree、Quartz等等,能夠集成在一起,構成一項項復雜的、完整的商務智能解決方案。
Pentaho BI 平台,Pentaho Open BI 套件的核心架構和基礎,是以流程為中心的,因為其中樞控制器是一個工作流引擎。工作流引擎使用流程定義來定義在BI 平台上執行的商業智能流程。流程可以很容易的被定製,也可以添加新的流程。BI 平台包含組件和報表,用以分析這些流程的性能。目前,Pentaho的主要組成元素包括報表生成、分析、數據挖掘和工作流管理等等。這些組件通過 J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技術集成到Pentaho平台中來。 Pentaho的發行,主要以Pentaho SDK的形式進行。
Pentaho SDK共包含五個部分:Pentaho平台、Pentaho示例資料庫、可獨立運行的Pentaho平台、Pentaho解決方案示例和一個預先配製好的 Pentaho網路伺服器。其中Pentaho平台是Pentaho平台最主要的部分,囊括了Pentaho平台源代碼的主體;Pentaho資料庫為 Pentaho平台的正常運行提供的數據服務,包括配置信息、Solution相關的信息等等,對於Pentaho平台來說它不是必須的,通過配置是可以用其它資料庫服務取代的;可獨立運行的Pentaho平台是Pentaho平台的獨立運行模式的示例,它演示了如何使Pentaho平台在沒有應用伺服器支持的情況下獨立運行;
Pentaho解決方案示例是一個Eclipse工程,用來演示如何為Pentaho平台開發相關的商業智能解決方案。
Pentaho BI 平台構建於伺服器,引擎和組件的基礎之上。這些提供了系統的J2EE 伺服器,安全,portal,工作流,規則引擎,圖表,協作,內容管理,數據集成,分析和建模功能。這些組件的大部分是基於標準的,可使用其他產品替換之。
7、 SAS Enterprise Miner
§ 支持整個數據挖掘過程的完備工具集
§ 易用的圖形界面,適合不同類型的用戶快速建模
§ 強大的模型管理和評估功能
§ 快速便捷的模型發布機制, 促進業務閉環形成
數據分析演算法
大數據分析主要依靠機器學習和大規模計算。機器學習包括監督學習、非監督學習、強化學習等,而監督學習又包括分類學習、回歸學習、排序學習、匹配學習等(見圖1)。分類是最常見的機器學習應用問題,比如垃圾郵件過濾、人臉檢測、用戶畫像、文本情感分析、網頁歸類等,本質上都是分類問題。分類學習也是機器學習領域,研究最徹底、使用最廣泛的一個分支。
最近、Fernández-Delgado等人在JMLR(Journal of Machine Learning Research,機器學習頂級期刊)雜志發表了一篇有趣的論文。他們讓179種不同的分類學習方法(分類學習演算法)在UCI 121個數據集上進行了「大比武」(UCI是機器學習公用數據集,每個數據集的規模都不大)。結果發現Random Forest(隨機森林)和SVM(支持向量機)名列第一、第二名,但兩者差異不大。在84.3%的數據上、Random Forest壓倒了其它90%的方法。也就是說,在大多數情況下,只用Random Forest 或 SVM事情就搞定了。
KNN
K最近鄰演算法。給定一些已經訓練好的數據,輸入一個新的測試數據點,計算包含於此測試數據點的最近的點的分類情況,哪個分類的類型佔多數,則此測試點的分類與此相同,所以在這里,有的時候可以復制不同的分類點不同的權重。近的點的權重大點,遠的點自然就小點。詳細介紹鏈接
Naive Bayes
樸素貝葉斯演算法。樸素貝葉斯演算法是貝葉斯演算法裡面一種比較簡單的分類演算法,用到了一個比較重要的貝葉斯定理,用一句簡單的話概括就是條件概率的相互轉換推導。詳細介紹鏈接
樸素貝葉斯分類是一種十分簡單的分類演算法,叫它樸素貝葉斯分類是因為這種方法的思想真的很樸素,樸素貝葉斯的思想基礎是這樣的:對於給出的待分類項,求解在此項出現的條件下各個類別出現的概率,哪個最大,就認為此待分類項屬於哪個類別。通俗來說,就好比這么個道理,你在街上看到一個黑人,我問你你猜這哥們哪裡來的,你十有八九猜非洲。為什麼呢?因為黑人中非洲人的比率最高,當然人家也可能是美洲人或亞洲人,但在沒有其它可用信息下,我們會選擇條件概率最大的類別,這就是樸素貝葉斯的思想基礎。
SVM
支持向量機演算法。支持向量機演算法是一種對線性和非線性數據進行分類的方法,非線性數據進行分類的時候可以通過核函數轉為線性的情況再處理。其中的一個關鍵的步驟是搜索最大邊緣超平面。詳細介紹鏈接
Apriori
Apriori演算法是關聯規則挖掘演算法,通過連接和剪枝運算挖掘出頻繁項集,然後根據頻繁項集得到關聯規則,關聯規則的導出需要滿足最小置信度的要求。詳細介紹鏈接
PageRank
網頁重要性/排名演算法。PageRank演算法最早產生於Google,核心思想是通過網頁的入鏈數作為一個網頁好快的判定標准,如果1個網頁內部包含了多個指向外部的鏈接,則PR值將會被均分,PageRank演算法也會遭到LinkSpan攻擊。詳細介紹鏈接
RandomForest
隨機森林演算法。演算法思想是決策樹+boosting.決策樹採用的是CART分類回歸數,通過組合各個決策樹的弱分類器,構成一個最終的強分類器,在構造決策樹的時候採取隨機數量的樣本數和隨機的部分屬性進行子決策樹的構建,避免了過分擬合的現象發生。詳細介紹鏈接
Artificial Neural Network
「神經網路」這個詞實際是來自於生物學,而我們所指的神經網路正確的名稱應該是「人工神經網路(ANNs)」。
人工神經網路也具有初步的自適應與自組織能力。在學習或訓練過程中改變突觸權重值,以適應周圍環境的要求。同一網路因學習方式及內容不同可具有不同的功能。人工神經網路是一個具有學習能力的系統,可以發展知識,以致超過設計者原有的知識水平。通常,它的學習訓練方式可分為兩種,一種是有監督或稱有導師的學習,這時利用給定的樣本標准進行分類或模仿;另一種是無監督學習或稱無為導師學習,這時,只規定學習方式或某些規則,則具體的學習內容隨系統所處環境 (即輸入信號情況)而異,系統可以自動發現環境特徵和規律性,具有更近似人腦的功能。
Ⅵ 大數據正在潛移默化的十三個行業
1、電視媒體
大數據應用案例之電視媒體——對於體育愛好者,追蹤電視播放的最新運動賽事幾乎是一件不可能的事情,因為有超過上百個賽事在 8000 多個電視頻道播出。而現在市面上有開發者開發了一個可追蹤所有運動賽事的應用程序—— RUWT,它已經可以在 iOS 和 Android 設備,以及在 Web 瀏覽器上使用,它不斷地分析運動數據流來讓球迷知道他們應該轉換成哪個台看到想看的節目,在電視的哪個頻道上找到,並讓他們在比賽中進行投票。
對於谷歌電視和 TiVo 用戶來說,實際上 RUWT 就是讓他們改變頻道調到一個比賽中。該程序能基於賽事的緊張激烈程度對比賽進行評分排名,用戶可通過該應用程序找到值得收看的頻道和賽事。
2、社交網路
大數據應用案例之社交網路——數據基礎設施工程部高級主管 Ghosh 描繪的 LinkedIn 數據構建圖,其中就包括 Hadoop 戰略部署。
幾年前,LinkedIn只是一家普通的科技公司。而現在,其儼然成為一個工程強國。LinkedIn 建成的一個最重要的資料庫是 Espresso。不像 Voldemort,這是繼亞馬遜 Dynamo 資料庫之後的一個最終一致性關鍵值存儲,用於高速存儲某些確定數據,Espresso作為一個事務一致性文件存儲,通過對整個公司的網路操作將取代遺留的 Oracle 資料庫。
它最初的設計就是為了提供 LinkedIn InMail 消息服務的可用性,該公司計劃今年晚些時候將推出開源
3、醫療行業
大數據應用案例之醫療行業—— Seton Healthcare 是採用 IBM 最新沃森技術醫療保健內容分析預測的首個客戶。該技術允許企業找到大量病人相關的臨床醫療信息,通過大數據處理,更好地分析病人的信息。
在加拿大多倫多的一家醫院,針對早產嬰兒,每秒鍾有超過 3000 次的數據讀取。通過這些數據分析,醫院能夠提前知道哪些早產兒出現問題並且有針對性地採取措施,避免早產嬰兒夭折。
它讓更多的創業者更方便地開發產品,比如通過社交網路來收集數據的健康類 App。也許未來數年後,它們搜集的數據能讓醫生給你的診斷變得更為精確,比方說不是通用的成人每日三次一次一片,而是檢測到你的血液中葯劑已經代謝完成會自動提醒你再次服葯。
Express Scripts 就是這么一家處方葯管理服務公司,目前它正在通過一些復雜模型來檢測虛假葯品,這些模型還能及時提醒人們何時應該停止用葯。Express Scripts 能夠解決該問題的原因在於所有有關數據。因為它每年管理著 1.4 億處方,覆蓋了一億美國人和 65,000 家葯店,雖然該公司是能夠識別潛在問題的信號模式,但它也使用數據來嘗試解決某些情況下之前曾經發現的問題。
他們還著眼於一些事情,如所開處方的葯物種類,甚至有人在網上談論醫生。如果一個醫生的行為被標記為紅色的旗幟,那麼他在網路上是個好人的形象,更是你所需要的醫生。
4、保險行業
大數據應用案例之保險行業——保險行業並非技術創新的指示燈,然而 MetLife 保險公司已經投資 3 億美金建立一個新式系統,其中的第一款產品是一個基於 MongoDB 的應用程序,它將所有客戶信息放在同一個地方。
MongoDB 匯聚了來自 70 多個遺留系統的數據,並將它合並成一個單一的記錄。它運行在兩個數據中心的 6 個伺服器上,目前存儲了 24TB 的數據。這包括 MetLife 的全部美國客戶,盡管它的目標是擴大它的國際客戶和多種語言,同時也可能創建一個面向客戶的版本。它的更新幾乎是實時的,當新客戶的數據輸入時,就好像 Facebook 牆一樣。
大多數疾病可以通過葯物來達到治療效果,但如何讓醫生和病人能夠專注參加一兩個可以真正改善病人健康狀況的干預項目卻極具挑戰。安泰保險目前正嘗試通過大數據達到此目的。安泰保險為了幫助改善代謝綜合症患者的預測,從千名患者中選擇 102 個完成實驗。在一個獨立的實驗室工作內,通過患者的一系列代謝綜合症的檢測試驗結果,在連續三年內,掃描 600,000 個化驗結果和 18 萬索賠事件。將最後的結果組成一個高度個性化的治療方案,以評估患者的危險因素和重點治療方案。這樣,醫生可以通過食用他汀類葯物及減重5磅等建議而減少未來 10 年內 50% 的發病率。或者通過你目前體內高於 20% 的含糖量,而建議你降低體內甘油三酯總量。
5、職業籃球賽
大數據應用案例之職業籃球賽——專業籃球隊會通過搜集大量數據來分析賽事情況,然而他們還在為這些數據的整理和實際意義而發愁。通過分析這些數據,可否找到兩三個制勝法寶,或者至少能保證球隊獲得高分, Krossover 公司正致力於此。
在每場比賽過後,教練只需要上傳比賽視頻。接下來,來自 Krossover 團隊的大學生將會對其分解。等到第二天教練再看昨晚的比賽時,他只需檢查任何他想要的——數據統計、比賽中的個人表現、比賽反應等等。通過分析比賽視頻,毫不誇張地分析所有的可量化的數據。
6、能源行業
大數據應用案例之能源行業——智能電網現在歐洲已經做到了終端,也就是所謂的智能電表。在德國,為了鼓勵利用太陽能,會在家庭安裝太陽能,除了賣電給你,當你的太陽能有多餘電的時候還可以買回來。通過電網收集每隔五分鍾或十分鍾收集一次數據,收集來的這些數據可以用來預測客戶的用電習慣等,從而推斷出在未來 2 ~ 3 個月時間里,整個電網大概需要多少電。有了這個預測後,就可以向發電或者供電企業購買一定數量的電。因為電有點像期貨一樣,如果提前買就會比較便宜,買現貨就比較貴。通過這個預測後,可以降低采購成本。
維斯塔斯風力系統,依靠的是 BigInsights 軟體和 IBM 超級計算機,然後對氣象數據進行分析,找出安裝風力渦輪機和整個風電場最佳的地點。利用大數據,以往需要數周的分析工作,現在僅需要不足 1 小時便可完成。
7、社會生活
大數據應用案例之社會生活——印度有一檔非常受歡迎的電視節目 Satyamev jayate,該節目整理並分析社會民眾關於爭議話題的各種意見,包括女性墮胎、種姓歧視和虐待兒童等社會熱點問題,並使用這些數據來推進政治改革。
雖然目前只播放了 13 集,但是來自各方的反饋數據不容小覷。來自印度電視和世界各地的 YouTube 上的 400 萬觀眾;超過 1.2 億人在其網站、Facebook,Twitter,YouTube 和移動設備上已連接 Satyamev jayate ;超過 800 萬的人通過 Facebook,網路注釋,文本消息及電話熱線等方式發送 14 萬個回應,每周有超過 10 萬個新觀眾進行回應。
8、公路交通
大數據應用案例之公路交通——在洛杉磯開過車的人一定都經歷過那裡噩夢般的交通擁堵情況。目前政府在 I-10 和 I-110 州際公路上建立了一條收費的快速通道。政府可通過大數據引導駕駛人員在該通道上的行駛情況,保證交通暢通。
施樂就是參與此次項目的公司,它的抗擁塞項目,包括用 ExpressLanes 、動態定價,上升的需求等等以維持某種秩序的想法。施樂公司的首席技術執行官表示,如果司機支付給駕駛熱車道(高佔用收費系統),他必須保證車速每小時 45 英里左右。如果交通開始擁堵,私家汽車的支付價格將上升,以減少他們進入,而將車道用於高佔用率的車輛,例如公共汽車和大巴車。
施樂還有另一個項目在洛杉磯稱為 Express Park,目標是讓人們知道他們何時即將離開房子,在哪能找到停車場和花費金額。不僅要確保定價,同時更要確保數據實時到達用戶手中。例如,應當提前 40 分鍾告知用戶停車位置。
9、汽車製造
大數據應用案例之汽車製造——當問起汽車的製造過程,大多數人腦子里隨即浮現的是各種生產裝配流水線和製造機器。然而在福特,在產品的研發設計階段,大數據就已經對汽車的部件和功能產生了重要影響。
比如,福特產品開發團隊曾經對 SUV 是否應該採取掀背式(即手動打開車後行李箱車門)或電動式進行分析。如果選擇後者,門會自動打開、便捷智能,但這種方式會影響到車門開啟有限的困惱。此前採用定期調查的方式並沒有發現這個問題,但後來根據對社交媒體的關注和分析,發現很多人都在談論這些問題。
10、零售業
大數據應用案例之零售業,某公司是一家領先的專業時裝零售商,通過當地的百貨商店、網路及其郵購目錄業務為客戶提供服務。公司希望向客戶提供差異化服務,如何定位公司的差異化,他們通過從 Twitter 和 Facebook 上收集社交信息,更深入的理解化妝品的營銷模式,隨後他們認識到必須保留兩類有價值的客戶:高消費者和高影響者。
希望通過接受免費化妝服務,讓用戶進行口碑宣傳,這是交易數據與交互數據的完美結合,為業務挑戰提供了解決方案。Informatica 的技術幫助這家零售商用社交平台上的數據充實了客戶主數據,使他的業務服務更具有目標性。
零售企業也監控客戶的店內走動情況以及與商品的互動。它們將這些數據與交易記錄相結合來展開分析,從而在銷售哪些商品、如何擺放貨品以及何時調整售價上給出意見,此類方法已經幫助某領先零售企業減少了17% 的存貨,同時在保持市場份額的前提下,增加了高利潤率自有品牌商品的比例。
11、總統競選
大數據應用案例之總統競選——許多人通過 Facebook 更新個人狀態、分享圖片以及他們"喜歡"的內容。奧巴馬的總統競選運動也通過使用社交網路的各種數據功能完成了競選,他們不僅通過社交網路尋找支持者,而且還通過社交網路召集了一批志願軍。
早在 2006 年,Facebook 聯合創始人,克里斯·休斯就建議扎克伯格在網站上推出相關服務,幫助總統候選人在 Facebook 上建立個人主頁,以便他們進行形象推廣。2006 年 9 月,Facebook 全面開放,用戶數量爆炸式增長,在年底達到 1200 萬。這一過程恰好有利地推升了奧巴馬的知名度。此後,在克里斯的輔佐下,奧巴馬掀起了一系列的網路活動,在 Facebook、MySpace 等社交網站上發表公開演講、推廣施政理念,贏得大量網民支持,募集到 5 億多美元的競選經費。
最終,"黑人平民"戰勝了實力雄厚的對手,成為美國歷史上第一位黑人總統,之後,在第二次的選舉中更獲得連任。此次選舉被認為是美國民主的巨大進步,而互聯網則提供了前所未有的實施手段,其中尤以 Facebook 代表的社交網站最為突出,以至於有人戲稱之為 " Facebook 之選"。
最近上任的川普...算了不說了...簡直就是一個噴子...
12、電子郵件
大數據應用案例之電子郵件—— MailChimp 的核心業務是提供電子郵件服務,它在一年內為大約 300 萬用戶發送了 350 億封郵件。不過真正能體現 MailChimp 未來價值的則是該公司對這些郵件數據的處理和分析。
MailChimp 的一個重要任務就是搞清楚如何幫助客戶更好地了解他們所發送的信息。考慮到這一點,該公司建立了一個服務叫 Wavelength,向客戶展示了與他們相似的其他訊息。這個系統使得 Wavelength 能夠儲存公司資料庫中每個郵件地址發生的互動。這意味著告訴了你,用戶打開了什麼樣的郵件,何時打開,他們點擊了什麼鏈接,還有訂閱了什麼郵件。MailChimp 也有一個功能叫做 Ecommerce360,能讓客戶通過轉換來跟蹤點擊。
13、音樂
大數據應用案例之音樂—— 十多年前,音樂元數據公司 Gracenote 收到來自蘋果公司的神秘忠告,建議其購買更多的伺服器。Gracenote 照做了,而後蘋果推出 iTunes 和 iPod,Gracenote 從而成為了元數據的帝國。
在車內聽的歌曲很可能反映你的真實喜好, Gracenote 就擁有此種技術。它採用智能手機和平板電腦內置的麥克風識別用戶電視或音響中播放的歌曲,並可檢測掌聲或噓聲等反應,甚至還能檢測用戶是否調高了音量。這樣,Gracenote 可以研究用戶真正喜歡的歌曲,聽歌的時間和地點。
Gracenote 擁有數百萬首歌曲的音頻和元數據,因而可以快速識別歌曲信息,並按音樂風格、歌手、地理位置等分類。 作者 佚名 本文轉載至網路,如涉及抄襲請聯系我們
Ⅶ 在大數據時代,文科方法與理論的力量到底體現在哪裡
第一,定性分析並不是文科常用的方法,跟你理解的太不一樣,是社會科學常用的方法。文科和社會科學有實質性的區別。
美國的社會科學發達於我國很多年----這個無需爭論。有各種各樣的原因。最重要的幾個原因我可以幫你羅列一下:
1 美國社會學發展研究並無斷層,並且在二戰時期和冷戰期間從歐洲接受了很大一批科學家:其中包括社會學科學家,教育學家,政治學家,管理學家,談判學家,心理學家等。其他國家在內包括我國並無這樣的積累和人才上的「非正常引進」。
所以,質性研究是一種建立在量化研究之上的,更為科學的手段。但對研究人員或者團隊,需要更加復雜的訓練。此外,你說的定性研究,本身就不是一種方法。定性研究裡面,大大小小不同的研究差異,有幾十甚至上百種之多,常用的就有:案例分析,田野調查,紮根理論,故事還原,現象分析,合作解釋,內容分析,少數人種自敘等等等等,分支更是多,比如,訪談就分為興趣小組訪談和一對一訪談。
所以,很多國家現在沒有進入到定性研究成為主流的階段。
Ⅷ 數據之巔讀後感
細細品味一本名著後,大家心中一定是萌生了不少心得,此時需要認真思考讀後感如何寫了哦。你想好怎麼寫讀後感了嗎?以下是我幫大家整理的數據之巔讀後感範文,僅供參考,大家一起來看看吧。
大數據,一個近年來的流行詞彙,隨著互聯網信息技術的普及開始深入人心,又隨著互聯網對各類行業各種關系的顛覆和變革開始廣泛普及。當越來越多的人開始對大數據無比推崇的時候,其實只是跟著趨勢而已。這時候,如果能跳出來,看看這種趨勢的源頭和足跡,或許更容易找出一些能夠指導未來的價值。在如今這個數據浪潮之中,《數據之巔》就提供了這么一個別樣的視角。
要了解大數據,先得認清數據;要認清數據,先得看清數據的作用和價值。這方面,建國不過二百餘年但已然是超級大國的美國無疑是最好的標本。都說美國的文明是建立在印刷術的基礎上,這其實就是數據文化的基礎——信息可以通過便捷的紙張與文字組合,實現一種虛擬化和抽象化,而這種抽象化很快就得到了廣泛的信任。這是最早為數據創造價值准備的基礎。在此之上,美國建國的先賢們考慮到了權力的分配、社會的發展等各項因素,建立了民主、共和相互制約的執政體系。事實上,所有的美好都是限制之後的產物,自由、民主和平等這人類的三大追求之間就是相互制約的關系。那麼,該怎麼進行有效的制約?如何讓大家都能接納?這時候,最能代表客觀現實的數據就出現了。
《數據之巔》的第一部分就是這樣展開的,從各種歷史事件中數據的作用以及人們對數據的態度、反應、應用方式,勾勒出了數據文化的成長和成熟。解決權力分配的問題、決定改變歷史的戰爭、制定從戰略到戰術的安排、考慮政治的計算以及商業層面上的利用;從搜集、統計、篩選、量化、抽樣的方式方法演變到了解、安排、預測、准備、發掘、規范的效果體現,經歷的歷史似乎並不長,但造就的變革尤其精彩。數據其實一直都在,只在於人們是否需要它、重視它、願意聆聽它的意見……而人們往往也都在遇到了問題難以決斷的時候才會想到數據這個夥伴,這也是為什麼在第一部分的結尾中日本崛起的思考——二戰後空前繁榮的美國工業因為遇上了供不應求的狀態,自然走上了粗放型路徑,冷落了相應的數據應用,而戰敗的日本正因為深陷困境,在快速汲取先進知識的同時也迅速接納了數據文化,通過數據抽樣的方式快速提升了質量……日本的崛起可以看作窮則思變的例子,但變革中數據的作用尤其明顯。數據的優化作用由此可見一斑,書中更有很多案例,但要參透這一點,先得認識到數據的重要性才行,這可以算作是數據文化的入門吧!
可以說現實中的一切都是越用越少的,但看似虛擬的數據卻越用越多。所謂大數據時代,背景正是高度發展科技能讓更多的數據得以留存,這種留存和挖掘完全由機器實施,由此得到的結果也是嘆為觀止的。如果說科技的發展趨勢已經越來越超乎我們的想像,那總有一些規律或者原則可以抓住——比如數據。書中第二部分的大數據崛起便將重點放到了當下,由此展望未來的可能性。誠然,大數據是被技術發展所推動的,但更是被重視數據的人們所推動的。
技術降低了數據獲取、積累的成本,增加了計算的可能和利用的空間,但這只是一個表象。深層次需要在意的則是數據的開放,只有數據開放才有多元的整合,這需要由人來推動,而推動者必須有多元認知的思維方式、開放的心態——這是數據文化中尤為重要的一部分。如果之前我們認為智慧是屬於人的,那麼未來這個詞將更多的形容一些別的體系,比如「智慧城市」。其實人的'智慧依靠的是學習、理解和經驗,那麼機器的學習靠的就是數據,還有那些我們為其規劃的應用方式和我們的需要。如何確定我們的規劃和需求?靠數據,更得靠能夠深入人心的數據文化!
正如作者提到中國社會要將「大數據」這個科技符號轉變為文化符號,因為只有文化才能真正驅動人們的成長和發展,科技只是手段而已。只有建立了數據文化,願意尊重數據、善於整合數據、敢於發掘數據中的異動……才能正真利用好大數據。數據文化是尊重事實、強調精確、推崇理性和邏輯的文化,這種文化將是發展最重要的動力,更是最好的參考。從《數據之巔》中,隱約可以看到一條隱約的軌跡,通向未知的遠方卻一直步步為營,這便是數據,來自於人而勝於人。
歌德把歷史稱為「上帝的神秘作坊」。在徐子沛先生新作《數據之巔》的精彩演繹下,關於數據文化如何形成、數據治國理念如何深入人心的歷史畫卷徐徐展開,令我們再次飽覽古今中外因數據成就的神奇瞬間,領略統計文史的山風水韻和數據文化的悠遠迴音。康德說,數字是重要的透視方式。此言不虛。
子沛先生一如既往把中國作為本書的重心和出發點。從中國歷史上的吉光片羽到第一次現代意義上的人口普查,從中國數據可視化先驅人物陳正祥的執著努力到民族復興能否量化的中國話題,這些元素無疑令中國讀者感到親切和溫暖。遺憾的是,在悠久的中華文明史上,這樣的「統計事件」不僅鳳毛麟角,亦未能帶動整個民族和社會形成用數據說話、以數據治事的風尚。即使今天,我們依然面對這樣一個不容迴避的事實:統計數據雖然證明了中國已經成為世界第二大經濟體,在數據使用上,特別是大數據的收集、分析、應用的手段、意識、水平和能力方面,我們與美國、歐洲,甚至同處亞洲的日本,仍有不小差距。作為統計人,在享受本書呈現的統計和數據文化盛宴時,無疑更平添了一份獨有的清醒與憂思。
中國需要進一步營造數據文化氛圍。美國的歷史,就是一部「善用數據」的歷史。說數據成就了共和政治、數據終結了南方的奴隸制度,尚屬見仁見智。「布蘭代斯訴訟方法」及後來的漢德公式,公共預算制度的普及,統計學理論方法用於公共政策的制定,以及成本效益分析方法在美國政府的推行等,實實在在證明了數據在保障公平正義、促進進步發展、增進自由和理性方面的決定性支撐作用,體現了數據治國的基本理念。黨的十八大把實現國家治理體系和治理能力的現代化作為新的奮斗目標,更加迫切需要大力弘揚建立在數據基礎上的科學與理性,需要建樹「尊重事實、強調精確、推崇理性和邏輯的數據文化」,需要進一步營造善用數據的社會氛圍,使注重數據、使用數據真正成為一種習慣和風尚。
中國統計人要做大數據的先行者和引領者。在統計的「純真年代」,政府統計是權威一般的存在,是統計生產的當然主導者。大數據時代,海量的網路化電子化信息使每一個人、每一個單位都可能成為信息的生產發布主體,政府統計包打天下的格局正在被打破。我們當然可以通過法律手段來「宣示主權」,但我相信大多數統計人憑著專業精神、職業尊嚴,將不屑於採取這么「簡單而直率」的方法,而更願意像一名「騎士」一樣為榮譽而戰。作為統計數據的生產者、發布者和使用者,沒有人比我們更了解大數據的意義、價值和力量。「用大數據打造統計基礎數據『第二軌』」,深刻闡明了國家統計局應用大數據的戰略思想和戰略思維。目前,國家統計局已經與17家企業簽訂利用大數據戰略合作框架協議,在貿易統計、價格統計、交通運輸統計、農業統計等多個領域取得重要進展。我們不僅要直接應用大數據,還要在推動數據開放和共享、建立和統一相關應用標准,實施國家大數據創新驅動戰略等方面,發揮應有作用。
中國統計人還要成為數據文化的倡導者和傳播者。在宣傳統計工作、弘揚數據文化方面,統計人有著天然的優勢和便利。家喻戶曉的GDP、CPI、PPI、PMI等統計拳頭產品,大型的經濟普查、人口普查、一套表聯網直報等重要統計事件,為宣傳統計、傳播數據文化發揮了重要而積極的作用。我們還可以做得更好,也有理由做得更好。中國統計也要創建類似美國普查局的LEHD—工作單位和家庭住址的縱向動態系統,當超級颶風「桑迪」來襲,該系統大顯神通,成功幫助紐約市政府組織救災,並迅速對災害影響作出准確評估。這樣的統計「明星」產品,能夠使人們更加信賴數據、依靠數據,推動數據融入政府管理、商業運營和社會治理以及人們的日常生活。
近年來,國家統計局在統計文化宣傳方面做了大量工作,精心打造了統計網站、中國統計開放日、統計微訊微信等一系列新的統計宣傳平台,政府統計的形象和公信力不斷提升。今後更要以啟沃公眾數據意識為己任,以記錄中華民族復興的偉大進程為使命,從更大的視野,以更宏大的敘事,講述中國的統計故事,書寫中國的統計歷史,把數據文化理念播撒得更廣、更深、更遠。
尼採在《查拉圖斯特拉如是說》中有這樣一句話:在有力量的地方,數字這位女主人就會生成,她更有力量。數據不僅代表「真正的事實」,還蘊藏著事物的發展規律。隨著大數據時代的到來,數據資源及其開發利用正逐漸成為決定和影響各國核心競爭力的關鍵因素。中國不僅要做數據大國,更要成為數據強國。
我們這代統計人註定無法甘於淡泊和平凡,唯有順應時代要求,以更先進的理念、更開放的姿態、更高超的技術積極擁抱大數據,廣泛應用大數據,生產出更多更具競爭力的統計產品,才能在智能時代、智慧城市建設以及實現國家治理現代化的進程中,續寫政府統計新的輝煌。
最近我讀了塗子沛先生的《數據之巔》這本書,我深深的被作者的思考的深度和數據的力量所震撼。全書從數據角度出發,以美國政府歷史以來「依數治國」的成功經驗來闡釋數據帶給社會帶來的挑戰與變革。
進入21世紀第二個十年以來,隨著互聯網信息技術的普及與廣泛應用,大數據時代正式到來。時代的變革意味著新的發展機遇與挑戰,要想在數據浪潮當中立於不敗之地,這就需要我們在精確的掌握數據之後,通過數據的創新來創造未來。
精確的掌握數據,需要從認識數據開始。簡而言之,數據就是體現客觀事實的表象,是客觀性與抽象性有機結合的產物,容不得半點虛假。我們不能否認的是,所有的美好都是在限制之後的,而能夠有效地進行限制,且又能夠得到大家的一致認可客觀現實,唯有那一張便捷的紙片上數據與文字的組合體,其實這就是數據文化的基礎。數據創造價值准備的基礎從側面印證了中國的四大發明印刷術是西方國家文明的基礎。
所謂的大數據時代就是在當下高度發展科技能讓更多的數據得以保存。保存下來的數據是一種依據,更是一種工具。世間萬物的發展都呈現各種各樣的規律性,數量龐大且規律復雜,很難讓我們掌握,但是一旦轉換成數據保存之後,從數據的角度去分析規律變化的軌跡,能夠很容易掌握並加以運用。而我作為基層執法工作者,運用數據進行執法,以控制數據達到預期管理預期,是這本書給予我最大的啟發。
古代中國傳統的執法者,是通過簡單甚至帶有粗暴的手段對執法對象進行強制管理,執法效果雖然容易操作,且直觀,但是這是一種凌駕於規律之上,片面的追求短期效果的低級執法模式。進入新中國以來,尤其是改革開放以來,我國堅持依法治國,黨的十八屆四中全會更提出了全面推進依法治國的新常態,這是數據文化的有力體現,是我黨在大數據時代下,一項重大舉措。
我認為,大數據時代下運用數據進行執法,是執法能力現代化的利器。我從事交通執法這個職業已經數載,經歷過從無到有,又逐漸的從有變成無。這個前後並不矛盾,從前的「無」是法律不健全,無章可循,有章難循狀態。只能夠自身黨性約束和對事物客觀理解進行執法,甚至有的時候片面的依靠上級,人類對事物的理解具有局限性,這難免會造成決策錯誤。
從無到有,是法律慢慢健全,法律的約束更加全面,但有的時候簡單的照本宣科,眉毛鬍子一把抓,也就成了教條主義。而從有到無,是一種利用客觀的數據,以法律為准則,通過科學執法,將數據調整趨於合理。類似國家利用經濟規律宏觀調控國民經濟,用一隻看不見的「大手」將全國的經濟發展形勢引導至合理增長的區間。數據合理了,管理預期也就達到了。相對於我們有肉眼去觀察,顯得更為精確,且具很高的可信度。這樣一來,對我們基層執法工作者帶來的巨大的福利,我們從此以後再也不用擔心對工作進展情況不了解而心急火燎了。
在大數據時代變革的今天,客觀、精確、理性和邏輯的「數據文化」理念是推進國家治理體系和治理能力的現代化利器。大數據時代下的執法行為更是離不開數據,只有充分的利用數據化管理、數據化創新,才能在當前數據浪潮當中主動適應新常態,科學地實現新突破和新作為。
《數據之巔》讀後感這是塗子沛先生關於大數據的第二本書,讀了以後可以說是振聾發聵,醍醐灌頂。
第一本書本身就寫得很棒了,其主要是從美國現代社會應用大數據成功解決的許多問題入手,說出了大數據的實際用處。而這本書抽絲剝繭從歷史上美國對於數據的發展帶給我們啟迪。
1、數據分權
何為民主,何為共和,如何防範多數人的暴政?基於這個問題美國給出了參議院代表的共和與眾議院代表的民主,權利與義務統一,即投票與納稅都按所代表的的人口來。
這里就誕生了對精確人口掌控的需求。基於這一點,逐漸養成了按數據說話的傳統。並逐漸將單一的人口數量統計擴展到宗教,種族,性別,年齡。
2、數據引領改革
之前是北美大陸種植煙草亟需黑奴,美國解放後煙草行業敗落。後來棉花興起,死灰復燃。北方工業化也需要勞動力。黑人自由就發瘋的言論源於統計上的失誤,錯誤稀釋原因因基數不同。一項戰役向大海進軍完全依靠准確數據搶掠補給。謝爾曼格蘭特。背後的原因:維護美國的統一,(解放黑奴後其的生計太難),動員黑奴使其轉敗為勝。
3、數據推動技術
用數據研究社會,普通人的歷史。統計學將研究粒度縮小到一個個人。加菲爾德將普查上升到了專業部門。迅速上升的統計內容,不斷增加的人口給數據處理提出了挑戰。於是技術創新製表機誕生了(數據處理),依靠這個IBM發展壯大,商業模式:只租不賣設備及服務。
4、數據爭取權益
量化提高質量。經濟發展帶來勞資沖突,政治,道德失范。這時候為了改善工人生活又依靠數據興起了數據分析法,成本收益分析法又在美國水利方面大顯身手,繼而福特車的風波也加速了成本收益分析法傳播同時依靠數據公開使得企業不斷提升產品質量,並將人的價值考慮進來。
5、抽樣
運用抽樣的方法降低數據處理的工作量,省時省力。蓋洛普引領的總統預測,亂世佳人的精準預測,准確定位。把數據引入電影工業。質量管理大師戴明將統計方法引入質量管理領域,成就日本經濟奇跡。
Ⅸ 數據新聞的功能與優勢
目前,在大數據新聞製作上已經積累了經驗的國際媒體有《衛報》《紐約時報》《華盛頓郵報》等,但它們也處於探索階段。通過對國內外代表性媒體的大數據新聞實踐進行研究,可以總結出大數據新聞的四個功能,即描述、判斷、預測、信息定製。
《衛報》網頁2012年1月5日發布了一個有關「阿拉伯之春」的大數據新聞報道。報道利用動態圖表,以時間軸為主線描述了自2010年12月一突尼西亞男子自焚至2011年12月的一年間,17個阿拉伯國家發生的一場政治運動。網民可以通過這個四維動態的報道,清楚地從宏觀到微觀,全面了解阿拉伯之春在不同國家的不同表現形式。圖表上方設置了時間的推拉按鈕,網民推拉到自己想觀看的時間點,可以清楚地看到相同時間點上不同國家發生的相關事件。畫面的下方是各個國家的標簽,網民也可以通過國家標記,來關注某個具體國家在縱向時間軸上的政治演變進程。不同的政治事件用不同顏色來標示:綠色為群眾性抗議活動,淺藍色為國際上的相關反應,黃色為政治事件,紅色為政權更替。如果網民想了解某個事件的具體內容,點擊不同顏色的標示,隨即獲取深度報道的鏈接。這種新聞報道方式,將涉及十幾個國家、時間跨度長達一年的復雜的「阿拉伯之春」,以明晰的動態方式呈現出來,純文字報道難以達到這樣的傳播效果。
大數據新聞還能夠描述那些看不見的短期過程,比如流言如何在社交網路上傳播。《衛報》通過追蹤分析260萬份推特內容,利用可視化動態圖表描述了從流言開始傳播到辟謠結束的整個過程。它也是以時間為軸,利用圓圈大小、顏色變化來描述整個過程,綠色的圈代表散布流言的推文,紅色的圈代表更正這個流言的推文,灰色的是中立的評價推文,黃色的是對流言持懷疑態度的推文。圈的大小代表了推文的影響程度,圈越大影響程度越大。如果想了解具體的內容,點到哪個圈,屏幕旁邊即刻呈現這個圈所代表的推文的發布者、發布日期、轉推人數等等信息。通過這個動態的演進過程,人們可以清楚地看到,社交網路並不像一般想像的那樣,是一味擴散虛假消息的場所。其實在假消息出現不久,社交網路上各種辟謠的消息就已經出現了。
從這兩個例子可以看出,大數據新聞的報道方式能夠在宏觀上對某個事件看得更加清楚與全面,事件復雜的演進過程以及這個過程中的各個方面,都能描述得直觀且有趣。 2011年8月,一個黑人穆斯林男子乘計程車在倫敦街頭遭到警方攔截,雙方發生槍戰,該男子當街死亡。兩天後,約300人聚集在倫敦市中心的警察局進行抗議,後來演變成持續多天的騷亂事件,抗議者引燃了汽車、商店和公交車。當天夜裡,倫敦其他地區也發生了類似襲警、搶劫、縱火等事件。一些媒體評論指出,這與貧富差距有關。英國首相卡梅倫接受采訪時,聲稱騷亂事件與貧富差距無關。
英國《衛報》記者利用大數據的分析結果,做了關於這一事件的系列報道,其中的一個報道主題,便是騷亂與貧困有沒有關聯。記者利用谷歌融合圖表,在倫敦地區地圖上標記出騷亂分子的居住地信息(黃色點)、實際發生騷亂的地點(灰色點),以及貧困地區分布(越偏紅色表示越貧窮)。根據這張倫敦市中心的圖,網民可以將圖擴展到整個大倫敦地區來看,也可以聚焦到具體的街區放大來看,觀察每個被標記的騷亂點的人流從哪裡來,到哪兒去,從而清楚地看到貧苦與騷亂之間存在的某種關聯。這種關系的表達,比起單純的文字報道來,表現清晰,說服力強。 2013年「十一」長假期間,九寨溝發生遊客大量滯留現象並引發群體性事件。如果新聞媒體或旅遊當局能夠在此前運用中國的局部大數據進行預測性報道,完全可以避免這樣的群體性事件發生。因為傳媒可以根據這方面的大數據,提前報道在哪個具體時間段內,有多少人從哪些地方前往九寨溝,其中男人、女人、老人、兒童各有多少等等。
這只是一個小例子,大數據能夠預測社會和人們日常生活中的各個方面。通過挖掘大數據,傳媒在技術上可以製作出可視化、互動式的圖表,告知很多事項。微觀的如流行疾病來襲、交通擁堵情況;宏觀的如經濟指數變動、某種社會危機的來臨等等。網路開辟了「網路預測」網頁,以「大數據,知天下」的口號推出,預測的產品有高考、世界盃、電影票房等等。它們後期准備上線的產品擴展到了更廣的領域,比如金融預測、房地產預測等等。 利用大數據的分析結果,滿足網民的信息個性化要求,是國外媒體的最新嘗試。例如Five thirty eight數據博客,在2014年5月23日新辟讀者來信專欄「親愛的莫娜」。其第一期開篇語闡釋的目的是:「我開這個專欄是為了幫助讀者回答一些生活中重要的或者嚴肅的問題,比如我是不是很正常、我處在世界的哪個地位層面等等,目的不是為了給讀者答疑解惑,不是告訴讀者應該做什麼和不應該做什麼。恰恰相反,我提供數據來解釋、描述你的經歷。」
綜觀這個專欄,讀者的提問五花八門,比較嚴肅的如:「美國有多少人從來沒有喝過一滴酒?」「美國有多少男性空乘人員?」也有比較私人的如:「我該多久換一次襪子?」「婚前同居會不會導致離婚」等等。專欄作者利用美國范圍內的大數據,即刻將分析結果告知當事人,但避免給出指導性意見,僅告知各種數據的分析結果,讓網民自己依照分析結果來處理自己面臨的問題。這個專欄與傳統的紙媒讀者來信專欄不同,不是通過星座、血型、生辰八字或偽裝成閱歷豐富的專家,來提供些心靈雞湯式的回答,只用數據來說話。
這種嘗試在媒體中並不少見。2011年,BBC廣播公司曾根據2012年政府的財政預算聯合畢馬威會計師事務所做了一個預算計算器,用戶只需要輸入一些日常信息,例如買多少啤酒,用多少汽油等,就能夠算出新的預算會讓你付多少稅,明年生活會不會更好。
根據用戶需求提供個性化的大數據服務,是未來的發展趨勢。這些報道有一個共性,媒體都致力於以用戶的需求為中心,利用大數據詮釋宏觀社會現象對用戶的影響,或者回答用戶困惑的問題。媒體可以精準定位,經過後台計算,按照用戶的接收習慣、工作習慣和生活習慣將服務推送到用戶眼前。
Ⅹ 所有的大數據都是有價值的嗎
所有的大數據都是有價值的嗎
大數據不一定等同於好數據,且越來越多的專家也堅信這一點,大數據並不會自動產生好的分析結果。如果數據不完整、斷章取義或者被破壞,可能會導致企業產生錯誤的決策,從而削弱企業的競爭力或影響用戶個人日常生活。
美國哈佛大學教授、定量社會科學研究所主任——Gary King就曾因數據分析時斷章取義,得出了錯誤的結果。他發起了一個大數據分析項目,即通過檢測Twitter和其他社交媒體帖子中的「工作」、「失業」和「分類」等關鍵詞,來預測美國的失業率。
通過使用情感分析的技術,該組織收集了包含這些關鍵字的tweet和其他社交媒體帖子,來查看這些帖子的增加或減少是否與每月失業率存在相關性。
在監測這些內容時,研究人員發現包含其中一個關鍵字(「工作」)的帖子數量急劇增加,但隨後,他們發現這與失業率毫無關系,因為他們忽略了喬布斯(喬布斯的名字Jobs也有「工作」的意思)去世的消息。我們應從這個例子中吸取教訓,不要完全依靠「神奇」的大數據來指導決策。
King表示,「jobs」的雙重含義只是諸多類似事件之一,在這一領域工作的人都遇到過類似的經歷。他說:「這些關鍵字列表在短期內可能可行,但從長遠來看,往往會帶來災難性的失敗。你可以通過添加額外的關鍵字來解決問題,但這需要大量的人力參與。」
你可以輸入關鍵些到Bing Social頁面,便會看到一些相關或者無關的東西。如果你不更改查詢,隨著時間的推移,你會發現含有這些關鍵詞的話題正以某種方式逐漸偏離主題,有時候偏離比較小,有時候卻很大。」
但King表示,總體而言,很多大數據分析都產生了有用的內容。Vantiv公司首席安全官兼高級副總裁Kim Jones表示,這不是一個新問題,但如果人們認為大量數據能夠奇跡般地產生良好的分析結果,這個問題可能會變嚴重。他指出:「Jobs的例子是一個經典的案例,數據本身並不等同於智慧。」
King認為內容是關鍵。他是大數據分析公司Crimson Hexagon首席科學家兼聯合創始人,用該公司市場營銷執行副總裁Wayne St. Amand的話來說,該公司旨在為在線對話提供「內容、意義和結構」。
然而,越來越多沒有內容的數據在推動決策過程。華爾街日報2月份曾報道,醫療保險公司使用大數據來為其用戶創建個人資料文件。該公司追蹤的信息之一是購買加大號衣服的歷史記錄,這可能會導致將轉診轉為減肥的計劃。
沒有人會覺得鼓勵人們更健康地生活是錯誤的事情,但是這方面涉及的隱私問題卻令人不安。這個人購買加大號衣服可能是送給另一位家庭成員。而且這種隱私問題可能帶來更嚴重的影響。《彭博商業周刊》在2008年曾報道過有人因購買處方葯的歷史記錄,而被保險公司拒絕為其上醫療保險,而這個人買葯的歷史記錄暴露這個人有輕微的心理健康問題。
Adam Frank在博客中指出,在某些情況下,銀行會因為用戶在社交網站LinkedIn或者Facebook上的聯系人的情況而拒絕用戶的貸款。如果你的朋友賴賬,你的信譽可能也會受到他們的信譽的影響。ACLU高級政策分析師Jay Stanley指出,「信用卡公司有時會因為其他消費者的信貸歷史記錄而降低消費者的限額。」
Kim Jones表示,從相關性得出結論,而不進行進一步分析,這給他本人也帶來過麻煩。「在80年代後期和90年代初期,有數據顯示,駕駛入門級豪華車,且年齡在20和27歲之間的西班牙裔和黑人男性最有可能是毒販。而我正好符合這個標准,我是非裔美國人,年齡也在這個范圍內,當時我開的正式這樣的車,但我並不是毒販。」
他表示,「我們不能只是依靠數據分析,那樣可能會導致一些壞的結果。如果你忽略人類的分析因素,那麼你的錯誤率將會非常高。」
簡言之,大數據是一個工具,但不應該被視為解決方案。「它可以幫助你縮小范圍,從數百萬可能縮小到150左右,」Jones表示,「但是我們不能讓計算機做一切判斷,因為這最終可能會給你帶來麻煩。」