A. 如何獲取大數據信息
一、公開資料庫
常用數據公開網站:
UCI:經典的機器學習、數據挖掘數據集,包含分類、聚類、回歸等問題下的多個數據集。很經典也比較古老,但依然活躍在科研學者的視線中。
國家數據:數據來源中華人民共和國國家統計局,包含了我國經濟民生等多個方面的數據,並且在月度、季度、年度都有覆蓋,全面又權威。
亞馬遜:來自亞馬遜的跨科學雲數據平台,包含化學、生物、經濟等多個領域的數據集。
figshare:研究成果共享平台,在這里可以找到來自世界的大牛們的研究成果分享,獲取其中的研究數據。
github:一個非常全面的數據獲取渠道,包含各個細分領域的資料庫資源,自然科學和社會科學的覆蓋都很全面,適合做研究和數據分析的人員。
二、利用爬蟲可以獲得有價值數據
這里給出了一些網站平台,我們可以使用爬蟲爬取網站上的數據,某些網站上也給出獲取數據的API介面,但需要付費。
1.財經數據,2.網貸數據;3.公司年報;4.創投數據;5.社交平台;6.就業招聘;7.餐飲食品;8.交通旅遊;9.電商平台;10.影音數據;11.房屋信息;12.購車租車;13.新媒體數據;14.分類信息。
三、數據交易平台
由於現在數據的需求很大,也催生了很多做數據交易的平台,當然,出去付費購買的數據,在這些平台,也有很多免費的數據可以獲取。
優易數據:由國家信息中心發起,擁有國家級信息資源的數據平台,國內領先的數據交易平台。平台有B2B、B2C兩種交易模式,包含政務、社會、社交、教育、消費、交通、能源、金融、健康等多個領域的數據資源。
數據堂:專注於互聯網綜合數據交易,提供數據交易、處理和數據API服務,包含語音識別、醫療健康、交通地理、電子商務、社交網路、圖像識別等方面的數據。
四、網路指數
網路指數:指數查詢平台,可以根據指數的變化查看某個主題在各個時間段受關注的情況,進行趨勢分析、輿情預測有很好的指導作用。除了關注趨勢之外,還有需求分析、人群畫像等精準分析的工具,對於市場調研來說具有很好的參考意義。同樣的另外兩個搜索引擎搜狗、360也有類似的產品,都可以作為參考。
阿里指數:國內權威的商品交易分析工具,可以按地域、按行業查看商品搜索和交易數據,基於淘寶、天貓和1688平台的交易數據基本能夠看出國內商品交易的概況,對於趨勢分析、行業觀察意義不小。
友盟指數:友盟在移動互聯網應用數據統計和分析具有較為全面的統計和分析,對於研究移動端產品、做市場調研、用戶行為分析很有幫助。除了友盟指數,友盟的互聯網報告同樣是了解互聯網趨勢的優秀讀物。
五、網路採集器
網路採集器是通過軟體的形式實現簡單快捷地採集網路上分散的內容,具有很好的內容收集作用,而且不需要技術成本,被很多用戶作為初級的採集工具。
造數:新一代智能雲爬蟲。爬蟲工具中最快的,比其他同類產品快9倍。擁有千萬IP,可以輕松發起無數請求,數據保存在雲端,安全方便、簡單快捷。
火車採集器:一款專業的互聯網數據抓取、處理、分析,挖掘軟體,可以靈活迅速地抓取網頁上散亂分布的數據信息。
八爪魚:簡單實用的採集器,功能齊全,操作簡單,不用寫規則。特有的雲採集,關機也可以在雲伺服器上運行採集任務。
B. 有哪些好的數據來源或者大數據平台
數據來源
大數據分析的數據來源有很多種,包括公司或者機構的內部來源和外部來源。分為以下幾類:
交易數據。包括POS機數據、信用卡刷卡數據、電子商務數據、互聯網點擊數據、「企業資源規劃」(ERP)系統數據、銷售系統數據、客戶關系管理(CRM)系統數據、公司的生產數據、庫存數據、訂單數據、供應鏈數據等。
移動通信數據。能夠上網的智能手機等移動設備越來越普遍。移動通信設備記錄的數據量和數據的立體完整度,常常優於各家互聯網公司掌握的數據。移動設備上的軟體能夠追蹤和溝通無數事件,從運用軟體儲存的交易數據(如搜索產品的記錄事件)到個人信息資料或狀態報告事件(如地點變更即報告一個新的地理編碼)等。
人為數據。人為數據包括電子郵件、文檔、圖片、音頻、視頻,以及通過微信、博客、推特、維基、臉書、Linkedin等社交媒體產生的數據流。這些數據大多數為非結構性數據,需要用文本分析功能進行分析。
機器和感測器數據。來自感應器、量表和其他設施的數據、定位/GPS系統數據等。這包括功能設備會創建或生成的數據,例如智能溫度控制器、智能電表、工廠機器和連接互聯網的家用電器的數據。來自新興的物聯網(Io T)的數據是機器和感測器所產生的數據的例子之一。來自物聯網的數據可以用於構建分析模型,連續監測預測性行為(如當感測器值表示有問題時進行識別),提供規定的指令(如警示技術人員在真正出問題之前檢查設備)等。
互聯網上的「開放數據」來源,如政府機構,非營利組織和企業免費提供的數據。
C. 如何進行數據採集呢
數據收集的四種常見的方式包括問卷調查、查閱資料、實地考查、試驗,幾種方法各有各的又是和缺點,具體分析如下。
四是實驗。實驗設計數據是四種方法中最耗時間的一種,因為它是通過各種各樣的實驗來得到一個統一的方向,也就是說,在這個過程中,可能有無數次的失敗。但是實驗得到的數據是最准確的,而且可能會推動某個行業的進步。所以,實驗收集數據的優點是數據的准確性很高,而他的缺點就是未知性很大,不管實驗的周期還是實驗的結果都是不確定性的。
隨著科技的發展和大數據時代的到來,收集數據越來越容易,而大家也應該更注重於保護和利用數據。
D. 在網路時代,如何能做到:既能全面收集客戶信息,同時又能不侵犯客戶隱私
1、盡量利用動態的諸如消費數據,少用只含有聯系電話等靜態數據。盡量利用根據消費數據進行分析、挖掘後產生的數據,將客戶數據抽象作為群體、而不是落實到個人。
2、在掌握客戶資料的情況下,與單個客戶接觸時,要有充分的理由,選擇合適的事情、時間及客戶喜歡的交流方式與客戶接觸。
3、在與客戶交流時,盡量不要透露你的公司已經對客戶的資料了如指掌。
4、採用一定的技術手段,確保客戶數據的安全。要非常重視客戶數據保密。
5、最後最基本的原則還是:在利用客戶數據與客戶接觸時,一定要掌握交流技巧及服務藝術,「不著痕跡」才是市場營銷的最高境界。
(4)如何獲取無數的數據擴展閱讀:
獲取信息的常見方式:
1、觀察法:通過開會、深入現場、參加生產和經營、實地采樣、進行現場觀察並准確記錄(包括測繪、錄音、錄像、拍照、筆錄等)調研情況。
2、實驗法:通過實驗室實驗、現場實驗、計算機模擬實驗、計算機網路環境下人機結合實驗等過程獲取信息或結論。
3、互聯網信息收集法:通過計算機網路發布、傳遞和存儲的各種信息。
4、查閱資料法:報紙、行業網站、文獻、雜志、廣播電視等傳媒專訪。
5、調查法:包括拜訪調查法、電話采訪法、問卷調查法。
6、檢索方法。
7、索取方法。