1、大數據,很明顯從字面上理解就是大量的數據,海量的數據。大,意思就是數據的量級很大,不上TB都不好意思說是大數據。數據,狹義上理解就是12345那麼些數據,畢竟計算機底層是二進制來存的,那麼在大數據領域,數據就不僅僅包括數字這些,它可以是所有格式的東西,比如日誌,音頻視頻,文件等等。
2、所以,大數據從字面上理解就是海量的數據,技術上它包括這些海量數據的採集,過濾,清洗,存儲,處理,查看等等部分,每一個部分包括一些大數據的相關技術框架來支持。
『貳』 word文檔可以做大數據嗎
word刪除空白頁方法匯總
1.將滑鼠放在前一頁的最後,用DEL健刪除。如果空白面是最後一頁,且滑鼠在第一行,可選「格式」-「段落」,將這一行的行距設為固定值1磅,該空白頁將自動消失。
2.先顯示分頁符,即在Word的左下角調整到「普通視圖」狀態,這時分頁符就出現了,直接刪除即可。
3 選擇「替換」點「高級」,在裡面選擇「使用通配符」以後下面有一個「特殊字元」字的開頭,按住shift的時候再點下滑鼠,選擇空白頁,再刪除(解決了我的問題)
4.如果是插入分頁符造成的空白頁,少的話,刪除分頁符就行,就是到空白頁頂部按退格鍵。(普通視圖護訂篙寡蕻干戈吮恭經下或打開編輯標記會顯示分頁符)
5.如果分頁符很多,可以編輯/替換/高級/特殊字元/人工分頁符/全部替換就可以了。
6.如果是你畫了一個表格,佔了一整頁,造成最後一個回車在第二頁刪不了,可以將表格縮小一點或者將上面或者下面頁邊距設小一點,在文件/頁面設置中,上下的數字改小一點。
7.將滑鼠放在前一頁的最後,用DEL健刪除。如果空白面是最後一頁,且滑鼠在第一行,可選「格式」-「段落」,將這一行的行距設為固定值1磅,該空白頁將自動消失。
8、後面有空白是上一頁內容過多導致的,一般可以把滑鼠點到空白面上,然後按回退鍵,退有內容的那一面,空白的就沒有了,如果還存在,可以稍調整一下上一頁內容,少一行就可以了 。
9、word 預覽有空白頁 頁面視圖時沒有。空白頁有頁碼,造成我列印的文檔頁碼不連續。怎樣刪除:可能是你的文檔中有過寬,過長的對象(如表格,圖片,公式),導致與列印紙張的規格不一至,調整附近的對象(如表格,圖片,公式)大小看看。也可能與分欄和一些可個和回車符號有關。
10、ctrl+enter即可去除空白頁
11、插入表格後的Word刪除空白頁
『叄』 大數據未來將會如何影響人類的生活撰寫一份Word格式的報告文檔
大數據時代的影響:
1、大數據技術不僅能夠提高人們利用數據的效率,而且能夠實現數據的再利用和重復利用,進而大大降低交易成本,提升人們開發自我潛能的空間。
2、人們可以低成本或零成本進行事物信息全息式的縱向歷史比對和橫向現實比對。大數據技術自身不僅能夠迅速衍生為新興信息產業,還可以同雲計算、物聯網和智慧工程技術聯動,支撐一個信息技術的新時代。
3、雲計算技術可以使人們及時利用各類大數據。物聯網技術的實質就是物物相連的互聯網,物聯網的核心和基礎仍然是互聯網,其用戶端延伸和擴展到了任何物品與物品之間,進行信息交換和通信。
『肆』 大數據常用文件格式介紹
圖片看不見的話可以看我CSDN上的文章:
https://blog.csdn.net/u013332124/article/details/86423952
最近在做hdfs小文件合並的項目,涉及了一些文件格式的讀寫,比如avro、orc、parquet等。期間閱讀了一些資料,因此打算寫篇文章做個記錄。
這篇文章不會介紹如何對這些格式的文件進行讀寫,只會介紹一下它們各自的特點以及底層存儲的編碼格式 。
[圖片上傳失敗...(image-a5104a-1547368703623)]
使用sequencefile還可以將多個小文件合並到一個大文件中,通過key-value的形式組織起來,此時該sequencefile可以看做是一個小文件容器。
[圖片上傳失敗...(image-4d03a2-1547368703623)]
Parquet是一個基於列式存儲的文件格式,它將數據按列劃分進行存儲。Parquet官網上的文件格式介紹圖:
[圖片上傳失敗...(image-92770e-1547368703623)]
我們可以看出,parquet由幾個部分構成:
[圖片上傳失敗...(image-391e57-1547368703623)]
Orc也是一個列式存儲格式,產生自Apache Hive,用於降低Hadoop數據存儲空間和加速Hive查詢速度。
[圖片上傳失敗...(image-ba6160-1547368703623)]
目前列式存儲是大數據領域基本的優化項,無論是存儲還是查詢,列式存儲能做的優化都很多,看完上面對orc和parquet的文件結構介紹後,我們列式存儲的優化點做一個總結:
在壓縮方面 :
在查詢方面 :
就網上找到的一些數據來看,Orc的壓縮比會比Parquet的高一些,至於查詢性能,兩個應該不會差距太大。本人之前做過一個測試,在多數場景,hive on mr下,orc的查詢性能會更好一些。換成hive on spark後,parquet的性能更好一些
本文介紹的4種大數據存儲格式,2個是行式存儲,2個是列式存儲,但我們可以看到一個共同點:它們都是支持分割的。這是大數據文件結構體系中一個非常重要的特點, 因為可分割使一個文件可以被多個節點並發處理,提高數據的處理速度 。
另外,當前大數據的主要趨勢應該是使用列式存儲,目前我們公司已經逐步推進列式存儲的使用,本人也在hive上做過一些測試,在多個查詢場景下,無論是orc還是parquet的查詢速度都完爆text格式的, 差不多有4-8倍的性能提升 。另外,orc和parquet的壓縮比都能達到10比1的程度。因此,無論從節約資源和查詢性能考慮,在大多數情況下,選擇orc或者parquet作為文件存儲格式是更好的選擇。另外,spark sql的默認讀寫格式也是parquet。
當然,並不是說列式存儲已經一統天下了,大多時候我們還是要根據自己的使用場景來決定使用哪種存儲格式。
Sequencefile
https://blog.csdn.net/en_joker/article/details/79648861
https://stackoverflow.com/questions/11778681/advantages-of-sequence-file-over-hdfs-textfile
Avro和Sequencefile區別
https://stackoverflow.com/questions/24236803/difference-between-avrodata-file-and-sequence-file-with-respect-to-apache-sqoop
parquet
https://www.cnblogs.com/ITtangtang/p/7681019.html
Orc
https://www.cnblogs.com/ITtangtang/p/7677912.html
https://www.cnblogs.com/cxzdy/p/5910760.html
Orc和parquet的一些對比
https://blog.csdn.net/colorant/article/details/53699822
https://blog.csdn.net/yu616568/article/details/51188479