导航:首页 > 文件目录 > hadoop文件存储格式

hadoop文件存储格式

发布时间：2024-04-28 02:30:29

❶ 大数据常用文件格式介绍

图片看不见的话可以看我CSDN上的文章：
https://blog.csdn.net/u013332124/article/details/86423952

最近在做hdfs小文件合并的项目，涉及了一些文件格式的读写，比如avro、orc、parquet等。期间阅读了一些资料，因此打算写篇文章做个记录。

这篇文章不会介绍如何对这些格式的文件进行读写，只会介绍一下它们各自的特点以及底层存储的编码格式 。

[图片上传失败...(image-a5104a-1547368703623)]

使用sequencefile还可以将多个小文件合并到一个大文件中，通过key-value的形式组织起来，此时该sequencefile可以看做是一个小文件容器。

[图片上传失败...(image-4d03a2-1547368703623)]

Parquet是一个基于列式存储的文件格式，它将数据按列划分进行存储。Parquet官网上的文件格式介绍图：

[图片上传失败...(image-92770e-1547368703623)]

我们可以看出，parquet由几个部分构成：

[图片上传失败...(image-391e57-1547368703623)]

Orc也是一个列式存储格式，产生自Apache Hive，用于降低Hadoop数据存储空间和加速Hive查询速度。

[图片上传失败...(image-ba6160-1547368703623)]

目前列式存储是大数据领域基本的优化项，无论是存储还是查询，列式存储能做的优化都很多，看完上面对orc和parquet的文件结构介绍后，我们列式存储的优化点做一个总结：

在压缩方面 ：

在查询方面 ：

就网上找到的一些数据来看，Orc的压缩比会比Parquet的高一些，至于查询性能，两个应该不会差距太大。本人之前做过一个测试，在多数场景，hive on mr下，orc的查询性能会更好一些。换成hive on spark后，parquet的性能更好一些

本文介绍的4种大数据存储格式，2个是行式存储，2个是列式存储，但我们可以看到一个共同点：它们都是支持分割的。这是大数据文件结构体系中一个非常重要的特点， 因为可分割使一个文件可以被多个节点并发处理，提高数据的处理速度 。

另外，当前大数据的主要趋势应该是使用列式存储，目前我们公司已经逐步推进列式存储的使用，本人也在hive上做过一些测试，在多个查询场景下，无论是orc还是parquet的查询速度都完爆text格式的， 差不多有4-8倍的性能提升 。另外，orc和parquet的压缩比都能达到10比1的程度。因此，无论从节约资源和查询性能考虑，在大多数情况下，选择orc或者parquet作为文件存储格式是更好的选择。另外，spark sql的默认读写格式也是parquet。

当然，并不是说列式存储已经一统天下了，大多时候我们还是要根据自己的使用场景来决定使用哪种存储格式。

Sequencefile

https://blog.csdn.net/en_joker/article/details/79648861

https://stackoverflow.com/questions/11778681/advantages-of-sequence-file-over-hdfs-textfile

Avro和Sequencefile区别

https://stackoverflow.com/questions/24236803/difference-between-avrodata-file-and-sequence-file-with-respect-to-apache-sqoop

parquet

https://www.cnblogs.com/ITtangtang/p/7681019.html

Orc

https://www.cnblogs.com/ITtangtang/p/7677912.html

https://www.cnblogs.com/cxzdy/p/5910760.html

Orc和parquet的一些对比

https://blog.csdn.net/colorant/article/details/53699822

https://blog.csdn.net/yu616568/article/details/51188479

❷ Hbase与HDFS是个什么关系

他们的关系是：hbase是一个内存数据库，而hdfs是一个存储空间；是物品和房子的关系。

hdfs只是一个存储空间，他的完整名字是分布式文件系统。从名字可知他的作用了。
hbase是一个内存数据库，简单点说hbase把表啊什么的存在hdfs上。

❸ 如何让Hadoop读取以gz结尾的文本格式的文件

分析过程：

通过上面的异常，立马猜想到是由于我的文件是gz结尾，所以hadoop把它当作了压缩文件，然后尝试解压缩后读取，所以解压失败了。于是去问google，没有搜到能够直接解决我问题的答案，但是搜到了此处相关的源代码：LineRecordReader.java;于是尝试着去阅读代码来解决问题，这个类很简单，继承自RecordReader，没有看到next函数和readLine函数，那就应该是基类实现的。很快发现了看名字是跟压缩解码相关的代码：

private CompressionCodecFactory compressionCodecs = null;
...
compressionCodecs = new CompressionCodecFactory(job);
final CompressionCodec codec = compressionCodecs.getCodec(file);
...
if (codec != null) {
in = new LineReader(codec.createInputStream(fileIn), job);
}
else{
...
in = new LineReader(fileIn, job);
}

此处file就是拿到的文件路径，可以看到，应该就是通过CompressionCode.getCode(file)函数，拿到的codec类，然后读取的时候出异常了。那怎么让MapRece程序把这个.gz文件当作普通的文本文件呢？再点进去看CompressionCodeFactory.java的代码。getCodec函数的代码如下：

/**
* Find the relevant compression codec for the given file based on its
* filename suffix.
* @param file the filename to check
* @return the codec object
*/
public CompressionCodec getCodec(Path file) {
CompressionCodec result = null;
if (codecs != null) {
String filename = file.getName();
String reversedFilename = new StringBuffer(filename).reverse().toString();
SortedMap<String, CompressionCodec> subMap = codecs.headMap(reversedFilename);
if (!subMap.isEmpty()) {
String potentialSuffix = subMap.lastKey();
if (reversedFilename.startsWith(potentialSuffix)) {
result = codecs.get(potentialSuffix);
}
}
}
return result;
}

❹ Hbase与HDFS是什么关系

HDFS是GFS的一种实现，他的完整名字是分布式文件系统，类似于FAT32，NTFS，是一种文件格式，是底层的，Hadoop HDFS为HBase提供了高可靠性的底层存储支持。

HBase是Google Bigtable的开源实现，类似Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统。

(4)hadoop文件存储格式扩展阅读：

Hadoop 中各模块的作用：

1、Hadoop HDFS为HBase提供了高可靠性的底层存储支持。

2、Hadoop MapRece为HBase提供了高性能的计算能力。

3、Zookeeper为HBase提供了稳定服务和failover机制。

4、Pig和Hive还为HBase提供了高层语言支持，使得在HBase上进行数据统计处理变得非常简单。

5、Sqoop则为HBase提供了方便的RDBMS（关系型数据库）数据导入功能，使得传统数据库数据向HBase中迁移变得非常方便。

阅读全文

与hadoop文件存储格式相关的资料

热点内容

编程苦恼怎么办发布：2025-10-19 18:29:22 浏览：140

vuejsref动态改变发布：2025-10-19 18:25:07 浏览：171

哪些软件可用于文件解压发布：2025-10-19 18:20:05 浏览：701

农行u盾原始密码发布：2025-10-19 18:03:52 浏览：371

xp如何弄出一个无线网络连接发布：2025-10-19 18:01:24 浏览：569

word插入pdf只显示文件名称和图标发布：2025-10-19 17:51:55 浏览：150

我想编程一个小软件怎么弄发布：2025-10-19 17:45:24 浏览：168

如何优化文件读取数据java 发布：2025-10-19 17:37:07 浏览：262

java敏捷式开发发布：2025-10-19 17:28:45 浏览：800

网页对齐代码快捷键是什么发布：2025-10-19 17:24:16 浏览：304

tomcatlinux文件目录发布：2025-10-19 17:07:18 浏览：520

三星手机能升级系统吗发布：2025-10-19 17:05:37 浏览：683

linux创建文件夹在哪发布：2025-10-19 17:05:36 浏览：623

javadatetimezone 发布：2025-10-19 17:05:34 浏览：434

cf那些文件没有用发布：2025-10-19 16:47:09 浏览：502

苹果官方网站的手机质量怎么样发布：2025-10-19 16:27:28 浏览：801

微信存储数据的文件叫什么发布：2025-10-19 15:44:32 浏览：94

js脚本不起作用发布：2025-10-19 15:20:13 浏览：317

iphone3g怎么升级发布：2025-10-19 15:03:08 浏览：341

deadtrigger2安卓发布：2025-10-19 15:01:09 浏览：419

导航:首页 > 文件目录 > hadoop文件存储格式

hadoop文件存储格式

与hadoop文件存储格式相关的资料

友情链接