网站系统开发团队简介,上海市建设三类人员报名网站,网站的联网信息怎么填,深圳app开发公司大概大数据学习
#x1f525;系列专栏#xff1a; #x1f451;哲学语录: 承认自己的无知#xff0c;乃是开启智慧的大门 #x1f496;如果觉得博主的文章还不错的话#xff0c;请点赞#x1f44d;收藏⭐️留言#x1f4dd;支持一下博主哦#x…大数据学习
系列专栏 哲学语录: 承认自己的无知乃是开启智慧的大门 如果觉得博主的文章还不错的话请点赞收藏⭐️留言支持一下博主哦 在Hive中常见的文件存储格式包括TestFile、SequenceFile、RcFile、ORC、Parquet和AVRO。默认的文件存储格式是TestFile如果在建表时不指定存储格式则导入数据时会直接把数据文件拷贝到HDFS上不进行处理。除TestFile外的其他格式的表不能直接从本地文件导入数据数据要先导入到TestFile格式的表中然后再从表中用insert导入到其他格式的表中。
TestFile格式这是Hive的默认文件格式文件存储方式为正常的文本格式。以TestFile文件格式存储的表在HDFS上可直接查看到数据。可结合Gzip、Bzip2使用系统自动检查执行查询时自动解压但是使用这种方式Hive不会对数据进行切分无法对数据进行并行操作。存储方式为行存储优势在于可使用任意的分割符进行分割在HDFS上可查可标记加载速度较快。劣势在于不会对数据进行压缩处理存储空间较大、磁盘开销大、数据解析开销大。SequenceFile格式需在建表时指定stored as sequencefile。文件存储方式为二进制文件以键值对的形式序列化到文件中。以SequenceFile文件格式存储的表会对数据进行压缩处理在HDFS上的数据为二进制格式不可直接查看。可与record、none、block块级别压缩配合使用默认为record但record的压缩率低一般建议使用block压缩。存储方式为行存储优势在于存储时候会对数据进行压缩处理存储空间小支持文件切割分片查询速度比TestFile速度快。劣势在于无法可视化展示数据不可以直接使用load命令对数据进行加载自身的压缩算法占用一定的空间。RcFile格式需在建表时指定stored as rcfile。文件存储方式为二进制文件。以RcFile文件格式存储的表也会对数据进行压缩处理在HDFS上以二进制格式存储不可直接查看。RCFILE是一种行列存储相结合的存储方式该存储结构遵循的是“先水平划分再垂直划分”的设计原则。ORC格式这是一种高效的存储格式相比传统的行存储或者列存储它能够在读取、写入和处理数据等多个方面提供更高的效率。Parquet格式这也是一种高效的存储格式适合在Hadoop、Hive等大数据处理框架中使用。
总的来说Hive支持多种文件存储格式具体选择哪种格式取决于具体的使用场景和需求。
需要注意的是Hive数据倾斜是指在Hive执行Map/Reduce程序时某些Reduce节点的执行时间明显长于其他节点导致整个程序的执行时间增加。这通常发生在某些key值的数据量比其他key值大很多的情况下因为这些key值会被分发到同一个Reduce节点进行处理从而导致该节点处理的数据量过大。
数据倾斜通常出现在Hive执行的SQL语句中包含join、group by、count distinct等操作时。为了避免数据倾斜可以采取一些处理方式例如设置hive.map.aggrtrue默认开启进行部分聚合操作或者设置hive.groupby.skewindatatrue默认关闭进行负载均衡等。
下一期具体分析负载均衡。一起加油