当前位置：首页 > news >正文

网站建设前端和后端微信营销网站建设

news 2025/11/30 2:16:26

网站建设前端和后端,微信营销网站建设,如何制作网站模板,网站推广渠道咨询1 概述问题一览总体感觉良好#xff0c;通过面试官的介绍可知这个岗位偏向离线数仓。 1.自我介绍 2.询问了其中一段实习经历 3.讲下你说用过的Linux命令 4.讲下HIVE的内部表和外部表有什么不同 *5.讲下你使用过的Hive函数#xff08;好好在复习下多准备几个吧#xff09…1 概述问题一览总体感觉良好通过面试官的介绍可知这个岗位偏向离线数仓。 1.自我介绍 2.询问了其中一段实习经历 3.讲下你说用过的Linux命令 4.讲下HIVE的内部表和外部表有什么不同 *5.讲下你使用过的Hive函数好好在复习下多准备几个吧 *6.请讲下维度建模和范式建模的区别自上而下自底而上关系-实体事实-维度 *7.为什么关系型数据库更适合范式建模而数仓适合维度建模 8.讲下数据倾斜 *9.HIVE的分区和分桶分区是放在不同目录下分桶是放在不同文件中 10.什么是Hive-on-mr什么是Hive-on-spark 11.又问了简历的另一段实习经历 *12.复述下你曾经做过的一个数据科学的项目你做了多少是不是你一个人做的这个问题失误在于没有挑典型项目讲现在要准备下稿子 12.这个岗位是实习岗不会影响你秋招吗 12.经典的反问环节 2 题目总结 2.1 讲下HIVE的内部表和外部表有什么不同未被external修饰的是内部表被external修饰的为外部表。内部表数据由Hive自身管理外部表数据由HDFS管理内部表数据存储的位置是hive.metastore.warehouse.dir默认/user/hive/warehouse 外部表数据的存储位置由自己设置删除内部表会直接删除元数据metadata及存储数据删除外部表仅仅会删除元数据HDFS上的文件并不会被删除。 2.2 讲下你使用过的Hive函数 HIVE 常用函数总结https://www.zhihu.com/tardis/zm/art/102502175?source_id1005 向下取整函数: floor指定精度取整函数: round 向上取整函数: ceil 取随机数函数: rand 绝对值函数: abs日期转年函数: year 日期转月函数: month日期转天函数: day 2.3 请讲下维度建模和范式建模的区别数据仓库的两种建模方法范式建模和维度建模_数据仓库数据建模_Happybigman的博客-CSDN博客数据仓库的两种建模方法范式建模Inmon提出的集线器的自上而下EDW-DM的数据仓库架构。操作型或事务型系统的数据源通过ETL抽取转换和加载到数据仓库的ODS层然后通过ODS的数据建设原子数据的数据仓库EDWEDW不是多维格式的不方便上层应用做数据分析所以需要通过汇总建设成多维格式的数据集市层。优势易于维护高度集成劣势结构死板部署周期较长范式建模应用在EDW层..._数据仓库数据建模https://blog.csdn.net/baidu_20183817/article/details/104991764 2.4 为什么关系型数据库更适合范式建模而数仓适合维度建模范式建模的优缺点优点节约存储(尤其是利用数据库进行数仓建设的时候)规范化带来的好处是通过减少数据冗余提高更新数据的效率同时保证数据完整性。结构清晰易于理解缺点构建比较复杂查询复杂(需要很多的关联)不适合在大数据环境下构建因为两点1 查询复杂 2 存储很便宜总结由于建模方法限定在关系型数据库之上在某些时候反而限制了整个数据仓库模型的灵活性性能等特别是考虑到数据仓库的底层数据向数据集市的数据进行汇总时需要进行一定的变通才能满足相应的需求。 2.5 讲下数据倾斜空值引发的数据倾斜解决方案第一种可以直接不让null值参与join操作即不让null值有shuffle第二种因为null值参与shuffle时的hash结果是一样的那么我们可以给null值随机赋值这样它们的hash结果就不一样就会进到不同的reduce中不同数据类型引发的数据倾斜解决方案如果key字段既有string类型也有int类型默认的hash就都会按int类型来分配那我们直接把int类型都转为string就好了这样key字段都为stringhash时就按照string类型分配了不可拆分大文件引发的数据倾斜解决方案这种数据倾斜问题没有什么好的解决方案只能将使用GZIP压缩等不支持文件分割的文件转为bzip和zip等支持文件分割的压缩方式。所以我们在对文件进行压缩时为避免因不可拆分大文件而引发数据读取的倾斜在数据压缩的时候可以采用bzip2和Zip等支持文件分割的压缩算法。数据膨胀引发的数据倾斜解决方案在Hive中可以通过参数 hive.new.job.grouping.set.cardinality 配置的方式自动控制作业的拆解该参数默认值是30。表示针对grouping sets/rollups/cubes这类多维聚合的操作如果最后拆解的键组合大于该值会启用新的任务去处理大于该值之外的组合。如果在处理数据时某个分组聚合的列有较大的倾斜可以适当调小该值。表连接时引发的数据倾斜解决方案通常做法是将倾斜的数据存到分布式缓存中分发到各个Map任务所在节点。在Map阶段完成join操作即MapJoin这避免了 Shuffle从而避免了数据倾斜。其他情况引发的数据倾斜解决方案这类问题最直接的方式就是调整reduce所执行的内存大小。调整reduce的内存大小使用mapreduce.reduce.memory.mb这个配置。 2.6 HIVE的分区和分桶的区别分区是按照分区字段在HDFS上建立子文件夹分区内的数据存放在子文件夹内查询时不需要全局扫描只扫描对应分区文件夹的数据。而分桶是按分桶字段对数据取hash值值相同的放在同一个分桶文件里分桶生成的是分桶文件分区对应的是子文件夹。

查看全文

http://www.huolong8.cn/news/76838/