当前位置: 首页 > news >正文

网站建设前端和后端微信营销网站建设

网站建设前端和后端,微信营销网站建设,如何制作网站模板,网站推广渠道咨询1 概述 问题一览 总体感觉良好#xff0c;通过面试官的介绍可知这个岗位偏向离线数仓。 1.自我介绍 2.询问了其中一段实习经历 3.讲下你说用过的Linux命令 4.讲下HIVE的内部表和外部表有什么不同 *5.讲下你使用过的Hive函数#xff08;好好在复习下多准备几个吧#xff09…1 概述 问题一览 总体感觉良好通过面试官的介绍可知这个岗位偏向离线数仓。 1.自我介绍 2.询问了其中一段实习经历 3.讲下你说用过的Linux命令 4.讲下HIVE的内部表和外部表有什么不同 *5.讲下你使用过的Hive函数好好在复习下多准备几个吧 *6.请讲下维度建模和范式建模的区别自上而下自底而上关系-实体事实-维度 *7.为什么关系型数据库更适合范式建模而数仓适合维度建模 8.讲下数据倾斜 *9.HIVE的分区和分桶分区是放在不同目录下分桶是放在不同文件中 10.什么是Hive-on-mr什么是Hive-on-spark 11.又问了简历的另一段实习经历 *12.复述下你曾经做过的一个数据科学的项目你做了多少是不是你一个人做的这个问题失误在于没有挑典型项目讲现在要准备下稿子 12.这个岗位是实习岗不会影响你秋招吗 12.经典的反问环节 2 题目总结 2.1 讲下HIVE的内部表和外部表有什么不同 未被external修饰的是内部表被external修饰的为外部表。内部表数据由Hive自身管理外部表数据由HDFS管理内部表数据存储的位置是hive.metastore.warehouse.dir默认/user/hive/warehouse 外部表数据的存储位置由自己设置删除内部表会直接删除元数据metadata及存储数据删除外部表仅仅会删除元数据HDFS上的文件并不会被删除。 2.2 讲下你使用过的Hive函数 HIVE 常用函数总结https://www.zhihu.com/tardis/zm/art/102502175?source_id1005 向下取整函数: floor指定精度取整函数: round 向上取整函数: ceil 取随机数函数: rand 绝对值函数: abs日期转年函数: year 日期转月函数: month日期转天函数: day  2.3 请讲下维度建模和范式建模的区别 数据仓库的两种建模方法范式建模和维度建模_数据仓库 数据建模_Happybigman的博客-CSDN博客数据仓库的两种建模方法范式建模Inmon提出的集线器的自上而下EDW-DM的数据仓库架构。操作型或事务型系统的数据源通过ETL抽取转换和加载到数据仓库的ODS层然后通过ODS的数据建设原子数据的数据仓库EDWEDW不是多维格式的不方便上层应用做数据分析所以需要通过汇总建设成多维格式的数据集市层。优势易于维护高度集成劣势结构死板部署周期较长范式建模应用在EDW层..._数据仓库 数据建模https://blog.csdn.net/baidu_20183817/article/details/104991764 2.4 为什么关系型数据库更适合范式建模而数仓适合维度建模 范式建模的优缺点 优点 节约存储(尤其是利用数据库进行数仓建设的时候)规范化带来的好处是通过减少数据冗余提高更新数据的效率同时保证数据完整性。结构清晰易于理解 缺点 构建比较复杂查询复杂(需要很多的关联)不适合在大数据环境下构建因为两点1 查询复杂  2 存储很便宜 总结由于建模方法限定在关系型数据库之上在某些时候反而限制了整个数据仓库模型的灵活性性能等特别是考虑到数据仓库的底层数据向数据集市的数据进行汇总时需要进行一定的变通才能满足相应的需求。 2.5 讲下数据倾斜 空值引发的数据倾斜 解决方案 第一种可以直接不让null值参与join操作即不让null值有shuffle第二种因为null值参与shuffle时的hash结果是一样的那么我们可以给null值随机赋值这样它们的hash结果就不一样就会进到不同的reduce中不同数据类型引发的数据倾斜 解决方案 如果key字段既有string类型也有int类型默认的hash就都会按int类型来分配那我们直接把int类型都转为string就好了这样key字段都为stringhash时就按照string类型分配了不可拆分大文件引发的数据倾斜 解决方案 这种数据倾斜问题没有什么好的解决方案只能将使用GZIP压缩等不支持文件分割的文件转为bzip和zip等支持文件分割的压缩方式。 所以我们在对文件进行压缩时为避免因不可拆分大文件而引发数据读取的倾斜在数据压缩的时候可以采用bzip2和Zip等支持文件分割的压缩算法。数据膨胀引发的数据倾斜 解决方案 在Hive中可以通过参数 hive.new.job.grouping.set.cardinality 配置的方式自动控制作业的拆解该参数默认值是30。表示针对grouping sets/rollups/cubes这类多维聚合的操作如果最后拆解的键组合大于该值会启用新的任务去处理大于该值之外的组合。如果在处理数据时某个分组聚合的列有较大的倾斜可以适当调小该值。表连接时引发的数据倾斜 解决方案 通常做法是将倾斜的数据存到分布式缓存中分发到各个Map任务所在节点。在Map阶段完成join操作即MapJoin这避免了 Shuffle从而避免了数据倾斜。其他情况引发的数据倾斜 解决方案 这类问题最直接的方式就是调整reduce所执行的内存大小。 调整reduce的内存大小使用mapreduce.reduce.memory.mb这个配置。 2.6 HIVE的分区和分桶的区别 分区是按照分区字段在HDFS上建立子文件夹分区内的数据存放在子文件夹内查询时不需要全局扫描只扫描对应分区文件夹的数据。 而分桶是按分桶字段对数据取hash值值相同的放在同一个分桶文件里分桶生成的是分桶文件分区对应的是子文件夹。
http://www.huolong8.cn/news/76838/

相关文章:

  • 安阳做网站的公司张槎网站建设
  • 企业站系统淘宝运营培训课程
  • 网站建设需求文档模板青岛建设局网站
  • 怀柔做网站建网站必须要服务器吗
  • 网站开发安全机制wordpress注册页面插件
  • 天津餐饮网站建设微信名片制作小程序
  • 中国建设银行官方网站e路航下载用花生做网站
  • 网站名称填写什么如何创建网站站点并且避免广告
  • 如何建设手机网站wordpress 多站点错误
  • 温州做网站整站优化软件技术好就业吗
  • 网站建设phpstudy网站地图 xml html
  • 宜春市住房和城乡建设局网站抚州市临川区建设局网站
  • 在屈臣氏做网站运营网站每年都要备案吗
  • 佛山企业快速建站微信公众号第三方管理平台
  • 网站建设有哪些常用行为做网站 用 显示器
  • 盐城网站建设有限公司泰州网站建设定制
  • 岫岩网站建设成都最好的编程培训机构
  • 尧都区建设厅官方网站成都网站建设餐饮
  • 怎么做网站数据库备份软件工程名词解释
  • wordpress主题界面seo优化网站
  • 织梦cms做电影网站昌吉市住房和城乡建设局网站
  • nginx优化wordpress网站速度网站开发 超速云
  • 温州哪里做网站比较好气泡做网站上方代码
  • 中工信融网站建设淘宝官网电脑版网页
  • 黄山地区建设行业网站网站设计开发环境
  • 网站开发与应用课程讨论石家庄建站模板
  • 网站建设销售职责icp网站备案流程
  • 信阳网站建设招聘东莞vi设计
  • 毕节市交通建设集团网站河池市住房城乡建设网站
  • 内蒙古网站建设手工制作衣服童装环保