千锋教育-做有情怀、有良心、有品质的职业教育机构

当前位置:首页  >  关于学院  >  技术干货  >  大数据技术干货
Hive MapJoin

MapJoin 会生成两个Task, 首先启动一个任务扫描小表,生成HashTable数据结构文件,然后加载进分布式缓存 DistributeCache 中,第二个 Task 会扫描大... 详情>

  • 来源:千锋教育
Hive窗口函数

窗口函数是用于分析用的一类函数,要理解窗口函数要先从聚合函数说起。 大家都知道聚合函数是将某列中多行的值合并为一行,比如sum、count等。 而窗口... 详情>

  • 来源:千锋教育
Hive有搭建集群的必要吗?

Hive作业的运行,资源调度是YARN,数仓存储是HDFS,他们两个都是分布式的集群。 对于Hive你可以简单理解成就是负责将你的SQL转换为MR,当然也提供元数... 详情>

  • 来源:千锋教育
2022-09-28
Spark的shuffle过程和mr的shuffle过程的区别有哪些?

MR在reduce端还会进行一次合并排序,spark则在map端就完成了排序,采用Tim-Sort排序算法。基于以上种种原因,MR自定义分区器时往往还需要自定义分组,... 详情>

  • 来源:千锋教育
2022-09-28
HBase读流程:如果读缓存和写缓存的数据不一致,怎么返回?

因为HBase读时,先去查询写缓存MemStore,如果有则直接返回,如果写缓存MemStore没有时,则会去查询读缓存BlockCache,如果有就直接返回,没有将会读... 详情>

  • 来源:千锋教育
2022-09-28
在开发的时候有没有用过拉链表?拉链表的应用场景有哪些?怎么用的?

没有用过拉链表,因为我们的开发场景中暂时不设计,我这边可以就简单把我对拉链表的认知给说一下:首先拉链表是在面对处理的数据量比较大,且计算要求... 详情>

  • 来源:千锋教育
2022-09-28