千锋教育-做有情怀、有良心、有品质的职业教育机构

当前位置:首页  >  关于学院  >  技术干货  >  大数据技术干货  >  正文

Hive MapJoin

来源:千锋教育
发布时间:2022-09-28 14:57:07
分享

Hive MapJoin

  MapJoin 会生成两个Task, 首先启动一个任务扫描小表,生成HashTable数据结构文件,然后加载进分布式缓存 DistributeCache 中,第二个 Task 会扫描大表,然后根据大表中每一条数据中的关联字段去和DistributeCache 中的小表对应的 HashTable 做关联,并直接输出结果,因为没有 Reduce 阶段,所以输出的文件个数和 Mapper 的个数一致。

  -- Hive 0.11 前必须使用MAPJOIN标识显示启动该优化操作,列子如下

  SELECT /*+ MAPJOIN(smalltable)*/ .key,value

  FROM smalltable JOIN bigtable ON smalltable.key = bigtable.key

  -- Hive 0.11 后,Hive默认启动优化,两个参数

  hive.auto.convert.join = true -- 默认为true,表示默认开启mapjoin

  hive.mapjoin.smalltable.filesize=25M -- 默认25M,也就是如果表的大小小于此值就会被加载进内存中。

声明:本站稿件版权均属千锋教育所有,未经许可不得擅自转载。

上一篇

Hive窗口函数

下一篇

类加载机制

相关推荐

  • kafka集群搭建详细步骤 搭建Kafka集群涉及以下步骤:1.**安装和配置Java**:确保每台服务器都安装了适当版本的Java,并设置了正确的环境变量。2.**下载和解压Kafka**:从官方网站下载Kafka的二进制发行
  • zookeeper安装配置为什么报错? 安装和配置ZooKeeper可能会出现各种错误。以下是一些常见的错误和对应的解决方法:1.**连接错误**:在配置ZooKeeper集群时,可能会出现连接错误,例如连接超时、连接被拒绝等。这通常是由于
  • zookeeper搭建集群 要搭建ZooKeeper集群,你需要按照以下步骤进行操作:1.下载和安装ZooKeeper:从ApacheZooKeeper的官方网站下载ZooKeeper的二进制发行版,并根据操作系统的要求进行安装
  • kafka怎么使用 Kafka是一种高吞吐量、可扩展的分布式消息队列系统,常用于构建实时流数据处理和事件驱动的应用程序。下面是使用Kafka的基本步骤:1.安装和配置Kafka:-下载Kafka:访问ApacheKafk
  • jointplot()函数的用法是什么? jointplot() 是 Seaborn 数据可视化库中的一个函数,用于绘制两个变量之间的二维关系,通常是散点图或密度图,同时绘制单变量的直方图或密度图。
  • highcharts和echarts的区别 功能:两个库都提供了丰富的图表类型和交互功能,但是 Highcharts在某些方面比Echarts 更强大,比如地图类型和导出功能。性能:Echarts的渲染速度比 Highcharts 更快,因为它使用了Canvas来绘制图表。