Skip to content
gqlxj1987's Blog
Go back

Spark Sql Join部分

Edit page

背景

spark 1.6.2 -> spark 2.2

内存中的数据组织形式

memory

在内存中,改成了以列式存储为主

(1) 与numpy或者tensorflow接入时可实现zero serialization(零序列化)

(2) 与Spark的in-memory columnar-cache无缝兼容

(3) 更利于压缩技术的引入

CBO

基于成本的优化器CBO,是根据计算出的所有可能的物理计划的代价,选择代价最小的物理执行计划。关键点在于能评估一个物理执行计划的代价。

broadcast


Edit page
Share this post on:

Previous Post
GraphFrames in Jupyter
Next Post
Tensorflow Large batch