CMU DB Sort+Agg+Join

通常外排都会使用多路排序，我们首先计算需要多少趟(phase):

假设有B个buffer pages, N个文件需要进行归并排序
首先对每个文件进行排序，这是一趟
然后使用K-merge sort. 可以同时对B-1路进行归并排序，剩下一个Buffer page用于output
这样算下来会有ceil(log(N) - log(B-1))趟
因此总共可以认为有 log(B-1)(N) + 1趟

每趟都需要对N个文件input/output, 所以IO大小就是2*N*(# of phases)

做Agg的话有两种办法：Sort和Hash. Sort这个好理解，搞过MapReduce里面Reduce阶段都知道。Hash可以对key进行分桶，然后对每个bucket分别做agg. 至于对每个bucket做agg的话，又还是回到sort或者是hash了，这个过程可以持续拆分下去。

Join只以inner equijoin为例，其他的join都可以在这个上面进行扩展。join过程中的输出可以是data, 也可以是record id. 如果使用record id的话，那么就需要回表。可能中间计算过程传输会减少，但也可能因为回表次数太多，造成cost又上来了。课程里面的说法是，对于vertica这样的OLAP系统，最开始是record id, 但是后来切换到了data性能更好。

Join算法分析中有下面几个变量：

M pages in table R(outer table), m tuples
N pages in table S(inner table), n tuples
B available buffer pages

经典算法有下面几种：

NLJ(Nested Loop Join). 简单的循环匹配可以细分为BNL(Block)和INL(Index)
SMJ(Sort-Merge Join) 分别对两个表做sort然后merge join
HJ(Hash Join) Build+Probe

Blocked Nested Loop Join 工作方式如下，时间复杂度是 M + MN. 如果可用的Buffer pages更多的话，那么可以做到M+(M/(B-2) * N). Index Nested Loop Join 则是遍历outer table, 然后使用index去query inner table. 时间复杂度是M+(m*C) C是查询index的时间

SMJ 时间复杂度分为两个部分，Sort的话上面有K-Way merge sort的时间复杂度，如果table上有按照join key的索引，那么这个sort部分就可以省去。Merge就是M+N.

HJ 时间复杂度分为两个部分：Build + Probe. Build是将outer table 按照某个hash function生成hash table. 然后Probe阶段就是遍历inner table去hash table里面查询。至于hash table里面存放data还是record id则根据情况，如果join selectivity比较低的话，那么使用record id则更加划算。另外就是在build阶段还可以生成Bloom filter, 帮助probe阶段。这种bloom filter可以理解为某种sideways information passing.

HJ的cost analysis我有点没有看懂。上面的HJ要求hash table是in memory的话，如果没有办法in memory的话，那么可以分别对inner和outer table做partition，使用相同的hash function，然后分别对partition做join. 每个partition上面的join可以继续拆分，直到partition可以fit in memory为止，这是个递归的过程。如果不考虑递归的话，partition phase时间复杂度是2*(M+N)(input + output), Probe Phase因为完全fit in memory使用NLJ的话可以做到M+N. 所以总的cosst是 3*(M+N).