0%

大规模数据集处理思路

  1. MapReduce

将数据集分割成几个部分, 并行处理, 最终归并结果

  1. 流式处理

通过偏移量流式获取数据, 可以使用小批次读取数据并缓冲, 线性处理获得结果