大规模数据集处理思路 发表于 2019-03-10 更新于 2020-09-11 分类于 design MapReduce 将数据集分割成几个部分, 并行处理, 最终归并结果 流式处理 通过偏移量流式获取数据, 可以使用小批次读取数据并缓冲, 线性处理获得结果