问题,难题,问题域,首先需要确定边界和问题
所有数据点都可以在一个二维平面上分布
引入chunk机制
由于每隔几秒就把单个的样本数据添加到所有这些文件的成本不小,我们针对每个序列在内存里批量存放了1KiB的数据块,一旦它们填满了再把这些块添加到一个个的文件里。这一方案解决了很大一部分问题。写操作如今是分批次的,样本数据也是顺序存储的。它还能为我们提供一个令人难以置信的高效压缩格式
序列分流
问题,难题,问题域,首先需要确定边界和问题
所有数据点都可以在一个二维平面上分布
引入chunk机制
由于每隔几秒就把单个的样本数据添加到所有这些文件的成本不小,我们针对每个序列在内存里批量存放了1KiB的数据块,一旦它们填满了再把这些块添加到一个个的文件里。这一方案解决了很大一部分问题。写操作如今是分批次的,样本数据也是顺序存储的。它还能为我们提供一个令人难以置信的高效压缩格式
序列分流