我们的特征工程管道遇到了一个无法回避的物理瓶颈。最初为GB级数据集设计的、基于SciPy和Pandas的信号处理脚本,在面对数据湖中TB级的时序数据时,单机执行时间从几小时飙升到数天。简单地垂直扩展实例(使用内存和CPU更大的机器)很快就触
2023-10-27