Philip Mucci, Multicore Optimization NOTUR 2009

感觉作者的背景主要是在高性能计算方面,里面提到了很多solver以及OpenMP,这些我都不是很了解。我只挑选了一些我看的懂的东西记录下来。


内存带宽延迟优化

Pasted-Image-20231225103326.png


硬件预取

Pasted-Image-20231225104434.png


别名分类

Pasted-Image-20231225103715.png


线性扩展的前提是,单核要被充分利用上

Pasted-Image-20231225104015.png


关于使用CUDA的建议:如果你的模型不太适合用CUDA,那就不要老想着一定迁移到CUDA上,不如充分优化现有的模型和环境。

Pasted-Image-20231225103201.png