七周七并发模型(Seven Concurrency Models in Seven Weeks)

1. 并行和并发
2. 七个并发模型
3. 内存模型
4. OpenCL知识

1. 并行和并发

并发程序含有多个逻辑上的独立执行块，它们可以独立的并行执行，也可以串行执行。并行程序解决问题的速度往往比串行程序快的多，因为其可以同时执行整个任务的多个部分。并行程序可能有多个独立执行体，也可能仅有一个。

我们还可以从另一种角度来看待并发和并行之间的差异。并发是问题域中的概念，程序需要被设计成能够处理多个同时（或者几乎同时）发生的事情，而并行则是方法域中的概念，通过将问题中的多个部分并行执行来加速解决问题。

Rob Pike的经典描述：

并发是同一时间应对(dealing with)多件事情的能力。
并行是同一时间动手(doing)做多件事情的能力。

几种并行架构：

位级(bit-level)并行，比如寄存器从32位升级到64位。
指令级(instruction-level)并行，比如CPU指令流水线，乱序执行和猜测执行。
数据级(data-level)并行，比如CPU的SIMD指令以及GPU向量计算指令。
任务级(task-level)并行，比如多处理器架构以及分布式系统架构。

2. 七个并发模型

线程与锁

JVM中终止线程的手段是让run()函数返回(可能是抛出跑出InterruptedException).
我认为诊断多线程问题的感觉，非常类似于一级方程式赛车的工程师诊断引擎故障。引擎在正常运行几个小时后，突然在没有任何征兆的情况下发生严重故障，机油和零件散落一地狼狈不堪。大赛车被拖回维修厂后，可怜的工程师要面对一堆残骸，找出故障的原因，故障原因可能是很小的，一个坏的油泵轴承或阀门，但应该如何从一片混乱中找出原因呢？经常使用的方法是尽可能的完善对引擎数据的记录，并让赛车手使用新的引擎，希望下次发生故障时数据能提供一些有用的信息。

函数式编程：函数式代码消除了可变状态和副作用，从根本上是线程安全的，所以很容易并行执行。

Clojure-分离标识与状态

原子变量(atom). swap!执行CAS操作，但是操作可能会触发多次；reset!则直接设置值。
对某个标识name, 在t0时刻和t1时刻访问得到的数据(状态)可能是不同的，虽然访问的还是同一标识。
代理(agent)是将变量的更新提交到线程池异步执行，我们可以控制线程池来控制并发。
引用(ref)可以实现软件事务内存(Software Transactional Memory, STM). 可以在一个block内原子更新多个引用，如果期间引用发生变化，那么这个事务会重试。所以含有副作用的事务需要谨慎使用。

Elixir-actor模型

对于一个使用actor模型的程序，其错误处理内核是顶层的管理者，管理着子进程，对子进程进行启动停止重启的操作。程序的每个模块都有自己的错误处理内核，模块正确运行的前提是其错误处理内核必须正确运行。子模块也会有自己的错误处理内核，以此类推。这就构成了错误处理内核的层级树，较危险的操作都会被下放给底层的actor执行。
我们可以认为actot模型是面向对象模型在并发编程领域的扩展。actot模型精心设计的消息传输和封装的机制，强调了面向对象的精髓，所以说act模型非常”面向对象"。

通信顺序进程(Communicating Sequential Processes, CSP)

如果你和我一样是个车迷，很可能只会关注车辆本身，而忽略了它所要行驶的道路。大家都在喋喋不休的争论，涡轮增压与自然吸气孰优孰劣，让中置发动机布局与前置发动机布局一较高下，却忘记了最重要的方面其实与车辆本身无。你能去往何方，能多快到达目的地，首要的决定因素是道路网络而不是车辆本身。
与actor模型类似，通信顺序进程模型也是由独立的并发执行的实体所组成，实体之间也是通过发送消息进行通信。但两种模型的重要差别是，CSP模型不关注发送消息的实体，而是关注发送消息时使用的channel通道. channel是第1类对象，它不像进程那样和信箱是紧耦合的，而是可以单独创建和读写，并在进程之间传递。

数据级并行, GPGPU(General Purpose computing on the GPU)编程

现代GPU是异常复杂但十分强力的并行处理器，其一秒钟可以处理几十亿个三角形。虽然设计GPU的主要目的是为了满足图形计算的需要，但是GPU也可用于更广的领域。
为了获得更好的性能，现实中的GPU会综合使用流水线，多ALU以及许多本书上未提及的技术，这就增加了进一步理解GPU的难度。更遗憾的是，不同的（即使是同一厂商生产的）GPU之间的共性是很少的。如果我们必须针对某个架构开发代码，GPGPU编程不是最佳选择。
OpenCL适用于CPU，这是很多人没有想到的。事实上，现代CPU支持数据并行指令已经很长时间了。例如英特尔处理器就支持流式SIMD扩展指令集(Streaming SIMD Extensions)和高级矢量扩展指令集(Advanced Vector Extensions, AVX)。OpenCL可以高效的使用这些指令集合和多核CPU。
GPU不仅是强大的数据并行处理器，在能耗方面也表现出众，比传统的CPU有更优秀的GFLOPS/watt指标。世界上最快的超级计算机都广泛使用GPU或专用数据并行协处理器，其中能耗指标低是一个重要的原因。
GPGPU框架还包括CUDA, DirectCompute以及RenderScript Computation.

Lambda架构，Batch+Realtime

3. 内存模型

多线程之间观察几个变量的更新顺序会出现乱序情况，可能有下面几个原因：

编译器的静态优化可以打乱代码的执行顺序
JVM的动态优化也会打乱代码的执行顺序
硬件可以通过乱序执行来优化性能

Java Memory Model http://www.cs.umd.edu/~pugh/java/memoryModel/ keyword: William Pugh Java Memory Model

值得一提的是，虽然我们仅讨论了Java的内存模型，但是会对内存访问进行乱序执行的却不止Java。大多数语言没有对内存模型做出完善的定义，没有明确的说明乱序执行何时发生以及如何发生。在这方面Java是先驱者，是第一个完整定义内存模型的主流语言，C和C++是在C11和C++11的标准中才补充了内存模型。

4. OpenCL知识

OpenCL执行过程如下：

通过将任务分成工作项，OpenCL可以将任务并行化。
通过编写内核，指定了单个工作项是如何工作的。
要执行内核主机程序，必须遵循以下步骤：
- 创建上下文，内核和命令队列都将在运行在这个上下文中；
- 编译内核；
- 创建输入数据的缓存区和输出数据的缓存区；
- 像命令队列中输入一个命令，让每一个工作项上都运行一次内核程序；
- 获取结果。

工作项是在处理元件中执行的，在同一个计算单元中执行的工作下的集合称为工作组。几个工作组中的工作项共享使用局部内存。工作项执行内核程序时，会访问四种不同的内存区域：

全局内存 global memory: 同一个设备上执行的所有工作项都可以使用的内存。
常量内存 constant memory: 全局内存的一部分，在执行内核时保持不变。
局部内存 local memory: 工作组私有的内存，可用于工作组中不同工作项之间的通信。
私有内存 private memory: 工作项私有的内存。

七周七并发模型(Seven Concurrency Models in Seven Weeks)

Table of Contents

1. 并行和并发

2. 七个并发模型

3. 内存模型

4. OpenCL知识