流畅的Python-Fluent Python读书笔记-16-协程

这章讨论协程。这个话题现在看来是越来越重要了。这章内容，值得拓展讨论一番。

并发模型有很多种，有一本书专门讨论了这个话题：参见《七周七并发模型》。此书有些枯燥无味，不过还是大体解释清楚了不少问题。

计算机专业的人都知道，操作系统提供了“进程”和“线程”，两种程序执行的抽象概念。对应的也分别提供了各自一系列的API。但是，协程是个什么技术呢？按定义是说，协程可以让用户自己调度程序的执行过程，在一个线程中可以同时并发大量的协程，从而实现高并发。一般常见的并发模式是多进程、多线程。一些Web应用服务器软件，比如Nginx就采用了经典的Master-Slave多进程架构，效果很赞。而在过去C++流行的年代，服务器端甚至客户端程序，使用多线程结构的很多。

服务器端多线程架构，典型的操作模式是数据的接收、处理、发送，各自使用不同线程的去处理，避免相互阻塞。客户端则经常使用UI主线程与处理线程分离的模式。这样保证客户端界面操作是不被数据处理干扰的，反应迅速体验好。

多进程架构通常需要考虑进程之间通信问题，这需要使用操作系统提供的特性，比如共享内存、网络套接字、管道等等。多线程架构则需要重点考虑代码执行的同步问题。现代操作系统中，多线程是抢占式的。即你无法断定另外一个线程什么时候会被OS调度，抢了当下线程的执行权。这是特别容易出现问题的地方。比如线程A正在读一个数值，然后再写入。A刚读完，另外一个线程B开始分配到时间片执行了，然后它写入了这个数值。等A恢复执行，再根据读取的数值操作写入，就出现数据错误了。所以多线程代码结构里面，都要用各种锁来保护多线程共享的数据，避免这种破坏。但是锁又带来了另外的问题：性能损失和死锁。有时候不小心，死锁的位置极其隐秘又很难重现，跑一周才出现一次，如何查找故障？这就特别让人头痛了。所以，多线程编程要特别谨慎，极其的小心，充分的测试。

但是，各类场景似乎并没有协程的位置。更何况协程的处理模式，让熟悉线程概念的人不好理解。程序执行的时候，默认是顺序+分支+循环执行的。比如，程序从主函数执行，再进入一个函数，返回。再进另外的函数，循环操作，操作完毕后返回调用函数，最后程序退出。即便是多线程，另外的线程也大体是这么个操作模式。函数进入就有退出，一般我们理解的执行模式都是这样的。协程呢？看起来很怪异：协程函数进入，执行到半截，不继续执行了，改成执行另外的函数代码。它并不像通常的函数执行过程那般退出，返回一个值，倒像是挂起来了，从另外的代码处执行一段后，还能再回到刚才挂起的位置，记起原来的状态，继续操作。可是，这又不是多线程，是在一个线程内跳转执行的。这有悖于程序员的直觉和习惯。

前面提到的Python生成器功能，也会让人这个疑惑：函数执行到yield操作就返回了，怎么还能在原来的位置继续执行呢？

这里要理解透彻协程，就必须对其原理和实现做一些研究，才能知其所以然，才能应用起来胸有成竹，毫无畏惧。

协程是程序自己调度执行的方式，而非操作系统控制的多线程抢占式多任务。一般要编程语言自己去实现支持协程。

你可以把它想象成可以自己设置中断的子程序。中断意味着，不需要函数层层的栈操作过程，可以直接转移执行函数，再直接跳转回来。对比线程，它不需要多线程保护，无锁。因为本质还是一个线程的操作，但是因为OS的支持，可以这样进行。

协程，又称微线程，纤程。英文名Coroutine。协程的概念很早就提出来了，但直到最近几年才在某些语言（如Lua）中得到广泛应用。子程序，或者称为函数，在所有语言中都是层级调用，比如A调用B，B在执行过程中又调用了C，C执行完毕返回，B执行完毕返回，最后是A执行完毕。

所以子程序调用是通过栈实现的，一个线程就是执行一个子程序。子程序调用总是一个入口，一次返回，调用顺序是明确的。而协程的调用和子程序不同。

协程看上去也是子程序，但执行过程中，在子程序内部可中断，然后转而执行别的子程序，在适当的时候再返回来接着执行。

注意，在一个子程序中中断，去执行其他子程序，不是函数调用，有点类似CPU的中断。比如子程序A、B：假设由协程执行，在执行A的过程中，可以随时中断，去执行B，B也可能在执行过程中中断再去执行A，结果可能是：但是在A中是没有调用B的，所以协程的调用比函数调用理解起来要难一些。

看起来A、B的执行有点像多线程，但协程的特点在于是一个线程执行，那和多线程比，协程有何优势？最大的优势就是协程极高的执行效率。因为子程序切换不是线程切换，而是由程序自身控制，因此，没有线程切换的开销，和多线程比，线程数量越多，协程的性能优势就越明显。

第二大优势就是不需要多线程的锁机制，因为只有一个线程，也不存在同时写变量冲突，在协程中控制共享资源不加锁，只需要判断状态就好了，所以执行效率比多线程高很多。因为协程是一个线程执行，那怎么利用多核CPU呢？最简单的方法是多进程+协程，既充分利用多核，又充分发挥协程的高效率，可获得极高的性能。

“子程序就是协程的一种特例。”

以上引用内容来自廖雪峰博客。

协程是如何实现的呢？这里有一篇比较好的解释：一个“蝇量级” C 语言协程库

如果喜欢看代码一探究竟，可以打开代码库：

http://state-threads.sourceforge.net

https://swtch.com/libtask

https://github.com/stevedekorte/coroutine

其实协程的核心原理并不难，巧妙的使用goto都能模拟出来。使用系统提供的setjmp/longjmp，ucontext组件，都能实现协程。Python使用纯C编写，实现的原理实际也逃不出这些套路。铺垫了这么多，就是要消除我们对协程的神秘感，放心大胆的在合适的场合使用。

本章作者在开头，使用了一个简单的例子，解释了协程-使用yield-的调度运行。如果不太理解的，建议自己用iPython实际敲一遍代码，加强理解。

在一个例子中，说明如何使用装饰器提前预激协程。因为Python协程状态的设计，必须在实际调用前用next调用激活。

yield from语义作用比yield多很多，它实际上，引起了控制权的转移。它更近似其它语言的await关键字 – 从Python 3.5开始，async/await关键字已经加入到Python语言。具体请参考：https://docs.python.org/3/library/asyncio-task.html

yield from的主要作用是打开双向通道，把最外层的调用方与最内层的子生成器连接起来，这样二者可以直接发送、产出值。

后半截有个使用协程做离散事件仿真的案例。理解了协程的原理，本章的实例就很容易解释了。

协程不仅可以用于这类程序的控制功能，更大的应用场合是并发操作。因为使用它控制并发，资源消耗远远低于进程、线程的并发。系统可以轻松的并发成千上万个协程，处理各种事务，但同时启动这么多线程，光线程切换就消耗掉大半的系统能力了。

Go语言中，协程的概念与前面的进程、线程做了进一步的抽象合并。它更近似于多线程+多协程的综合模式，但是外表看是经过语言处理的，很简洁优美。你完全无须理会背后是如何操作的，但是理解其原理，会让你明白一些问题的来源。

名词解释：

M: OS thread, can also be called a kernel thread
P: processor, or scheduling context
G: Goroutine

通俗的说，Go的Goroutine系统，运行时启动了系统的多线程。每个线程会启动内部的处理器，自动轮流处理分配过来的协程代码。这个设计，很有特色。因为利用了多线程，所以go程序里面一样会面临到竞态、锁，同步问题。具体请参考文档。

《Go语言实战》的第6、7章，专门讲述这些问题，有兴趣可以读一下。

流畅的Python-Fluent Python读书笔记-16-协程

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可

发表回复取消回复

流畅的Python-Fluent Python读书笔记-16-协程

Related posts:

本作品采用 知识共享署名-相同方式共享 4.0 国际许可协议 进行许可

发表回复 取消回复

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可

发表回复取消回复