Python 异步调用命令行工具

当你在自己的 Python 程序中采用了基于事件循环的异步编程方法之后,你就会发现自己不自觉地被其牢牢吸引住,并不是说这一方法多么棒,而是因为你不得不想办法保证程序中的任意环节都不能是阻塞的!

例如当前的场景是希望从 MongoDB 中读取每一条未处理过的数据,下载并保存其中的图片信息,然后更新数据库的内容。Python 常用的 MongoDB 异步驱动是 Motor:

结合 asyncio 使用方法如下:

import motor.motor_asyncio
import asyncio

client = motor.motor_asyncio.AsyncIOMotorClient()
db = client.test_database

async def run():
    async for mm in db.test_database.find({"status": 0}):
        print(mm['img_src'])
        # Download Image Here
        # dl_img(mm['img_src'])

        await db.test_database.update({"_id": mm['_id']}, {"$set": {"status":1}})

loop = asyncio.get_event_loop()
loop.run_until_complete(run())

此时如果 dl_img() 处的操作是阻塞的,那么异步处理就没有意义了。当然这里依然可以借助异步网络请求库 aiohttp 来实现图片下载:

async with session.get(img) as resp:
    with open(img.split("/")[-1], 'wb') as fd:
        while True:
            chunk = await resp.content.read(1024)
            if not chunk:
                break
            fd.write(chunk)

当然也可以不需要自己动手下载,直接调用系统命令行工具(例如 wget)来完成下载任务。Python 通过 subprocess 标准库实现系统命令调用(取代旧的os.system(cmd)),执行下载任务只需要:

import subprocess as sb

sb.run(['wget', img], shell=True)

但是这种调用方式是无法直接在asyncio的事件循环中使用的,但是asyncio提供了对应的 subprocess接口

asyncio.create_subprocess_exec(*args, ...)
asyncio.create_subprocess_shell(cmd, ...)

这两个方法均返回一个 asyncio.subprocess.Process 实例,而它的接口设计完全模仿了 subprocess.Popen(上面提到 subprocess.run()的底层实现),因此很容易将其用法移植到事件循环中:

async def dl_img(src):
    dl = await asyncio.create_subprocess_shell('wget {} -O {}'.format(src, src.split("/")[-1])
    await dl.wait()

除了上面场景中的用法,也可以直接将命令行的执行作为任务放入事件循环:

loop = asyncio.get_event_loop()
sb = asyncio.create_subprocess_shell('exit 7', loop=loop)
proc = loop.run_until_complete(sb)
exitcode = loop.run_until_complete(proc.wait())

小结

在 Python 异步编程的意义就在于不要让 CPU 堵在 IO 上,因此需要在每一处涉及到阻塞的操作都需要注意使用正确的异步方法,而一旦这些操作被封装成异步的 Task 之后,其后续的调度执行就无需再顾虑了。

相关阅读:Python 异步网络爬虫 I | Python 异步网络爬虫 II


福利时间到,没时间解释了,赶紧上车!