Pythonista技术练级手册


格言:这个世界本来就是没有捷径的,你想要的生活就是需要自己的选择和努力的。

Pythonista技术练级手册


1. 写作背景

文章中部分参考自网络,如果涉及到侵权,联系我将对其删除。

  • 为什么要写这篇文章

周末总算有时间闲下来了,打算复习复习之前学习的Python知识,突然萌生了一个想法,要不写一系列文章来总结下关于Python入门到进阶的相关问题。我自己学习Python也有两年多了,期间从事过Python相关的运维和开发工作,但大多都不是公司的核心功能和项目,所以进步的空间不大。所以这里可能没有专业大佬那样比较深刻的认识和剖析,且部分观点也不一定全都正确,各位吸收有用的东西就可以了。

再者,今天写这篇总结,也是打算写给自己看的,算是对于自己之前学习经验的一个总结。正如上述格言所说的那样,你想要的生活就是需要自己的选择和努力,并没有任何捷径可言。所以对于今天自己的情况,只能说自己的努力还是不够,很多事情总是让自己骗得为自己开脱的借口而已,对于未来自己应该做出自己的决定和付出应有的努力。从今天开始,整理整理自己的衣着,去去尘土,轻装出发。

在写上述内容之前,我需要说明一个问题:我和大家一样都是一个普通人,而且还属于那种不够灵光的类型,所以这里分享的经验应该适用于在做的各位。对我而言,下周准备换岗,希望在新的岗位上,能够将Python给用起来,加油吧!


2. 发展历史

想要了解一门语言,我们需要先了解下它的特性和设计理念。

  • Python 语言发展概要

Python的创始人为吉多·范罗苏姆,他也称为Python之父。在1989年的圣诞节期间,吉多为了在阿姆斯特丹打发无聊的时间,决心开发一个新的脚本解释程序,作为ABC语言的一种继承。之所以选中Python作为程序的名字,是因为他是BBC电视剧——蒙提·派森的飞行马戏团的爱好者。ABC是由吉多参加设计的一种教学语言。就吉多本人看来,ABC这种语言非常优美和强大,是专门为非专业程式设计师设计的。但是ABC语言并没有成功,究其原因,吉多认为是非开放造成的。吉多决心在Python中避免这一错误,并取得了非常好的效果,完美结合了C和其他一些语言。

SchemeRubyPerl等动态类型编程语言一样,Python拥有动态类型系统和垃圾回收功能,能够自动管理内存使用,并且支持多种编程范式,包括面向对象、命令式、函数式和过程式编程。其本身拥有一个巨大而广泛的标准库,而且还有非常丰富且使用第三方库提供支持。

Python解释器本身几乎可以在所有的操作系统中运行,我们通常使用的Python版本为CPython,它是用C语言编写的、是一个由社群驱动的自由软件,目前由Python软件基金会管理。

目前吉多仍然是Python的主要开发者,决定整个Python语言的发展方向。Python社群经常情切的称呼他是仁慈的独裁者。但就在最近,吉多在mail.python.org中宣布将完全脱离决策层,不再领导该语言的发展,给自己一个永久的假期。对于Python的未来,我还是抱着比较乐观的态度,我们一起拭目以待吧!

Pythonista技术练级手册

  • Python 的设计哲学是优雅、明确、简单
>>> import this

The Zen of Python

by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!

--From: Python.org

3. 优势劣势

任何语言都不是十全十美的,都会有自己擅长和不擅长使用的地方。

相对于其他语法,Python的语法和格式足够优美和简约,所以这也是我在大学里面选择Python的原因。下面,我们就一起看看Python的优势和劣势。

  • Python 的优势
    • 对于刚入门的小白来说易学且易用
    • 代码的缩进形式让可读性更强
    • 有丰富的语法糖让语法变得简单
    • 对于初创的公司来说开发效率很高
    • 提供了很富的API接口和第三方扩展库
    • 胶水语言的特性让其在各个领域都有建树
    • 隐藏底层细节可以让开发者有更多的精力关注于业务开发

虽然使用Python作为核心开发语言的公司很少,但是几乎所有的公司都涉及到Python语言的相关开发,如爬虫、人工智能、科学计算等。那为什么呢?究其原因,是因为很容易上手且语法很简洁。作为一个当入门的小白,可能很轻松的使用其语法写出一个像模像样的工具或者程序来。加上作为各个系统之间的胶水语言特性,以及丰富的第三方扩展库,使Python越来越受欢迎了。

  • Python 的劣势
    • 运行速度慢,通常比Java语言慢3-5
    • GIL的存在导致Python无法做到真正的并发
    • 很少有大公司的核心系统使用Python开发

如果对于速度有很强的要求,可以将核心逻辑使用C++等语言进行改写。当然在现今的互联网时代,硬件资源往往比开发者便宜很多。如果架构合理的话,简单的通过堆机器、升配置的方式就进行解决的。尤其在Web开发这个领域,真的到了那个阶段之后,公司将不再缺人、机器和时间,可以对代码进行重构来解决。

我们认为Python慢的主要原因是对开发者经验有极高的要求,优良的代码可以让程序跑的很快且很酷。同样,有时候程序慢不光光是Python代码引起,有可能是数据库连接等非Python的第三方问题。

Python还有一个总是被吐槽的槽点,那就是全局解释器锁(GIL),所以我们经常会听到:Python 下多线程是鸡肋,推荐使用多进程!正是因为GIL的存在,导致CPython解释器无法实现正在意义上的并发。因为CPython的内存管理不是线程安全的,所以需要借助GIL来保证多个原生的线程不会并发的执行Python的字节码。所谓存在即合理,它在单线程模式下是更快的且和C库结合很方便。同时,在Python2.6的时候引入了多进程模块,可以通过创建独立的进程来解决并行化。

我们需要注意的是,Python2Python3中关于GIL实现方式有所不同,在Python3中有所改进。有兴趣的同学,可以自己通过阅读源码来研究研究哈。

最后就是,政治正确往往比技术正确更好。很多BAT出来的人去了小公司,往往会使用自己熟悉的技术栈进行开发,如JavaPHP等。这就导致一个恶性的循环,使用Python的大公司越来越少。再者就是,公司招聘到优秀的Python者很难很难,且有些问题是GoogleStack Overflow中没办法解决的问题。贸然使用Python,如果出现了问题,那时有没有人能够填坑,这将是一个非常可怕的事情。


4. 全局解释器锁

  • Python 程序为什么会慢?

Python设计之初,考虑到数据安全这个问题,才引入了全局解释器锁这个概念。我们都知道在单核CPU下的多线程其实都只是并发而不是并行,因为每个CPU在同一时间只能执行一个线程。并行是指两个或者多个事件在同一时刻发生,而并发是指两个或多个事件在同一时间间隔内发生。

Python多线程模式下,每个线程的执行方式是:首先获取GIL,然后执行代码直到sleep或者是Python虚拟机将其挂起,最后释放GIL。可见,某个线程想要执行,必须先拿到GIL,我们可以把GIL看作是通行证,并且在一个Python进程中,GIL只有一个。拿不到通行证的线程,就不允许进入CPU执行。

Python2.x里,GIL的释放逻辑是当前线程遇见I/O操作或者ticks计数达到100才进行释放。这里的ticks可以看作是Python自身的一个计数器,专门做用于GIL,每次释放后归零,这个计数可以通过sys.setcheckinterval来调整。

而每次释放GIL锁,线程进行锁竞争、切换线程,会消耗资源。并且由于GIL锁存在,Python里一个进程永远只能同时执行一个线程,这就是为什么在多核CPUPython的多线程效率并不高。

  • Python 多线程是不是完全没用?

CPU密集型代码,如各种循环处理、计数等。在这种情况下,ticks计数很快就会达到阈值,然后触发GIL的释放与再竞争(多个线程来回切换当然是需要消耗资源的),所以Python 下的多线程对 CPU 密集型代码并不友好

I/O密集型代码,如文件处理、网络爬虫等,多线程能够有效提升效率。单线程下有I/O操作会进行I/O等待,造成不必要的时间浪费,而开启多线程能在线程A等待时,自动切换到线程B,可以不浪费CPU的资源,从而能提升程序执行效率。所以Python 的多线程对 I/O 密集型代码比较友好

而在Python3.x中,GIL不使用ticks计数,改为使用计时器,即执行时间达到阈值后,当前线程释放GIL。这样对CPU密集型程序更加友好,但依然没有解决GIL导致的同一时间只能执行一个线程的问题,所以效率依然不尽如人意。

多核多线程比单核多线程更差。原因是单核下多线程,每次释放GIL,唤醒的那个线程都能获取到GIL锁,所以能够无缝执行。但在多核下,如CPU0释放GIL后,其他CPU上的线程都会进行竞争,但GIL可能会马上又被CPU0拿到,导致其他几个CPU上被唤醒后的线程会醒着等待到切换时间后又进入待调度状态,这样会造成线程颠簸(thrashing),导致效率更低。

经常我们会听到老手说:Python 下想要充分利用多核 CPU,就用多进程。原因是每个进程都有各自独立的GIL,互不干扰,这样就可以真正意义上的并行执行,所以在Python中,多进程的执行效率优于多线程(仅仅针对多核CPU而言)。

所以我们能够得出结论:多核下,想做并行提升效率,比较通用的方法是使用多进程,能够有效提高执行效率


5. 版本主要区别

当选择Python解释器的时候,一个首先要面对的问题是:我应该选择Python2还是Python3

>>> Python3 是未来 <<<

  • 现状的基本要点

    • 如今大部分生产应用使用Python2.7
    • Python3已准备好用于生产应用的部署
    • Python2.7直到2020前只会得到必要的安全更新
    • Python涵盖了Python3Python2
  • 我的一些建议

    • Python3用于新的Python应用程序
    • 如果您是第一次学习Python,熟悉Python2.7将是非常有用的,但学习Python3更有用
    • 已经构建的软件通常依赖于Python2.7
    • 如果您正在编写一个新的开源Python库,最好同时为Python23编写

>>> Python2 和 Python3 的主要区别 <<<

  • 统一了字符编码支持
    • 之所以放到第一条,不是因为它十分重要,而且这点经常会被涉及到。
  • 增加了新的语法
    • print/exec等成为了函数,格式化字符串变量,类型标注,添加了nonlocalyield fromasync/awaityield for关键词和__annotations____context____traceback____qualname__dunder方法。
  • 修改了一些语法
    • metaclassraisemapfilter以及dictitems/keys/values方法返回迭代对象而不是列表,描述符协议,保存类属性定义顺序,保存关键字参数顺序。
  • 去掉了一些语法
    • cmp<>(也就是!=)、xrange(其实就是range)、不再有经典类。
  • 增加一些新的模块
    • concurrent.futuresvenvunittest.mockasyncioselectorstyping等。
  • 修改了一些模块
    • 主要是对模块添加函数/类/方法(如functools.lru_cachethreading.Barrier)或者参数。
  • 模块改名
    • 把一些相关的模块放进同一个包里面(如httplib, BaseHTTPServer, CGIHTTPServer, SimpleHTTPServer, Cookie, cookielib放进了http里面,urllib, urllib2, urlparse, robotparse放进了urllib里面),例如SocketServer改成了socketserverQueue改成queue等。
  • 去掉了一些模块或者函数
    • gopherlibmd5contextlib.nestedinspect.getmoduleinfo等。去掉的内容的原因主要是:过时的技术产物,已经没什么人在用了;出现了新的替代产物后者被证明存在意义不大。理论上对于开发者影响很小。
  • 优化
    • 重新实现了dict可以减少20%-25%的内存使用;提升pickle序列化和反序列化的效率;collections.OrderedDict改用C实现;通过os.scandirglob模块中的glob()iglob()进行优化,使得它们现在大概快了3-6倍等.. 这些都是喜大普奔的好消息,同样开发者不需要感知,默默的就会让结果变得更好。
  • 其他
    • 构建过程、CAPI、安全性等方面的修改,通常对于开发者不需要关心。

>>> Python 的常见解释器 <<<

  • CPython

    • CPython使用C语言进行编写,它把Python代码编译成中间态的字节码,然后由虚拟机解释。CPythonPython包和C扩展模块提供了最大限度的兼容。如果您正在写开源的Python代码,并希望有尽可能广泛的用户,用CPython是最好的。使用依赖C扩展的包,CPython是您唯一的选择。所有版本的Python语言都用C实现,因为CPython是参考实现。
  • PyPy

    • PyPy是用RPython实现的解释器。RPythonPython的子集,具有静态类型。这个解释器的特点是即时编译,支持多重后端,如CCLIJVMPyPy旨在提高性能,同时保持最大兼容性。如果您正在寻找提高您的Python代码性能的方法,值得试一试PyPy。在一套的基准测试下, 它目前比CPython的速度快超过5倍 。PyPy支持Python2.7PyPy3,发布的Beta版,支持Python3
  • Jython

    • Jython是一个将Python代码编译成Java字节码的实现, 运行在JVM上。另外,它可以像是用Python模块一样,导入 并使用任何Java类。如果您需要与现有的Java代码库对接或者基于其他原因需要为JVM编写Python代码,那么Jython是最好的选择。Jython现在支持到Python2.7
  • IronPython

    • IronPython是一个针对.NET框架的Python实现。它可以用Python.NET framework的库,也能将Python代码暴露给给.NET框架中的其他语言。Python Tools for Visual Studio直接集成了IronPythonVisual Studio开发环境中,使之成为Windows开发者的理想选择。IronPython支持Python2.7
  • PythonNet

    • Python for .NET是一个近乎无缝集成的, 提供给本机已安装的Python .NET公共语言运行时(CLR)包。它采取与IronPython相反的方法,与其说是竞争,不如说是互补。PythonNetMono相结合使用,通过.NET框架,能使Python在非windows系统上完成操作。它可以在除外IronPython的环境中无冲突运行。PythonNet支持Python2.32.7

6. 企业应用场景

学习了Python之后,我们可以从事哪些工作呢?

  • Web 开发
    • 知名框架:FlaskDjangoTornadoPyramidaiohttpsanic
    • 知名公司:豆瓣、GoogleYoutubeInstagram、知乎、搜狐
  • 爬虫开发
    • 使用方式:写爬虫应该是最不需要争议的
    • 主要用途:数据采集、舆情分析、网页抓取等
  • 运维开发
    • 专业要求:即懂运维,又懂开发
    • 负责场景:运维自动化平台、资源监控、上下线的任务调度、持续集成等
  • 其他场景
    • 数据分析:数据清洗、ETL、报表展示
    • 图形开发:TKinterwxPythonPyQt
    • 游戏开发:PyGame

7. 我的学习经验

下面的自学经验并非是我的,而是董大的,非科班出身到现在的高级开发工程师。

  • 自学 Python
    • 之前学习Python都是从看书开始的,因为没有什么视频教程和好的分享,而如何将书从厚读薄变成了一门学问。我们应该选择相对全面的书,让自己知道该语言适用的范围和边际。之后对不懂的地方,多多练习和专业。二八法则,各个击破。
  • 使用 Python 工作
    • 在做运维的时候,可以尝试写一些Python脚本来处理一些日常需要重复操作的任务。在做运维开发的时候,肯定是先要深入的了解该项目的架构和逻辑流程,方便之后接手和维护的时候更加顺手和方便。之后可以尝试写一些前端页面,配合后端程序一起使用,因为前后端一起写沟通成本很小。
  • 代码评审和贡献代码
    • 可以找一些同事对最近自己写的代码进行评审,发现一些自己的写的不够规范且不够优秀的地方,加以改之。之后开始,慢慢阅读开源项目,蜕变的阶段从此开始。
  • 看更多的书和博客
    • 写博客一方面可以对自己工作和学习的总结,另一方面对以后找工作很好的用处。希望有能力的情况下,多多坚持。向同事学习,吸收他们的优点地方。
  • 读/贡献 Python 标准库
    • 优秀的开源项目源代码,同时要时刻提醒自己写优秀的代码。
    • 对写的项目未雨绸缪,考虑到未来半年到一年的业务增长,像架构师进发。
    • 读源代码要从宏观上理解,不必做到每一行都懂。
    • 回顾是一个好东西,可别忘了。

我走到现在其实没有偶然,也没有捷径。这个世界本来就是没有捷径的,你想要的生活就是需要自己的选择和努力的。今天 Python2 官方已经不再维护了,那就愉快的开始使用 Python3 吧!


文章作者: Escape
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Escape !
  目录