廖雪峰的python教程(1)

教程网址: https://www.liaoxuefeng.com/wiki/1016959663602400

空值

空值是Python里一个特殊的值,用None表示。None不能理解为0,因为0是有意义的,而None是一个特殊的空值。

字符串编码

计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。

Unicode把所有语言都统一到一套编码里,这样就不会再有乱码问题了。Unicode标准也在不断发展,但最常用的是UCS-16编码,用两个字节表示一个字符(如果要用到非常偏僻的字符,就需要4个字节)。现代操作系统和大多数编程语言都直接支持Unicode。

如果你写的文本基本上全部是英文的话,用Unicode编码比ASCII编码需要多一倍的存储空间,在存储和传输上就十分不划算。

所以,本着节约的精神,又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间.

字符 ASCII Unicode UTF-8
A 01000001 0000000001000001 01000001
x 0100111000101101 111001001011100010101101

总结一下现在计算机系统通用的字符编码工作方式:

  • 在计算机内存中,统一使用Unicode编码,当需要保存到硬盘或者需要传输的时候,就转换为UTF-8编码。
  • 用记事本编辑的时候,从文件读取的UTF-8字符被转换为Unicode字符到内存里,编辑完成后,保存的时候再把Unicode转换为UTF-8保存到文件
  • 浏览网页的时候,服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器

内存中用 Unicode, 文件中或者网络传输中用 UTF-8, 节省空间.

在最新的Python 3版本中,字符串是以Unicode编码的.

之前提到计算机只能处理数字, 字符和数字之间需要响应的转换.

对于单个字符的编码,Python提供了ord()函数获取字符的整数表示,chr()函数把编码转换为对应的字符:

  • chr(): 数字转字符.built-in function chr(), which is an abbreviation of the word "character".
  • ord():字符转数字. The word that built-in function ord() abbreviate for"ordinal".It's an abbreviation for "ordinal". Ordinal numbers are counting numbers -- i.e., 1, 2, 3. ord()converts the character into its (countable) position in the character set.
  • 如果知道字符的整数编码,还可以用十六进制写文本, 和chr() 字符拼接等价:
    • '\u4e2d\u6587'
    • chr(20013) +chr(25991)
>>> print('包含中文的str')
包含中文的str
>>> ord("中")
20013
>>> ord("中国")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: ord() expected a character, but string of length 2 found
>>> chr(20013)
'中'
>>> chr(25991)
'文'
>>> s = chr(20013) +chr(25991)
>>> s
'中文'
>>> t = '\u4e2d\u6587'
>>> s==t
True

Python的字符串类型是str,在内存中以Unicode表示,一个字符对应若干个字节。

Python对bytes类型的数据用带b前缀的单引号或双引号表示,要注意区分'ABC'和b'ABC',前者是str,后者虽然内容显示得和前者一样,但bytes的每个字符都只占用一个字节, 所能转换的字符是有限的.

  • 以Unicode表示的str通过encode()方法可以编码为指定的bytes
    • 纯英文的str可以用ASCII编码为bytes,内容是一样的
    • 含有中文的str可以用UTF-8编码为bytes。
    • 含有中文的str无法用ASCII编码,因为中文编码的范围超过了ASCII编码的范围,Python会报错。
    • 在bytes中,无法显示为ASCII字符的字节,用\x##显示
  • 反过来,如果我们从网络或磁盘上读取了字节流,那么读到的数据就是bytes。要把bytes变为str,就需要用decode()方法
    • 如果bytes中包含无法解码的字节,decode()方法会报错
    • 如果bytes中只有一小部分无效的字节,可以传入errors='ignore'忽略错误的字节
  • 在操作字符串时,我们经常遇到str和bytes的互相转换。为了避免乱码问题,应当始终坚持使用UTF-8编码对str和bytes进行转换。
  • Python当然也支持其他编码方式,比如把Unicode编码成GB2312.但这种方式纯属自找麻烦,如果没有特殊业务要求,请牢记仅使用UTF-8编码。
  • len()函数计算的是str的字符数,如果换成bytes,len()函数就计算字节数
    • 1个中文字符经过UTF-8编码后通常会占用3个字节,而1个英文字符只占用1个字节。
>>> 'ABC'.encode('ascii')
b'ABC'

>>> '中文'.encode('utf-8')
b'\xe4\xb8\xad\xe6\x96\x87'

>>> '中文'.encode('ascii')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

>>> b'ABC'.decode('ascii')
'ABC'

>>> b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')
'中文'

>>> b'\xe4\xb8\xad\xff'.decode('utf-8')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 3: invalid start byte

>>> b'\xe4\xb8\xad\xff'.decode('utf-8', errors='ignore')
'中'

>>> s= '中文'.encode('gb2312')
>>> s
b'\xd6\xd0\xce\xc4'

>>> s.decode('utf-8')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd6 in position 0: invalid continuation byte
>>> s.decode('gb2312')
'中文'

>>> len(b'ABC')
3

>>> len('中文')
2

>>> len('ABC')
3

>>> len('中文'.encode('utf-8'))
6

由于Python源代码也是一个文本文件,所以,当你的源代码中包含中文的时候,在保存源代码时,就需要务必指定保存为UTF-8编码。

申明了UTF-8编码并不意味着你的.py文件就是UTF-8编码的,必须并且要确保文本编辑器正在使用UTF-8 without BOM编码

BOM是Byte Order Mark的缩写,就是字节序标记。UTF-8不存在字节序的问题,UTF-8不需要BOM来表明字节顺序。

当Python解释器读取源代码时,为了让它按UTF-8编码读取,我们通常在文件开头写上如下的行:

# -*- coding: utf-8 -*-

字符串格式化

  • c语言风格的格式化 %
    • 有些时候,字符串里面的%是一个普通字符,这个时候就需要转义,用%%来表示一个%
  • 使用字符串的format()方法,它会用传入的参数依次替换字符串内的占位符{0}、{1}, 占位符编号可以省略, 有格式定义时冒号不能省略,如 .2f. 可以使用c语言风格定义输出格式
  • f-string:变量名替代风格,使用以f开头的字符串,称之为f-string,它和普通字符串不同之处在于,字符串如果包含{xxx},就会以对应的变量替换.这里依然可以使用c语言风格定义输出格式

c语言风格的格式化常见的占位符:

占位符 替换内容
%d 整数
%f 浮点数
%s 字符串
%x 十六进制整数
>>> 'growth rate: %.2f %%' % 7
'growth rate: 7.00 %'

>>> 'Hello, {}, 成绩提升了 {:.2f}%'.format('小明', 17.125)
'Hello, 小明, 成绩提升了 17.12%'

>>> 'Hello, {:}, 成绩提升了 {:.2f}%'.format('小明', 17.125)
'Hello, 小明, 成绩提升了 17.12%'

>>> 'Hello, {0:}, 成绩提升了 {1:.2f}%'.format('小明', 17.125)
'Hello, 小明, 成绩提升了 17.12%'

>>> r = 2.5
>>> s = 3.14 * r ** 2
>>> print(f'The area of a circle with radius {r} is {s:.2f}')
The area of a circle with radius 2.5 is 19.62

元组 turple

不可变的tuple有什么意义?因为tuple不可变,所以代码更安全。如果可能,能用tuple代替list就尽量用tuple。

tuple的陷阱:当你定义一个tuple时,在定义的时候,tuple的元素就必须被确定下来.

空的元组和一个元素的元组的定义:

turple_empty = ()
turple_one_item = (1,)

字典 dict

字典的get 方法存在的问题是, 对应的值本身有可能就是 None或者指定的值 保险的做法是:

  • 用in判断是否存在key
  • 如果存在, 再获取值: 用get方法或者 d[key]

教程中用get方法判断是否存在key是错误的.

# 定义字典
d = {}
d = {'Michael': 95, 'Bob': 75, 'Tracy': 85}
d2 =dict()

# 判断 key 是否存在, 用in
print('Bob' in d)  # True
print('Bob' in d.keys())   # True
print('bob' in d.keys())   # False

# 获取 key 对应的值: get()方法
# 如果存在,返回的是 key 对应的 value
# 如果key不存在,可以返回None,或者自己指定的value
print(d.get('Bob'))     # 75
print(d.get('Bob',-1))  # 75
print(d.get('bob'))     # None
print(d.get('bob',-1))  # -1

# 删除 key 和对应的值
# 方法1: d.pop(key): key 如果不存在会报错
# 方法2: del d[key]

try:
    d.pop('Bob')
    d.pop('Bob')
except KeyError as e:
    print('KeyError')
    print(e)   # 仅打印错误提示信息, 不会打印错误类型

print(d) # {'Michael': 95, 'Tracy': 85}

try:    
    del d['Michael']
    del d['Michael']
except KeyError as e:
    print('KeyError')
    print(e)   # 仅打印错误提示信息, 不会打印错误类型

print(d) # {'Tracy': 85}

和list比较,dict有以下几个特点:

  • 查找和插入的速度极快,不会随着key的增加而变慢. 貌似数据量很大时,插入会变慢?
  • 需要占用大量的内存,内存浪费多。dict是用空间来换取时间的一种方法

而list相反:

  • 查找和插入的时间随着元素的增加而增加;
  • 占用空间小,浪费内存很少。

这是因为dict根据key来计算value的存储位置,这个通过key计算位置的算法称为哈希算法(Hash).

dict的key必须是不可变对象。在Python中,字符串、整数等都是不可变的,因此,可以放心地作为key。

集合

set和dict的唯一区别仅在于没有存储对应的value,但是,set的原理和dict一样,所以,同样不可以放入可变对象,因为无法判断两个可变对象是否相等,也就无法保证set内部“不会有重复元素”。

s = set([1, 2, 3])
print(s)

# 通过add(key)方法可以添加元素到set中
s.add(100)
print(s)

# 通过remove(key)方法可以删除元素
s.remove(100)
print(s)

'''
{1, 2, 3}
{1, 2, 3, 100}
{1, 2, 3}
'''

不可变对象

对于不变对象来说,调用对象自身的任意方法,也不会改变该对象自身的内容。相反,这些方法会创建新的对象并返回,这样,就保证了不可变对象本身永远是不可变的。

>>> s = 'abc'
>>> id(s)
1562739064432
>>> t = s.replace('a',"A")
>>> s
'abc'
>>> t
'Abc'
>>> id(s)
1562739064432
>>> id(t)
1562740560176

>>> i = 5
>>> id(i)
140713442805552
>>> i += 1
>>> i
6
>>> id(i)
140713442805584

>>> f = 5.0
>>> id(f)
1562740291920
>>> f += 1
>>> f
6.0
>>> id(f)
1562740292048

>>> aList = [1,2,3]
>>> id(aList)
1562740576832
>>> aList.append(5)
>>> aList
[1, 2, 3, 5]
>>> id(aList)
1562740576832

函数

1.函数别名

i = -3
print(abs(i)) # 3

# 函数名其实就是指向一个函数对象的引用
#完全可以把函数名赋给一个变量,相当于给这个函数起了一个“别名”
f = abs
print(f(i)) # 3

2.默认参数

  • Python函数在定义的时候,默认参数的值就被计算出来了,因为默认参数也是一个变量,它指向该参数对应的对象,每次调用该函数,如果改变了参数的内容,则下次调用时,默认参数的内容就变了,不再是函数定义时最初的参数了。定义默认参数要牢记一点:默认参数必须指向不变对象!
  • 为什么要设计str、None这样的不变对象呢?因为不变对象一旦创建,对象内部的数据就不能修改,这样就减少了由于修改数据导致的错误。此外,由于对象不变,多任务环境下同时读取对象不需要加锁,同时读一点问题都没有。我们在编写程序时,如果可以设计一个不变对象,那就尽量设计成不变对象。
import traceback
# 数据类型检查可以用内置函数isinstance()实现
def my_abs(x):
    if not isinstance(x, (int, float)):
        raise TypeError('bad operand type')
    if x >= 0:
        return x
    else:
        return -x

try:
    my_abs('a')
except Exception as e:
    traceback.print_exc() # 打印完整的错误信息

print(my_abs(-5.5)) # 5.5

def return_multi(a,b):
    return a,b # 实际上这是定义了一个元组类型的返回值

print(return_multi(2,3)) # (2, 3)

# 函数默认参数有个最大的坑

def func(aList=[]):
    aList.append('hello')
    return aList

a=func()
print(a)
a=func()
print(a)
a=func()
print(a)
a=func()
print(a)
'''
['hello']
['hello', 'hello']
['hello', 'hello', 'hello']
['hello', 'hello', 'hello', 'hello']
'''

a=func(['hello'])
print(a) # ['hello', 'hello']

# 默认参数修改为不可变参数
def func2(aList=None):
    if aList is None:
        aList = []

    aList.append('hello')
    return aList

a=func2()
print(a)
a=func2()
print(a)
a=func2()
print(a)
a=func2()
print(a)
'''
['hello']
['hello']
['hello']
['hello']
'''

3. 可变参数,关键字参数

  • 可变参数就是传入的参数个数是可变的,可以是1个、2个到任意个,还可以是0个。
  • *args表示把args这个list的所有元素作为可变参数传进去。这种写法相当有用,而且很常见。
  • 可变参数允许你传入0个或任意个参数,这些可变参数在函数调用时自动组装为一个tuple
  • 关键字参数允许你传入0个或任意个含参数名的参数,这些关键字参数在函数内部自动组装为一个dict
  • 关键字参数可以扩展函数的功能。比如,在person函数里,我们保证能接收到name和age这两个参数,但是,如果调用者愿意提供更多的参数,我们也能收到。
  • 可以解包 dict, 传入关键字参数
def func_sum(*args): # *args 是惯用法, 也可以用 *其他名字 替代
    s = 0
    for item in args:
        s +=  item

    return s


print(func_sum())         # 0
print(func_sum(1,2,3))    # 6
print(func_sum(1,2,3,4))  # 10

def person(name, age, **kw):
    return ('name:', name, 'age:', age, 'other:', kw)

print(person('Tom',39)) 
# ('name:', 'Tom', 'age:', 39, 'other:', {})

print(person('Adam', 45, gender='M', job='Engineer'))
# ('name:', 'Adam', 'age:', 45, 'other:', {'gender': 'M', 'job': 'Engineer'})

# 可以解包 dict, 传入关键字参数
extra = {'city': 'Beijing', 'job': 'Engineer'}
print(person('Jack', 24, **extra))
# ('name:', 'Jack', 'age:', 24, 'other:', {'city': 'Beijing', 'job': 'Engineer'})
'''
**extra表示把extra这个dict的所有key-value用关键字参数传入到
函数的**kw参数,kw将获得一个dict,注意kw获得的dict是extra的一份拷贝
,对kw的改动不会影响到函数外的extra
'''

4.命名关键字参数

如果要限制关键字参数的名字,就可以用命名关键字参数,例如,只接收city和job作为关键字参数。这种方式定义的函数如:

def person(name, age, *, city, job):
    print(name, age, city, job)
  • 和关键字参数 **kw 不同,命名关键字参数需要一个特殊分隔符 **后面的参数被视为命名关键字参数。
  • 如果函数定义中已经有了一个可变参数,后面跟着的命名关键字参数就不再需要一个特殊分隔符*
def person2(name, age, *, city, job):
    return (name, age, city, job)

print(person2('Jack', 24, city='Beijing', job='Engineer'))
# ('Jack', 24, 'Beijing', 'Engineer')

def person3(name, age, *args, city, job):
    return (name, age, args, city, job)

print(person3('Sandy', 55, city='Nanjing', job='Teacher'))
# ('Sandy', 55, (), 'Nanjing', 'Teacher')
print(person3('Sandy', 55, 'test1','test2',city='Nanjing', job='Teacher'))
# ('Sandy', 55, ('test1', 'test2'), 'Nanjing', 'Teacher')

5.参数组合

在Python中定义函数,可以用必选参数、默认参数、可变参数、关键字参数和命名关键字参数,这5种参数都可以组合使用。但是请注意,参数定义的顺序必须是:必选参数、默认参数、可变参数、命名关键字参数和关键字参数。所以,对于任意函数,都可以通过类似func(*args, **kw)的形式调用它,无论它的参数是如何定义的。

  • *args是可变参数,args接收的是一个tuple;
  • `**kw是关键字参数,kw接收的是一个dict。
  • 使用*args和**kw是Python的习惯写法,当然也可以用其他参数名,但最好使用习惯用法。
  • 命名的关键字参数是为了限制调用者可以传入的参数名,同时可以提供默认值。
  • 定义命名的关键字参数在没有可变参数的情况下不要忘了写分隔符*,否则定义的将是位置参数。

递归函数

如果一个函数在内部调用自身本身,这个函数就是递归函数。

  • 优点: 理论上,所有的递归函数都可以写成循环的方式,但循环的逻辑不如递归清晰。
  • 缺点: 太耗费内存; 容易溢出

使用递归函数需要注意防止栈溢出。在计算机中,函数调用是通过栈(stack)这种数据结构实现的,每当进入一个函数调用,栈就会加一层栈帧,每当函数返回,栈就会减一层栈帧。由于栈的大小不是无限的,所以,递归调用的次数过多,会导致栈溢出。

解决递归调用栈溢出的方法是通过尾递归优化,事实上尾递归和循环的效果是一样的,所以,把循环看成是一种特殊的尾递归函数也是可以的。

尾递归是指,在函数返回的时候,调用自身本身,并且,return语句不能包含表达式。这样,编译器或者解释器就可以把尾递归做优化,使递归本身无论调用多少次,都只占用一个栈帧,不会出现栈溢出的情况。

Python标准的解释器没有针对尾递归做优化,任何递归函数都存在栈溢出的问题。

解决方法1: 可以用 Y-Combinator 构造解决: https://zhuanlan.zhihu.com/p/37060182

解决方法2: 修改python的默认递归深度

import sys
# 计算阶乘
def fact(n):
    if n==1:
        return 1

    return n * fact(n - 1)

print(fact(10)) # 3628800
try:
    print(fact(1000))
except Exception as e:
    print(e)

# maximum recursion depth exceeded in comparison

print(sys.getrecursionlimit()) # 1000, 有些情况下默认是其他值, 如3000
sys.setrecursionlimit(10**6)
print(fact(1000))
'''

'''

列表生成式

import os

print([x*x for x in range(1,11)])
# [1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

# 使用两层循环,可以生成全排列
print([a + b for a in 'hello' for b in 'world!'])
# ['hw', 'ho', 'hr', 'hl', 'hd', 'h!', 'ew', 'eo', 'er', 'el', 'ed', 'e!', 'lw', 'lo', 'lr', 'll', 'ld', 'l!', 'lw', 'lo', 'lr', 'll', 'ld', 'l!', 'ow', 'oo', 'or', 'ol', 'od', 'o!']

# 列出当前目录下的所有文件和目录名
[d for d in os.listdir('.')] # os.listdir可以列出文件和目录

# for 后的 if 不能带 else
print([x for x in range(10) if x%2==0]) # [0, 2, 4, 6, 8]

# if else 可以单独用
print([x if x%2==0 else -x for x in range(10)]) 
[0, -1, 2, -3, 4, -5, 6, -7, 8, -9]

生成器

通过列表生成式,我们可以直接创建一个列表。但是,受到内存限制,列表容量肯定是有限的。而且,创建一个包含100万个元素的列表,不仅占用很大的存储空间,如果我们仅仅需要访问前面几个元素,那后面绝大多数元素占用的空间都白白浪费了。

所以,如果列表元素可以按照某种算法推算出来,那我们是否可以在循环的过程中不断推算出后续的元素。

在Python中,这种一边循环一边计算的机制,称为生成器:generator。

  • 要创建一个generator,有很多种方法。第一种方法很简单,只要把一个列表生成式的[]改成(),就创建了一个generator
    • 可以通过next()函数获得generator的下一个返回值
    • generator保存的是算法,每次调用next(g),就计算出g的下一个元素的值,直到计算到最后一个元素,没有更多的元素时,抛出StopIteration的错误
  • 第二种方法: 如果一个函数定义中包含yield关键字,那么这个函数就不再是一个普通函数,而是一个generator
    • 最难理解的就是generator和函数的执行流程不一样。函数是顺序执行,遇到return语句或者最后一行函数语句就返回。而变成generator的函数,在每次调用next()的时候执行,遇到yield语句返回,再次执行时从上次返回的yield语句处继续执行。
# 创建L和g的区别仅在于最外层的[]和()
# L是一个list,而g是一个generator。
L = [x for x in range(10)]
g = (x for x in range(10))

# 可以通过next()函数获得generator的下一个返回值
print(next(g))
print(next(g))
print(next(g))
print(next(g))
print(next(g))
print(next(g))
print(next(g))
print(next(g))
print(next(g))
'''
0
1
2
3
4
5
6
7
8
'''

for i in g:
    print(i)

# 9
# 之前已经循环过 0~8, 这里只打印9 

# 斐波拉契数列(Fibonacci),
# 除第一个和第二个数外,任意一个数都可由前两个数相加得到:
# 1, 1, 2, 3, 5, 8, 13, 21, 34, ...
# 斐波拉契数列用列表生成式写不出来,
# 但是,用函数把它打印出来却很容易

print('\n')

def fib(max):
    # 输出斐波那契数列的前N个数
    a,b,n = 0,1,0
    while n < max:
        n += 1
        print(n,b)
        a, b = b, a + b
    return 'done'

print(fib(10))
'''
1 1
2 1
3 2
4 3
5 5
6 8
7 13
8 21
9 34
10 55
done
'''

print('\n')

# fib函数实际上是定义了斐波拉契数列的推算规则
# 可以从第一个元素开始,推算出后续任意的元素,这种逻辑其实非常类似generator

def fib2(max):
    # 输出斐波那契数列的前N个数
    a,b,n = 0,1,0
    while n < max:
        n += 1
        yield b
        a, b = b, a + b

for b in fib2(10):
    print(b)
'''
1
1
2
3
5
8
13
21
34
55
'''

杨辉三角

'''
杨辉三角定义如下:
          1
         / \
        1   1
       / \ / \
      1   2   1
     / \ / \ / \
    1   3   3   1
   / \ / \ / \ / \
  1   4   6   4   1
 / \ / \ / \ / \ / \
1   5   10  10  5   1
把每一行看做一个list,试写一个generator,不断输出下一行的list
# 期待输出:
# [1]
# [1, 1]
# [1, 2, 1]
# [1, 3, 3, 1]
# [1, 4, 6, 4, 1]
# [1, 5, 10, 10, 5, 1]
# [1, 6, 15, 20, 15, 6, 1]
# [1, 7, 21, 35, 35, 21, 7, 1]
# [1, 8, 28, 56, 70, 56, 28, 8, 1]
# [1, 9, 36, 84, 126, 126, 84, 36, 9, 1]
'''

def yhsj(num_line):
    # num_line >=1
    theList = [1]
    temp_num_line = 1
    while temp_num_line<=num_line:
        yield theList
        temp_num_line += 1
        theList.append(1) # 长度加1, 最后一个值为1

        # 从倒数第2个开始更新数值
        if len(theList)>2:
            for i in range(-2,-len(theList),-1):
                theList[i] = theList[i] + theList[i-1]

for sj in yhsj(10):
    print(sj)
'''
[1]
[1, 1]
[1, 2, 1]
[1, 3, 3, 1]
[1, 4, 6, 4, 1]
[1, 5, 10, 10, 5, 1]
[1, 6, 15, 20, 15, 6, 1]
[1, 7, 21, 35, 35, 21, 7, 1]
[1, 8, 28, 56, 70, 56, 28, 8, 1]
[1, 9, 36, 84, 126, 126, 84, 36, 9, 1]
'''

g = yhsj(10)
print(g) # <generator object yhsj at 0x000001D7183F6AC0>

区分普通函数和generator函数:

  • 普通函数调用直接返回结果
  • generator函数的“调用”实际返回一个generator对象: <generator object yhsj at 0x000001D7183F6AC0>

可迭代对象, 迭代器

我们已经知道,可以直接作用于for循环的数据类型有以下几种:

  • 一类是集合数据类型,如list、tuple、dict、set、str等;
  • 一类是generator,包括生成器和带yield的generator function。

这些可以直接作用于for循环的对象统称为可迭代对象:Iterable。

可以使用isinstance()判断一个对象是否是Iterable对象:

from collections.abc import Iterable

print(isinstance([], Iterable))#True
print(isinstance({}, Iterable))#True
print(isinstance('abc', Iterable))#True
print(isinstance((x for x in range(10)), Iterable))#True
print(isinstance(100, Iterable))# False
  • 生成器不但可以作用于for循环,还可以被next()函数不断调用并返回下一个值,直到最后抛出StopIteration错误表示无法继续返回下一个值了。
  • 可以被next()函数调用并不断返回下一个值的对象称为迭代器:Iterator。
  • 可以使用isinstance()判断一个对象是否是Iterator对象:
  • 为什么list、dict、str等数据类型不是Iterator?这是因为Python的Iterator对象表示的是一个数据流,Iterator对象可以被next()函数调用并不断返回下一个数据,直到没有数据时抛出StopIteration错误。可以把这个数据流看做是一个有序序列,但我们却不能提前知道序列的长度,只能不断通过next()函数实现按需计算下一个数据,所以Iterator的计算是惰性的,只有在需要返回下一个数据时它才会计算。Iterator甚至可以表示一个无限大的数据流,例如全体自然数。而使用list是永远不可能存储全体自然数的。
  • 凡是可作用于for循环的对象都是Iterable类型;
  • 凡是可作用于next()函数的对象都是Iterator类型,它们表示一个惰性计算的序列;
  • 集合数据类型如list、dict、str等是Iterable但不是Iterator,不过可以通过iter()函数获得一个Iterator对象。
from collections.abc import Iterator
print(isinstance((x for x in range(10)), Iterator))
# True
print(isinstance([], Iterator))
# False
print(isinstance({}, Iterator))
# False
print(isinstance('abc', Iterator))
# False

# 生成器都是Iterator对象,但list、dict、str虽然是Iterable,却不是Iterator
# 把list、dict、str等Iterable变成Iterator可以使用iter()函数
print(isinstance(iter([]), Iterator))
# True
print(isinstance(iter({}), Iterator))
# True
print(isinstance(iter('abc'), Iterator))
# True

# Python的for循环本质上就是通过不断调用next()函数实现的

for x in [1, 2, 3, 4, 5]:
    print(x)
'''
1
2
3
4
5
'''

# 以上for循环等价于:
# 首先获得Iterator对象:
it = iter([1, 2, 3, 4, 5])
# 循环:
while True:
    try:
        # 获得下一个值:
        x = next(it)
        print(x)
    except StopIteration:
        # 遇到StopIteration就退出循环
        break

'''
1
2
3
4
5
'''

迭代器一般并不会改变执行结果, 只是在内存空间上做了优化.

© Licensed under CC BY-NC-SA 4.0

只有偏执狂才能生存!——Andy Grove

发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!