Posted 2019-06-05Updated 2021-08-02Python / Py3Ref36 minutes read (About 5341 words)

数据模型--基本数据类型

对象、值、类型

对象：python中对数据的抽象

python中所有数据都是由对象、对象间关系表示
- 按冯诺依曼“存储程序计算机”，代码本身也是由对象表示

编号、类型、值

每个对象都有各自编号、类型、值

编号：可以视为对象在内存中地址，对象创建后不变
- id()函数：获取代表对象编号的整形
- is算符：比较对象编号判断是否为同一对象
类型：决定对象支持的操作、可能取值
- 类型会影响对象行为几乎所有方面，甚至对象编号重要性也受到影响，如：对于会得到新值的运算
  - 不可变类型：可能返回同类型、同取值现有对象引用
    - a = b = 1：a、b可能指向相同对象1 （取决于具体实现）
  - 可变类型：不允许返回已存在对象
    - c=[];d=[]：会保证c、d指向不同、单独空列表（c=d=[]将同一对象赋给c、d）
- 对象创建后保持不变
- type：返回对象类型
- CPython：相同整形值都引用同一个对象
值：通过一些特征行为表征的抽象概念
- 对象值在python中是抽象概念
  - 对象值没有规范的访问方法
  - 不要求具有特定的构建方式，如：值由其全部数据属性组成
- 对象值可变性由其类型决定
  - 可变的：值可以改变的对象
  - 不可变的：值（直接包含对象编号）不可改变的对象
- 比较运算符实现了特定对象值概念，可以认为是通过实现对象比较间接定义对象值

CPython：id(x)返回存放x的地址

对象销毁

对象不会被显式销毁（del仅是移除名称绑定）

无法访问时可能被作为垃圾回收
- 允许具体实现推迟垃圾回收或完全省略此机制
- 实现垃圾回收是质量问题，只要可访问对象不会被回收即可
- 不要依赖不可访问对象的立即终结机制，应当总是显式关闭外部资源引用
以下情况下，正常应该被回收的对象可能继续存活
- 使用实现的跟踪、调试功能
- 通过try...except...语句捕捉异常

CPython：使用带有（可选）延迟检测循环链接垃圾的引用计数方案

对象不可访问时立即回收其中大部分，但不保证回收包含循环引用的垃圾

标准类型层级结构

以下是python内置类型的列表，扩展模块可以定义更多类型

以下有些类型有特殊属性，这些特殊属性不应用作通常使用，其定义在未来可能改变

`None`

NoneType：只有一种取值，None是具有此值的唯一对象

通过内置名称None访问
多数情况表示空值，如
- 未显式指明返回值函数返回None
逻辑值：假

`NotImplemented`

NotImplementedType：只有一种取值，NotImplemented是具有此值的唯一对象

通过内置名称NotImplemented访问
数值、富比较方法在操作数没有该实现操作时应返回此值
- 返回NotImplemented前，解释器会依据运算符尝试反射方法、委托回退方法
逻辑值：真

`Ellipsis`

ellipsis：只有一种取值，Ellipsis是具有此值的唯一对象

通过字面值...、内置名称Ellipsis访问
逻辑值：真

`numbers.Number`

number.Number：由数字字面值创建，被作为算法运算符、算数内置函数返回结果

不可变：一旦创建其值不再改变
类似数学中数字，但也受限于计算机对数字的表示方法

`numbers.Integral`

numbers.Integral：表示数学中整数集合

int：整形，表示任意大小数字，仅受限于可用内存
- 变换、掩码运算中以二进制表示
- 负数以2的补码表示（类似符号位向左延伸补满空位）
bool：布尔型，表示逻辑值真、假
- True、False是唯二两个布尔对象
- 整形子类型：在各类场合中行为类似整形1、0，仅在转换为字符串时返回"True"、"False"

方法、函数

int.bit_length()：不包括符号位、开头0位长
int.to_bytes(length, byteorder, *, signed=False)
class int.from_bytes(bytes, byteorder, *, signed=False)

详细说明参见https://docs.python.org/zh-cn/3/library/stdtypes.html#additional-methods-on-integer-types

`numbers.Real(float)`

float：表示机器级双精度浮点数

接受的取值返回、溢出处理取决于底层结构、python实现
python不支持单精度浮点

没必要因为节省处理器、内存消耗而增加语言复杂度

特殊取值

infty = float("inf")
neg_infty = float("-inf")
	# 正/负无穷大
nan = float("nan")
	# Not a Number

特殊取值根据定义==、is肯定返回False
- float.__eq__内部应该有做检查，保证==返回False
- 每次会创建“新”的nan/infty
- 连续执行id(float("nan"))返回值可能相等，这是因为每次生成的float("nan")对象被回收，不影响
np.nan is np.nan返回True，应该是numpy初始化的时候创建了一个float("nan")，每次都是使用同一个nan

`numbers.Complex(complex)`

complex：以一对机器级双精度浮点数表示复数值

实部、虚部：可通过只读属性z.real、z.imag获取

Iterators

迭代器类型

迭代器对象需要自身支持以下两个方法，其共同组成迭代器协议
- iterator.__iter__()
- iterator.__next__()

方法详细参考cs_python/py3ref/cls_special_method

Generator

生成器类型：提供了实现迭代器协议的便捷形式

将容器对象的__iter__()方法实现为生成器，方便实现容器对迭代器支持

创建、使用参见cs_python/py3ref/dm_gfuncs

序列

序列：表示以非负整数作为索引的有限有序集

不可变序列类型：对象一旦创建不能改变
- 若包含其他可变对象引用，则可变对象“可改变”
- 但不可变对象所直接引用的对象集是不可变的
- 包括
  - str
  - tuple
  - bytes
  - range：非基本序列类型
可变序列：创建后仍可被改变值
- list
- bytesarray

通用序列操作

x in s、x not in s
- str、bytes、bytearray支持子序列检测
s + t：拼接
- 拼接不可变总会生成新对象
- 重复拼接构建序列的运行时开销将基于序列总长度乘方
s * n、n * s：s自身拼接n次
- n<0被当作0处理
- s中项不会被复制，而是被多次引用
s[i]、s[i:j]、s[i:j:step]
- i<0索引为负值：索引顺序相对于序列s末尾，等价于对序列长度取模
- 序列切片：与序列类型相同的新序列
  - 索引从0开始
  - 左闭右开
- 某些序列支持a[i:j:step]扩展切片
s.index(x[, i[, j]])
- 仅部分序列支持
- 类似s[i:j].index(x)，但返回值是相对序列开头
s.count(x)：序列中元素x数目
len(s)：返回序列条目数量
min(s)、max(s)：序列最小、最大值

序列比较运算默认实现参见cs_python/py3ref/expressions

以上运算自定义实现参见 cs_python/py3ref/cls_special_methods

不可变序列

不可变序列普遍实现而可变序列未实现的操作

hash()内置函数

可变序列

s[i]=x、s[i:j]=t、s[i:j:k]=t：下标、切片被赋值
- s[i:j:k]=t中t长度必须和被替换切片长度相同
del s[i:j]、del s[i:j:k]：移除元素
- 作为del语句的目标
- 等同于s[i:j]=[]
s.append()：添加元素
- 等同于s[len(s):len(s)] = [x]
s.clear()：移除所有项
- 等同于del s[:]
s.copy()：浅拷贝
- 等同于s[:]
s.extend(t)：扩展（合并）序列
- 基本上等于s += t
s.insert(i, x)：向序列中插入元素
- 等同于s[i:i] = [x]
s.pop(i=-1)：弹出序列中元素
s.remove(x)：删除序列中首个值为x的项
s.reverse()：反转序列
- 反转大尺寸序列时，会原地修改序列
- 为提醒用户此操作通过间接影响进行，不会返回反转后序列

array、collections模块提供额外可变序列类型

可利用collections.abc.MutableSequence抽象类简化自定义序列操作

`tuple`

元组

元组中条目可以是任意python对象
元组创建
- 一对圆括号创建空元组
- 逗号分隔
  - 单项元组：后缀逗号a,、(a,)
  - 多项元组：a,b,c、(a,b,c)
- 内置构建器：tuple、tuple(iterable)

`list`

列表

列表中条目可以是任意python对象
构建方式
- 方括号括起、项以逗号分隔：[]、[a]、[a,b]
- 列表推导式：[x for x in iterable]
- 类型构造器：list(iterable)

`str`

class str(object="")
	# 返回`object.__str__()`、`object.__repr__()`
class str(object=b"", encoding="utf-8", errors="strict")
	# 给出`encoding`、`errors`之一，须为bytes-like对象
	# 等价于`bytes.decode(encoding, errors)`

字符串：由Unicode码位值组成不可变序列（应该是UTF16-bl编码）

范围在U+0000~U+10FFFF内所有码位值均可在字符串中使用
不存在单个“字符”类型
- 字符串中单个字符为长度为1字符串
不存在可变字符串类型
- 可以用str.join()、io.StringIO高效连接多个字符串片段
字符串构建
- 字符串字面值：cs_python/py3ref/lexical_analysis
- 内置构造器str()

技巧

快速字符串拼接
- 构建包含字符串的列表，利用str.join()方法
- 写入io.StringIO实例，结束时获取值

`bytes`/`bytearray`

1	class bytes([source[, encoding[, errors]]])

字节串：单个字节构成的不可变序列

字节数组：字节串可变对应版本，其他同不可变bytes

字节串构建
- 字节串字面值：cs_python/py3ref/lexical_analysis
- 内置构造器bytes()
  - 指定长度零值填充：bytes(10)
  - 整数组成可迭代对象：bytes(range(20))
  - 通过缓冲区协议复制现有二进制数据：bytes(obj)
字节数组构建
- 字节数组没有字面值语法，只能通过构造器构造
- 可变，构建空字节数组有意义
类似整数构成序列
- 每个条目都是8位字节
- 取值范围0~255，但只允许ASCII字符0~127
- b[0]产生整数，切片返回bytes对象
- 可通过list(bytes)将bytes对象转换为整数构成列表

由memeoryview提供支持

技巧

快速字节串拼接
- 构建包含字节串的列表，利用bytes.join()方法
- 写入io.BytesIO实例，结束时获取值
- 使用betaarray对象进行原地拼接

`memoryview`

1	class memoryview(obj)

内存视图：允许python代码访问对象内部数据

若对象支持缓冲区协议，则无需拷贝
- 支持缓冲区协议的内置对象包括bytes、bytesarray
内存视图元素：原始对象obj处理的基本内存单元
- 对简单bytes、bytesarray对象，一个元素就是一字节
- array.array等类型可能有更大元素
内存视图支持索引抽取、切片
- 若下层对象可选，则支持赋值，但切片赋值不允许改变大小

可用属性

以下属性均只读

mv.obj：内存视图的下层对象
mv.nbytes
- == product(shape) * itemsize = len(mv.tobytes())
mv.readonly
mv.format：内存视图中元素格式
- 表示为struct模块格式
mv.itemsize
mv.ndim
mv.shape
mv.strides
mv.suboffsets
mv.c_contiguous
mv.f_contiguous
mv.contiguous

Slices Object

切片对象：表示__getitem__()方法得到的切片

可以使用内置的slice()函数创建
a[start: stop]形式的调用被转换为 a[slice(start, stop, None)]

切片对象是内部类型，参见cs_python/py3ref/dm_exec，也不是序列类型

特殊只读属性

start：下界
stop：上界
step：步长值

属性可以具有任意类型

方法

.indices(self, length)：计算切片对象被应用到length 长度序列时切片相关信息
- 返回值：(start, stop, step)三元组
- 索引号缺失、越界按照正规连续切片方式处理

`range`

range：不可变数字序列类型（非不是基本序列类型）

1 2	class range(stop) class range(start=0, stop[, step=1])

参数：必须均为整数（int或实现__index__方法）
- step > 0：对range对象r[i]=start + step * i，其中 i >= 0, r[i] < stop
- step < 0：对range对象r[i]=start + step * i，其中 i >= 0, r[i] > stop
- step = 0：raise ValueError
说明
- 允许元素绝对值大于sys.maxsize，但是某些特性如： len()可能raise OverflowError
- range类型根据需要计算单项、切片值
  - 相较于常规list、tuple占用内存较小，且和表示范围大小无关
  - 只能表示符合严格模式的序列
- range类型实现了collections.abc.Sequence抽象类
  - 基本实现序列所有操作：检测、索引查找、切片等
  - 除拼接、重复：拼接、重复通常会违反严格模式
- !=、==将range对象视为序列比较，即提供相同值即认为相等

集合类型

表示不重复、不可变对象组成的无序、有限集合
- 不能通过下标索引
- 可以迭代
- 可以通过内置函数len返回集合中条目数量
常用于
- 快速成员检测、去除序列中重复项
- 进行交、并、差、对称差等数学运算

公用操作

参见https://docs.python.org/zh-cn/3/library/stdtypes.html#set-types-set-frozenset

len(s)
x [not ]in s
s.isdisjoint(other)
s.issubset(other)/s <= other
s < other
s.issuperset(other)/s >= other
s > other
s.union(*others)/s | other |...
s.intersection(*others)/s & other &...
s.difference(*other)/s - other - other
s.symmetric_difference(other)/s ^ other
s.copy()

集合比较仅定义偏序，集合列表排序无意义

可变集合独有

s.update(*others)/s |= other |...
s.intersection_update(*others)/s &= other &...
s.difference_udpate(*others)/s -= other |...
s.symmetric_difference_update(other)/set ^= other
s.add(elem)
s.remove(elem)
s.discard(elem)
s.pop()
s.clear()

`set`/`frozenset`

1 2	class set([iterable]) class frozenset([iterable])

集合：由具有唯一性的hashable对象组成的多项无序集

冻结集合：不可变集合，可哈希，可以用作集合元素、字典键

创建集合
- set()内置构造器
- 花括号包括、逗号分隔元组列表：{a, b}
创建冻结集合
- frozenset()内置构造器
python中集合类似dict通过hash实现
- 集合元素须遵循同字典键的不可变规则
- 数字：相等的数字1==1.0，同一集合中只能包含一个

操作说明

.remove、.__contains__、discard等可以接收set类型参数，其将被转换为临时frozenset对象
非运算符版本操作可以接受任意可迭代对象作为参数，运算符版本只能接受集合类型作为参数

映射

映射：表示任何索引集合所索引的对象的集合

通过下标a[k]可在映射a中选择索引为k的条目
- 可在表达式中使用
- 可以作为赋值语句、del语句的目标

dbm.ndbm、dbm.gnu、collections模块提供额外映射类型

通用操作

参见https://docs.python.org/zh-cn/3/library/stdtypes.html#mapping-types-dict

len(d)
d[key]
key [not ]in d
iter(d)
d.keys()：返回字典视图对象
d.values()：返回字典视图对象
d.items()：返回字典视图对象
d.get(key[, default])
d.copy()
classmethod fromkey(iterable[, value])

可变映射独有

d[key]=value
del d[key]
d.clear()
d.setdefault(key[, default])
d.pop()
d.popitem()
d.copy()
d.update()

`dict`

1
2
3

class dict(**kwargs)
class dict(mapping, **kwargs)
class dict(iterable, **kwargs)

字典：可由几乎任意值作为索引的有限个对象可变集合

字典的高效实现要求使用键hash值以保持一致性
- 不可作为键的值类型
  - 包含列表、字典的值
  - 其他通过对象编号而不是值比较的可变对象
- 数字：相等的数字1==1.0索引相同字典条目
创建字典
- 花括号括起、逗号分隔键值对：{key:value,}
- 内置字典构造器：dict()

字典视图对象

字典视图对象：提供字典条目的动态视图，随字典改变而改变

len(dictview)
iter(dictview)
x in dictview

参见https://docs.python.org/zh-cn/3/library/stdtypes.html#dictionary-view-objects

数据模型--基本数据类型

对象、值、类型

编号、类型、值

对象销毁

标准类型层级结构

None

NotImplemented

Ellipsis

numbers.Number

numbers.Integral

方法、函数

numbers.Real(float)

特殊取值

相关操作

numbers.Complex(complex)

Iterators

Generator

序列

通用序列操作

不可变序列

可变序列

tuple

list

相关操作

.sort

str

相关操作

判断

查找

分隔

拼接

转换

格式化

printf风格字符串格式化

技巧

bytes/bytearray

相关函数、方法

技巧

memoryview

相关操作

可用属性

Slices Object

特殊只读属性

方法

range

集合类型

公用操作

可变集合独有

set/frozenset

操作说明

映射

通用操作

可变映射独有

dict

字典视图对象

Categories

Recents

Advertisement

follow.it

`None`

`NotImplemented`

`Ellipsis`

`numbers.Number`

`numbers.Integral`

`numbers.Real(float)`

`numbers.Complex(complex)`

`tuple`

`list`

`.sort`

`str`

`bytes`/`bytearray`

`memoryview`

`range`

`set`/`frozenset`

`dict`