python进阶100集(5)你真的了解python字符串吗?
off999 2025-07-10 19:54 22 浏览 0 评论
之前在python基础专辑里面我们分享了python的一个常用的数据类型:字符串!但是你真的了解字符串的结构吗?今天我们就来详细深入剖析一下python字符串的细节!
1. 什么是Python字符串?
Python字符串(string)是由Unicode码点(code points)组成的不可变序列,用于表示文本信息。例如:
text = "Hello 世界"
# 包含ASCII字符和Unicode中文字符2. Python数据结构中是否有字符和字符串?
有字符串类型:Python原生支持 s t r 类型(如"a", "Python")
无独立字符类型:单个字符在Python中是长度为1的字符串(如'a'的类型是s t r)
示例验证:
print(type('a')) # 输出: <class 'str'>
print(type("abc")) # 输出: <class 'str'>3. 字符串的单个元素是字符吗?
字符串的每个元素是一个Unicode码点(逻辑上的"字符"),技术上是通过长度为1的字符串实现:
s = "A字"
print(s[0]) # 'A' → 英文(1个码点)
print(s[1]) # '字' → 中文(1个码点)
print(s[2]) # '' → 火箭emoji(1个码点,UTF-16中占2个代码单元)注意:某些字符(如emoji)在内存中可能需要多个字节存储,但对Python用户透明操作。
4. 为什么字符串不可变?
根本原因:C Python的字符串驻留(Interning)优化机制
优势 | 底层原理说明 |
内存效率高 | 相同字符串重用内存(如a="hi"; b="hi",id(a)==id(b)) |
哈希值可缓存 | 字典键快速查找(字符串哈希值只需计算一次) |
线程安全 | 多线程无需加锁(因数据不可修改) |
防止意外修改 | 避免作为函数参数时被意外修改(如def modify(s): s[0]='X' 会引发错误) |
示例证明不可变性:
s = "Python"
s[0] = "J" # 报错: TypeError: 'str' object does not support item assignment5. 字符串底层结构(CPython源码解析)
在C Python中,字符串结构定义于
Include/cpython/unicodeobject.h:
核心结构体
typedef struct {
PyObject_HEAD // 所有Python对象的公共头部
Py_ssize_t length; // 字符串长度(码点数量)
Py_hash_t hash; // 缓存哈希值(初次计算后存储)
struct {
unsigned int interned:2; // 是否驻留(INTERNED状态标志)
unsigned int kind:3; // 编码类型(1/2/4字节)
unsigned int compact:1; // 是否紧凑存储(非堆分配)
// ... 其他标志位
} state;
wchar_t *wstr; // 宽字符缓存(兼容旧API)
} PyUnicodeObject;编码类型(kind)详解
编码种类 | 单个字符大小 | 能表示的最大 Unicode 码点 | 示例字符 |
1 字节 | 8 bit | U+00FF(Latin-1) | ASCII 字符 |
2 字节 | 16 bit | U+FFFF(BMP) | 常用中文 |
4 字节 | 32 bit | U+10FFFF(完整 Unicode) | Emoji、古文字 |
内存布局示例(字符串"Py")
内存地址: 0x1000 → [对象头]
0x1008 → length=2
0x1010 → hash=缓存值
0x1018 → state (kind=1, interned=1, ...)
0x1020 → 数据区: 'P' (0x50) → 'y' (0x79)
内存布局示意图(可视化)
以下是一个简化的字符串 "hello" 在内存中的布局图(假设为 ASCII 字符串):
如果是中文字符串 "你好",则可能使用 2 字节编码(UTF-16):
6. 字符串驻留(Interning)
为了提高效率,C Python 会对一些字符串进行驻留(interning),即多个相同字符串共享同一块内存地址。
驻留规则(常见情况):
小写变量名、常量名(如 a, myvar)
只含字母、数字和下划线的字符串
短字符串(通常小于 20 字符)
>>> a = "hello"
>>> b = "hello"
>>> a is b
True注意:并不是所有字符串都会被驻留,例如:
>>> x = "he" + "llo"
>>> y = "hello"
>>> x is y
False # 不一定驻留7 .字符串内存占用分析(实际测试)
我们可以使用 sys.getsizeof() 来查看字符串对象的内存开销:
import sys
s = "hello"
print(sys.getsizeof(s)) # 输出: 49 bytes(Python 3.11)
s2 = "你好"
print(sys.getsizeof(s2)) # 输出: 78 bytes(2个字符,每个字符可能占用 2 或 4 字节)注意:getsizeof() 只返回对象本身的大小,并不包括所引用的 data 数据区,要获取真实总内存需手动计算。
关键特性总结
特性 | Python字符串实现方式 |
字符类型 | 无独立字符类型,用长度为1的字符串表示 |
不可变性 | 通过驻留机制优化内存和哈希 |
内存结构 | 动态选择1/2/4字节存储(根据最大码点) |
元素访问 | O(1)时间复杂度(直接通过索引访问码点) |
Unicode支持 | 原生支持全Unicode字符集(包括emoji) |
注:Python 3.0+ 全面使用Unicode存储,解决Python 2的str/unicode分离问题。
相关推荐
- wps官方下载(wps官方下载官网电脑版网址)
-
具体的步骤如下:1、首先在电脑上打开浏览器,在浏览器中输入“WPS”,找到WPS官方网站。2、接下来进入WPS官方网站中,找到WPS软件,点击“免费下载”。3、点击下载后在弹出来的对话框中修改下载位置...
- win vista与win7有什么区别(win7与vista关系)
-
WindowsVista和Windows7是微软公司推出的两个桌面操作系统,它们之间有以下主要区别:1.界面设计:Windows7的界面设计更加简洁明了,而WindowsVista的界面...
- winxp系统版本(winxp 版本)
-
1、微软官方3个版本:WINDOWSXPHOME(家庭版)、Professional(专业版)、MediaCenter2005(媒体中心版),每个版本的功能不一样。使用最多的是Professional...
- 打印机无法共享怎么回事(打印机无法共享出去)
-
共享打印机无法打印原因一:可能是由于病毒死机解决方法:确定是否由于病毒死机,找一张干净(确信无病毒)的系统盘,从A驱动舒上启动电脑,检查此时打印机和主机能否联机。如果正常联机,估计这种故障是由攻击硬件...
- ipv6无网络访问权限怎么解决
-
ipv6无网络访问权限解决方法如下1、点击电脑左下角的开始,进入到开始的菜单栏,在菜单栏中找到“运行”。或者通过快捷键Windows+R打开运行窗口。 2、打开运行的窗口页面后,在页面上输入“CMD...
- office ltsc版(Office LTSC版本区别)
-
office2021和2021ltsc的区别如下:1.更新策略不同。前者采用每个月月度更新的方法,提供功能更新、安全更新。后者不采用每个月月度更新的方法,且不提供功能更新。2.界面不同。2021采用了...
- 安装win7需要激活吗(现在安装win7旗舰版还需密钥吗)
-
要激活 Windows7如果是预装在计算机中的,买来之后便不用激活,这里预装指的是在厂商那里。正版的Windows7安装到计算机中,有三十天的试用期,若要永久使用,就要使...
- originos 3升级计划公布(originos升级包)
-
2023年2月。1.OriginOS3.0系统第一批升级时间为11月25日。2、包含iQOONeo7,X80系列,S15系列,iQOO9、iQOO10系列,以及折叠屏XFold系列和大屏XNo...
- 鸿蒙系统适配第三方机型(鸿蒙 第三方适配)
-
最新华为官方公布了鸿蒙系统3.0支持的机型名单,具体如下。鸿蒙系统3.0升级名单:1.Mate系列:MateXs2、MateX2、MateXs、Mate40、Mate40Pro、Mate...
- imei怎么下载(imei changer apk)
-
如果您的steam序列号激活了,可以尝试以下方法下载:1.使用steam自带的下载工具,如“下载工具”,在软件的“下载”选项卡中选择“序列号下载”。2.在下载页面中,选择要下载的游戏,然后点击“下...
- 电脑系统优化软件哪个好(系统优化软件排行榜)
-
有必要用,非常好用,WINDOWS优化大师是一个网络上下载率极高的系统维护软件。多年未曾清理过系统和硬盘的电脑,系统内部将产生大量的垃圾文件、临时文件、废旧程序等等win10系统不需要经常更新,关闭...
- 重装系统后硬盘不见了(重装系统后磁盘不见了)
-
硬盘不见可能是因为重装系统时未正确安装驱动程序或未对硬件进行正确设置。你可以按以下步骤排查问题:进入BIOS检查硬盘是否被识别,尝试重新连接数据线和电源线,更新或安装适当的硬件驱动程序,或者使用硬件故...
- 冰封u盘装win7系统教程图解(冰封u盘启动装机教程)
-
1.查找激活工具:通常来说,Win7冰封系统已经包含了必要的驱动,所以如果你的电脑上并没有出现设备错误,那你就可以正常使用。如果你需要添加任何驱动,请尝试从厂商下载相应的驱动并执行自动安装程序。如果...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
python入门到脱坑 输入与输出—str()函数
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
慕ke 前端工程师2024「完整」
-
失业程序员复习python笔记——条件与循环
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
