Python 記憶體分配時的小祕密
Python 中的sys模組極為基礎而重要,它主要提供了一些給直譯器使用(或由它維護)的變數,以及一些與直譯器強互動的函式。
本文將會頻繁地使用該模組的getsizeof()方法,因此,我先簡要介紹一下:
- 該方法用於獲取一個物件的位元組大小(bytes)
- 它只計算直接佔用的記憶體,而不計算物件內所引用物件的記憶體
這裡有個直觀的例子:
import sys
a = [1, 2]
b = [a, a] # 即 [[1, 2], [1, 2]]
# a、b 都只有兩個元素,所以直接佔用的大小相等
sys.getsizeof(a) # 結果:80
sys.getsizeof(b) # 結果:80
上例說明了一件事:一個靜態建立的列表,如果只包含兩個元素,那它自身佔用的記憶體就是 80 位元組,不管其元素所指向的物件是什麼。
好了,擁有這把測量工具,我們就來探究一下 Python 的內建物件都藏了哪些小祕密吧。
1、空物件不是“空”的!
對於我們熟知的一些空物件,例如空字串、空列表、空字典等等,不知道大家是否曾好奇過,是否曾思考過這些問題:
空的物件是不是不佔用記憶體呢?如果佔記憶體,那佔用多少呢?為什麼是這樣分配的呢?
直接上程式碼吧,一起來看看幾類基本資料結構的空物件的大小:
import sys
sys.getsizeof("") # 49
sys.getsizeof([]) # 64
sys.getsizeof(()) # 48
sys.getsizeof(set()) # 224
sys.getsizeof(dict()) # 240
# 作為參照:
sys.getsizeof(1) # 28
sys.getsizeof(True) # 28
可見,雖然都是空物件,但是這些物件在記憶體分配上並不為“空”,而且分配得還挺大(記住這幾個數字哦,後面會考)。
排一下序:基礎數字<空元組 < 空字串 < 空列表 < 空集合 < 空字典。
這個小祕密該怎麼解釋呢?
因為這些空物件都是容器,我們可以抽象地理解:它們的一部分記憶體用於建立容器的骨架、記錄容器的資訊(如引用計數、使用量資訊等等)、還有一部分記憶體則是預分配的。
2、記憶體擴充不是均勻的!
空物件並不為空,一部分原因是 Python 直譯器為它們預分配了一些初始空間。在不超出初始記憶體的情況下,每次新增元素,就使用已有記憶體,因而避免了再去申請新的記憶體。
那麼,如果初始記憶體被分配完之後,新的記憶體是怎麼分配的呢?
import sys
letters = "abcdefghijklmnopqrstuvwxyz"
a = []
for i in letters:
a.append(i)
print(f'{len(a)}, sys.getsizeof(a) = {sys.getsizeof(a)}')
b = set()
for j in letters:
b.add(j)
print(f'{len(b)}, sys.getsizeof(b) = {sys.getsizeof(b)}')
c = dict()
for k in letters:
c[k] = k
print(f'{len(c)}, sys.getsizeof(c) = {sys.getsizeof(c)}')
分別給三類可變物件新增 26 個元素,看看結果如何:
由此能看出可變物件在擴充時的祕密:
- 超額分配機制:申請新記憶體時並不是按需分配的,而是多分配一些,因此當再新增少量元素時,不需要馬上去申請新記憶體
- 非均勻分配機制:三類物件申請新記憶體的頻率是不同的,而同一類物件每次超額分配的記憶體並不是均勻的,而是逐漸擴大的
3、列表不等於列表!
以上的可變物件在擴充時,有相似的分配機制,在動態擴容時可明顯看出效果。
那麼,靜態建立的物件是否也有這樣的分配機制呢?它跟動態擴容比,是否有所區別呢?
先看看集合與字典:
# 靜態建立物件
set_1 = {1, 2, 3, 4}
set_2 = {1, 2, 3, 4, 5}
dict_1 = {'a':1, 'b':2, 'c':3, 'd':4, 'e':5}
dict_2 = {'a':1, 'b':2, 'c':3, 'd':4, 'e':5, 'f':6}
sys.getsizeof(set_1) # 224
sys.getsizeof(set_2) # 736
sys.getsizeof(dict_1) # 240
sys.getsizeof(dict_2) # 368
看到這個結果,再對比上一節的截圖,可以看出:在元素個數相等時,靜態建立的集合/字典所佔的記憶體跟動態擴容時完全一樣。
這個結論是否適用於列表物件呢?一起看看:
list_1 = ['a', 'b']
list_2 = ['a', 'b', 'c']
list_3 = ['a', 'b', 'c', 'd']
list_4 = ['a', 'b', 'c', 'd', 'e']
sys.getsizeof(list_1) # 80
sys.getsizeof(list_2) # 88
sys.getsizeof(list_3) # 96
sys.getsizeof(list_4) # 104
上一節的截圖顯示,列表在前 4 個元素時都佔 96 位元組,在 5 個元素時佔 128 位元組,與這裡明顯矛盾。
所以,這個祕密昭然若揭:在元素個數相等時,靜態建立的列表所佔的記憶體有可能小於動態擴容時的記憶體!
也就是說,這兩種列表看似相同,實際卻不同!列表不等於列表!
4、消減元素並不會釋放記憶體!
前面提到了,擴充可變物件時,可能會申請新的記憶體。
那麼,如果反過來縮減可變物件,減掉一些元素後,新申請的記憶體是否會自動回收掉呢?
import sys
a = [1, 2, 3, 4]
sys.getsizeof(a) # 初始值:96
a.append(5) # 擴充後:[1, 2, 3, 4, 5]
sys.getsizeof(a) # 擴充後:128
a.pop() # 縮減後:[1, 2, 3, 4]
sys.getsizeof(a) # 縮減後:128
如程式碼所示,列表在一擴一縮後,雖然回到了原樣,但是所佔用的記憶體空間可沒有自動釋放啊。其它的可變物件同理。
這就是 Python 的小祕密了,“胖子無法減重原理”:瘦子變胖容易,縮減身型也容易,但是體重減不掉,哈哈~~~
5、空字典不等於空字典!
使用 pop() 方法,只會縮減可變物件中的元素,但並不會釋放已申請的記憶體空間。
還有個 clear() 方法,它會清空可變物件的所有元素,讓我們試試看吧:
import sys
a = [1, 2, 3]
b = {1, 2, 3}
c = {'a':1, 'b':2, 'c':3}
sys.getsizeof(a) # 88
sys.getsizeof(b) # 224
sys.getsizeof(c) # 240
a.clear() # 清空後:[]
b.clear() # 清空後:set()
c.clear() # 清空後:{},也即 dict()
呼叫 clear() 方法,我們就獲得了幾個空物件。
在第一小節裡,它們的記憶體大小已經被查驗過了。(前面說過會考的,請默寫回看下)
但是,如果這時再查驗的話,你會驚訝地發現,這些空物件的大小跟前面查的並不完全一樣!
# 承接前面的清空操作:
sys.getsizeof(a) # 64
sys.getsizeof(b) # 224
sys.getsizeof(c) # 72
空列表與空元組的大小不變,然而空字典(72)竟然比前面的空字典(240)要小很多!
也就是說,列表與元組在清空元素後,回到起點不變初心,然而,字典這傢伙卻是“賠了夫人又折兵”,不僅把“吃”進去的全吐出來了,還把自己的老本給虧掉了!
字典的這個祕密藏得挺深的,說實話我也是剛剛獲知,百思不得其解……
以上就是 Python 在分配記憶體時的幾個小祕密啦,看完之後,你是否覺得漲見識了呢?
你想明白了幾個呢
以上就是本次分享的所有內容,想要了解更多 python 知識歡迎前往公眾號:Python 程式設計學習圈 ,傳送 “J” 即可免費獲取,每日干貨分享
- 介紹一款能取代 Scrapy 的爬蟲框架 - feapder
- 直觀講解一下 RPC 呼叫和 HTTP 呼叫的區別!
- MySQL 億級資料分頁的優化
- Python 多執行緒小技巧:比 time.sleep 更好用的暫停寫法!
- Python面試官:請說說併發場景鎖怎麼用?
- Python如何非同步傳送日誌到遠端伺服器?
- Python 中的數字到底是什麼?
- 如何建立一個完美的 Python 專案?
- 詳解 Python 的二元算術運算,為什麼說減法只是語法糖?
- Python 為什麼沒有 main 函式?為什麼我不推薦寫 main 函式?
- Bug分析,假刪除導致文章釋出成功卻打不開的問題
- Python 進階:queue 佇列原始碼分析
- Python例項篇:自動操作Excel檔案(既簡單又特別實用)
- 誰說程式設計師不懂浪漫,當代碼遇到文學..
- Python 為什麼沒有 void 關鍵字?
- 程式語言中分號“;”的簡明歷史
- Python 什麼情況下會生成 pyc 檔案?
- 函式和方法的裝飾器
- Python 任務自動化工具:nox 的配置與 API
- 你可能不知道的 Python 技巧