在昇騰平臺上對TensorFlow網路進行效能調優
摘要:本文就帶大家瞭解在昇騰平臺上對TensorFlow訓練網路進行效能調優的常用手段。
本文分享自華為雲社群《在昇騰平臺上對TensorFlow網路進行效能調優》,作者:昇騰CANN 。
使用者將TensorFlow訓練網路遷移到昇騰平臺後,如果存在效能不達標的問題,就需要進行調優。本文就帶大家瞭解在昇騰平臺上對TensorFlow訓練網路進行效能調優的常用手段。
首先了解下效能調優的全流程:

當TensorFlow訓練網路效能不達標時,首先可嘗試昇騰平臺提供的“三板斧”操作,即上圖中的“基本提升手段”:使能自動混合精度 > 進行親和介面的替換 > 使能訓練迭代迴圈下沉 > 使用AOE工具進行調優。
基本調優操作完成後,需要再次執行模型訓練並評估效能,如果效能達標了,調優即可結束;如果未達標,需要使用Profling工具採集詳細的效能資料進一步分析,從而找到效能瓶頸點,並進一步針對性的解決,這部分調優操作需要使用者有一定的經驗,難度相對較大,我們將這部分調優操作稱為進階調優。
本文主要帶大家詳細瞭解基本調優操作,即上圖中的灰色底紋部分。
使能自動混合精度
混合精度是業內通用的效能提升方式,通過降低部分計算精度提升資料計算的並行度。混合計算訓練方法通過混合使用float16和float32資料型別來加速深度神經網路的訓練過程,並減少記憶體使用和存取,從而可以提升訓練網路效能,同時又能基本保證使用float32訓練所能達到的網路精度。
Ascend平臺提供了“precision_mode”引數用於配置網路的精度模式,使用者可以在訓練指令碼的執行配置中新增此引數,並將取值配置為“allow_mix_precision”,從而使能自動混合精度,下面以手工遷移的訓練指令碼為例,介紹配置方法。
- Estimator模式下,在NPURunConfig中新增precision_mode引數設定精度模式:
npu_config=NPURunConfig(
model_dir=FLAGS.model_dir,
save_checkpoints_steps=FLAGS.save_checkpoints_steps, session_config=tf.ConfigProto(allow_soft_placement=True,log_device_placement=False),
precision_mode="allow_mix_precision"
)
- sess.run模式下,通過session配置項precision_mode設定精度模式:
config = tf.ConfigProto(allow_soft_placement=True)
custom_op = config.graph_options.rewrite_options.custom_optimizers.add()
custom_op.name = "NpuOptimizer"
custom_op.parameter_map["use_off_line"].b = True
custom_op.parameter_map["precision_mode"].s = tf.compat.as_bytes("allow_mix_precision")
…
with tf.Session(config=config) as sess:
print(sess.run(cost))
親和介面替換
針對TensorFlow訓練網路中的dropout、gelu介面,Ascend平臺提供了硬體親和的替換介面,從而使網路獲得更優效能。
- 對於訓練指令碼中的nn.dropout,建議替換為Ascend對應的API實現,以獲得更優效能:
layers = npu_ops.dropout()
- 若訓練指令碼中存在layers.dropout、tf.layers.Dropout、tf.keras.layers.Dropout、tf.keras.layers.SpatialDropout1D、tf.keras.layers.SpatialDropout2D、tf.keras.layers.SpatialDropout3D介面,建議增加標頭檔案引用:
from npu_bridge.estimator.npu import npu_convert_dropout
- 對於訓練指令碼中的gelu介面,建議替換為Ascend提供的gelu介面,以獲得更優效能。
例如,TensorFlow原始程式碼:
遷移後的程式碼:
from npu_bridge.estimator.npu_unary_ops import npu_unary_ops
layers = npu_unary_ops.gelu(x)
訓練迭代迴圈下沉
訓練迭代迴圈下沉是指在Host呼叫一次,在Device執行多次迭代,從而減少Host與Device間的互動次數,縮短訓練時長。使用者可通過iterations_per_loop引數指定訓練迭代的次數,該引數取值大於1即可使能訓練迭代迴圈下沉的特性。
使用該特性時,要求訓練指令碼使用TF Dataset方式讀資料,並開啟資料預處理下沉,即enable_data_pre_proc開關配置為True,例如sess.run配置示例如下:
custom_op.parameter_map["enable_data_pre_proc"].b = True
其他使用約束,使用者可參見昇騰文件中心的《TensorFlow模型遷移和訓練指南》。
Estimator模式下,通過NPURunConfig中的iterations_per_loop引數配置訓練迭代迴圈下沉的示例如下:
session_config=tf.ConfigProto(allow_soft_placement=True)
config = NPURunConfig(session_config=session_config, iterations_per_loop=10)
AOE自動調優
昇騰平臺提供了AOE自動調優工具,可對網路進行子圖調優、運算元調優與梯度調優,生成最優排程策略,並將最優排程策略固化到知識庫。模型再次訓練時,無需開啟調優,即可享受知識庫帶來的收益。
建議按照如下順序使用AOE工具進行調優:

訓練場景下使能AOE調優有兩種方式:
- 通過設定環境變數啟動AOE調優。
# 1:子圖調優
# 2:運算元調優
# 4:梯度調優
export AOE_MODE=2
- 修改訓練指令碼,通過“aoe_mode”引數指定調優模式,例如:
sess.run模式,訓練指令碼修改方法如下:
custom_op.parameter_map["aoe_mode"].s = tf.compat.as_bytes("2")
estimator模式下,訓練指令碼修改方法如下:
config = NPURunConfig(
session_config=session_config,
aoe_mode=2)
以上就是TensorFlow網路在昇騰平臺上進行效能調優的常見手段。關於更多文件介紹,可以在昇騰文件中心檢視,您也可在昇騰社群線上課程板塊學習視訊課程,學習過程中的任何疑問,都可以在昇騰論壇互動交流!
相關參考:
[1]昇騰文件中心
[2]昇騰社群線上課程
[3]昇騰論壇
- 使用卷積神經網路實現圖片去摩爾紋
- 核心不中斷前提下,Gaussdb(DWS)記憶體報錯排查方法
- 簡述幾種常用的排序演算法
- 自動調優工具AOE,讓你的模型在昇騰平臺上高效執行
- GaussDB(DWS)運維:導致SQL執行不下推的改寫方案
- 詳解目標檢測模型的評價指標及程式碼實現
- CosineWarmup理論與程式碼實戰
- 淺談DWS函數出參方式
- 程式碼實戰帶你瞭解深度學習中的混合精度訓練
- python進階:帶你學習實時目標跟蹤
- Ascend CL兩種資料預處理的方式:AIPP和DVPP
- 詳解ResNet 網路,如何讓網路變得更“深”了
- 帶你掌握如何檢視並讀懂昇騰平臺的應用日誌
- InstructPix2Pix: 動動嘴皮子,超越PS
- 何為神經網路卷積層?
- 在昇騰平臺上對TensorFlow網路進行效能調優
- 介紹3種ssh遠端連線的方式
- 分散式資料庫架構路線大揭祕
- DBA必備的Mysql知識點:資料型別和運算子
- 5個高併發導致數倉資源類報錯分析