​SquarePlus:可能是運算最簡單的ReLU光滑近似

語言: CN / TW / HK

©PaperWeekly 原創 · 作者 | 蘇劍林

單位 | 追一科技

研究方向 | NLP、神經網路

ReLU 函式,也就是,是最常見的啟用函式之一,然而它在處的不可導通常也被視為一個“槽點”。為此,有諸多的光滑近似被提出,比如 SoftPlus、GeLU、Swish 等,不過這些光滑近似無一例外地至少都使用了指數運算(SoftPlus 還用到了對數),從“精打細算”的角度來看,計算量還是不小的(雖然當前在 GPU 加速之下,我們很少去感知這點計算量了)。 最近有一篇論文《Squareplus: A Softplus-Like Algebraic Rectifier》 [1] 提了一個更簡單的近似,稱為. SquarePlus,我們也來討論討論。

需要事先指出的是,筆者是不建議大家花太多時間在啟用函式的選擇和設計上的,所以雖然分享了這篇論文,但主要是提供一個參考結果,並充當一道練習題來給大家“練練手”。

定義

SquarePlus 的形式很簡單,只用到了加、乘、除和開方:

其中。當時,正好退化為。SquarePlus 的靈感來源大致是

因此為了補充在的可導性,在根號裡邊多加一個大於 0 的常數(防止導數出現除零問題)。

原論文指出,由於只用到了加、乘、除和開方,所以 SquarePlus 的速度(主要是在 CPU 上)會比 SoftPlus 等函式要快:

▲ SquarePlus與其他類似函式的速度比較

當然,如果你不關心這點速度提升,那麼就像本文開頭說的,當作數學練習題來看看就好。

性態

跟 SoftPlus 函式()一樣,SquarePlus 也是全域性單調遞增的,並且恆大於 ReLU,如下圖(下圖的 SquarePlus 的):

▲ ReLU、SoftPlus、SquarePlus函式影象(一)

直接求它的導函式也可以看出單調性:

至於二階導數

也是恆大於 0 的存在,所以 SquarePlus 還是一個凸函式。

逼近

現在有兩道練習題可以做了:

1、當取什麼時 SquarePlus 恆大於 SoftPlus?

2、當取什麼時,SquarePlus 與 SoftPlus 誤差最小?

第一個問題,直接從解得:

要使得上式恆成立,必須大於等於右端的最大值,而我們可以證明右端最大值在處取到,所以。至此,第一個問題解決。

證明: 留意到

所以是一個凹函式,那麼由詹森不等式得

也就是,或者,兩邊乘以 4 即得待證結論。等號成立的條件為,即。

至於第二個問題,我們需要有一個“誤差”的標準。這裡跟之前的文章 《GELU的兩個初等函式近似是怎麼來的》 一樣,轉化為無額外引數的問題:

這個問題筆者沒法求得解析解,目前只能通過數值求解:

 1import numpy as np
 2from scipy.special import erf
 3from scipy.optimize import minimize
 4
 5def f(x, a):
 6    return np.abs((x + np.sqrt(x**2 + a**2)) / 2 - np.log(np.exp(x) + 1))
 7
 8def g(a):
 9    return np.max([f(x, a) for x in np.arange(-2, 4, 0.0001)])
10
11options = {'xtol': 1e-10, 'ftol': 1e-10, 'maxiter': 100000}
12result = minimize(g, 0, method='Powell', options=options)
13b = result.x**2
14print(b)

最終算出的結果是,誤差最大值為,比較如下:

▲ ReLU、SoftPlus、SquarePlus函式影象(二)

小結

似乎也沒啥好總結的,就是介紹了一個 ReLU 的光滑近似,並配上了兩道簡單的函式練習題~

參考文獻

[1] https://arxiv.org/abs/2112.11687

特別鳴謝

感謝 TCCI 天橋腦科學研究院對於 PaperWeekly 的支援。TCCI 關注大腦探知、大腦功能和大腦健康。

更多閱讀

# 投 稿 通 道 #

讓你的文字被更多人看到 

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是 最新論文解讀 ,也可以是 學術熱點剖析科研心得競賽經驗講解 等。我們的目的只有一個,讓知識真正流動起來。

:memo:  稿件基本要求:

• 文章確係個人 原創作品 ,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 

• 稿件建議以  markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題

• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供 業內具有競爭力稿酬 ,具體依據文章閱讀量和文章質量階梯制結算

:mailbox_with_mail:  投稿通道:

• 投稿郵箱: [email protected] 

• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者

• 您也可以直接新增小編微信( pwbot02 )快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編

:mag:

現在,在 「知乎」 也能找到我們了

進入知乎首頁搜尋 「PaperWeekly」

點選 「關注」 訂閱我們的專欄吧

·