寫給小白看的,逆向工程怎麼上路?

語言: CN / TW / HK

在這裡插入圖片描述

什麼是逆向工程

先給大家出一道思考題

用C語言設計一個程式,驗證輸入的密碼是否是“12345678”,如果驗證成功,就輸出“success”,如果驗證失敗,則輸出“failed”。

我想,大部分新手小白估計會這麼寫:

#include <stdio.h>
#include <string.h>

int main() {

    char buf[10] = {0};
    scanf("%s", buf);
    if (strcmp(buf, "12345678") == 0) {
        printf("success");
    } else {
        printf("failed");
    }

    return 0;
}

上面的程式碼編譯後,會生成一個可執行程式,咱們來對這個可執行檔案進行一下反編譯,看看能看到什麼?

下圖是在反編譯神器IDA中,可執行檔案反編譯出來的彙編指令圖: 在這裡插入圖片描述 可以非常清晰的看到一些字串的資訊:"success"、"failed"、"1234567。

再認真一看,main函式中有一個分支判斷,根據判斷的結果,走入左右兩個分支,分別輸出"success"和"failed"。

如果新手看不懂上面的反彙編圖,那可以再使用IDA的神級功能:F5反編譯高階語言功能,直接將上面的彙編程式再進一步還原成C語言。

在這裡插入圖片描述 可以對照一下上圖中的C函式程式碼和原來我們的原始碼,還原度非常的高了,字串比較的功能邏輯暴露無遺

可以看到,通過這種方式進行密碼匹配,非常不安全,對方拿到你的程式一反編譯,就能看到密碼是什麼了。

不過咱們今天的文章主題不是探討如何進行安全地進行密碼比較,而是另一個主題:逆向工程。

什麼是逆向工程,維基百科中的解釋如下:

逆向工程(Reverse Engineering),又稱反向工程,是一種技術過程,即對一專案標產品進行逆向分析及研究,從而演繹並得出該產品的處理流程、組織結構、功能效能規格等設計要素,以製作出功能相近,但又不完全一樣的產品。

逆向工程的概念起源於商業和軍事領域,後延伸到軟體領域。

在軟體領域,通過對程式檔案進行逆向分析,推匯出程式對原始碼設計的過程,稱為軟體逆向工程。比如上面通過分析可執行檔案還原出C程式碼,分析jar包/class檔案還原出Java原始碼,這都屬於軟體逆向工程。

軟體逆向工程是網路安全領域中的一個重要分支,網路黑客通過逆向工程可以獲得目標的程式原理,破解軟體的許可權,這一般發生在商業軟體領域。另外一方面,黑客通過逆向分析也常用來發現軟體漏洞,用來對其發起攻擊,Windows作為一個不開源的作業系統,就經常遭遇這樣的事情。

本文就來探討一下,逆向工程一般是怎麼進行的,需要學習哪些東西?

程式反編譯

逆向的一開始,通過會對目標進行反編譯。

作為軟體開發者,對編譯這個詞應該不會陌生,我們寫好了程式程式碼,然後使用編譯器將其轉換成可執行的程式,這個過程叫做編譯。

反編譯,自然就是這個過程的逆過程,那該選擇什麼樣的程式進行反編譯呢?

對於C、C++、Golang等型別語言編寫的程式,我們一般使用IDA進行反彙編。

在這裡插入圖片描述 對於Java語言編寫的class檔案和jar檔案,我們一般使用jd-gui進行反編譯。

對於C#語言編寫的可執行程式,我們一般使用reflector進行反編譯。

所以學習上面三款反編譯工具的使用對學習逆向工程非常重要

可執行檔案格式

不同的作業系統平臺具有不同的可執行檔案格式,如Windows上的PE檔案、Linux平臺的ELF檔案、MacOS上的Mach-O檔案

一個可執行檔案中除了原始碼生成的彙編指令,還有靜態資料(如程式碼中引用到的字串),匯入匯出資訊,檔案屬性資訊等等,掌握提取這些資訊,會對咱們瞭解目標程式非常有幫助。

在這裡插入圖片描述 這就需要學習不同平臺上可執行檔案的格式,尤其是PE檔案和ELF檔案,是逆向工程中最常打交道的檔案格式。

CPU指令集

在逆向分析程式時,最主要的精力和時間就是在閱讀和分析反編譯出來的彙編指令。

所以CPU的指令集和組合語言是搞逆向的同學必學的一門課。

常見的PC端CPU就是Intel的x86、x64和AMD64,移動端的就是ARM架構。建議先從最基本的x86開始學習,尤其要注意網路上很多教程講的還是16位真實模式下的組合語言,非常容易誤導人。真實模式當然要了解,但要把精力放在保護模式下32位組合語言。

在這裡插入圖片描述 等x86入了門,可以擴充套件學習x64,到後期再擴充套件學習ARM。

學習組合語言,不僅僅是學習彙編指令,更是在學習瞭解CPU,CPU有哪些暫存器,分別有什麼用,它是如何訪問記憶體,如何進行定址,如何進行運算等等。

高階語言特性

咱們逆向工程的目標大都是用C/C++/Java/C#這樣的高階語言編寫出來的程式,要想還原出程式的程式碼邏輯,如果不懂高階語言本身那肯定是不行的。

當然,做逆向的同學,不必要像專業的開發同學那樣對這些語言的特性爛熟於心,掌握很多程式設計技能,這倒不用。

但掌握這些語言的基本程式設計技能還是有必要。拿C語言來說,C語言中函式呼叫原理,引數如何傳遞,函式中的區域性變數如何分佈,陣列如何儲存,結構體成員如何記憶體佈局,指標又是如何實現的等等,這些基礎概念咱們得知道,不然拿到反彙編程式碼,也不知道如何與高階語言進行轉換。 在這裡插入圖片描述 像上面說到的這些C語言知識,學習的時候要自己對比原始碼和編譯後的彙編指令長什麼樣,反覆對比學習,產生條件反射。除了這些,還要關注C++中面向物件實現原理,虛擬函式機制,this指標如何傳參,new和delete/delete []等等在彙編指令層如何實現。

有些人說,咱不是有F5大法嗎,直接一鍵搞定?當然F5功能非常強大,我也不反對使用工具,但我們不能過分依賴於工具,不然就變成一個徹底的工具人,尤其是對於初學者,自己嘗試從彙編指令轉換成高階語言,會讓自己對技術底層原理理解的更加透徹。而且,有很多時候F5功能用不了,那個時候還得靠自己的知識上!

軟體除錯

很多時候,光靠靜態分析無法實現目標,比如程式進行了加殼等技術,在靜態分析下看到的全是錯誤的指令程式碼,甚至讓反編譯工具無法分析。

這個時候,就需要結合動態分析技術一塊兒上,讓程式實際執行起來,再來對其進行分析,所以,掌握軟體除錯技術,也是逆向工程中不可缺失的一環

在這裡插入圖片描述

結語

以上,就是我總結的幾點學習逆向工程需要關注的知識點,希望對大家有幫助。 在這裡插入圖片描述 另外,我整理了一套逆向工程學習的書籍、資料、軟體工具、使用教程,已經打包好了,由於資料敏感,就不公開傳播了,有需要的朋友,可以點選下方,即可免費領取

【資料分享】

在這裡插入圖片描述