linux三劍客(grep、sed、awk)基本使用

語言: CN / TW / HK

theme: awesome-green highlight: tomorrow-night


準備

作為一個經常在伺服器上游走的後端,需要熟悉不少命令列操作。其中,grep、sed、awk號稱"linux三劍客",使用頻繁,功能強大,本文通過一個例項演示下基本用法。首先準備一個文字檔案,命名為text.txt,內容如下:

shell cat text.txt 1 province 省份 青海省 2 domain 域名或者ip tianfengyinlou.cn 3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00 6 update_time 更新時間, 毫秒級時間戳 1607414120745 7 site_no 網站備案/許可證號 青ICP備11000289號-2 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn 9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司

grep

首先,最簡單的是grep。經常用來過濾檢視日誌。對於grep需要知道如下幾個常用的命令選項:

-n

額外輸出行號。例如過濾出每一行包含"青"的記錄:

shell grep -n "青" text.txt 1:1 province 省份 青海省 3:3 subject_no 主體備案號 青ICP備11000289號 4:4 addr 註冊地址 青海省西寧市城中區南關街138號 7:7 site_no 網站備案/許可證號 青ICP備11000289號-2

-v

排除匹配的行。例如排除包含"青"的行記錄:

shell grep -v '青' text.txt 2 domain 域名或者ip tianfengyinlou.cn 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00 6 update_time 更新時間, 毫秒級時間戳 1607414120745 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn 9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司

-E

支援擴充套件正則匹配。grep的時候,我們可以按照正則表示式來進行匹配,但在需要擴充套件正則匹配時,要通過-E指定才能生效。常見的或操作,比如篩選包含"青海省"或者"青ICP"的行記錄,不指定-E是無法獲得想要的結果的。

shell grep -E '青海省|青ICP' text.txt 1 province 省份 青海省 3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 7 site_no 網站備案/許可證號 青ICP備11000289號-2

-l

只輸出有匹配行的檔名。有時候,我們並不需要輸出匹配的行記錄,僅僅只是需要知道匹配到了行記錄的檔名:

shell grep -l 青 text.txt text.txt

-R

遞迴匹配目錄中的檔案內容。有時候,在一個目錄中我們並不知道哪個檔案內容包含我們想要的結果,此時,可以查詢整個目錄,輸出匹配的檔名以及行記錄:

```shell grep -R 青海 ./DevMisc

...

./DevMisc/linux三劍客.md:1 province 省份 青海省 ./DevMisc/linux三劍客.md:4 addr 註冊地址 青海省西寧市城中區南關街138號 ./DevMisc/text.txt:1 province 省份 青海省 ./DevMisc/text.txt:4 addr 註冊地址 青海省西寧市城中區南關街138號 ```

結合-l引數就可以知道一個目錄中有哪些檔案包含了匹配項:

shell grep -Rl 青 ./DevMisc ./DevMisc/linux三劍客.md ./DevMisc/text.txt

-A

通過-A(after)指定輸出匹配行後的額外行數。例如,想要額外輸出包含"青"的行記錄後一行,可以指定-A1:

shell grep -A1 青 text.txt 1 province 省份 青海省 2 domain 域名或者ip tianfengyinlou.cn -- 3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00 -- 7 site_no 網站備案/許可證號 青ICP備11000289號-2 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn

-B

通過-B(before)指定輸出匹配行前的額外行數。例如,想要額外輸出包含"青"的行記錄前一行,可以指定-B1:

shell grep -B1 青 text.txt 1 province 省份 青海省 -- 2 domain 域名或者ip tianfengyinlou.cn 3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 -- 6 update_time 更新時間, 毫秒級時間戳 1607414120745 7 site_no 網站備案/許可證號 青ICP備11000289號-2

-C

通過-C指定輸出匹配行前後的額外行數。例如,想要額外輸出包含"青"的行記錄前後各一行,可以指定-C1

shell grep -C1 青 text.txt 1 province 省份 青海省 2 domain 域名或者ip tianfengyinlou.cn -- -- 2 domain 域名或者ip tianfengyinlou.cn 3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00 -- -- 6 update_time 更新時間, 毫秒級時間戳 1607414120745 7 site_no 網站備案/許可證號 青ICP備11000289號-2 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn

sed

查詢

sed的各項操作需要指定一個特定的動作。查詢需要指定一個動作為p(print),例如,打印出第三行的記錄,需要指定行號加動作3p:

shell sed -n 3p text.txt 3 subject_no 主體備案號 青ICP備11000289號

這裡必須指定一個選項-n。因為sed的預設行為是遍歷文字檔案的每一行並輸出每一行,假如不帶-n選項,第三行會輸出兩次=預設輸出一次+命令列指定輸出一次:

shell sed 3p text.txt 1 province 省份 青海省 2 domain 域名或者ip tianfengyinlou.cn 3 subject_no 主體備案號 青ICP備11000289號 3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00 6 update_time 更新時間, 毫秒級時間戳 1607414120745 7 site_no 網站備案/許可證號 青ICP備11000289號-2 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn 9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司

所以-n的作用是取消sed的預設輸出行為, 一般都只與p組合使用。利用sed的預設輸出行為,我們可以模擬複製每一行的操作,有時候在特定場景下非常有用:

shell sed p text.txt 1 province 省份 青海省 1 province 省份 青海省 2 domain 域名或者ip tianfengyinlou.cn 2 domain 域名或者ip tianfengyinlou.cn 3 subject_no 主體備案號 青ICP備11000289號 3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 4 addr 註冊地址 青海省西寧市城中區南關街138號 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00 6 update_time 更新時間, 毫秒級時間戳 1607414120745 6 update_time 更新時間, 毫秒級時間戳 1607414120745 7 site_no 網站備案/許可證號 青ICP備11000289號-2 7 site_no 網站備案/許可證號 青ICP備11000289號-2 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn 9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司 9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司

sed不僅可以輸出指定的某一行,還可以按行號範圍進行輸出,例如輸出1-5行:

shell sed -n 1,5p text.txt 1 province 省份 青海省 2 domain 域名或者ip tianfengyinlou.cn 3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00

sed還可以按照正則匹配來輸出特定的行。格式為/xx/p, 例如,查詢包含"青海省"的行記錄:

shell sed -n '/青海省/p' text.txt 1 province 省份 青海省 4 addr 註冊地址 青海省西寧市城中區南關街138號

查詢包含數字0到6的行記錄:

shell sed -n '/[0-6]/p' text.txt 1 province 省份 青海省 2 domain 域名或者ip tianfengyinlou.cn 3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00 6 update_time 更新時間, 毫秒級時間戳 1607414120745 7 site_no 網站備案/許可證號 青ICP備11000289號-2 查詢以0結尾的行記錄: shell sed -n '/0$/p' text.txt 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00

如果想要支援擴充套件正則匹配,需要通過-r來指定,例如查詢每一行包含"青海省"或者"青"的記錄:

shell sed -nr '/青海省|青/p' text.txt 1 province 省份 青海省 3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 7 site_no 網站備案/許可證號 青ICP備11000289號-2

sed正則匹配也支援按範圍輸出,格式為/xx/,/xx/p。例如查詢包含"domain"的行到包含"addr"的行記錄:

shell sed -n '/domain/,/addr/p' text.txt 2 domain 域名或者ip tianfengyinlou.cn 3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號

刪除

```shell

刪除第三行

sed 3d text.txt
1 province 省份 青海省 2 domain 域名或者ip tianfengyinlou.cn 4 addr 註冊地址 青海省西寧市城中區南關街138號 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00 6 update_time 更新時間, 毫秒級時間戳 1607414120745 7 site_no 網站備案/許可證號 青ICP備11000289號-2 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn 9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司

刪除包含青的行

sed '/青/d' text.txt
2 domain 域名或者ip tianfengyinlou.cn 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00 6 update_time 更新時間, 毫秒級時間戳 1607414120745 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn 9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司

更改text.txt

cat text.txt [email protected] 1 province 省份 青海省 2 domain 域名或者ip tianfengyinlou.cn

3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號

5 check_time 備案時間, 時間物件 2011-06-23 16:38:00

6 update_time 更新時間, 毫秒級時間戳 1607414120745

7 site_no 網站備案/許可證號 青ICP備11000289號-2 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn 9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司

刪除空行和註釋行

sed -r '/^$|#/d' text.txt
1 province 省份 青海省 2 domain 域名或者ip tianfengyinlou.cn 3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 7 site_no 網站備案/許可證號 青ICP備11000289號-2 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn 9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司 ```

增加

sed的增加動作有三種:

  • i:在指定行的上方增加一行
  • a: 在指定行的下方增加一行
  • c: 在指定行的地方增加一行,原有行會被覆蓋

上述三種增加行為示例為:

注意:示例的增加行為在mac上會報錯,可能在mac上用法不一致。

```shell

在第3行上方增加一行記錄

sed '3i insert oneline above 3rd line' text.txt 1 province 省份 青海省 2 domain 域名或者ip tianfengyinlou.cn insert oneline above 3rd line 3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00 6 update_time 更新時間, 毫秒級時間戳 1607414120745 7 site_no 網站備案/許可證號 青ICP備11000289號-2 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn 9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司

在第3行下方增加一行記錄

sed '3a insert oneline after 3rd line' text.txt 1 province 省份 青海省 2 domain 域名或者ip tianfengyinlou.cn 3 subject_no 主體備案號 青ICP備11000289號 insert oneline after 3rd line 4 addr 註冊地址 青海省西寧市城中區南關街138號 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00 6 update_time 更新時間, 毫秒級時間戳 1607414120745 7 site_no 網站備案/許可證號 青ICP備11000289號-2 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn 9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司

在第3行建立一行記錄,原記錄被替換

sed '3c create oneline at 3rd line' text.txt 1 province 省份 青海省 2 domain 域名或者ip tianfengyinlou.cn create oneline at 3rd line 4 addr 註冊地址 青海省西寧市城中區南關街138號 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00 6 update_time 更新時間, 毫秒級時間戳 1607414120745 7 site_no 網站備案/許可證號 青ICP備11000289號-2 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn 9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司 ```

修改

上述所有的操作輸出均沒有改變檔案自身的內容。想要使得操作改變檔案自身的內容,需要指定選項-i。指定-i的操作需要格外小心。

例如,在檔案中第一行插入一行記錄:

shell sed -i '1i add oneline above first line' text.txt cat text.txt add oneline above first line 1 province 省份 青海省 2 domain 域名或者ip tianfengyinlou.cn 3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00 6 update_time 更新時間, 毫秒級時間戳 1607414120745 7 site_no 網站備案/許可證號 青ICP備11000289號-2 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn 9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司

sed的刪除動作為d(delete),例如刪除檔案中的第一行:

```shell

刪除增加的第一行

sed -i 1d text.txt cat text.txt 1 province 省份 青海省 2 domain 域名或者ip tianfengyinlou.cn 3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00 6 update_time 更新時間, 毫秒級時間戳 1607414120745 7 site_no 網站備案/許可證號 青ICP備11000289號-2 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn 9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司 ```

當然,我們也有辦法做安全的刪除操作,即將-i換成-i.bak 可以在真實改動檔案內容前,備份檔案。但是這個操作一般不適合應用在大檔案上,因為備份很慢。

```shell

刪除第一行並備份

sed -i.bak 1d text.txt cat text.txt 2 domain 域名或者ip tianfengyinlou.cn 3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00 6 update_time 更新時間, 毫秒級時間戳 1607414120745 7 site_no 網站備案/許可證號 青ICP備11000289號-2 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn 9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司 cat text.txt.bak 1 province 省份 青海省 2 domain 域名或者ip tianfengyinlou.cn 3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00 6 update_time 更新時間, 毫秒級時間戳 1607414120745 7 site_no 網站備案/許可證號 青ICP備11000289號-2 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn 9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司 ```

替換

sed可以對檔案內容進行替換(substitute),格式為使用任意三個相同的符號,如三個斜線s/xx/yy/g、三個#s#xx#yy#g、三個@符號[email protected]@[email protected]等,效果是將xx替換為yy

這裡的符號選擇是任意的,可以是三個1,三個2都行。常用的是上述三種,因為和檔案內容重合度最小,具體使用哪種,需要根據檔案內容選擇。如果檔案內容本身包含了/,則不方便使用三個斜線來操作。

```shell

將"青" 替換為"蜀"

sed 's/青/蜀/g' text.txt
1 province 省份 蜀海省 2 domain 域名或者ip tianfengyinlou.cn 3 subject_no 主體備案號 蜀ICP備11000289號 4 addr 註冊地址 蜀海省西寧市城中區南關街138號 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00 6 update_time 更新時間, 毫秒級時間戳 1607414120745 7 site_no 網站備案/許可證號 蜀ICP備11000289號-2 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn 9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司

將第三行的青替換為蜀

sed '3s/青/蜀/g' text.txt
1 province 省份 青海省 2 domain 域名或者ip tianfengyinlou.cn 3 subject_no 主體備案號 蜀ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00 6 update_time 更新時間, 毫秒級時間戳 1607414120745 7 site_no 網站備案/許可證號 青ICP備11000289號-2 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn 9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司

把所有數字替換為x

sed -r 's/[0-9]/x/g' text.txt
x province 省份 青海省 x domain 域名或者ip tianfengyinlou.cn x subject_no 主體備案號 青ICP備xxxxxxxx號 x addr 註冊地址 青海省西寧市城中區南關街xxx號 x check_time 備案時間, 時間物件 xxxx-xx-xx xx:xx:xx x update_time 更新時間, 毫秒級時間戳 xxxxxxxxxxxxx x site_no 網站備案/許可證號 青ICP備xxxxxxxx號-x x site_url 站點/網站首頁網址 www.tianfengyinlou.cn x comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司 ```

g是全域性(gloabal)替換的意思,如果不要g,則只會替換匹配到的第一項:

```shell

把每一行的第一個數字替換為x

sed -r 's/[0-9]/x/' text.txt
x province 省份 青海省 x domain 域名或者ip tianfengyinlou.cn x subject_no 主體備案號 青ICP備11000289號 x addr 註冊地址 青海省西寧市城中區南關街138號 x check_time 備案時間, 時間物件 2011-06-23 16:38:00 x update_time 更新時間, 毫秒級時間戳 1607414120745 x site_no 網站備案/許可證號 青ICP備11000289號-2 x site_url 站點/網站首頁網址 www.tianfengyinlou.cn x comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司 ```

反向引用

反向引用就是利用正則的組匹配來以組為單位進行替換。

```shell

例如匹配所有的英文詞句([a-z_.]+),然後把他們用<>括起來, \1表示第一組,這裡只有一個組匹配

sed -r 's/([a-z_.]+)/<\1>/g' text.txt
1 省份 青海省 2 域名或者 3 主體備案號 青ICP備11000289號 4 註冊地址 青海省西寧市城中區南關街138號 5 備案時間, 時間物件 2011-06-23 16:38:00 6 更新時間, 毫秒級時間戳 1607414120745 7 網站備案/許可證號 青ICP備11000289號-2 8 站點/網站首頁網址 9 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司 ```

awk

取行

awk可以通過NR(Number of Record) 指定行號,輸出特定的行:

```shell

輸出第三行

awk 'NR==3' text.txt
3 subject_no 主體備案號 青ICP備11000289號 ```

也可以按行號範圍輸出:

```shell

輸出第三到第六行

awk 'NR==3, NR==6' text.txt
3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00 6 update_time 更新時間, 毫秒級時間戳 1607414120745

也可以通過比較指定輸出範圍

輸出3到4行

awk 'NR>=3 && NR<5' text.txt
3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 ```

第二個NR如果是個無效的行號值,則預設取出指定起始行之後所有的行記錄:

```shell

輸出第三行之後的所有行

awk 'NR==3, NR==xx' text.txt
3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00 6 update_time 更新時間, 毫秒級時間戳 1607414120745 7 site_no 網站備案/許可證號 青ICP備11000289號-2 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn 9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司

```

取行操作依然支援正則匹配:

```shell

輸出包含青的行

awk '/青/' text.txt
1 province 省份 青海省 3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 7 site_no 網站備案/許可證號 青ICP備11000289號-2

輸出以"號"結尾的行

awk '/號$/' text.txt
3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號

輸出包含domain到包含addr的行

awk '/domain/, /addr/' text.txt
2 domain 域名或者ip tianfengyinlou.cn 3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 ```

取列

awk可以使用{print $列號} 取出列值:

```shell

例如,取出第二列的值

awk '{print $2}' text.txt
province domain subject_no addr check_time update_time site_no site_url comp_name

取出第2列及最後一列NF(Number of Fields)的值

awk '{print $2,$NF}' text.txt
province 青海省 domain tianfengyinlou.cn subject_no 青ICP備11000289號 addr 青海省西寧市城中區南關街138號 check_time 16:38:00 update_time 1607414120745 site_no 青ICP備11000289號-2 site_url www.tianfengyinlou.cn comp_name 西寧天豐銀樓金銀珠寶有限公司

使用column -t 對齊輸出

awk '{print $2,$NF}' text.txt | column -t
province 青海省 domain tianfengyinlou.cn subject_no 青ICP備11000289號 addr 青海省西寧市城中區南關街138號 check_time 16:38:00 update_time 1607414120745 site_no 青ICP備11000289號-2 site_url www.tianfengyinlou.cn comp_name 西寧天豐銀樓金銀珠寶有限公司 ```

awk取列時,預設是空格為分隔符,可以通過-F指定分隔符,例如,第7-8行:

shell awk "NR==7,NR==8" text.txt 7 site_no 網站備案/許可證號 青ICP備11000289號-2 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn

取出第7、8行後,按/進行劃分,取出劃分後的第二列:

```shell awk "NR==7,NR==8" text.txt | awk -F/ '{print $2}'
許可證號 青ICP備11000289號-2 網站首頁網址 www.tianfengyinlou.cn

``-F可以通過[]`正則指定多個分隔符:

```shell

按空格和/ 進行分隔, 取出1到4列

awk "NR==7,NR==8" text.txt | awk -F'[ /]+' '{print $1,$2,$3,$4}'
7 site_no 網站備案 許可證號 8 site_url 站點 網站首頁網址 ```

精確取行列

awk可以精確取出某一行某一列的值。一些用例如:

```shell

~ 表示包含, !~ 表示不包含

取出第四列包含"青"的行

awk '$4 ~ /青/' text.txt
1 province 省份 青海省 3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 7 site_no 網站備案/許可證號 青ICP備11000289號-2

取出第四列以"號"結尾的行,並輸出最後一列

awk '$4 ~ /號$/{print $NF}' text.txt
青ICP備11000289號 青海省西寧市城中區南關街138號

取出第2列以d開始,到第四列以號結尾的行記錄

awk '$2 ~ /^d/, $4 ~/號$/' text.txt
2 domain 域名或者ip tianfengyinlou.cn 3 subject_no 主體備案號 青ICP備11000289號 ```

BEGIN

awk可以使用BEGIN在操作檔案內容前執行一些命令:

```shell

列如輸出表頭

awk 'BEGIN{print "序號","名稱","含義","示例"} {print $1,$2,$3,$4}' text.txt | column -t
序號 名稱 含義 示例 1 province 省份 青海省 2 domain 域名或者ip tianfengyinlou.cn 3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 5 check_time 備案時間, 時間物件 6 update_time 更新時間, 毫秒級時間戳 7 site_no 網站備案/許可證號 青ICP備11000289號-2 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn 9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司 ```

END

awk可以使用END在操作檔案內容後執行一些命令:

```shell

通常用於做統計, 例如對第一列求和

awk '{sum+=$1} END{print sum}' text.txt
45 ```

使用小結

  1. grep、sed、awk都可以過濾行記錄,但過濾行記錄時優先選擇grep,其過濾行的效率最高。
  2. sed主要用於對檔案內容做出各種修改(增加、替換等)。
  3. awk主要用於對檔案內容取行列操作。