linux三劍客(grep、sed、awk)基本使用
theme: awesome-green highlight: tomorrow-night
準備
作為一個經常在伺服器上游走的後端,需要熟悉不少命令列操作。其中,grep、sed、awk號稱"linux三劍客",使用頻繁,功能強大,本文通過一個例項演示下基本用法。首先準備一個文字檔案,命名為text.txt
,內容如下:
shell
cat text.txt
1 province 省份 青海省
2 domain 域名或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間物件 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
grep
首先,最簡單的是grep
。經常用來過濾檢視日誌。對於grep
需要知道如下幾個常用的命令選項:
-n
額外輸出行號。例如過濾出每一行包含"青"的記錄:
shell
grep -n "青" text.txt
1:1 province 省份 青海省
3:3 subject_no 主體備案號 青ICP備11000289號
4:4 addr 註冊地址 青海省西寧市城中區南關街138號
7:7 site_no 網站備案/許可證號 青ICP備11000289號-2
-v
排除匹配的行。例如排除包含"青"的行記錄:
shell
grep -v '青' text.txt
2 domain 域名或者ip tianfengyinlou.cn
5 check_time 備案時間, 時間物件 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
-E
支援擴充套件正則匹配。grep的時候,我們可以按照正則表示式來進行匹配,但在需要擴充套件正則匹配時,要通過-E指定才能生效。常見的或操作,比如篩選包含"青海省"或者"青ICP"的行記錄,不指定-E是無法獲得想要的結果的。
shell
grep -E '青海省|青ICP' text.txt
1 province 省份 青海省
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
7 site_no 網站備案/許可證號 青ICP備11000289號-2
-l
只輸出有匹配行的檔名。有時候,我們並不需要輸出匹配的行記錄,僅僅只是需要知道匹配到了行記錄的檔名:
shell
grep -l 青 text.txt
text.txt
-R
遞迴匹配目錄中的檔案內容。有時候,在一個目錄中我們並不知道哪個檔案內容包含我們想要的結果,此時,可以查詢整個目錄,輸出匹配的檔名以及行記錄:
```shell grep -R 青海 ./DevMisc
...
./DevMisc/linux三劍客.md:1 province 省份 青海省 ./DevMisc/linux三劍客.md:4 addr 註冊地址 青海省西寧市城中區南關街138號 ./DevMisc/text.txt:1 province 省份 青海省 ./DevMisc/text.txt:4 addr 註冊地址 青海省西寧市城中區南關街138號 ```
結合-l
引數就可以知道一個目錄中有哪些檔案包含了匹配項:
shell
grep -Rl 青 ./DevMisc
./DevMisc/linux三劍客.md
./DevMisc/text.txt
-A
通過-A(after)
指定輸出匹配行後的額外行數。例如,想要額外輸出包含"青"的行記錄後一行,可以指定-A1
:
shell
grep -A1 青 text.txt
1 province 省份 青海省
2 domain 域名或者ip tianfengyinlou.cn
--
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間物件 2011-06-23 16:38:00
--
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
-B
通過-B(before)
指定輸出匹配行前的額外行數。例如,想要額外輸出包含"青"的行記錄前一行,可以指定-B1
:
shell
grep -B1 青 text.txt
1 province 省份 青海省
--
2 domain 域名或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
--
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2
-C
通過-C
指定輸出匹配行前後的額外行數。例如,想要額外輸出包含"青"的行記錄前後各一行,可以指定-C1
:
shell
grep -C1 青 text.txt
1 province 省份 青海省
2 domain 域名或者ip tianfengyinlou.cn
--
--
2 domain 域名或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間物件 2011-06-23 16:38:00
--
--
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
sed
查詢
sed
的各項操作需要指定一個特定的動作。查詢需要指定一個動作為p(print)
,例如,打印出第三行的記錄,需要指定行號加動作3p
:
shell
sed -n 3p text.txt
3 subject_no 主體備案號 青ICP備11000289號
這裡必須指定一個選項-n
。因為sed
的預設行為是遍歷文字檔案的每一行並輸出每一行,假如不帶-n
選項,第三行會輸出兩次=預設輸出一次+命令列指定輸出一次:
shell
sed 3p text.txt
1 province 省份 青海省
2 domain 域名或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間物件 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
所以-n
的作用是取消sed
的預設輸出行為, 一般都只與p組合使用。利用sed
的預設輸出行為,我們可以模擬複製每一行的操作,有時候在特定場景下非常有用:
shell
sed p text.txt
1 province 省份 青海省
1 province 省份 青海省
2 domain 域名或者ip tianfengyinlou.cn
2 domain 域名或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間物件 2011-06-23 16:38:00
5 check_time 備案時間, 時間物件 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
sed
不僅可以輸出指定的某一行,還可以按行號範圍進行輸出,例如輸出1-5行:
shell
sed -n 1,5p text.txt
1 province 省份 青海省
2 domain 域名或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間物件 2011-06-23 16:38:00
sed
還可以按照正則匹配來輸出特定的行。格式為/xx/p
, 例如,查詢包含"青海省"的行記錄:
shell
sed -n '/青海省/p' text.txt
1 province 省份 青海省
4 addr 註冊地址 青海省西寧市城中區南關街138號
查詢包含數字0到6的行記錄:
shell
sed -n '/[0-6]/p' text.txt
1 province 省份 青海省
2 domain 域名或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間物件 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2
查詢以0結尾的行記錄:
shell
sed -n '/0$/p' text.txt
5 check_time 備案時間, 時間物件 2011-06-23 16:38:00
如果想要支援擴充套件正則匹配,需要通過-r
來指定,例如查詢每一行包含"青海省"或者"青"的記錄:
shell
sed -nr '/青海省|青/p' text.txt
1 province 省份 青海省
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
7 site_no 網站備案/許可證號 青ICP備11000289號-2
sed
正則匹配也支援按範圍輸出,格式為/xx/,/xx/p
。例如查詢包含"domain"的行到包含"addr"的行記錄:
shell
sed -n '/domain/,/addr/p' text.txt
2 domain 域名或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
刪除
```shell
刪除第三行
sed 3d text.txt
1 province 省份 青海省
2 domain 域名或者ip tianfengyinlou.cn
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間物件 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
刪除包含青的行
sed '/青/d' text.txt
2 domain 域名或者ip tianfengyinlou.cn
5 check_time 備案時間, 時間物件 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
更改text.txt
cat text.txt [email protected] 1 province 省份 青海省 2 domain 域名或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間物件 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn 9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
刪除空行和註釋行
sed -r '/^$|#/d' text.txt
1 province 省份 青海省
2 domain 域名或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
```
增加
sed
的增加動作有三種:
i
:在指定行的上方增加一行a
: 在指定行的下方增加一行c
: 在指定行的地方增加一行,原有行會被覆蓋
上述三種增加行為示例為:
注意:示例的增加行為在mac上會報錯,可能在mac上用法不一致。
```shell
在第3行上方增加一行記錄
sed '3i insert oneline above 3rd line' text.txt 1 province 省份 青海省 2 domain 域名或者ip tianfengyinlou.cn insert oneline above 3rd line 3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00 6 update_time 更新時間, 毫秒級時間戳 1607414120745 7 site_no 網站備案/許可證號 青ICP備11000289號-2 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn 9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
在第3行下方增加一行記錄
sed '3a insert oneline after 3rd line' text.txt 1 province 省份 青海省 2 domain 域名或者ip tianfengyinlou.cn 3 subject_no 主體備案號 青ICP備11000289號 insert oneline after 3rd line 4 addr 註冊地址 青海省西寧市城中區南關街138號 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00 6 update_time 更新時間, 毫秒級時間戳 1607414120745 7 site_no 網站備案/許可證號 青ICP備11000289號-2 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn 9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
在第3行建立一行記錄,原記錄被替換
sed '3c create oneline at 3rd line' text.txt 1 province 省份 青海省 2 domain 域名或者ip tianfengyinlou.cn create oneline at 3rd line 4 addr 註冊地址 青海省西寧市城中區南關街138號 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00 6 update_time 更新時間, 毫秒級時間戳 1607414120745 7 site_no 網站備案/許可證號 青ICP備11000289號-2 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn 9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司 ```
修改
上述所有的操作輸出均沒有改變檔案自身的內容。想要使得操作改變檔案自身的內容,需要指定選項-i
。指定-i
的操作需要格外小心。
例如,在檔案中第一行插入一行記錄:
shell
sed -i '1i add oneline above first line' text.txt
cat text.txt
add oneline above first line
1 province 省份 青海省
2 domain 域名或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間物件 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
sed
的刪除動作為d(delete)
,例如刪除檔案中的第一行:
```shell
刪除增加的第一行
sed -i 1d text.txt cat text.txt 1 province 省份 青海省 2 domain 域名或者ip tianfengyinlou.cn 3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00 6 update_time 更新時間, 毫秒級時間戳 1607414120745 7 site_no 網站備案/許可證號 青ICP備11000289號-2 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn 9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司 ```
當然,我們也有辦法做安全的刪除操作,即將-i
換成-i.bak
可以在真實改動檔案內容前,備份檔案。但是這個操作一般不適合應用在大檔案上,因為備份很慢。
```shell
刪除第一行並備份
sed -i.bak 1d text.txt cat text.txt 2 domain 域名或者ip tianfengyinlou.cn 3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00 6 update_time 更新時間, 毫秒級時間戳 1607414120745 7 site_no 網站備案/許可證號 青ICP備11000289號-2 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn 9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司 cat text.txt.bak 1 province 省份 青海省 2 domain 域名或者ip tianfengyinlou.cn 3 subject_no 主體備案號 青ICP備11000289號 4 addr 註冊地址 青海省西寧市城中區南關街138號 5 check_time 備案時間, 時間物件 2011-06-23 16:38:00 6 update_time 更新時間, 毫秒級時間戳 1607414120745 7 site_no 網站備案/許可證號 青ICP備11000289號-2 8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn 9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司 ```
替換
sed
可以對檔案內容進行替換(substitute)
,格式為使用任意三個相同的符號,如三個斜線s/xx/yy/g
、三個#
號s#xx#yy#g
、三個@
符號[email protected]@[email protected]
等,效果是將xx
替換為yy
。
這裡的符號選擇是任意的,可以是三個1,三個2都行。常用的是上述三種,因為和檔案內容重合度最小,具體使用哪種,需要根據檔案內容選擇。如果檔案內容本身包含了/,則不方便使用三個斜線來操作。
```shell
將"青" 替換為"蜀"
sed 's/青/蜀/g' text.txt
1 province 省份 蜀海省
2 domain 域名或者ip tianfengyinlou.cn
3 subject_no 主體備案號 蜀ICP備11000289號
4 addr 註冊地址 蜀海省西寧市城中區南關街138號
5 check_time 備案時間, 時間物件 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 蜀ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
將第三行的青替換為蜀
sed '3s/青/蜀/g' text.txt
1 province 省份 青海省
2 domain 域名或者ip tianfengyinlou.cn
3 subject_no 主體備案號 蜀ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間物件 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
把所有數字替換為x
sed -r 's/[0-9]/x/g' text.txt
x province 省份 青海省
x domain 域名或者ip tianfengyinlou.cn
x subject_no 主體備案號 青ICP備xxxxxxxx號
x addr 註冊地址 青海省西寧市城中區南關街xxx號
x check_time 備案時間, 時間物件 xxxx-xx-xx xx:xx:xx
x update_time 更新時間, 毫秒級時間戳 xxxxxxxxxxxxx
x site_no 網站備案/許可證號 青ICP備xxxxxxxx號-x
x site_url 站點/網站首頁網址 www.tianfengyinlou.cn
x comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
```
g
是全域性(gloabal)
替換的意思,如果不要g
,則只會替換匹配到的第一項:
```shell
把每一行的第一個數字替換為x
sed -r 's/[0-9]/x/' text.txt
x province 省份 青海省
x domain 域名或者ip tianfengyinlou.cn
x subject_no 主體備案號 青ICP備11000289號
x addr 註冊地址 青海省西寧市城中區南關街138號
x check_time 備案時間, 時間物件 2011-06-23 16:38:00
x update_time 更新時間, 毫秒級時間戳 1607414120745
x site_no 網站備案/許可證號 青ICP備11000289號-2
x site_url 站點/網站首頁網址 www.tianfengyinlou.cn
x comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
```
反向引用
反向引用就是利用正則的組匹配來以組為單位進行替換。
```shell
例如匹配所有的英文詞句([a-z_.]+),然後把他們用<>括起來, \1表示第一組,這裡只有一個組匹配
sed -r 's/([a-z_.]+)/<\1>/g' text.txt
1
awk
取行
awk
可以通過NR(Number of Record)
指定行號,輸出特定的行:
```shell
輸出第三行
awk 'NR==3' text.txt
3 subject_no 主體備案號 青ICP備11000289號
```
也可以按行號範圍輸出:
```shell
輸出第三到第六行
awk 'NR==3, NR==6' text.txt
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間物件 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
也可以通過比較指定輸出範圍
輸出3到4行
awk 'NR>=3 && NR<5' text.txt
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
```
第二個NR
如果是個無效的行號值,則預設取出指定起始行之後所有的行記錄:
```shell
輸出第三行之後的所有行
awk 'NR==3, NR==xx' text.txt
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間物件 2011-06-23 16:38:00
6 update_time 更新時間, 毫秒級時間戳 1607414120745
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
```
取行操作依然支援正則匹配:
```shell
輸出包含青的行
awk '/青/' text.txt
1 province 省份 青海省
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
7 site_no 網站備案/許可證號 青ICP備11000289號-2
輸出以"號"結尾的行
awk '/號$/' text.txt
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
輸出包含domain到包含addr的行
awk '/domain/, /addr/' text.txt
2 domain 域名或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
```
取列
awk
可以使用{print $列號}
取出列值:
```shell
例如,取出第二列的值
awk '{print $2}' text.txt
province
domain
subject_no
addr
check_time
update_time
site_no
site_url
comp_name
取出第2列及最後一列NF(Number of Fields)的值
awk '{print $2,$NF}' text.txt
province 青海省
domain tianfengyinlou.cn
subject_no 青ICP備11000289號
addr 青海省西寧市城中區南關街138號
check_time 16:38:00
update_time 1607414120745
site_no 青ICP備11000289號-2
site_url www.tianfengyinlou.cn
comp_name 西寧天豐銀樓金銀珠寶有限公司
使用column -t 對齊輸出
awk '{print $2,$NF}' text.txt | column -t
province 青海省
domain tianfengyinlou.cn
subject_no 青ICP備11000289號
addr 青海省西寧市城中區南關街138號
check_time 16:38:00
update_time 1607414120745
site_no 青ICP備11000289號-2
site_url www.tianfengyinlou.cn
comp_name 西寧天豐銀樓金銀珠寶有限公司
```
awk
取列時,預設是空格為分隔符,可以通過-F
指定分隔符,例如,第7-8行:
shell
awk "NR==7,NR==8" text.txt
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
取出第7、8行後,按/
進行劃分,取出劃分後的第二列:
```shell
awk "NR==7,NR==8" text.txt | awk -F/ '{print $2}'
許可證號 青ICP備11000289號-2
網站首頁網址 www.tianfengyinlou.cn
``
-F可以通過
[]`正則指定多個分隔符:
```shell
按空格和/ 進行分隔, 取出1到4列
awk "NR==7,NR==8" text.txt | awk -F'[ /]+' '{print $1,$2,$3,$4}'
7 site_no 網站備案 許可證號
8 site_url 站點 網站首頁網址
```
精確取行列
awk
可以精確取出某一行某一列的值。一些用例如:
```shell
~ 表示包含, !~ 表示不包含
取出第四列包含"青"的行
awk '$4 ~ /青/' text.txt
1 province 省份 青海省
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
7 site_no 網站備案/許可證號 青ICP備11000289號-2
取出第四列以"號"結尾的行,並輸出最後一列
awk '$4 ~ /號$/{print $NF}' text.txt
青ICP備11000289號
青海省西寧市城中區南關街138號
取出第2列以d開始,到第四列以號結尾的行記錄
awk '$2 ~ /^d/, $4 ~/號$/' text.txt
2 domain 域名或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
```
BEGIN
awk
可以使用BEGIN
在操作檔案內容前執行一些命令:
```shell
列如輸出表頭
awk 'BEGIN{print "序號","名稱","含義","示例"} {print $1,$2,$3,$4}' text.txt | column -t
序號 名稱 含義 示例
1 province 省份 青海省
2 domain 域名或者ip tianfengyinlou.cn
3 subject_no 主體備案號 青ICP備11000289號
4 addr 註冊地址 青海省西寧市城中區南關街138號
5 check_time 備案時間, 時間物件
6 update_time 更新時間, 毫秒級時間戳
7 site_no 網站備案/許可證號 青ICP備11000289號-2
8 site_url 站點/網站首頁網址 www.tianfengyinlou.cn
9 comp_name 主辦單位名稱(公司名稱) 西寧天豐銀樓金銀珠寶有限公司
```
END
awk
可以使用END
在操作檔案內容後執行一些命令:
```shell
通常用於做統計, 例如對第一列求和
awk '{sum+=$1} END{print sum}' text.txt
45
```
使用小結
grep、sed、awk
都可以過濾行記錄,但過濾行記錄時優先選擇grep
,其過濾行的效率最高。sed
主要用於對檔案內容做出各種修改(增加、替換等)。awk
主要用於對檔案內容取行列操作。