Linux下使用Shell文本处理工具集锦-巨人网络通讯

主页 > 知识库 > Linux下使用Shell文本处理工具集锦

Linux下使用Shell文本处理工具集锦

Linux下的操作习惯不像windows一样可以有窗口进行操作，它是有很多不同的命令组成的，本文将介绍Linux下使用Shell处理文本时最常用的工具：find、grep、xargs、sort、uniq、tr、cut、paste、wc、sed、awk；
提供的例子和参数都是最常用和最为实用的；
我对shell脚本使用的原则是命令单行书写，尽量不要超过2行；如果有更为复杂的任务需求，还是考虑python吧；

find 文件查找

查找txt和pdf文件

  find . \( -name "*.txt" -o -name "*.pdf" \) -print

正则方式查找.txt和pdf

  find . -regex  ".*\(\.txt|\.pdf\)___FCKpd___1quot;

-iregex：忽略大小写的正则

否定参数
查找所有非txt文本

   find . ! -name "*.txt" -print

指定搜索深度
打印出当前目录的文件（深度为1）

  find . -maxdepth 1 -type f

定制搜索

按类型搜索：

  find . -type d -print  //只列出所有目录

-type f 文件 / l 符号链接

按时间搜索：
-atime 访问时间 (单位是天，分钟单位则是-amin，以下类似）
-mtime 修改时间（内容被修改）
-ctime 变化时间（元数据或权限变化）
最近7天被访问过的所有文件：

  find . -atime 7 -type f -print

按大小搜索：
w字 k M G
寻找大于2k的文件

  find . -type f -size +2k

按权限查找：

  find . -type f -perm 644 -print //找具有可执行权限的所有文件

按用户查找：

  find . -type f -user weber -print// 找用户weber所拥有的文件

找到后的后续动作

删除：
删除当前目录下所有的swp文件：

  find . -type f -name "*.swp" -delete

执行动作（强大的exec）

  find . -type f -user root -exec chown weber {} \; //将当前目录下的所有权变更为weber

注：{}是一个特殊的字符串，对于每一个匹配的文件，{}会被替换成相应的文件名；
eg：将找到的文件全都copy到另一个目录：

  find . -type f -mtime +10 -name "*.txt" -exec cp {} OLD \;

结合多个命令
tips: 如果需要后续执行多个命令，可以将多个命令写成一个脚本。然后 -exec 调用时执行脚本即可；

  -exec ./commands.sh {} \;

-print的定界符

默认使用'\n'作为文件的定界符；
-print0 使用'\0'作为文件的定界符，这样就可以搜索包含空格的文件；

grep 文本搜索

grep match_patten file // 默认访问匹配行

常用参数
-o 只输出匹配的文本行 VS -v 只输出没有匹配的文本行
-c 统计文件中包含文本的次数

  grep -c "text" filename

-n 打印匹配的行号
-i 搜索时忽略大小写
-l 只打印文件名

在多级目录中对文本递归搜索(程序员搜代码的最爱）：

  grep "class" . -R -n

匹配多个模式

  grep -e "class" -e "vitural" file

grep输出以\0作为结尾符的文件名：（-z）

  grep "test" file* -lZ| xargs -0 rm

xargs 命令行参数转换

xargs 能够将输入数据转化为特定命令的命令行参数；这样，可以配合很多命令来组合使用。比如grep，比如find；

将多行输出转化为单行输出
cat file.txt| xargs
\n 是多行文本间的定界符

将单行转化为多行输出
cat single.txt | xargs -n 3
-n：指定每行显示的字段数

xargs参数说明

-d 定义定界符（默认为空格多行的定界符为 \n）
-n 指定输出为多行
-I {} 指定替换字符串，这个字符串在xargs扩展时会被替换掉,用于待执行的命令需要多个参数时
eg：

cat file.txt | xargs -I {} ./command.sh -p {} -1

-0：指定\0为输入定界符
eg：统计程序行数

find source_dir/ -type f -name "*.cpp" -print0 |xargs -0 wc -l

sort 排序

字段说明：
-n 按数字进行排序 VS -d 按字典序进行排序
-r 逆序排序
-k N 指定按第N列排序
eg：

sort -nrk 1 data.txtsort -bd data // 忽略像空格之类的前导空白字符

uniq 消除重复行

消除重复行

  sort unsort.txt | uniq

统计各行在文件中出现的次数

  sort unsort.txt | uniq -c

找出重复行

  sort unsort.txt | uniq -d

可指定每行中需要比较的重复内容：-s 开始位置 -w 比较字符数

用tr进行转换

通用用法

  echo 12345 | tr '0-9' '9876543210' //加解密转换，替换对应字符  cat text| tr '\t' ' '  //制表符转空格

tr删除字符

  cat file | tr -d '0-9' // 删除所有数字

-c 求补集

  cat file | tr -c '0-9' //获取文件中所有数字  cat file | tr -d -c '0-9 \n'  //删除非数字数据

tr压缩字符
tr -s 压缩文本中出现的重复字符；最常用于压缩多余的空格

  cat file | tr -s ' '

字符类
tr中可用各种字符类：
alnum：字母和数字
alpha：字母
digit：数字
space：空白字符
lower：小写
upper：大写
cntrl：控制（非可打印）字符
print：可打印字符
使用方法：tr [:class:] [:class:]

  eg: tr '[:lower:]' '[:upper:]'

cut 按列切分文本

截取文件的第2列和第4列：

  cut -f2,4 filename

去文件除第3列的所有列：

  cut -f3 --complement filename

-d 指定定界符：

  cat -f2 -d";" filename

cut 取的范围
N- 第N个字段到结尾
-M 第1个字段为M
N-M N到M个字段

cut 取的单位
-b 以字节为单位
-c 以字符为单位
-f 以字段为单位（使用定界符）

eg:

  cut -c1-5 file //打印第一到5个字符  cut -c-2 file  //打印前2个字符

paste 按列拼接文本

将两个文本按列拼接到一起;

cat file112cat file2colinbookpaste file1 file21 colin2 book

默认的定界符是制表符，可以用-d指明定界符
paste file1 file2 -d ","
1,colin
2,book

wc 统计行和字符的工具

wc -l file // 统计行数
wc -w file // 统计单词数
wc -c file // 统计字符数

sed 文本替换利器

首处替换

  seg 's/text/replace_text/' file   //替换每一行的第一处匹配的text

全局替换

   seg 's/text/replace_text/g' file

默认替换后，输出替换后的内容，如果需要直接替换原文件,使用-i：

  seg -i 's/text/repalce_text/g' file

移除空白行：

  sed '/^$/d' file

变量转换
已匹配的字符串通过标记来引用.

echo this is en example | seg 's/\w+/[]/g'___FCKpd___37gt;[this]  [is] [en] [example]

子串匹配标记
第一个匹配的括号内容使用标记 \1 来引用

  sed 's/hello\([0-9]\)/\1/'

双引号求值
sed通常用单引号来引用；也可使用双引号，使用双引号后，双引号会对表达式求值：

  sed 's/$var/HLLOE/'

当使用双引号时，我们可以在sed样式和替换字符串中指定变量；

eg:p=pattenr=replacedecho "line con a patten" | sed "s/$p/$r/g"___FCKpd___40gt;line con a replaced

其它示例
字符串插入字符：将文本中每行内容（PEKSHA）转换为 PEK/SHA

  sed 's/^.\{3\}/\//g' file

awk 数据流处理工具

awk脚本结构
awk ' BEGIN{ statements } statements2 END{ statements } '

工作方式
1.执行begin中语句块；
2.从文件或stdin中读入一行，然后执行statements2，重复这个过程，直到文件全部被读取完毕；
3.执行end语句块；

print 打印当前行

使用不带参数的print时，会打印当前行;

  echo -e "line1\nline2" | awk 'BEGIN{print "start"} {print } END{ print "End" }'

print 以逗号分割时，参数以空格定界;

echo | awk ' {var1 = "v1" ; var2 = "V2"; var3="v3"; \print var1, var2 , var3; }'___FCKpd___43gt;v1 V2 v3

使用-拼接符的方式（""作为拼接符）;

echo | awk ' {var1 = "v1" ; var2 = "V2"; var3="v3"; \print var1"-"var2"-"var3; }'___FCKpd___44gt;v1-V2-v3

特殊变量： NR NF $0 $1 $2

NR:表示记录数量，在执行过程中对应当前行号；
NF:表示字段数量，在执行过程总对应当前行的字段数；
$0:这个变量包含执行过程中当前行的文本内容；
$1:第一个字段的文本内容；
$2:第二个字段的文本内容；

echo -e "line1 f2 f3\n line2 \n line 3" | awk '{print NR":"$0"-"$1"-"$2}'

打印每一行的第二和第三个字段：

  awk '{print $2, $3}' file

统计文件的行数：

  awk ' END {print NR}' file

累加每一行的第一个字段：

  echo -e "1\n 2\n 3\n 4\n" | awk 'BEGIN{num = 0 ;  print "begin";} {sum += $1;} END {print "=="; print sum }'

传递外部变量

var=1000echo | awk '{print vara}' vara=$var #  输入来自stdinawk '{print vara}' vara=$var file # 输入来自文件

用样式对awk处理的行进行过滤

awk 'NR 5' #行号小于5
awk 'NR==1,NR==4 {print}' file #行号等于1和4的打印出来
awk '/linux/' #包含linux文本的行（可以用正则表达式来指定，超级强大）
awk '!/linux/' #不包含linux文本的行

设置定界符

使用-F来设置定界符（默认为空格）
awk -F: '{print $NF}' /etc/passwd

读取命令输出

使用getline，将外部shell命令的输出读入到变量cmdout中；

echo | awk '{"grep root /etc/passwd" | getline cmdout; print cmdout }'

在awk中使用循环

for(i=0;i10;i++){print $i;}
for(i in array){print array[i];}

eg:
以逆序的形式打印行：(tac命令的实现）

seq 9| \awk '{lifo[NR] = $0; lno=NR} \END{ for(;lno>-1;lno--){print lifo[lno];}} '

awk实现head、tail命令

head:

  awk 'NR=10{print}' filename

tail:

  awk '{buffer[NR%10] = $0;} END{for(i=0;i11;i++){ \  print buffer[i %10]} } ' filename

打印指定列

awk方式实现：

  ls -lrt | awk '{print $6}'

cut方式实现

  ls -lrt | cut -f6

打印指定文本区域

确定行号

  seq 100| awk 'NR==4,NR==6{print}'

确定文本
打印处于start_pattern 和end_pattern之间的文本；

  awk '/start_pattern/, /end_pattern/' filename

eg:

seq 100 | awk '/13/,/15/'cat /etc/passwd| awk '/mai.*mail/,/news.*news/'

awk常用内建函数

index(string,search_string):返回search_string在string中出现的位置
sub(regex,replacement_str,string):将正则匹配到的第一处内容替换为replacement_str;
match(regex,string):检查正则表达式是否能够匹配字符串；
length(string)：返回字符串长度

echo | awk '{"grep root /etc/passwd" | getline cmdout; print length(cmdout) }'

printf 类似c语言中的printf，对输出进行格式化
eg：

seq 10 | awk '{printf "->%4s\n", $1}'

迭代文件中的行、单词和字符

1. 迭代文件中的每一行

while 循环法

while read line;doecho $line;done  file.txt改成子shell:cat file.txt | (while read line;do echo $line;done)

awk法：
cat file.txt| awk '{print}'

2.迭代一行中的每一个单词

for word in $line;do echo $word;done

3. 迭代每一个字符

${string:start_pos:num_of_chars}：从字符串中提取一个字符；(bash文本切片）
${#word}:返回变量word的长度

for((i=0;i${#word};i++))doecho ${word:i:1);done

标签：湘西茂名仙桃衡阳六盘水衡阳庆阳三门峡

巨人网络通讯声明：本文标题《Linux下使用Shell文本处理工具集锦》，本文关键词 Linux,下,使用,Shell,文本,；如发现本文内容存在版权问题，烦请提供相关信息告之我们，我们将及时沟通与处理。本站内容系统采集于网络，涉及言论、版权与本站无关。

下面列出与本文章《Linux下使用Shell文本处理工具集锦》相关的同类信息！

Linux下使用Shell文本处理工具集锦

Linux下的操作习惯不像windows一样可以有窗口进行操作，它是有很多不同的命令组成的，本文将介绍Linux下使用Shell处理文本时最常用的工具：find、grep、xargs、sort、uniq、tr、cut、paste、w...

10-20

电话机器人拨打使用介绍

另外，很多电销企业没有使用智能语音机器人，只知道“智能电话机器人”这一产品，但智能电销机器人不知道使用方便与否...

10-30

威海电销外呼系统有效果吗（电销外呼系统哪个好）

本文目录一览： 1、智能外呼系统有用吗 2、自动外呼系统好用吗？ 3、外呼系统真的可以解决电销呼出问题吗？智能外呼系...

11-24

为什么有人会去天津港买车而不去本地车店？

提起平行进口车，大多数消费者第一时间都会想起天津港，这个地方真让不少发烧友又爱又恨，爱的是，天津港在国内平行进...

12-14

Linux下使用Shell脚本实现ftp的自动上传下载的代码小结

1. ftp自动登录批量下载文件。复制代码代码如下: #####从ftp服务器上的/home/data 到本地的/home/databackup#### #!/bin/bash ftp -n! ope...

10-18

衡水申请400电话(400电话怎么申请流程)

衡水申请400电话(400电话怎么申请流程) 衡水400电话到哪办理，公司里想装400电话，树立形象，方便开展全国业务 400电话，能...

08-14

sentstrt.exe - sentstrt进程是什么文件有什么用

进程文件： sentstrt or sentstrt.exe 进程名称： Rainbow Technologies 进程类别：存在安全风险的进程英文描述： sentstrt.exe is aprocess...

10-19

浅谈外包呼叫中心如何开拓金融外包市场

外包呼叫中心在我国正呈现出蓬勃发展的态势。不仅外包呼叫中心数量在不断增加，其坐席的拥有量和通讯资源的拥有量正在...

10-22

建筑业广泛运用400电话

随着建筑工程增多，直接促进了建筑企业的快速增长，由于工程项目大都采取招标形式，这样就致使建筑企业形成四下流动施...

12-22

2013年度地图导航定位产品测评

5月11日上午，据不完全统计。2013年地图导航定位产品测评工作启动会在中国测绘创新基地举行。会议现场安排了地图导航定...

04-13

江苏企业智能外呼系统推荐（智能化外呼）

本篇文章给大家谈谈江苏企业智能外呼系统推荐，以及智能化外呼对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔...

05-17

LMS平台外呼系统

电话销售作为一种成本低、效率高的销售方式，一直被众多企业所采用，但随着国家对通信行业的管控力度的加大，也不得不...

11-27

国民老公王思聪买下罕见bbbb.com域名：全球仅26个

继wanda.com之后，今日有消息爆料称，国民老公王思聪已经买下bbbb.com域名。经验证，目前bbbb.com已经跳转到王思聪微博。 wan...

10-19

html5 postMessage前端跨域并前端监听的方法示例

有时候会遇到傻X需求，比如前端单点登陆！遇到需求，就要去想解决办法，这里我给大家做一个简单的前端单点登陆的解决...

10-16

2015销售话术个人心得

销售成功与否，有时候不是因为你口才怎么样，而是在于你的话术。保险公司的业务员，口才应该没有几个差的，为什么的...

10-19

400电话办理入户选择代理商的六大注意事项

越来越多的企业申请了400电话，一般企业在申请400电话之前都会货比三家选择一个优秀的代理商。现在联通、电信、移动都可...

04-08

地名也可以注册为商标吗

我们老是能在街上看见“兰州拉面”、“北京烤鸭”、“沙县小吃”等一系列带有地名的商标，或者是“金华火腿”、“平谷...

10-23

CRM应用系统

CRM应用系统在众多企业级管理软件中，应当属于市场竞争最激烈、产品多样化程度最高的一款产品。根据查阅到的文献，客户...

10-25

四川电销机器人软件(灵犀电销机器人)

“嘿四川电销机器人软件，Siri！帮四川电销机器人软件我查看下明天的天气”“明天的天气......” 类似这样的人机对话场景...

11-29

安徽电销机器人招商在哪里（电销智能机器人代理）

本文目录一览： 1、合肥此刻有几家做电销板滞人呢？ 2、方年夜智能管家AI电销板滞人智能电话发卖板滞人怎样样？ 3、电销...

11-26

温州专业群呼线路多少钱,电话营销线路怎么办理-诚邀洽谈

温州专业群呼线路多少钱,电话营销线路怎么办理并自动发送传真给客户，而不需要人工的干预。电脑传真：如果业务代理在...

12-16

呼叫中心质量管理引领企业发展多报表实时监督座席状态

任何企业发展都离不开与客户之间的沟通，建立良好的沟通环境对众多企业十分关键，注重呼叫中心质量管理即可提升企业沟...

07-13

何谓不封号电销卡（怎么办不封号的营销电话）

本文目录一览：1、防封电销卡真的不封吗?2、电销卡是什么?为什么电销卡也会封号?3、电销卡是否真的不封号?还是有其他的...

07-10

做电销减少封号的办法有哪些?

由于工信部的限制，封号问题更为严重，让本就难做的电销行业更加困难。那么做电销想要减少封号，有什么比较好的解决办...

02-02

长春市稳定白名单手机卡靠谱

随着“新基建”进程的加快，作为头号工程的5G网络为旅游业向数字化、网络化、智能化发展提供了新机遇。近期，常州移动...

03-26

临汾外呼系统收费（沃创云外呼系统收费）

本文目录一览： 1、市道上外呼体系挺多的，外呼体系几何钱一个？ 2、外呼体系装置须要哪些用度？ 3、电销外呼体系几何钱...

11-25

access的备注字段限制64K

内容区用的是备注字段,发布的内容少时没有问题,内容一多,尤其是发布长的表格数据就会报错,这是怎么回事,是备注字段有字...

10-18

南宁电话机器人好用吗知乎（电话机器人厂家）

本文目录一览：1、电话机器人好用吗,有什么优势?2、有用过电话机器人的吗,效果怎么样?3、电话机器人好用不?电话机器人好...

06-02

成都房产公司AXB系统搭建源码,小号AXB模式外显A-据说

一企嗨电话营销系统 1．当前的电销场景有哪些困扰？ 1）手机.卡频繁被封，电销业务难以启动； 2）销售人员号码被标注，...

12-17

外呼系统怎么去销售（用外呼系统销售犯法吗）

本文目次一览： 1、外呼零碎怎样用？我也是做电销的，打德律风打多了就会被封号 2、外呼营销本领晋升 3、德律风外呼本领...

11-25

400开头是哪里的电话400打头是哪里的电话

(400开头是哪里的电话)(400打头是哪里的电话)以下内容由巨人小编整理发布。 400电话是原中国电信、中国网通、中国铁通三大...

01-12

怎样买到好用的电销卡？这些问题要注意！

现在，各行业间的竞争也开始愈演愈烈，为了在激烈的竞争环境中生存下来，就需要公司能够给大众提供更好的服务。而在提...

12-04

由于COVID-19而采取的特殊措施的修改

10-23

天津外呼系统价钱（外呼系统怎么收费的）

本文目次一览： 1、市道上外呼零碎挺多的，外呼零碎几何钱一个？ 2、外呼零碎几何钱一个月？ 3、外呼零碎一个几何钱，有...

11-25

ofo增速行业第一远超摩拜44% 城市覆盖远甩摩拜

近日，日光之城拉萨刮起了黄色出行小旋风，全球最早和最大的共享单车平台ofo进驻拉萨，这也是小黄车全球布局中的第 1...

10-16

朗泰助东方般若提升呼叫中心外包水平

CTI论坛(ctiforum)8月12日消息（记者杨佳林）：近日，朗泰携手东方般若提升其呼叫中心外包水平。东方般若是呼叫中心座席外...

10-19

包含金融电销封卡的词条

本篇文章给大家谈谈金融电销封卡，以及对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。本文目录一览：1、银...

08-27

电话机器人对单位有用吗（机器人用什么单位）

今天给各位分享电话机器人对单位有用吗的知识，其中也会对机器人用什么单位进行解释，如果能碰巧解决你现在面临的问题...

02-24

湖北不记名电销卡代理（无记名电话卡销售）

本篇文章给咱们谈谈湖北不记名电销卡署理，以及无记名电话卡出售对应的知识点，期望对各位有所协助，不要忘了保藏本站...

05-17

OfficeSuite UC联络中心获得实时聊天功能

老秦夜译 CTI论坛(ctiforum.com)6月5日消息（编译/老秦）:随着公司开始在家办公，员工正在充分利用沟通和协作功能来实现高效...

10-19

全球语音技术市场爆发年均增长超三成

全球语音技术市场在过去几年呈现出快速发展的态势，年平均复合增长率超过25%，根据市场研究机构联合商业情报(ABI)公司发...

10-22

金华智能外呼系统哪家好（杭州外呼系统哪家好）

本文目录一览： 1、外呼体系哪家公司做得好？？？2、智能电话外呼体系哪家的比较好用？3、网络电话外呼体系哪个好？4、...

11-28

网络号码打电话软件

网络号码打电话软件它作为一种高效的业务推广与客户服务模式，受到了越来越多企业单位的重视和应用，同时也是客户与企...

10-26

400电话怎么办理申请开通,操作难吗400电话办理如何选择服务商呢？

在处理手机号码业务时，我们确实需要进行实名认证，以证明号码是我们自己使用的，以避免更多的麻烦。但为什么我们需要...

01-13

功利主义与商标保护范围的划定理念

（一）功利主义的基本思想在人类的伦理思想史上，主要有道义论和功利主义。道义论从抽象的理念（一些道德原则）出发...

10-23

企业400电话资费，400电话资费

企业400电话资费，400电话资费400电话代理商为你解答。 400电话收费标准因结列顶纸年到于读青曾地区和服务商不同而异。一...

07-20

浙江智能外呼系统收费（智能语音外呼系统价格）

本文目录一览： 1、外呼体系多少钱一个月？2、外呼体系一个多少钱，有哪些功用？3、外呼体系装置需求哪些费用？4、智能...

11-28

拍卖机构抖音短视频如何才能轻松上热门

抖音短视频需要搞清楚哪些才干轻松上抢手?抖音现在有多火不解说，有互联网商业思维的人早已经内行动了，门槛也低，一...

03-01

随州自动电销机器人收费（随州市机器人店）

今天给各位分享随州自动电销机器人收费的知识，其中也会对随州市机器人店进行解释，如果能碰巧解决你现在面临的问题，...

05-16

网页400电话400电话登录平台

网页400电话400电话登录平台以下内容由巨人小编整理发布。企业总机400电话申请一般需要3—7天，话统PBX云总机在线申请即可...

05-16

湖州防封号电话系统办理公司,电话销售系统费用-[安全可靠]

湖州防封号电话系统办理公司,电话销售系统费用包括拨号、应答、挂断、转接等，以及呼叫线路的管理和配置。呼叫系统呼...

12-16

Linux下使用Shell文本处理工具集锦

10-20

本页收集关于Linux下使用Shell文本处理工具集锦的相关信息资讯供网民参考！

推荐文章

上一篇：linux性能监控工具介绍

下一篇：Linux下修改时间时区的方法介绍

一起分享吧