shell两个文件去重的多种姿势-巨人网络通讯

主页 > 知识库 > shell两个文件去重的多种姿势

shell两个文件去重的多种姿势

前言

大家都知道shell在文本处理上确有极大优势，比如多文本合并、去重等，但是最近遇到了一个难搞的问题，即两个大数据量文件去重。下面来看看详细的介绍吧。

要求

有txt文件A.txt和B.txt。

其中A为关键词和搜索量，以逗号分隔，约90万行。

B为关键词，约400万行。

需要从A中找出与B重复的关键词。

我试了N种姿势，但结果都不尽人意，最奇怪的是有些方法对小数据量的测试文件有用，一旦用在A与B上就会失败，真叫人百思不得其解。

姿势一：

awk -F, '{print $1}' A >keywords.txt
cat keywords.txt B.txt | sort | uniq -d
 
#先从A.txt种取出关键词，然后与B.txt一起打开，用sort排序，uniq -d 取出重复的行

姿势二：

awk -F, '{print $1}' A >keywords.txt
#照例先取出关键词
 
comm -1 -2 keywords.txt B.txt
#利用comm命令，显示两个文件都存在的行

姿势三：

awk -F, '{print $1}' A >keywords.txt
for i in `cat keywords.txt`
do
  A=`egrep -c "^$i$" B.txt`
  if [ $A != 0 ]
  then
    echo $i >>重复关键词.txt
  fi
done
 
#这种姿势就稍微复杂点
#首先取出关键词，然后利用for循环逐个去B.txt里面匹配（注意正则写法^$i$），如果匹配到的结果数不为0，说明这个关键词是重复的，然后输出
#这种方法的优点是稳妥，缺点是效率太TM低了，90万个词逐一与400万词匹配，shell默认又没有多线程，耗时太长。

姿势四：

awk -F, '{print $1}' A >keywords.txt
cat keywords.txt B.txt | awk '!a[$1]++'
 
#这个方法的原理其实我不太懂，awk命令实在太强大太高深了，但是这种方法又简洁又快速

其实还有一种grep -v 、grep -f 的方法，但是我没有试过，所以不在这里列出了。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流。

您可能感兴趣的文章:

判断文件是否存在的shell脚本代码
Shell逐行读取文件的4种方法
shell去掉文件中空行(空白行)的方法详解
shell脚本中执行时提示“没有那个文件或目录”的解决办法
shell按行读取文件的3种方法
Shell脚本统计文件行数的8种方法
Shell获取文件的文件名和扩展名的例子
Shell中调用、引用、包含另一个脚本文件的三种方法
shell判断文件,目录是否存在或者具有权限的代码
shell中删除文件中重复行的方法

标签：湖南湘潭黄山衡水仙桃兰州崇左铜川

巨人网络通讯声明：本文标题《shell两个文件去重的多种姿势》，本文关键词；如发现本文内容存在版权问题，烦请提供相关信息告之我们，我们将及时沟通与处理。本站内容系统采集于网络，涉及言论、版权与本站无关。

电销机器人到底如何运作的？

很多人对电销机器人到底如何运作存在着巨大的好奇心，那么今天，小编就带大家看一下机器人的运作流程！电销...

10-24

电话机器人的兴起对电销行业来说是“惊喜”还

随着互联网大数据的普及，许多电销行业如雨后春笋般争先恐后地冒出来。而今电销行业的混乱，让各位涉足电销...

10-24

百应电话机器人有哪些功能？百应电话机器人好

百应智能电话机器人能够协助企业进行呼入接待、外呼回访等服务场景，能够经过不断的培训学习，逐步完善成专...

10-24

客服外呼系统都有哪些优势？

当前呼叫中心电话系统被企业用于业务电销以及客户服务，然而随着企业需求不断扩大，原来传统的自建呼叫中心...

10-24

电销机器人效果怎么样？智能电话机器人可行吗

几百数千年后，或许没人会记得卡斯帕罗夫曾是世界第一的围棋高手，但人们会记得，他败给了电脑深蓝。那虽算不...

10-24

百应智能外呼系统，贷后管理科技升级

去年底开始，接连出台政策和法规加强对消费金融等金融形态进行规范。强监管下，行业走向规范发展，行业竞...

10-24

百应智能外呼系统引领外呼行业新风向

电话销售：您好，我这边是XX地产，给您推荐一下精装酒店式公寓，有兴趣了解一下吗? 客户：具体位置在哪里啊?...

10-24

小贷企业为什么需要电销机器人？

随着信贷行业逐步进入我们的生活中，越来越多人选择借款来处理资金难题。信贷企业不断涌现，业务开展迅猛，行...

10-24

雷霆电话机器人是如何转接人工的？

当我们在拨通移动、联通或电信运营商的客服电话时，总会要先经过一些机械化的选择，然后成功连接人工坐席反馈...

10-24

米卡迪电话机器人效果怎么样？

外呼电话机器人，之所以能智能的与客户无忧交流，因为运用了下面这么多高技术。 ASR 语音识别米卡迪电话机器人...

10-24

灵声电话机器人效果怎么样？好用吗

外呼电话机器人，之所以能智能的与客户无忧交流，因为运用了下面这么多高技术。灵声电话机器人效果怎么样？...

10-24

电销机器人要想效果好，话术定制有多重要

电话机器人是基于智能语音技术的智能营销工具。它会像真人一样主动拨打客户的电话，介绍产品并回答客户的咨询...

10-24

智能电话机器人的实现原理，使用安全吗？

随着科学技术的进步和人工智能的发展，越来越多的智能产品已经进入我们的工作和生活。智能手机、智能电视、智...

10-24

福州哪里有电话机器人研发公司？

人工智能再次成为各行各业关注的焦点，自从这个概念首次提出以来，60年已经过去了。自从AlphaGo以巨大优势击败人...

10-24

电销机器人销售能力怎么样？

自从电话机器人一出现，在电销行业火爆了起来。面对电话机器人的各种优势，企业跃跃欲试，但又害怕效果不理...

推荐文章

python flask开发的简单基金查询工具

win10 mobile单手操作模式怎么用？win10 mobile和iOS系统单手操作区别对比

网络传播和下载的版权补偿金制度的适用

科大讯飞闪耀世界人工智能大会：人工智能+未来已来

商标转让,知意商标转让网,公司注册、商标注册和品牌注册三者的区别？

上一篇：用Shell判断字符串包含关系的方法小结

下一篇：Shell交互批量更改主机名的方法

一起分享吧

shell两个文件去重的多种姿势

QQ咨询

电话咨询