`
lfq618
  • 浏览: 85543 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

如何从文件中快速找到出现频率次数最多的用户?

阅读更多

目前有一个2G的用户日志文件,服务器内存1G,日志里面每行存着一个用户ID(7-10),怎么最快找出出现过最多次的用户ID?

 

1:先用 split切割成小文件
split -l100000 file newfile
2:遍历切割后的文件
for file in *.log
do
awk '{{a[$2]++}END{for(t in a) print a[t],t}}' file >> coutfile.log
done
awk '{a[$2]+=$1}END{{l=asorti(a,b);for(i=l;i>=1;i--)print b[i],a[b[i]]}' countfile.log
如果coutfile还是大 可以在循环中处理下 让他排重几次

分享到:
评论

相关推荐

    大数据面试题(2).docx

    对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用trie树/hash_map等),并取出出现频率最大的100个词(可以用含100个结点的最小堆),并把100词及相应的频率存入文件,这样又得到了5000个文件。...

    不同频率听力测试

    Android 手机发出不同频率的声音对用户进行听力测试,尽可能简化了测试步骤,尽量减少用户听的不同频率的声波的次数,毕竟3000HZ以上的声音是很刺耳的,长时间听我可受不了,这也不是我们需要的用户体验~

    大数据常见算法题.txt

    同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP中,...

    入门学习Linux常用必会60个命令实例详解doc/txt

    这里笔者把比较重要和使用频率最多的命令,按照它们在系统中的作用分成下面六个部分一一介绍。 ◆ 安装和登录命令:login、shutdown、halt、reboot、install、mount、umount、chsh、exit、last; ◆ 文件处理命令...

    毕业设计基于用户画像的电影推荐系统-包含论文还有演示视频和代码以及详解

    TF指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化,以防止它偏向长的文件(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否)。IDF是一个词语普遍重要性的度量,某一...

    毕业设计 - 基于用户画像购物网站商品(电影/音乐/图书)推荐系统(python,包含论文、演示视频、详细文档等)

    TF指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化,以防止它偏向长的文件(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否)。IDF是一个词语普遍重要性的度量,某一...

    计算文本相似度

    基于关键词Jarccard距离...字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。

    词频统计工具 v3.16.zip

    .html)或文本文件(.txt)中所有中英文单词出现的总次数,或分别在各文件中出现的频率。值得一提是软件不仅可以统计出这些数据,还可以将这些数据按出现次数排序输出为Excel表格或Word表格文档。软件界面美观简洁、...

    用Python分析文本数据的词频.zip

    此外,该工具包还可能包含数据可视化的功能,通过绘制词云图或者柱状图,直观地展示出文本中各个单词的出现频率,帮助用户快速了解文本的主题和重点内容。总的来说,"用Python分析文本数据的词频.zip"是一个实用的...

    基于聚类算法,热力图展示分析,特征值对目标值的影响度 代码中有数据格式展示 结果说明

    visit_frequency: 用户访问频率(一周内访问次数) visit_duration: 用户访问时长(单位:分钟) curricula_variable: 功能1的使用次数 选课 check_lesson: 功能2的使用次数 查课 look_book: 功能3的使用次数 看书 ...

    摄像头视频和图像处理软件-MATLAB视频和图像处理软件.pdf

    支持从视频中截取某些帧的选定区域组成新的视频文件,同时提取选出的这些图像帧相对应的声音信息。用户可以获得独立的图像和声音文件,以备其他商业软件合并成一个文件。支持播放视频的单独声音信息,可以设定播放的...

    摄像头视频和图像处理软件-VideoandImageStudio1.0.zip

    支持从视频中截取某些帧的选定区域组成新的视频文件,同时提取选出的这些图像帧相对应的声音信息。用户可以获得独立的图像和声音文件,以备其他商业软件合并成一个文件。支持播放视频的单独声音信息,可以设定播放的...

    cmd操作命令和linux命令大全收集

    copy 1st.jpg/b+2st.txt/a 3st.jpg 将2st.txt的内容藏身到1st.jpg中生成3st.jpg新的文件,注:2st.txt文件头要空三排,参数:/b指二进制文件,/a指ASCLL格式文件 copy ipadmin$svv.exe c: 或:copyipadmin$*.* 复制...

    flash shiti

    12. 如果导入的是图像序列中的一个picture001.bmp 文件,并且序列中的其他文件位于相同的 文件夹中,则将被识别为图像序列将是下面哪些: □ A. picture001.bmp □ B. picture002.bmp □ C. picture003.bmp □ D. ...

    Python爬取十篇新闻统计TF-IDF

    字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,互联网上...

    TF.rar_idf

    TF-IDF是一种统计方法,用以...字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级

    软件工程专题四:多媒体专题

    计算机中以MID为扩展名的文件称为MIDI文件,其中存放的是对MIDI设备的命令,即每个音符的频率、音量、通道号等指示信息。最后播出的声音是由MIDI设备根据这些信息产生的。 MIDI声音可以用于配音,它的缺点是对回放...

    AI-TextMiningTests:简单的Java应用程序可测试基本的文本挖掘概念,例如文本分类和情感分析。 该应用程序允许用户训练模型(带有w tf-idf的单词袋),然后使用它对文本进行分类(w朴素贝叶斯)

    tf-idf值与单词在文档中出现的次数成正比地增加,并被语料库中单词的频率偏移,这有助于调整某些单词通常出现得更频繁的事实。 资料来源: 朴素贝叶斯 朴素贝叶斯(Naive Bayes)是一种著名的基于用于文本挖掘的...

Global site tag (gtag.js) - Google Analytics