题目描述
在给定的莎士比亚文集上(多个文件),根据规定的停词表,统计出现频率最高的 100 个单词。所谓的停词表,即在词表中的词语并不统计他的频率。
莎士比亚文集中具有多个章节,因此需要用到并行化的方法,这里使用Spark进行处理。
数据下载
# 莎士比亚文集:
wget http://labfile.oss.aliyuncs.com/courses/456/shakespear.zip
# 停词表:
wget http://labfile.oss.aliyuncs.com/courses/456/stopword.txt
1
2
3
4
编程模型
Spark上开发的应用程序都是由一个driver programe构成,这个所谓的驱动程序在Spark集群通过跑main函数来执行各种并行操作。集群上的所有节点进行并行计算需要共同访问一个分区元素的集合,这就是RDD(RDD resilient distributed dataset)弹性分布式数据集。RDD可以存储在内存或磁盘中,具有一定的容错性,可以在节点宕机重启后恢复。RDD可以从文件系统或HDFS中的文件创建,也可以从Scala或Python集合中创建。
主要针对RDD进行各种操作,程序中的步骤:
————————————————
版权声明:本文为CSDN博主「yqtaowhu」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/taoyanqi8932/article/details/53264140