超好用的国标舞音乐软件

超好用的国标舞音乐软件

题目描述

在给定的莎士比亚文集上(多个文件),根据规定的停词表,统计出现频率最高的 100 个单词。所谓的停词表,即在词表中的词语并不统计他的频率。


莎士比亚文集中具有多个章节,因此需要用到并行化的方法,这里使用Spark进行处理。


数据下载

# 莎士比亚文集:

wget http://labfile.oss.aliyuncs.com/courses/456/shakespear.zip

# 停词表:

wget http://labfile.oss.aliyuncs.com/courses/456/stopword.txt

1

2

3

4

编程模型

Spark上开发的应用程序都是由一个driver programe构成,这个所谓的驱动程序在Spark集群通过跑main函数来执行各种并行操作。集群上的所有节点进行并行计算需要共同访问一个分区元素的集合,这就是RDD(RDD resilient distributed dataset)弹性分布式数据集。RDD可以存储在内存或磁盘中,具有一定的容错性,可以在节点宕机重启后恢复。RDD可以从文件系统或HDFS中的文件创建,也可以从Scala或Python集合中创建。


主要针对RDD进行各种操作,程序中的步骤:

————————————————

版权声明:本文为CSDN博主「yqtaowhu」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/taoyanqi8932/article/details/53264140

超大曲库,超简介的国标舞舞曲APP
微信公众号上有整理好的大量视频及文章,希望对大家有帮助
交流,合作可以加大M个人微信交流
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×