超好用的国标舞音乐软件

题目描述

在给定的莎士比亚文集上（多个文件），根据规定的停词表，统计出现频率最高的 100 个单词。所谓的停词表，即在词表中的词语并不统计他的频率。

莎士比亚文集中具有多个章节，因此需要用到并行化的方法，这里使用Spark进行处理。

数据下载

# 莎士比亚文集：

wget http://labfile.oss.aliyuncs.com/courses/456/shakespear.zip

# 停词表：

wget http://labfile.oss.aliyuncs.com/courses/456/stopword.txt

1

2

3

4

编程模型

Spark上开发的应用程序都是由一个driver programe构成，这个所谓的驱动程序在Spark集群通过跑main函数来执行各种并行操作。集群上的所有节点进行并行计算需要共同访问一个分区元素的集合，这就是RDD（RDD resilient distributed dataset）弹性分布式数据集。RDD可以存储在内存或磁盘中，具有一定的容错性，可以在节点宕机重启后恢复。RDD可以从文件系统或HDFS中的文件创建，也可以从Scala或Python集合中创建。

主要针对RDD进行各种操作，程序中的步骤：

————————————————

原文链接：https://blog.csdn.net/taoyanqi8932/article/details/53264140

大M

舞蹈老师/互联网创业者

江苏 · 苏州

Follow

超好用的国标舞音乐软件

教程

Tag Cloud

公众号

汇舞APP

微信公众号

个人微信

Your browser is out-of-date!