小赵在测试pyspark的时候,写了一段代码如下 lines = s...

发布于 2022-03-03 16:53:20

小赵在测试pyspark的时候,写了一段代码如下

lines = sc.textFile("data.txt")

lineLengths = lines.map(lambda s: len(s))

lineLengths.persist()

lineCount = lineLengths.count()

totalLength = lineLengths.reduce(lambda a, b: a + b)

 

1) 该代码运行过程中,请分析1,2,4spark RDD的执行过程是怎么样的?

2) 请结合代码分析lineLengths.persist()这一步的作用
关注者
0
被浏览
57
知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看