小赵在测试pyspark的时候，写了一段代码如下 lines = s...

发布于 2022-03-03 16:53:20

小赵在测试pyspark的时候，写了一段代码如下

lines = sc.textFile("data.txt")

lineLengths = lines.map(lambda s: len(s))

lineLengths.persist()

lineCount = lineLengths.count()

totalLength = lineLengths.reduce(lambda a, b: a + b)

1）该代码运行过程中，请分析1,2,4行spark RDD的执行过程是怎么样的?

2）请结合代码分析lineLengths.persist()这一步的作用

关注者

被浏览

1 个回答

相关试卷

知识点

面圈网VIP题库全新上线，海量真题题库资源。 90大类考试，超10万份考试真题开放下载啦