小赵在测试pyspark的时候,写了一段代码如下 lines = s...
小赵在测试pyspark的时候,写了一段代码如下
lines = sc.textFile("data.txt")
lineLengths = lines.map(lambda s: len(s))
lineLengths.persist()
lineCount = lineLengths.count()
totalLength = lineLengths.reduce(lambda a, b: a + b)
1) 该代码运行过程中,请分析1,2,4行spark RDD的执行过程是怎么样的?
2) 请结合代码分析lineLengths.persist()这一步的作用