小赵在测试spark的时候,写了如下的代码 do lines ...
lines = sc.textFile("data.txt")
pairs = lines.map(lambda s: (s, 1))
counts = pairs.groupByKey(lambda a, b: a + b)
结果运行时等待了一段时间直接报错,data.txt文件较大,小赵对其进行抽样后结果如下:
data
apple
apple
apple
new
name
apple
apple
work
as
请分析报错的原因以及解决方案