PySpark:写入时吐出单个文件,而不是多个零件文件
发布于 2021-01-29 15:58:00
当将DataFrame写入JSON文件时,有没有一种方法可以防止PySpark创建多个小文件?
如果我运行:
df.write.format('json').save('myfile.json')
要么
df1.write.json('myfile.json')
它创建了一个名为的文件夹myfile
,在其中我找到了几个名为part-***
HDFS的小文件。是否可以通过某种方式吐出单个文件呢?
关注者
0
被浏览
48
1 个回答