我可以将多个文件从S3读入Spark Dataframe中,并传递不存在的文件吗?

发布于 2021-01-29 17:48:28

我想从S3读取多个实木复合地板文件到一个数据帧中。目前,我正在使用以下方法执行此操作:

files = ['s3a://dev/2017/01/03/data.parquet',
         's3a://dev/2017/01/02/data.parquet']
df = session.read.parquet(*files)

如果所有文件都存在于S3上,则此方法有效,但是当列表中的某些文件不存在时,我想请求将文件列表加载到数据帧中而不会中断。换句话说,我希望sparkSql可以将它找到的尽可能多的文件加载到数据帧中,并在不抱怨的情况下返回此结果。这可能吗?

关注者
0
被浏览
40
1 个回答
  • 面试哥
    面试哥 2021-01-29
    为面试而生,有面试问题,就找面试哥。

    是的,如果您将指定输入的方法更改为hadoop全局模式,则是可能的,例如:

    files = 's3a://dev/2017/01/{02,03}/data.parquet'
    df = session.read.parquet(files)
    

    您可以在Hadoop
    javadoc中
    阅读有关模式的更多信息。

    但是,我认为这不是按时间(按您的情况按天)分区的数据的一种优雅的处理方式。如果您能够这样重命名目录:

    • s3a://dev/2017/01/03/data.parquet -> s3a://dev/day=2017-01-03/data.parquet
    • s3a://dev/2017/01/02/data.parquet -> s3a://dev/day=2017-01-02/data.parquet

    那么您可以利用Spark分区架构并通过以下方式读取数据:

    session.read.parquet('s3a://dev/') \
        .where(col('day').between('2017-01-02', '2017-01-03')
    

    这种方式也将省略空目录/不存在的目录。Additionall列day将出现在数据框中(在spark <2.1.0中为字符串,在spark> =
    2.1.0中为datetime),因此您将知道每条记录存在于哪个目录中。



知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看