在pyspark中按行串联字符串

发布于 2021-01-29 18:25:34

我有一个pyspark数据框为

DOCTOR | PATIENT
JOHN   | SAM
JOHN   | PETER
JOHN   | ROBIN
BEN    | ROSE
BEN    | GRAY

并且需要按行连接患者姓名,以便获得如下输出:

DOCTOR | PATIENT
JOHN   | SAM, PETER, ROBIN
BEN    | ROSE, GRAY

有人可以帮我有关在pyspark中创建此数据框吗?

提前致谢。

关注者
0
被浏览
47
1 个回答
  • 面试哥
    面试哥 2021-01-29
    为面试而生,有面试问题,就找面试哥。

    我能想到的最简单的方法是使用 collect_list

    import pyspark.sql.functions as f
    df.groupby("col1").agg(f.concat_ws(", ", f.collect_list(df.col2)))
    


知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看