将pyspark中的Python模块运送到其他节点

发布于 2021-01-29 19:32:53

如何将C编译模块(例如python-
Levenshtein)运送到Spark集群中的每个节点?

我知道我可以使用独立的Python脚本(以下示例代码)在Spark中运送Python文件:

from pyspark import SparkContext
sc = SparkContext("local", "App Name", pyFiles=['MyFile.py', 'MyOtherFile.py'])

但是在没有“ .py”的情况下,我该如何运送模块?

关注者
0
被浏览
40
1 个回答
  • 面试哥
    面试哥 2021-01-29
    为面试而生,有面试问题,就找面试哥。

    如果可以将模块打包到.egg.zip文件中,则在pyFiles构造SparkContext时应该可以将其列出(或者以后可以通过sc.addPyFile进行添加)。

    对于使用setuptools的Python库,您可以运行python setup.py bdist_egg以构建egg发行版。

    另一种选择是通过在每台计算机上使用pip / easy_install或通过在群集范围内的文件系统(如NFS)上共享Python安装来在群集范围内安装库。



知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看