本帖最后由 泰克Tech 于 2024-5-8 14:12 编辑
最近在辅导实验的时候,大家普遍遇到了一个问题——在自己的jupyter中安装pyspark库后发现一运行就报错。这些错误通过网上的一些资料不能很系统地解决,为此我编写了一篇文章,来为大家详细讲解如何解决这个问题。
大家普遍出现了以下几个错误: 错误1:提示需要16个参数但是只拿到了15个参数。如图1-1。
图1-1
错误2:spark可以正常初始化输出spark版本信息等但是在处理数据时就会报错。如图1-2、1-3。 图1-2
图1-3
上面两个错误的主要原因是pyspark的版本和Python的版本不兼容,我们只需要调整自己的Python版本和pyspark版本即可。这里以Python3.7.x版本和pyspark2.4.5为例为大家介绍如何调整jupyter notebook中的Python版本。
首先在jupyter notebook中观察自己的pyhton版本。代码如图2-1:
图2-1
如图2-1,我的Python版本为Python3.7.6,符合Python3.7.x的版本要求,如果大家不是这个版本,需要在anaconda中创建新的环境。具体步骤如图:
默认情况下大家只有一个环境,这时候我们点击左下角的“Create”按钮创建新的环境,并指定Python3.7.x的版本。
按照要求指定环境名和Python版本后,点击“Create”按钮等待创建完成即可。其中的“R”语言版本指定或者不指定都可以,对环境没有影响。安装完成后就可以看到自己新建的环境了。
默认情况下新创建的环境不能打开“jupyter notebook”,我们需要为其安装一个“jupyter notebook”环境。安装考试步骤时间较长,大约在5分钟左右,大家耐心等待即可。具体操作如图:
安装完成后在Windows菜单里就可以看到新建的jupyter notebook环境了,这样就可以打开安装好的jupyter notebook环境了。
jupyter notebook环境安装好以后我们还需要在jupyter notebook环境中安装pyspark2.4.5库。如图:
pyspark2.4.5库安装完成后,初始化pyspark环境,并在环境中进行简单的数据处理检查环境是否还有报错,以验证是否解决Python版本和pyspark库版本不兼容所导致的程序异常问题。
如图环境可以初始化成功,并且对数据进行处理也不会报错,则证明环境已经配置成功。
以上就是处理Python版本和pyspark版本不兼容问题导致的程序异常问题解决办法了。大家在操作的过程中有什么疑问可以在评论区留言。
了解更多内容方向 请持续关注
|