ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Spark安装

2019-07-15 18:05:18  阅读:289  来源: 互联网

标签:bin python hadoop master 033 Spark 安装 spark


spark安装

查看是否安装 zlib:
find /usr/ -name zlib.pc

cat /../../.../zlib.pc
    Name: zlib
    Description: zlib compression library
    Version: 1.2.11
可知 zlib版本,若未安装,则 先安装 zlib,只在 master 上安装
tar -zvxf zlib-1.2.11.tar.gz 
cd zlib-1.2.11
./configure 
make
make check
make install

下载解压 python
tar -zvxf Python-2.7.14.tgz
[root@master spark]# cd Python-2.7.14
[root@master spark]# ./configure
[root@master spark]# make
[root@master Python-2.7.14]# sudo make install

[root@master python2.7]# python
Python 2.7.14 (default, Jan 30 2019, 02:56:10) 
[GCC 4.4.7 20120313 (Red Hat 4.4.7-17)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> 

(其他安装方法
1、安装编译环境所需包
#yum install zlib-devel bzip2-devel openssl-devel ncurese-devel gcc zlib
2.下载源码包
   #wget https://www.python.org/ftp/python/3.6.1/Python-3.6.1.tgz)

将 python 分发到集群
在集群中分别安装python,将python安装在默认目录,不要自定目录,以防 perssions defined

--------------------------------------------------------------------------------------------------

编译安装python3
cd Python-3.6.2
./configure --with-ssl
make
sudo make install
解决pip3不能使用,安装时添加--with--ssl

安装pip3
1.首先找到pip3的位置(在python3.6的安装包内)
cd /usr/local/bin
ls (这里可以看见pip3.6的文件了)
ln -s /usr/local/bin/pip3.6 /bin/pip3 #创建pip3命令的连接符
pip3 -v
完成!
卸载python3
rpm -qa|grep python3|xargs rpm -e --allmatches --nodeps 卸载pyhton3
whereis python3 |xargs rm -frv 删除所有残余文件
成功卸载!
whereis python 查看现有安装的python

spark 需要用到 hadoop 的文件管理系统 HDFS 和任务调度系统 YARN,所以在搭建 spark 之前需要先搭建好 hadoop


Spark(2.4.0) runs on Java 8+, Python 2.7+/3.4+ and R 3.1+. For the Scala API, Spark 2.4.0 uses Scala 2.11. You will need to use a compatible Scala version (2.11.x). R--> RDD

spark 安装像 Hadoop一样 在 master 机器配置好然后分发到 集群每台机器上

下载解压spark,配置环境变量
export SPARK_HOME=/spark/spark/spark-2.4.0-bin-hadoop2.7
#####export PYTHONPATH=${SPARK_HOME}/python/lib/py4j-0.10.4-src:${SPARK_HOME}/python/lib/pyspark
export PATH=${SPARK_HOME}/bin:${SPARK_HOME}/sbin:$PATH
修改 spark 配置文件
<!-- 
其中client模式需要设置:
PYSPARK_PYTHON=/path/to/python2.7  (可在环境变量中设置,可以在spark-env.sh中设置)

cluster模式需要设置:
spark.yarn.appMasterEnv.PYSPARK_PYTHON=/path/to/python2.7
spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON=/path/to/python2.7 (可在运行中临时指定,也可在spark-default.sh中设置) -->

cd spark-2.4.0-bin-hadoop2.7/conf
cp spark-env.sh.template  spark-env.sh
vi spark-env.sh
    export JAVA_HOME=/usr/hadoop/jdk1.8.0_201
    export SPARK_MASTER_IP=master
    export SPARK_WORKER_MEMORY=1g
    export HADOOP_CONF_DIR=/usr/hadoop/hadoop-2.7.4

#cp spark-defaults.conf.template spark-defaults.conf
#vi spark-defaults.conf

#spark.master=spark://master:9000

cp  slaves.template slaves
vi slaves

master
slave1
slave2
slave4         
#slaves,此文件是指定子节点的主机,直接添加子节点主机名即可,Hadoop的主节点master也是spark的节点

将 spark 分发到集群
scp -r spark-2.4.0-bin-hadoop2.7 slave1:/usr/hadoop/
scp -r spark-2.4.0-bin-hadoop2.7 slave2:/usr/hadoop/
scp -r spark-2.4.0-bin-hadoop2.7 slave4:/usr/hadoop/

分别配置spark的环境变量
启动集群脚本start-cluster.sh如下:
#!/bin/bash
echo -e "\033[31m ========Start The Cluster======== \033[0m"
echo -e "\033[31m Starting Hadoop Now !!! \033[0m"
/opt/hadoop-2.7.3/sbin/start-all.sh
echo -e "\033[31m Starting Spark Now !!! \033[0m"
/opt/spark-2.1.0-bin-hadoop2.7/sbin/start-all.sh
echo -e "\033[31m The Result Of The Command \"jps\" :  \033[0m"
jps
echo -e "\033[31m ========END======== \033[0m"

[hadoop@master ~]$ bash start-cluster.sh 

关闭集群脚本stop-cluser.sh如下:
#!/bin/bash
echo -e "\033[31m ===== Stoping The Cluster ====== \033[0m"
echo -e "\033[31m Stoping Spark Now !!! \033[0m"
/opt/spark-2.1.0-bin-hadoop2.7/sbin/stop-all.sh
echo -e "\033[31m Stopting Hadoop Now !!! \033[0m"
/opt/hadoop-2.7.3/sbin/stop-all.sh
echo -e "\033[31m The Result Of The Command \"jps\" :  \033[0m"
jps
echo -e "\033[31m ======END======== \033[0m"

 

sparkApp开发可以使用 Anaconda 因为它集成了python开发所需工具,不需要担心引用兼容性等问题

sparkAPP开发完成后,可以在本地测试,测试完毕后发送到远程集群运行

 

http://localhost:4040/executors/ 查看spark 可以在这里查看 spark 环境信息,同时可以找出异常信息,以助于解决开发测试问题

 

使用命令 hadoop jar /home/hadoop/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar pi 10 10 用来求圆周率,pi是类名,第一个10表示Map次数,第二个10表示随机生成点的次数(与计算原理有关) 

-----------------------------------------------------------------------------------------------
问题:
File "E:\ai\tt\Anaconda3\lib\site-packages\pyspark\java_gateway.py", line 94, in launch_gateway
raise Exception("Java gateway process exited before sending its port number")

Exception: Java gateway process exited before sending its port number
解决方法: 
在anaconda中environment中安装 pyspark,不要直接复制到 site-packages

 

 

标签:bin,python,hadoop,master,033,Spark,安装,spark
来源: https://blog.csdn.net/a4775019136/article/details/95993691

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有