Mostrando las entradas con la etiqueta Spark. Mostrar todas las entradas
Mostrando las entradas con la etiqueta Spark. Mostrar todas las entradas

domingo, 26 de enero de 2020

¿Como correr Spark en un cluster Hortonworks?

Spark tiene varias modalidad de correr distribuido, una de ellas es sobre YARN de Hadoop. Cuando lo corremos al script o usamos el Spark Shell, debemos tener en cuenta que nuestro usuario en Linux debe tener algunas variable de entorno establecidas, o de lo contrario, se van a generar muchos errores y advertencias extrañas. Estos son: JAVA_HOME, HADOOP_CONF_DIR y SPARK_HOME.

Para ello, podemos usar estas configuraciones en Hortonworks para configurarlas correctamente

export JAVA_HOME=$(grep 'java.home' /etc/ambari-server/conf/ambari.properties | sed -n -e 's/^.*java.home=//p')
export HADOOP_CONF_DIR=/etc/hadoop/conf/
export SPARK_HOME=/usr/hdp/current/spark2-client/

Luego, podemos llamar a nuestro Spark-Shell, como
spark-shell --master yarn --driver-memory 512m --executor-memory 512m 

El indicador, que todo correrá sobre YARN es esta línea:

Spark context available as 'sc' (master = yarn, app id = application_XXX)