Pyspark读取elasticsearch数据 

    需下载依赖包,elasticsearch-spark.jar https://mvnrepository.com/artifact/org.elasticsearch/elasticsearch-spark-20,并将这个 jar 包放在 SPARK_HOME/jars 目录下。注意:spark 版本。

代码如下:




 from pyspark import SparkContext
 from pyspark.sql.session import SparkSession

 sc = SparkContext()
 spark = SparkSession(sc)
 df = spark.read.format("org.elasticsearch.spark.sql").option("es.nodes", "127.0.0.1:9200") \
            .option("es.resource", "es_index").load()
 df.write.format("org.elasticsearch.spark.sql").option("es.nodes", "127.0.0.1:9200") \
            .option("es.index.auto.create", 'true') .option("es.nodes.wan.only", "true") \
 
            .option("es.resource", "es_index").mode("overwrite").save()


Python spark

到现在有0条评论

添加我的评论