Pyspark读取s3文件

    pyspark 读取minio上的文件(s3协议都支持)

    注意,需下载两个依赖包,aws-java-adk-1.7.4.jar https://mvnrepository.com/artifact/com.amazonaws/aws-java-sdk 与hadoop-aws-2.7.3.jar https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-aws,并将这两个 jar 包放在 SPARK_HOME/jars 目录下。注意:hadoop-aws-x.x.x.jar 其中 x.x.x 为 hadoop 的版本,必须一致,相应的 aws-java-adk 的版本在 hadoop-aws 下载页面找到依赖的版本。

代码如下:




 from pyspark import SparkContext
 from pyspark.sql.session import SparkSession

 sc = SparkContext()
 spark = SparkSession(sc)
 hadoopConf = sc._jsc.hadoopConfiguration()
 hadoopConf.set("fs.s3a.access.key", "123456")
 hadoopConf.set("fs.s3a.secret.key", "12345678")
 hadoopConf.set("fs.s3a.endpoint", "http://127.0.0.1:9000")

 file = 's3a://test/titanic.train.csv'   # test为存储桶
 df = spark.read.csv(file, header=True, inferSchema=True)



Python spark

到现在有0条评论

添加我的评论