数据集和SQL_MonogDB 中文网

MongoDB工具 >MongoDB Spark连接器 >Spark Connector Scala指南 > 数据集和SQL

源代码

有关包含以下示例的源代码，请参见 SparkSQL.scala。

入门

本教程可以作为独立的Scala应用程序运行，也可以作为Spark Shell中的单个命令运行。

将以下文档插入characters集合：

package com.mongodb

object SparkSQL {

  def main(args: Array[String]): Unit = {

    import org.apache.spark.sql.SparkSession

    /* For Self-Contained Scala Apps: Create the SparkSession
     * CREATED AUTOMATICALLY IN spark-shell */
    val sparkSession = SparkSession.builder()
      .master("local")
      .appName("MongoSparkConnectorIntro")
      .config("spark.mongodb.input.uri", "mongodb://127.0.0.1/test.characters")
      .config("spark.mongodb.output.uri", "mongodb://127.0.0.1/test.characters")
      .getOrCreate()

    import com.mongodb.spark._
    import com.mongodb.spark.config._
    import org.bson.Document

    val docs = """
      {"name": "Bilbo Baggins", "age": 50}
      {"name": "Gandalf", "age": 1000}
      {"name": "Thorin", "age": 195}
      {"name": "Balin", "age": 178}
      {"name": "Kíli", "age": 77}
      {"name": "Dwalin", "age": 169}
      {"name": "Óin", "age": 167}
      {"name": "Glóin", "age": 158}
      {"name": "Fíli", "age": 82}
      {"name": "Bombur"}""".trim.stripMargin.split("[\\r\\n]+").toSeq
    sparkSession.sparkContext.parallelize(docs.map(Document.parse)).saveToMongoDB()

    // Additional operations go here...

    }
}

数据框和数据集

在火花2.0新，一个DataFrame由a表示Dataset的 Rows，现在的别名Dataset[Row]。

蒙戈星火连接器提供了 com.mongodb.spark.sql.DefaultSource创建类 DataFrames和Datasets从MongoDB的。使用连接器的 MongoSpark助手来帮助创建DataFrame：

复制

val df = MongoSpark.load(sparkSession)  // Uses the SparkSession
df.printSchema()                        // Prints DataFrame schema

该操作将打印以下内容：

复制

root
 |-- _id: struct (nullable = true)
 |    |-- oid: string (nullable = true)
 |-- age: integer (nullable = true)
 |-- name: string (nullable = true)

注意

默认情况下，从MongoDB中读取内容SparkSession是通过对数据库中的文档进行采样来推断架构的。要显式声明一个模式，请参阅显式声明一个模式。

另外，您可以使用SparkSession方法创建DataFrames：

复制

val df2 = sparkSession.loadFromMongoDB() // SparkSession used for configuration
val df3 = sparkSession.loadFromMongoDB(ReadConfig(
  Map("uri" -> "mongodb://example.com/database.collection")
  )
) // ReadConfig used for configuration

val df4 = sparkSession.read.mongo() // SparkSession used for configuration
sqlContext.read.format("mongo").load()

// Set custom options
import com.mongodb.spark.config._

val customReadConfig = ReadConfig(Map("readPreference.name" -> "secondaryPreferred"), Some(ReadConfig(sc)))
val df5 = sparkSession.read.mongo(customReadConfig)

val df6 = sparkSession.read.format("mongo").options(customReadConfig.asOptions).load()

筛选器

注意

filters与DataFrames或Spark SQL一起使用时，基础的Mongo Connector代码构造一个聚合管道，以在将数据发送到Spark之前过滤MongoDB中的数据。

以下示例过滤并输出年龄小于100的字符：

复制

df.filter(df("age") < 100).show()

该操作输出以下内容：

复制

+--------------------+---+-------------+
|                 _id|age|         name|
+--------------------+---+-------------+
|[5755d7b4566878c9...| 50|Bilbo Baggins|
|[5755d7b4566878c9...| 82|         Fíli|
|[5755d7b4566878c9...| 77|         Kíli|
+--------------------+---+-------------+

明确声明架构

默认情况下，从MongoDB中读取内容SparkSession是通过对集合中的文档进行采样来推断架构的。您还可以使用来显式定义架构，从而消除采样所需的额外查询。case class

注意

如果为架构提供案例类，则MongoDB 仅返回声明的字段。这有助于最小化通过电线发送的数据。

以下语句创建一个，然后使用它为定义架构：Character case classDataFrame

复制

case class Character(name: String, age: Int)

重要

对于自包含的Scala应用程序，Character应使用该类在方法之外定义该类。

复制

val explicitDF = MongoSpark.load[Character](sparkSession)
explicitDF.printSchema()

该操作将输出以下输出：

复制

root
 |-- name: string (nullable = true)
 |-- age: integer (nullable = false)

转换为数据集

转换时，可以使用的情况下类DataFrame的 Dataset，如下面的例子：

复制

val dataset = explicitDF.as[Character]

将RDD转换为DataFrame和数据集

本MongoRDD类提供帮助者的转换RDD，以 DataFrames和Datasets。以下示例将SparkContext对象传递到，MongoSpark.load()该对象返回 RDD，然后对其进行转换：

复制

// Passing the SparkContext to load returns a RDD, not DF or DS
val rdd = MongoSpark.load(sparkSession.sparkContext)
val dfInferredSchema = rdd.toDF()
val dfExplicitSchema = rdd.toDF[Character]()
val ds = rdd.toDS[Character]()

SQL查询

在数据集上运行SQL查询之前，必须为数据集注册一个临时视图。

以下操作注册一个 characters表，然后查询该表以查找所有100个或更旧的字符：

复制

val characters = MongoSpark.load[Character](sparkSession)
characters.createOrReplaceTempView("characters")

val centenarians = sparkSession.sql("SELECT name, age FROM characters WHERE age >= 100")
centenarians.show()

将DataFrame保存到MongoDB

MongoDB Spark Connector提供了将DataFrames持久存储到MongoDB中的集合的功能。

以下示例使用MongoSpark.save(DataFrameWriter)方法将方法保存centenarians到hundredClubMongoDB 的集合中并验证保存，从hundredClub 集合中读取：

复制

MongoSpark.save(centenarians.write.option("collection", "hundredClub").mode("overwrite"))

println("Reading from the 'hundredClub' collection:")
MongoSpark.load[Character](sparkSession, ReadConfig(Map("collection" -> "hundredClub"), Some(ReadConfig(sparkSession)))).show()

如果集合已经存在，则DataFrameWriter包括在写入结果之前.mode("overwrite")删除 hundredClub集合的。

在Spark Shell中，该操作将输出以下输出：

复制

+-------+----+
|   name| age|
+-------+----+
|Gandalf|1000|
| Thorin| 195|
|  Balin| 178|
| Dwalin| 169|
|    Óin| 167|
|  Glóin| 158|
+-------+----+

MongoSpark.save(dataFrameWriter)是通过DataFrameWriter进行配置和保存的简写。以下示例使用DataFrameWriter直接将DataFrames写入MongoDB：

复制

centenarians.write.option("collection", "hundredClub").mode("overwrite").mongo()
centenarians.write.option("collection", "hundredClub").mode("overwrite").format("mongo").save()

数据类型

Spark支持有限数量的数据类型，以确保所有BSON类型都可以往返于Spark DataFrame / Dataset中。对于任何不受支持的Bson类型，将创建自定义StructType。

下表显示了Bson类型和Spark类型之间的映射：

Bson类型	火花类型
`Document`	`StructType`
`Array`	`ArrayType`
`32-bit integer`	`Integer`
`64-bit integer`	`Long`
`Binary data`	`Array[Byte]`或`StructType`：`{ subType: Byte, data: Array[Byte]}`
`Boolean`	`Boolean`
`Date`	`java.sql.Timestamp`
`DBPointer`	`StructType`： `{ ref: String , oid: String}`
`Double`	`Double`
`JavaScript`	`StructType`： `{ code: String }`
`JavaScript with scope`	`StructType`： `{ code: String , scope: String }`
`Max key`	`StructType`： `{ maxKey: Integer }`
`Min key`	`StructType`： `{ minKey: Integer }`
`Null`	`null`
`ObjectId`	`StructType`： `{ oid: String }`
`Regular Expression`	`StructType`： `{ regex: String , options: String }`
`String`	`String`
`Symbol`	`StructType`： `{ symbol: String }`
`Timestamp`	`StructType`： `{ time: Integer , inc: Integer }`
`Undefined`	`StructType`： `{ undefined: Boolean }`

数据集支持

为了帮助更好地支持数据集，已创建以下Scala案例类（ com.mongodb.spark.sql.fieldTypes）和JavaBean类（ com.mongodb.spark.sql.fieldTypes.api.java.）来表示不受支持的BSON类型：

Bson类型	Scala案例类	JavaBean
`Binary data`	`Binary`	`Binary`
`DBPointer`	`DBPointer`	`DBPointer`
`JavaScript`	`JavaScript`	`JavaScript`
`JavaScript with scope`	`JavaScriptWithScope`	`JavaScriptWithScope`
`Max key`	`MaxKey`	`MaxKey`
`Min key`	`MinKey`	`MinKey`
`ObjectId`	`ObjectId`	`ObjectId`
`Regular Expression`	`RegularExpression`	`RegularExpression`
`Symbol`	`Symbol`	`Symbol`
`Timestamp`	`Timestamp`	`Timestamp`
`Undefined`	`Undefined`	`Undefined`

为了方便起见，所有BSON类型也可以表示为String值。但是，这些值会丢失其所有原始类型信息，并且如果保存回MongoDB，则会存储为字符串。

MongoDB 工具

数据集和SQL

入门

数据框和数据集

筛选器

明确声明架构

转换为数据集

将RDD转换为DataFrame和数据集

SQL查询

将DataFrame保存到MongoDB

数据类型

数据集支持