配置选项_MonogDB 中文网

MongoDB 工具

在本页面

指定配置
输入配置
输出配置
缓存配置

MongoDB Spark连接器提供了各种配置选项。

指定配置

通过 `SparkConf`

您可以通过SparkConf使用--conf 设置或$SPARK_HOME/conf/spark-default.conf文件来指定这些选项，MongoDB Spark Connector将使用中的设置SparkConf作为默认设置。

重要

通过设置配置时SparkConf，必须在配置选项前加上前缀。有关特定前缀，请参阅配置部分。

通过`ReadConfig`和`WriteConfig`

MongoDB连接器API中的各种方法都接受可选的 ReadConfig 或WriteConfig对象。 ReadConfig和WriteConfig设置会覆盖中的任何相应设置SparkConf。

有关示例，请参阅使用ReadConfig和使用WriteConfig。有关更多详细信息，请参阅这些方法的来源。

通过选项图

在Spark API中，某些方法（例如DataFrameReader和 DataFrameWriter）接受形式为的选项。Map[String, String]

您可以通过方法将自定义ReadConfig或WriteConfig设置转换为。MapasOptions()

通过系统属性

连接器提供了MongoClients只能通过“系统属性”对其进行配置的缓存。请参阅缓存配置。

输入配置

可以使用以下选项从MongoDB中读取：

注意

如果通过设置这些连接器输入配置SparkConf，请在这些设置之前加上前缀spark.mongodb.input.。

物业名称	描述
`uri`	需要。形式的连接字符串， `mongodb://host:port/`其中`host`可以是主机名，IP地址或UNIX域套接字。如果`:port`未指定，则连接使用默认的MongoDB端口27017。其他剩余的输入选项可以添加到`uri` 设置中。请参阅uri配置设置。
`database`	需要。从中读取数据的数据库名称。
`collection`	需要。从中读取数据的集合名称。
`batchSize`	游标中使用的内部批处理的大小。
`localThreshold`	从多个MongoDB服务器中选择服务器的阈值（以毫秒为单位）。默认值：15毫秒
`readPreference.name`	要使用的读取首选项。默认值：主要
`readPreference.tagSets`	要使用的ReadPreference TagSet。
`readConcern.level`	要使用的“ 读取关注点”级别。
`sampleSize`	推断架构时要使用的样本大小。默认值：1000
`samplePoolSize`	样本池大小，用于限制从中采样数据的结果。默认值：10000
`partitioner`	用于对数据进行分区的分区程序的类名。连接器提供以下分区程序： `MongoDefaultPartitioner` 默认。包装MongoSamplePartitioner并为旧版MongoDB的用户提供帮助。 `MongoSamplePartitioner` 需要MongoDB 3.2。适用于所有部署的通用分区程序。使用文档的平均大小和馆藏的随机抽样来确定馆藏的合适分区。有关MongoSamplePartitioner的配置设置，请参阅 MongoSamplePartitioner配置。 `MongoShardedPartitioner` 分片群集的分区程序。根据数据块对集合进行分区。需要对`config`数据库的读取访问权限。有关MongoShardedPartitioner的配置设置，请参阅 MongoShardedPartitioner配置。 `MongoSplitVectorPartitioner` 独立或副本集的分区程序。`splitVector`在独立服务器或主数据库上使用命令来确定数据库的分区。需要特权才能运行`splitVector` 命令。有关MongoSplitVectorPartitioner的配置设置，请参见 MongoSplitVectorPartitioner配置。 `MongoPaginateByCountPartitioner` 适用于所有部署的慢速通用分区程序。创建特定数量的分区。需要查询每个分区。有关MongoPaginateByCountPartitioner的配置设置，请参阅 MongoPaginateByCountPartitioner配置。 `MongoPaginateBySizePartitioner` 适用于所有部署的慢速通用分区程序。根据数据大小创建分区。需要查询每个分区。有关MongoPaginateBySizePartitioner的配置设置，请参阅 MongoPaginateBySizePartitioner配置。除了提供的分区程序，您还可以指定自定义分区程序实现。对于特征的自定义实现`MongoPartitioner`，请提供完整的类名。如果未提供软件包名称，则使用默认 `com.mongodb.spark.rdd.partitioner`软件包。要为各种分区程序配置选项，请参阅“ 分区程序配置”。默认值：MongoDefaultPartitioner
`registerSQLHelperFunctions`	注册不支持的MongoDB数据类型的帮助程序方法。默认值：`false`
`sql.inferschema.mapTypes.enabled`	`MapType`在模式推断步骤中启用检测。默认值：`true`
`sql.inferschema.mapTypes.minimumKeys`	必须将最小键数a `StructType`推断为`MapType`。默认值：`250`
`hint`	提示文档的JSON表示形式。
`collation`	排序规则的JSON表示形式。查询MongoDB时使用。