MongoDB工具 >MongoDB Spark连接器 > 常问问题
对于任何MongoDB部署,Mongo Spark连接器都将RDD的首选位置设置为数据所在的位置:
为了促进数据的本地化,
nearest
读取首选项从本地读取
mongod
。mongos
在相同的节点上具有,并使用localThreshold
配置连接到最近的mongos
。要通过分片对数据进行分区,请使用
MongoShardedPartitioner配置。可以将Spark流视为潜在无限的RDD源。因此,使用RDD可以做的任何事情,都可以处理Spark Stream的结果。
有关示例,请参见SparkStreams.scala
Unrecognized pipeline stage name
在具有混合版本的MongoDB部署中mongod
,可能会出现
错误。为了缓解这种情况,请在使用DataFrames时显式配置分区程序以使用并定义Schema。Unrecognized pipeline stage name: '$sample'