常问问题_MonogDB 中文网

MongoDB 工具

MongoDB工具 >MongoDB Spark连接器 > 常问问题

如何获得数据局部性？

对于任何MongoDB部署，Mongo Spark连接器都将RDD的首选位置设置为数据所在的位置：

对于非分片系统，它将首选位置设置为独立或副本集的主机名。
对于分片系统，它将首选位置设置为分片的主机名。

为了促进数据的本地化，

对于非分片系统，请确保其中一台主机上有一个Spark Worker，对于分片系统，请确保每个分片上都有一个Spark Worker。
使用nearest读取首选项从本地读取 mongod。
对于分片群集，您应该mongos在相同的节点上具有，并使用localThreshold 配置连接到最近的mongos。要通过分片对数据进行分区，请使用 MongoShardedPartitioner配置。

如何与Spark Streams交互？

可以将Spark流视为潜在无限的RDD源。因此，使用RDD可以做的任何事情，都可以处理Spark Stream的结果。

有关示例，请参见SparkStreams.scala

我该如何解决错误？`Unrecognized pipeline stage name`

在具有混合版本的MongoDB部署中mongod，可能会出现错误。为了缓解这种情况，请在使用DataFrames时显式配置分区程序以使用并定义Schema。Unrecognized pipeline stage name: '$sample'