MongoDB工具 >MongoDB Spark连接器 >Spark Connector Scala指南 > 筛选器和汇总
根据数据集,使用MongoDB的聚合框架过滤数据可能比直接使用RDD过滤器和 数据集过滤器更有效 。
以下各节使用在myCollection
中test
配置的数据库中的集合
SparkSession
:
以下示例RDD
对test
字段值大于5的所有文档使用上面定义的过滤器:
通过一个聚合管道的MongoRDD
实例来过滤数据,并通过文件星火之前MongoDB中进行聚合。
下面的示例使用聚合管道执行与上面的示例相同的过滤器操作;过滤test
字段值大于5的所有文档
:
可以在上面的示例中指定任何有效的聚合管道。
聚合管道处理空结果,而filter
方法则不行。如果过滤器不匹配任何文档,则该操作将引发以下异常: