MongoDB工具 >MongoDB Spark连接器 >Spark Connector R指南 > 过滤器和SQL
注意
当将过滤器与DataFrames或R API结合使用时,基本的Mongo Connector代码会构造一个聚合管道,以在将MongoDB中的数据发送到Spark之前对其进行过滤。
用于filter()
从MongoDB集合中读取数据的子集。
考虑一个名为的集合fruit
,其中包含以下文档:
首先,设置一个数据框以连接您的默认MongoDB数据源:
注意
空参数(“”)是指用作数据源的文件。在这种情况下,我们的数据源是MongoDB集合,因此数据源参数为空。
以下操作将过滤数据并包括qty
字段大于或等于的记录
10
:
该操作将输出以下输出:
在数据集上运行SQL查询之前,必须为数据集注册一个临时视图。
下面的示例注册一个名为的临时表temp
,然后使用SQL查询type
字段包含字母的记录e
:
在sparkR
外壳程序中,该操作将输出以下输出: