MongoDB工具 >MongoDB Spark连接器 >Spark Connector Python指南 > 过滤器和SQL
注意
当将过滤器与DataFrames或Python API结合使用时,底层的Mongo Connector代码会构造一个聚合管道,以在将MongoDB中的数据发送到Spark之前对其进行过滤。
用于filter()
从MongoDB集合中读取数据的子集。
考虑一个名为的集合fruit
,其中包含以下文档:
首先,设置一个数据框以连接您的默认MongoDB数据源:
以下示例仅包含qty
字段大于或等于的记录10
。
该操作将输出以下输出:
您需要先注册一个临时表,然后才能对DataFrame运行SQL查询。
下面的示例注册一个名为的临时表temp
,然后使用SQL查询type
字段包含字母的记录e
:
在pyspark
外壳程序中,该操作将输出以下输出: