聚合_MonogDB 中文网

MongoDB工具 >MongoDB Spark连接器 >Spark Connector Java指南 > 聚合

通过一个聚合管道的JavaMongoRDD实例来过滤数据，并通过文件星火之前MongoDB中进行聚合。

下面的示例使用聚合管道执行与上面的示例相同的过滤器操作；过滤test字段值大于5的所有文档：

package com.mongodb.spark_examples;

import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.SparkSession;
import org.bson.Document;

import com.mongodb.spark.MongoSpark;
import com.mongodb.spark.rdd.api.java.JavaMongoRDD;

import static java.util.Collections.singletonList;

public final class Aggregation {

  public static void main(final String[] args) throws InterruptedException {

    SparkSession spark = SparkSession.builder()
      .master("local")
      .appName("MongoSparkConnectorIntro")
      .config("spark.mongodb.input.uri", "mongodb://127.0.0.1/test.myCollection")
      .config("spark.mongodb.output.uri", "mongodb://127.0.0.1/test.myCollection")
      .getOrCreate();

    // Create a JavaSparkContext using the SparkSession's SparkContext object
    JavaSparkContext jsc = new JavaSparkContext(spark.sparkContext());

    // Load and analyze data from MongoDB
    JavaMongoRDD<Document> rdd = MongoSpark.load(jsc);

    /*Start Example: Use aggregation to filter a RDD***************/
    JavaMongoRDD<Document> aggregatedRdd = rdd.withPipeline(
      singletonList(
        Document.parse("{ $match: { test : { $gt : 5 } } }")));
    /*End Example**************************************************/

    // Analyze data from MongoDB
    System.out.println(aggregatedRdd.count());
    System.out.println(aggregatedRdd.first().toJson());

    jsc.close();

  }
}

MongoDB 工具

聚合