mapReduce_MonogDB 中文网

MongoDB 中文手册

参考 > 参考 > 数据库命令 > 聚合命令 > mapReduce

在本页面

map功能要求
reduce功能要求
finalize功能要求
out 选件
所需的访问
限制条件
Map-Reduce示例
输出量
附加信息

mapReduce¶

该mapReduce命令允许您在集合上运行映射减少聚合操作。

注意

从4.2版开始，MongoDB弃用：

地图-reduce选项来创建一个新的分片集合以及使用的分片供选择的map-reduce。要输出到分片集合，请首先创建分片集合。MongoDB 4.2还不建议替换现有分片集合。
nonAtomic：false选项的显式规范。

该 mapReduce命令具有以下原型形式：

复制

db.runCommand(
               {
                 mapReduce: <collection>,
                 map: <function>,
                 reduce: <function>,
                 finalize: <function>,
                 out: <output>,
                 query: <document>,
                 sort: <document>,
                 limit: <number>,
                 scope: <document>,
                 jsMode: <boolean>,
                 verbose: <boolean>,
                 bypassDocumentValidation: <boolean>,
                 collation: <document>,
                 writeConcern: <document>
               }
             )

将集合的名称传递给mapReduce命令（即<collection>），以用作执行map-reduce操作的源文档。

注意

视图不支持map-reduce操作。

该命令还接受以下参数：

领域	类型	描述
`mapReduce`	采集	您要对其执行map-reduce的集合的名称。该集合将在使用`query`该`map`函数处理之前进行过滤。
`map`	功能	一个将a `value`与a 关联或“映射” `key`并发出`key`and值的JavaScript函数`pair`。有关更多信息，请参见地图功能的要求。
`reduce`	功能	一种JavaScript函数，可将“减少”到`values`与某个特定对象关联的所有对象 `key`。有关更多信息，请参见reduce函数的要求。
`out`	字符串或文件	指定在何处输出map-reduce操作的结果。您可以输出到集合，也可以内联返回结果。在副本集的主要成员上，您可以输出到集合或内联，但是在次要上，只能进行内联输出。请参阅选项以获取更多信息。
`query`	文献	可选的。使用查询运算符指定选择标准，以确定输入到`map`功能的文档。
`sort`	文献	可选的。对输入文档进行排序。此选项对于优化很有用。例如，将排序键指定为与发射键相同，以便减少还原操作。排序键必须在此集合的现有索引中。
`limit`	数	可选的。指定用于输入`map`功能的最大文档数。
`finalize`	功能	可选的。遵循该`reduce`方法并修改输出。有关更多信息，请参见终结函数的要求。
`scope`	文献	可选的。指定的全局变量是在访问`map`， `reduce`和`finalize`功能。
`jsMode`	布尔值	可选的。指定在`map`和`reduce` 函数执行之间是否将中间数据转换为BSON格式。默认为`false`。如果`false`：在内部，MongoDB将`map` 函数发出的JavaScript对象转换为BSON对象。然后，在调用`reduce`函数时，这些BSON对象将转换回JavaScript对象。映射减少操作将中间BSON对象放置在磁盘上的临时存储中。这允许map-reduce操作在任意大的数据集上执行。如果`true`：在内部，`map` 函数运行期间发出的JavaScript对象将保留为JavaScript对象。无需转换该`reduce`函数的对象，这可以加快执行速度。您只能对映射器函数的`jsMode`少于500,000个不同`key`参数的结果集使用`emit()`。
`verbose`	布尔值	可选的。指定是否`timing`在结果信息中包括该信息。设置`verbose`为`true`包括`timing`信息。默认为`false`。
`bypassDocumentValidation`	布尔值	可选的。允许`mapReduce`在操作过程中绕过文档验证。这使您可以插入不符合验证要求的文档。 3.2版中的新功能。注意如果output选项设置为 `inline`，则不会进行文档验证。如果输出进入集合，请`mapReduce`遵守该集合具有的验证规则，并且不会插入任何无效文档，除非将该`bypassDocumentValidation`参数设置为true。
`collation`	文献	可选的。指定用于操作的排序规则。归类允许用户为字符串比较指定特定于语言的规则，例如字母大写和重音符号的规则。排序规则选项具有以下语法：复制 collation: { locale: <string>, caseLevel: <boolean>, caseFirst: <string>, strength: <int>, numericOrdering: <boolean>, alternate: <string>, maxVariable: <string>, backwards: <boolean> } 指定排序规则时，该`locale`字段为必填字段；所有其他排序规则字段都是可选的。有关字段的说明，请参见整理文档。如果未指定排序规则，但是集合具有默认排序规则（请参阅参考资料`db.createCollection()`），则该操作将使用为集合指定的排序规则。如果没有为集合或操作指定排序规则，则MongoDB使用先前版本中使用的简单二进制比较进行字符串比较。您不能为一个操作指定多个排序规则。例如，您不能为每个字段指定不同的排序规则，或者如果对排序执行查找，则不能对查找使用一种排序规则，而对排序使用另一种排序规则。 3.4版的新功能。
`writeConcern`	文献	可选的。表示输出到集合时要使用的写关注点的文档。省略使用默认的写关注。

以下是mapReduce 命令的原型用法：

复制

var mapFunction = function() { ... };
var reduceFunction = function(key, values) { ... };

db.runCommand(
               {
                 mapReduce: <input-collection>,
                 map: mapFunction,
                 reduce: reduceFunction,
                 out: { merge: <output-collection> },
                 query: <query>
               }
             )

MongoDB中的JavaScript

尽管mapReduce使用JavaScript，但大多数与MongoDB的交互都不使用JavaScript，而是使用交互应用程序语言中的惯用驱动程序。

对于要求`map`功能¶

该map函数负责将每个输入文档转换为零个或多个文档。它可以访问参数中定义的变量scope ，并具有以下原型：

复制

function() {
   ...
   emit(key, value);
}

该map功能具有以下要求：

在map函数中，请在函数中引用当前文档this 。
该map功能应该不以任何理由访问数据库。
该map功能应该是纯净的，或者对功能没有任何影响（即副作用）。
一次发射只能容纳MongoDB 最大BSON文档大小的一半。
该map函数可以任选地调用emit(key,value)任意次数以创建输出文件相关联的key用value。
从版本4.2.1开始，MongoDB在该功能的作用域（即BSON类型15）中弃用JavaScript map。要限制变量的范围，请改用scope参数。

以下map函数将调用emit(key,value)0或1次，具体取决于输入文档status字段的值：

复制

function() {
    if (this.status == 'A')
        emit(this.cust_id, 1);
}

根据输入文档字段中元素的数量，以下map函数可能会emit(key,value)多次调用items：

复制

function() {
    this.items.forEach(function(item){ emit(item.sku, 1); });
}

对于要求`reduce`功能¶

该reduce函数具有以下原型：

复制

function(key, values) {
   ...
   return result;
}

该reduce函数具有以下行为：

该reduce功能应该不访问数据库，甚至执行读操作。
该reduce功能应该不会影响到系统外部。
MongoDB 不会reduce为只有单个值的键调用该函数。所述values参数是一个数组，其元素是value被“映射”到的对象 key。
MongoDB可以reduce为同一键多次调用该函数。在这种情况下，该reduce 键的功能先前的输出将成为该键的下一个reduce功能调用的输入值之一。
该reduce函数可以访问参数中定义的变量scope。
的输入reduce不得大于MongoDB的最大BSON文档大小的一半。当返回大文档然后在后续reduce步骤中将其合并在一起时，可能会违反此要求。
从版本4.2.1开始，MongoDB在该功能的作用域（即BSON类型15）中弃用JavaScript reduce。要限制变量的范围，请改用scope 参数。

因为可以reduce为同一键多次调用该函数，所以以下属性必须为true：

返回对象的类型必须与value该map 函数发出的类型相同。

该reduce功能必须是关联的。以下陈述必须为真：

复制

reduce(key, [ C, reduce(key, [ A, B ]) ] ) == reduce( key, [ C, A, B ] )

该reduce功能必须是幂等的。确保以下语句为真：

复制

reduce( key, [ reduce(key, valuesArray) ] ) == reduce( key, valuesArray )

该reduce函数应该是可交换的：也就是说，中元素的顺序valuesArray不应影响该reduce函数的输出，因此以下语句为真：
复制
```
reduce( key, [ A, B ] ) == reduce( key, [ B, A ] )
```

对于要求`finalize`功能¶

该finalize函数具有以下原型：

复制

function(key, reducedValue) {
   ...
   return modifiedObject;
}

的finalize函数接收作为其自变量的key 值和reducedValue从所述reduce功能。意识到：

该finalize功能应该不以任何理由访问数据库。
该finalize功能应该是纯净的，或者对功能没有任何影响（即副作用）。
该finalize函数可以访问参数中定义的变量scope。
从版本4.2.1开始，MongoDB在该功能的作用域（即BSON类型15）中弃用JavaScript finalize。要限制变量的范围，请改用scope 参数。

`out`选项¶

您可以为out参数指定以下选项：

输出到一个集合¶

此选项输出到新集合，在副本集的辅助成员上不可用。

复制

out: <collectionName>

输出到带有动作的集合¶

注意

从4.2版开始，MongoDB弃用：

地图-reduce选项来创建一个新的分片集合以及使用的分片供选择的map-reduce。要输出到分片集合，请首先创建分片集合。MongoDB 4.2还不建议替换现有分片集合。
nonAtomic：false选项的显式规范。

仅当将已经存在的集合传递给时，此选项才可用out。在副本集的辅助成员上不可用。

复制

out: { <action>: <collectionName>
        [, db: <dbName>]
        [, sharded: <boolean> ]
        [, nonAtomic: <boolean> ] }

当您通过操作输出到集合时，out具有以下参数：

<action>：指定以下操作之一：
- replace
  
  <collectionName>如果<collectionName>存在集合，则替换的内容。
- merge
  
  如果输出集合已经存在，则将新结果与现有结果合并。如果现有文档的密钥与新结果相同，则覆盖该现有文档。
- reduce
  
  如果输出集合已经存在，则将新结果与现有结果合并。如果现有文档的密钥与新结果的密钥相同，则将该reduce 功能应用于新文档和现有文档，并用结果覆盖现有文档。
db：

可选的。您希望map-reduce操作写入其输出的数据库的名称。默认情况下，该数据库将与输入集合相同。
sharded：

注意

从4.2版开始，不建议使用该sharded选项。

可选的。如果true 并且您已在输出数据库上启用分片，则map-reduce操作将使用_id字段作为分片键对输出集合进行分片。

如果true和collectionName是现有的未分片集合，则map-reduce失败。
nonAtomic：

注意

从MongoDB 4.2开始，不建议显式设置nonAtomic为false。

可选的。将输出操作指定为非原子操作。这适用只对merge和reduce输出模式，这可能需要几分钟来执行。

默认情况下nonAtomic为false，并且map-reduce操作在后处理期间锁定数据库。

如果nonAtomic为true，则后处理步骤将阻止MongoDB锁定数据库：在这段时间内，其他客户端将能够读取输出集合的中间状态。

内联输出¶

在内存中执行map-reduce操作并返回结果。此选项是out副本集辅助成员上唯一可用的选项。

复制

out: { inline: 1 }

结果必须符合BSON文档的最大大小。

所需的访问权限¶

如果您的MongoDB部署强制执行身份验证，则执行mapReduce命令的用户必须拥有以下特权操作：

带输出选项的Map-reduce ：{out : inline}

find

输出到集合replace时使用动作进行map-reduce ：

find，
insert，
replace

输出到集合时使用merge或reduce动作进行 Map-reduce ：

该readWrite内置角色提供了必要的权限来执行的map-reduce聚集。

限制¶

MongoDB驱动程序会自动将afterClusterTime设置为与因果一致的会话相关联的操作。从MongoDB 4.2开始，该 mapReduce命令不再支持afterClusterTime。因此，mapReduce不能与因果一致的会话相关联。

Map-Reduce示例¶

在mongo外壳中，该db.collection.mapReduce() 方法是mapReduce命令的包装。以下示例使用该db.collection.mapReduce()方法：

聚合管道作为替代

聚合流水线比map-reduce提供更好的性能和更一致的接口。

各种地图-减少表达式可以使用被重写聚合管道运营商，诸如$group， $merge等

下面的示例包括聚合管道备选方案。

orders使用以下文档创建样本集合：

复制

MongoDB 中文手册

mapReduce

对于要求map功能¶

对于要求reduce功能¶

对于要求finalize功能¶

out选项¶

输出到一个集合¶

输出到带有动作的集合¶

内联输出¶

所需的访问权限¶

限制¶

Map-Reduce示例¶

对于要求`map`功能¶

对于要求`reduce`功能¶

对于要求`finalize`功能¶

`out`选项¶