水槽后处理器_MonogDB 中文网

MongoDB工具 >MongoDB Kafka连接器 >水槽连接器指南 > 水槽后处理器

在本页面

文件的后处理
配置选项
自定义写模型
- WriteModel策略：业务键
- WriteModel策略：插入和修改的时间戳

文件的后期处理¶

后处理器是接收器连接器类，在从Kafka主题中读取后SinkDocument，该连接器类会修改中的数据，该类包含SinkRecord键和值字段的BSON表示。该连接器应用了一系列后处理器，其中每个后处理器均以上提供的顺序执行SinkDocument，并且结果存储在MongoDB集合中。

后处理器执行数据修改任务，例如设置文档_id字段，键或值字段投影，重命名字段以及编辑敏感信息。您可以使用以下预构建的后处理器，也可以通过扩展PostProcessor 类来实现自己的后处理器：

后处理器名称	描述
DocumentIdAdder	完整路径： `com.mongodb.kafka.connect.sink.processor.DocumentIdAdder` 使用已配置的策略插入`_id`字段。也可以看看策略选项和配置。
BlacklistKeyProjector	完整路径： `com.mongodb.kafka.connect.sink.processor.BlacklistKeyProjector` 从接收器记录中删除匹配的关键字段。也可以看看配置和示例。
黑名单价值投影仪	完整路径： `com.mongodb.kafka.connect.sink.processor.BlacklistValueProjector` 从接收器记录中删除匹配的值字段。也可以看看配置和示例。
白名单关键投影仪	完整路径： `com.mongodb.kafka.connect.sink.processor.WhitelistKeyProjector` 仅包含接收器记录中匹配的关键字段。也可以看看配置和示例。
白名单ValueProjector	完整路径： `com.mongodb.kafka.connect.sink.processor.WhitelistValueProjector` 匹配接收器记录中的值字段。也可以看看配置和示例。
KafkaMetaAdder	完整路径： `com.mongodb.kafka.connect.sink.processor.KafkaMetaAdder` 向文档添加由Kafka主题，分区和偏移量的串联组成的字段。
重命名	完整路径： `com.mongodb.kafka.connect.sink.processor.field.renaming.RenameByMapping` 重命名与指定键或值字段完全匹配的字段。也可以看看重命名配置和示例。
重命名正则表达式	完整路径： `com.mongodb.kafka.connect.sink.processor.field.renaming.RenameByRegex` 重命名与正则表达式匹配的字段。也可以看看重命名配置和示例。

您可以通过指定一个以逗号分隔的全限定PostProcessor类名列表来配置后处理器链：

复制

post.processor.chain=com.mongodb.kafka.connect.sink.processor.KafkaMetaAdder,com.mongodb.kafka.connect.sink.processor.WhitelistValueProjector

注意

如果DocumentIdAdder后处理器不存在，则会自动添加到链中的第一个位置。

配置选项¶

本节说明MongoDB Kafka Connector中包含的后处理器可用的配置选项。

DocumentIdAdder ¶

在DocumentIdAdder后处理器提供了_id现场的SinkDocument之前被写入MongoDB的集合。此后处理器使用一种策略进行配置，该策略包含用于生成的值的逻辑_id。此连接器提供以下策略：

策略名称	描述
BsonOid策略	完整路径： `com.mongodb.kafka.connect.sink.processor.id.strategy.BsonOidStrategy` `DocumentIdAdder`后处理器的默认值。生成一个MongoDB BSON ObjectId。
KafkaMetaDataStrategy	完整路径： `com.mongodb.kafka.connect.sink.processor.id.strategy.KafkaMetaDataStrategy` 构建一个由Kafka主题，分区和偏移量的串联组成的字符串。
FullKey策略	完整路径： `com.mongodb.kafka.connect.sink.processor.id.strategy.FullKeyStrategy` 使用的完整密钥结构`SinkDocument`。如果没有密钥，则默认为空白文档。
ProvidedInKeyStrategy	完整路径： `com.mongodb.kafka.connect.sink.processor.id.strategy.ProvidedInKeyStrategy` 使用`_id`在键结构中指定的字段（`SinkDocument`如果存在）。如果缺少该字段，则引发异常。
ProvidedInValueStrategy	完整路径： `com.mongodb.kafka.connect.sink.processor.id.strategy.ProvidedInValueStrategy` 使用`_id`在的值结构中指定的字段（`SinkDocument`如果存在）。如果缺少该字段，则引发异常。
部分密钥策略	完整路径： `com.mongodb.kafka.connect.sink.processor.id.strategy.PartialKeyStrategy` 使用的键结构的黑名单或白名单投影`SinkDocument`。如果没有密钥，则默认为空白文档。
部分价值策略	完整路径： `com.mongodb.kafka.connect.sink.processor.id.strategy.PartialValueStrategy` 使用的值结构的黑名单或白名单投影`SinkDocument`。如果不存在任何值，则默认为空白文档。
Uuid策略	完整路径： `com.mongodb.kafka.connect.sink.processor.id.strategy.UuidStrategy` 生成一个随机UUID作为字符串。

您可以document.id.strategy如下分配属性：

复制

document.id.strategy=com.mongodb.kafka.connect.sink.processor.id.strategy.UuidStrategy

要定义自定义策略，请创建一个实现IdStrategy接口的类，并提供指向该document.id.strategy 设置的标准路径。

选择的策略可能会对传递语义产生影响

BSON ObjectId或UUID策略只能保证至少一次交付，因为新ID将在重试或重新处理时生成。如果保证文档_id的字段唯一，其他策略则允许一次发送。

黑名单/白名单投影仪¶

本节提供了示例投影配置，以显示它们如何过滤以下样本记录：

复制

{
  "name": "Anonymous",
  "age": 42,
  "active": true,
  "address": {
    "city": "Unknown",
    "country": "NoWhereLand"
  },
  "food": [
    "Austrian",
    "Italian"
  ],
  "data": [
    {
      "k": "foo",
      "v": 1
    }
  ],
  "lut": {
    "key1": 12.34,
    "key2": 23.45
  },
  "destination: {
    "city": "Springfield",
    "country": "AnotherLand"
  }
}

注意

以下示例配置包含[key|value] 占位符值，它们代表key或value以避免重复。在创建配置时，指定一种适合您的用例的方法。

黑名单投影示例¶

在以下示例接收器配置中，我们指定黑名单投影以及要从记录中省略的特定字段：

复制

post.processor.chain=com.mongodb.kafka.connect.sink.processor.Blacklist[Key|Value]Projector
[key|value].projection.type=blacklist
[key|value].projection.list=age,address.city,lut.key2,data.v

注意

您可以使用“。” （点）表示法引用记录中的子文档。您也可以使用它来引用数组中文档的字段。

应用投影后，记录包含以下数据：

复制

{
  "name": "Anonymous",
  "active": true,
  "address": {
    "country": "NoWhereLand"
  },
  "food": [
    "Austrian",
    "Italian"
  ],
  "data": [
    {
      "k": "foo"
    }
  ],
  "lut": {
    "key1": 12.34
  },
  "destination: {
    "city": "Springfield",
    "country": "AnotherLand"
  }
}

白名单投影示例¶

在以下示例接收器配置中，我们指定白名单投影以及要包括在记录中的特定字段：

复制

post.processor.chain=com.mongodb.kafka.connect.sink.processor.Whitelist[Key|Value]Projector
[key|value].projection.type=whitelist
[key|value].projection.list=age,address.city,lut.key2,data.v

注意

您可以使用“。” 记录中引用子文档的符号。您也可以使用它来引用数组中文档的字段。

应用投影后，记录包含以下数据：

复制

{
  "age": 42,
  "address": {
    "city": "Unknown"
  },
  "data": [
    {
      "v": 1
    }
  ],
  "lut": {
    "key2": 23.45
  }
}

投影的通配符匹配¶

先前的示例投影配置演示了字段名称上的精确字符串匹配。投影list设置还支持以下与字段名称匹配的通配符模式：

“ *”（星号）：匹配指定文档中级别的任意长度的字符串。
“ **”（双星）：匹配当前和指定嵌套级别的所有嵌套级别。

下面的示例演示如何使用以下示例记录中的每个通配符模式和投影输出：

复制

{
  "forecast": [
    { "day": "Monday",
      "temp": {
        "degrees": 25.3,
        "units": "C",
        "range": {
          "low": 23.0,
          "high": 28.7
        }
      },
      "uv": 5
    }
  ],
  "city": "Springfield",
  "population: {
    "qty": 30.7,
    "scale": 1000,
    "units": "people"
  }
}

白名单通配符示例

*下面的示例中的通配符模式匹配数组中命名的所有键 temp，forecast并且所有字段都嵌套在其下方的单个级别上。

复制

[key|value].projection.type=whitelist
[key|value].projection.list=city,forecast.temp.*

应用投影后，记录包含以下数据：

复制

{
  "city": "Springfield",
  "forecast": [
    {
      "temp": {
        "degrees": 25.3,
        "units": "C",
        "range": {
          "low": 23.0,
          "high": 28.7
        }
      }
    }
  ]
}

下例中的**通配符模式匹配包含该字段的所有级别的所有键scale。

复制

[key|value].projection.type=whitelist
[key|value].projection.list=**.scale

应用投影后，记录包含以下数据：

复制

{
  "population: {
    "qty": 30.7,
    "scale": 1000,
    "units": "people"
  }
}

黑名单通配符示例

通配符也可以用于匹配特定级别的所有字段名称，如以下黑名单投影配置示例所示：

复制

[key|value].projection.type=blacklist
[key|value].projection.list=population,forecast.*.*

应用投影后，记录包含以下数据：

复制

{
  "forecast": [
    {
      "day": "Monday",
      "uv": 5
    }
  ],
  "city": "Springfield",
}

连接器配置还支持**（双星号）通配符，该通配符与指定它的当前级别和所有嵌套级别相匹配。

复制

[key|value].projection.type=blacklist
[key|value].projection.list=**.high

{
  "city": "Springfield",
  "population: {
    "qty": 30.7,
    "scale": 1000,
    "units": "people"
  }
}

字段重命名后处理器¶

本节提供了后处理器RenameByMapping 和RenameByRegex后处理器的示例配置，以显示它们如何更新接收器记录中的字段名称。字段重命名参数指定是使用点表示法还是使用JSON数组中的匹配和替换字符串模式来更新记录中的 key或value文档。

重命名后处理器示例的字段使用以下样本接收器记录：

关键文件

复制

{
  "location": "Provence",
  "date_month": "October",
  "date_day": 17
}

有价文件

复制

{
  "flapjacks": {
    "purchased": 598,
    "size": "large"
  }
}

RenameByMapping示例¶

该RenameByMapping后处理器设置为对象的数组。数组中的每个对象都包含以下JSON元素键：

每个对象在oldName元素中包含要匹配的文本，在元素中包含替换文本newName。

键名	描述
旧名称	包含与要替换的文本匹配的字符串。
新名字	包含`oldName`字段中定义的字符串的所有匹配项的替换文本。

复制

field.renamer.mapping=[{"oldName":"key.location","newName":"city"},{"oldName":"value.flapjacks","newName":"crepes"}]

应用RenameByMapping 后处理器后，记录包含以下数据：

关键文件

复制

{
  "city": "Provence",
  "date_month": "October",
  "date_day": 17
}

有价文件

复制

{
  "crepes": {
    "purchased": 598,
    "size": "large"
  }
}

RenameByRegex ¶

该RenameByRegex后处理器设置为对象的数组。数组中的每个对象都包含以下JSON元素键：

键名	描述
正则表达式	包含匹配字段以执行替换的正则表达式。
图案	包含与要替换的文本匹配的正则表达式。
新名字	包含`pattern`字段中定义的所有正则表达式匹配项的替换文本。

例

复制

field.renamer.mapping=[{"regexp":"^key\\.date.*$","pattern":"_","replace":"-"},{"regexp":"^value\\.crepes\\..*","pattern":"purchased","replace":"quantity"}]

应用RenameByMapping 后处理器后，记录包含以下数据：

关键文件

复制

{
  "city": "Provence",
  "date-month": "October",
  "date-day": 17
}

有价文件

复制

{
  "crepes": {
    "quantity": 598,
    "size": "large"
  }
}

后处理器应用了以下更改：

接收器记录的关键文档中以“ date”开头的所有字段名称均匹配。在匹配的字段中，所有“ _”的实例均替换为“-”。
汇记录的有价文件中属于其子文档的所有字段名称都crepes将匹配。在匹配的字段中，所有“已购买”的实例都将替换为“数量”。

确保重命名不会导致同一文档中的重复键

重命名后处理器会更新JSON文档的关键字字段，这可能导致文档中的关键字重复。如果替换密钥在当前级别已经存在，则他们跳过重命名步骤。

编写自定义的模型¶

一个写模型定义了一个MongoDB的集合进行批量的写操作的行为。连接器的默认写模型为 ReplaceOneModel，其中 ReplaceOptions 设置为upsert模式。

您可以通过在mongodb.writemodel.strategy配置设置中指定自定义模型来覆盖默认写入模型。连接器提供了以下策略：

写模型	描述
ReplaceOneDefaultStrategy	通过该`_id`字段最多替换一个与当前文档匹配的文档。 `writemodel.strategy`配置设置的默认值。
ReplaceOneBusinessKeyStrategy	最多替换一个与设置提供的过滤器匹配的文档`document.id.strategy`。设置以下配置： `writemodel.strategy=com.mongodb.kafka.connect.sink.writemodel.strategy.ReplaceOneBusinessKeyStrategy` 也可以看看 WriteModel策略中的使用示例：业务密钥。
DeleteOneDefaultStrategy	`document.id.strategy`仅当文档包含空值记录时，才删除最多一个与设置指定的ID相匹配的文档。设置配置设置时隐式指定`mongodb.delete.on.null.values=true`。您可以使用以下配置对此进行显式设置： `writemodel.strategy=com.mongodb.kafka.connect.sink.writemodel.strategy.DeleteOneDefaultStrategy`
UpdateOneTimestamps策略	在文档中添加`_insertedTS`（插入时间戳）和`_modifiedTS`（修改后的时间戳）字段。设置以下配置： `writemodel.strategy=com.mongodb.kafka.connect.sink.writemodel.strategy.UpdateOneTimestampsStrategy` 也可以看看 WriteModel策略中的使用示例：插入和修改的时间戳。

注意

MongoDB Kafka Connector的未来版本将允许开发人员在配置设置中指定用户创建的自定义策略。

WriteModel策略：业务键¶

业务密钥是由接收器记录中的数据组成的值，该值将其标识为唯一文档。此示例使用记录中多个字段中包含的数据定义业务密钥，并指示后处理器生成用于插入但不用于更新的BSON ObjectId。

要配置此策略，需要执行以下步骤：

在目标MongoDB集合中创建与您的业务密钥相对应的唯一索引。
在连接器配置中，PartialValueStrategy 将ID 指定为ID策略以标识属于业务密钥的字段。
在连接器配置中，指定 ReplaceOneBusinessKeyStrategywritemodel策略。

在此示例中，我们通过分别位于flight_no和的当前航班号和机场跟踪飞机的容量airport_code。一个示例消息包含以下内容：

复制

{
  "flight_no": "Z342",
  "airport_code": "LAX",
  "passengers": {
    "capacity": 180,
    "occupied": 152
  }
}

为了实施该策略，我们首先在MongoDB Shell中的flight_no和airport_code字段上创建一个唯一索引：

复制

db.collection.createIndex({ "flight_no": 1, "airport_code": 1}, { unique: true })

接下来，我们指定PartialValueStrategy要包含在业务密钥中的策略和字段，并ReplaceOneBusinessKeyStrategy在配置文件中指定 writemodel策略：

复制

document.id.strategy=com.mongodb.kafka.connect.sink.processor.id.strategy.PartialValueStrategy
value.projection.list=flight_no,airport_code
value.projection.type=whitelist
writemodel.strategy=com.mongodb.kafka.connect.sink.writemodel.strategy.ReplaceOneBusinessKeyStrategy"

插入到集合中的样本数据包含以下内容：

复制

{
  "_id": ObjectId('5db0b81199b7fbcc89631d06'),
  "flight_no": "Z342"
  "airport_code": "LAX",
  "passengers_spaces": {
    "capacity": 180,
    "occupied": 152
  }
}

当连接器处理与具有相同业务关键字字段值的现有文档匹配的接收器数据时，它将使用新值更新文档而不更改_id字段。

复制

{
  "_id": ObjectId('5db0b81199b7fbcc89631d06'),
  "flight_no": "Z342"
  "airport_code": "LAX",
  "passengers_spaces": {
    "capacity": 180,
    "occupied": 95
  }
}

投影后期处理器与PartialValueStrategy不兼容

该PartialValueStrategyID策略使用 [key|value].projection.type和[key|value].projection.list 设置来定义哪些字段用来形成_id场。由于黑名单和白名单后处理器使用相同的投影设置，因此无法单独指定它们。在连接器外部使用单消息转换（SMT）来格式化源数据（如果需要）。

WriteModel策略：插入和修改的时间戳¶

本示例说明了如何跟踪由连接器插入的文档的创建和更新时间戳。该 UpdateOneTimestampsStrategy自定义写入模式战略执行以下任务：

当连接器将新的MongoDB文档插入集合中时，_insertedTSand _modifiedTS字段将设置为当前时间。
当连接器在集合中更新现有的MongoDB文档时，该_modifiedTS字段将更新为当前时间。

通过UpdateOneTimestampsStrategy在配置文件中指定来进行设置，如下所示：

复制

writemodel.strategy=com.mongodb.kafka.connect.sink.writemodel.strategy.UpdateOneTimestampsStrategy

对于此示例，我们要跟踪火车沿其路线的位置。该_modifiedTS字段为我们提供了第一个位置报告保存到集合中的时间和日期。

头寸报告在价值凭证中包含以下数据：

复制

{
  "_id": "MN-1234",
  "start": "Beacon",
  "destination": "Grand Central"
  "position": [ 40.8051693, -73.9388079 ]
}

writemodel策略设置为UpdateOneTimestampsStrategy附加创建和修改的时间戳，而document id策略设置为ProvidedInValueStrategy使用有价文档的_id 字段来标识列车。

复制

document.id.strategy=com.mongodb.kafka.connect.sink.processor.id.strategy.ProvidedInValueStrategy
writemodel.strategy=com.mongodb.kafka.connect.sink.writemodel.strategy.UpdateOneTimestampsStrategy

在处理火车的初始消息之后插入的MongoDB文档包含以下数据：

复制

{
  "_id": "MN-1234",
  "_insertedTS": ISODate('2019-10-23T15:08:000Z"),
  "_modifiedTS": ISODate("2019-10-23T15:08:000Z"),
  "start": "Beacon",
  "destination": "Grand Central"
  "position": [ 40.805, -73.939 ]
}

一个小时后，火车报告其沿路线的当前位置。该 position和_modifiedTS字段更新：

复制

{
  "_id": "MN-1234",
  "_insertedTS": ISODate('2019-10-23T15:08:000Z"),
  "_modifiedTS": ISODate("2019-10-23T16:08:000Z"),
  "start": "Beacon",
  "destination": "Grand Central"
  "position": [ 41.156, -73.870 ]
}

MongoDB 工具

水槽后处理器

文件的后期处理¶

配置选项¶

DocumentIdAdder ¶

黑名单/白名单投影仪¶

黑名单投影示例¶

白名单投影示例¶

投影的通配符匹配¶

字段重命名后处理器¶

RenameByMapping示例¶

RenameByRegex ¶

编写自定义的模型¶

WriteModel策略：业务键¶

WriteModel策略：插入和修改的时间戳¶