MongoDB工具 >MongoDB Spark连接器 > Spark Connector R指南
源代码
有关包含以下示例的源代码,请参见 Introduction.R。
sparkR 贝壳本教程使用sparkRShell,但是代码示例与独立的R应用程序同样有效。
启动sparkR外壳程序时,可以指定:
--packages下载MongoDB Spark Connector软件包的选项。提供以下软件包:
mongo-spark-connector_2.11 用于Scala 2.11.x--conf用于配置MongoDB Spark Connnector 的选项。这些设置配置SparkConf对象。
注意
通过指定连接器配置时SparkConf,您必须在设置之前添加适当的前缀。有关详细信息和其他可用的MongoDB Spark Connector选项,请参阅“
配置选项”。
例如,
127.0.0.1),数据库连接(test),和收集(myCollection)从中读取数据,读偏好。127.0.0.1),数据库连接(test),和收集(myCollection)要写入的数据。27017默认情况下连接到端口。packages选项以格式指定Spark Connector的Maven坐标groupId:artifactId:version。SparkSession对象注意
启动时,默认情况下sparkR会得到一个SparkSession对象
spark。在独立的R应用程序中,您需要SparkSession显式创建对象,如下所示。
如果在启动时指定spark.mongodb.input.uri
和spark.mongodb.output.uri配置选项sparkR,则默认SparkSession对象将使用它们。如果您想SparkSession从中创建自己的对象
sparkR,则可以使用sparkr.session()并指定不同的配置选项。
您可以使用SparkSession对象将数据写入MongoDB,从MongoDB读取数据,创建DataFrame以及执行SQL操作。