https://github.com/Azure/mmlspark
所有的示例可以参见:这里
以下是使用预先训练的 CNN 在 CIFAR-10 数据集中分类图像的简单示例的摘录。完整的代码参见:这里
... import mmlspark # Initialize CNTKModel and define input and output columns cntkModel = mmlspark.CNTKModel() \ .setInputCol("images").setOutputCol("output") \ .setModelLocation(modelFile) # Train on dataset with internal spark pipeline scoredImages = cntkModel.transform(imagesWithLabels) ...
使用MMLSpark 的最简单方法是通过预先编译好的Docker container,为了使用它,你先要运行下面的命令:
docker run -it -p 8888:8888 -e ACCEPT_EULA=yes microsoft/mmlspark
然后通过浏览器访问 http://localhost:8888,这里我们可以运行简单的示例代码,更详细的使用请参见官方文档:这里
当然,除了在 Docker container 里面使用 MMLSpark 之外,我们还可以直接通过 --packages
选项直接在现有的Spark集群中使用 MMLSpark,具体如下:
spark-shell --packages Azure:mmlspark:0.9 pyspark --packages Azure:mmlspark:0.9 spark-submit Azure:mmlspark:0.9 MyApp.jar
更多关于 MMLSpark 的使用和介绍,请参见官方文档。
本博客文章除特别声明,全部都是原创!