MML全称预言模型标记模型(Predictive Model Markup Language),以XML 为载体呈现数据挖掘模型。PMML 允许您在不同的应用程序之间轻松共享预测分析模型。因此,您可以在一个系统中定型一个模型,在 PMML 中对其进行表达,然后将其移动到另一个系统中,而不需考虑分析和预测过程中的具体实现细节。使得模型的部署摆脱了模型开发和产品整合的束缚。
- 头信息(Header)
- 数据字典(DataDictionary)
- 挖掘模式(Mining Schema)
- 数据转换(Transformations)
- 模型定义 (Model Definition)
- 评分结果 (Score Result)
数据字典定义了所有变量的信息,包括预测变量和目标变量。这些信息包括变量名,量度和类型等。 对于分类变量,可能包含各种不同类型的分类值, 包括有效值 (valid value),遗漏值 (missing value) 和无效值 (invalid value), 它们由 Value 的“property”属性决定;对于连续变量,可以指定一个或多个有效值范围 (Interval)。
挖掘模式,定义预测变量和目标变量
变量的属性由 “usageType” 值决定,该属性未指定或者值为 “active” 代表预测变量, “predicted”代表目标变量。一般来说,一个常见的模型有多个预测变量和一个目标变量
最新的 PMML 4.0.1 定义了一下十三种模型:
- AssociationModel
- ClusteringModel
- GeneralRegressionModel
- MiningModel
- NaiveBayesModel
- NeuralNetwork
- RegressionModel
- RuleSetModel
- SequenceModel
- SupportVectorMachineModel
- TextModel
- TimeSeriesModel
- TreeModel