使用InterSystems Integrated ML
数据分集 (测试数据可以在网上下载 https://catalog.data.gov/dataset/)
1. 创建训练集,80%用于训练集。
CREATE TABLE DataMining.DiabetesTraining AS SELECT top 641 Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin,BMI, Age, Outcome from DataMining.DSTable order by ID2. 创建测试集,20%用于测试集。
CREATE TABLE DataMining.DiabetesTest AS SELECT top 127 Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin, BMI,Age, Outcome from DataMining.DSTable order by ID DESC
Integrated ML
1. 创建ML配置
此步骤用来配置Provider 及不同Provider所使用的配置参数。
InterSystems IRIS提供三种Provider,AutoML、H2O和DataRobot,本实验使用默认Provider - AutoML ,所以可以忽略创建ML配置步骤。如果想尝试开源工具H2O,可以在此实验完成后,按照扩展实验手册进行配置。
2. ML配置
SET ML CONFIGURATION %AutoML此步骤是用来确定选用的Provider,AutoML是系统自带的Provider。
3. 建模
CREATE MODEL DiabetesModel PREDICTING (Outcome) FROM DataMining.DiabetesTrainingDiabetesModel 为模型名称 (模型名称可随意设置)。 DataMining.DiabetesTraining 为糖尿病患者预测模型的训练数据集。 Outcome 为要预测的结果的列名。
4. 训练模型
TRAIN MODEL DiabetesModelDiabetesModel为模型名称。
5. 验证模型
VALIDATE MODEL DiabetesModel FROM DataMining.DiabetesTestDataMining.DiabetesTest为糖尿病患者预测模型的测试集。
6. 查看模型信息
SELECT * FROM INFORMATION_SCHEMA.ML_TRAINED_MODELS在返回的数据PROVIDER列中,可以或者 在返回的数据MODEL_INFO列中,可以获得ModelType 算法名称, Package 机器学习处理包, ProblemType 算法类型等结果。
6. 查看验证结果
SELECT * FROM INFORMATION_SCHEMA.ML_VALIDATION_METRICS可以获得Accuracy,Precision,Recall 和 F-Measure 计算结果。 现在,你可以通过Accuracy,Precision,Recall 和 F-Measure 来分析你的模型训练结果。如果训练模型准确率较低,可以重新训练数据集。
7. 查看测试集的预测结果和真实结果
SELECT PREDICT(DiabetesModel) AS PredictedDiabetes, Outcome AS ActualDiabetes FROM DataMining.DiabetesTest
8. 删除模型
DROP MODEL DiabetesModel