Weka 分类器
许多机器学习应用程序都与分类相关。例如,您可能想将肿瘤分类为恶性或良性。您可能想根据天气情况决定是否玩户外游戏。通常,这个决定取决于天气的几个特征/条件。所以你可能更喜欢使用树分类器来决定是否玩。
在本章中,我们将学习如何根据天气数据构建这样一个树分类器来决定比赛条件。
设置测试数据
我们将使用上一课中预处理的天气数据文件。使用
预处理标签下的
打开文件 ...选项打开保存的文件,点击
分类标签,你会看到以下屏幕-
在您了解可用的分类器之前,让我们检查测试选项。您会注意到下面列出的四个测试选项-
训练集
提供的测试集
交叉验证
百分比分割
除非您有自己的训练集或客户提供的测试集,否则您将使用交叉验证或百分比拆分选项。在交叉验证下,您可以设置在每次训练迭代期间拆分和使用整个数据的折叠数。在百分比拆分中,您将使用设置的拆分百分比在训练和测试之间拆分数据。
现在,保留输出类的默认
play 选项-
接下来,您将选择分类器。
选择分类器
单击"选择"按钮并选择以下分类器-
weka→classifiers>trees>J48
这显示在下面的屏幕截图中-
点击
开始按钮开始分类过程。一段时间后,分类结果将显示在您的屏幕上,如下所示-
让我们检查屏幕右侧显示的输出。
它说树的大小是 6、你很快就会看到树的视觉表示.在摘要中,它说正确分类的实例为 2,错误分类的实例为 3,还说相对绝对误差为 110%。它还显示了混淆矩阵。对这些结果进行分析超出了本教程的范围。但是,您可以很容易地从这些结果中看出分类是不可接受的,您将需要更多数据进行分析、优化特征选择、重建模型等,直到您对模型的准确性感到满意为止。无论如何,这就是 WEKA 的全部意义所在。它可以让您快速测试您的想法。
可视化结果
要查看结果的可视化表示,请右键单击
结果列表框中的结果。屏幕上会弹出几个选项,如下所示-
选择
Visualize tree 以获得遍历树的可视化表示,如下面的屏幕截图所示-
选择
可视化分类器错误将绘制分类结果,如下所示-
A
cross 表示正确分类的实例,而
squares 表示分类错误的实例。在图的左下角,您会看到一个
十字,表示
展望是否晴天,然后
玩游戏。所以这是一个正确分类的实例。要定位实例,您可以通过滑动
jitter 滑动条在其中引入一些抖动。
当前的情节是
展望与
游戏。这些由屏幕顶部的两个下拉列表框指示。
现在,在每个框中尝试不同的选择,并注意 X 轴和 Y 轴的变化。使用图右侧的水平条也可以实现相同的效果。每个条带代表一个属性。左键单击条带将所选属性设置在 X 轴上,而右键单击将其设置在 Y 轴上。
还提供了其他几个图表供您进行更深入的分析。明智地使用它们来微调您的模型。下面显示了一个这样的
成本/收益分析图,供您快速参考。
解释这些图表中的分析超出了本教程的范围。鼓励读者复习机器学习算法分析方面的知识。
在下一章中,我们将学习下一组机器学习算法,即聚类。