参考书籍
Weka 主界面称为Weka GUI 选择器。
机器学习分为两种主要类型:有监督学习和无监督学习。
有监督的学习是指在给定的一系列的I&O实例构成的数据集的条件下,学习输入的映射关系。这里的数据集合称为训练集,实例个数称为样本个数。
无监督学习有时候也称为知识发现、描述学习。这类问题并没有明确的定义,因为我们不知道要寻找什么样的模式,也没有明显的误差度量可供使用。
数据视为是待处理的数据对象的集合。数据对象有多个别名如记录、行、向量、点、样本、案例等;数据对象的描述可以用对象的基本特征属性来描述,属性也有多个别名如变量、字段、列、维、特征等。
属性可以分为四种类型:标称(nominal)、序数(ordinal)、区间(interval)和比率(ratio)。其中,标称属性的值不仅仅是不同的名称,标称值仅提供区分对象足够的信息,如性别(男、女)、颜色(红、绿、蓝)、天气(阴、晴、雨、多云)等;序数属性的值可以提供确定对象顺序的足够信息,如成绩等级(优良中差)、职称(初中高)、学生(本硕博)等;区间属性的值之间的差是有意义的,即存在度量单位,如温度、日历日期等;比率属性的值之间的差和比值都是意义的,如绝对温度、年龄、长度、成绩分数等。
避免数据质量问题
使用能够容忍低质量数据的算法:提高算法的健壮性。
数据预处理的一些技术:聚集、抽样、维度归纳、属性选择、属性创建、离散化和二元化、变量变换。
首先下载最新版的适合自己系统的[版本](http://www.cs.waikato.ac.nz/ml/weka/downloading.html)
使用weka包管理器:从包管理器GUI进入管理页面,然后进行install。如果出现无法连接和超时链接的问题,这是因为包所在的SF网站有容量限制,该网站因为用户过多不堪重负。解决办法:找到C:\Users***\wekafiles\props目录之后,在目录中创建一个PackageRepository的文本文件,在第一行加入如下的内容weka.core.wekaPackageRepositoryURL=http://www.cs.waikato.ac.nz/ml/weka/packageMetaData
使用UTF-8数据集或者文件在RunWEKA.ini文件中修改fileEncoding=Cp1252改成fileEncoding=UTF-8。
本文链接:http://task.lmcjl.com/news/12606.html