关键词

WEKA——数据挖掘与机器学习工具

参考书籍

Weka功能

Weka 主界面称为Weka GUI 选择器。

  1. Explorer(探索者):通过选择菜单和填写表单可以调用Weka的所有功能。不过存在一些问题就是,要求它所需的数据需要一次性全部读入内存。
  2. KnowledgeFlow(知识流):可以使用增量方式的算法处理大型数据集,用户可以绘制处理数据流的方式和顺序。
  3. Experimenter(实验者):用于帮助用户解答实际应用分类和回归技术中遇到的一个基本问题——对于一个已知问题,哪种方法及参数值能够取得最佳效果。
  4. Simple CLI(简单命令行界面):为不提供自己命令行界面的操作系统提供的,该简单的命令行界面用于和用户进行交互,可以直接执行Weka命令。

机器学习分类

机器学习分为两种主要类型:有监督学习和无监督学习。
有监督的学习是指在给定的一系列的I&O实例构成的数据集的条件下,学习输入的映射关系。这里的数据集合称为训练集,实例个数称为样本个数。
无监督学习有时候也称为知识发现、描述学习。这类问题并没有明确的定义,因为我们不知道要寻找什么样的模式,也没有明显的误差度量可供使用。

数据和数据集

数据视为是待处理的数据对象的集合。数据对象有多个别名如记录、行、向量、点、样本、案例等;数据对象的描述可以用对象的基本特征属性来描述,属性也有多个别名如变量、字段、列、维、特征等。
属性可以分为四种类型:标称(nominal)、序数(ordinal)、区间(interval)和比率(ratio)。其中,标称属性的值不仅仅是不同的名称,标称值仅提供区分对象足够的信息,如性别(男、女)、颜色(红、绿、蓝)、天气(阴、晴、雨、多云)等;序数属性的值可以提供确定对象顺序的足够信息,如成绩等级(优良中差)、职称(初中高)、学生(本硕博)等;区间属性的值之间的差是有意义的,即存在度量单位,如温度、日历日期等;比率属性的值之间的差和比值都是意义的,如绝对温度、年龄、长度、成绩分数等。

数据预处理

避免数据质量问题

  • 数据质量问题的检测和纠正:在数据挖掘之前检测并且纠正数据的一些质量问题,这个过程叫做数据预处理。
  • 使用能够容忍低质量数据的算法:提高算法的健壮性。

     数据预处理的一些技术:聚集、抽样、维度归纳、属性选择、属性创建、离散化和二元化、变量变换。
    

Weka版本使用

首先下载最新版的适合自己系统的[版本](http://www.cs.waikato.ac.nz/ml/weka/downloading.html)

  1. 使用weka包管理器:从包管理器GUI进入管理页面,然后进行install。如果出现无法连接和超时链接的问题,这是因为包所在的SF网站有容量限制,该网站因为用户过多不堪重负。解决办法:找到C:\Users***\wekafiles\props目录之后,在目录中创建一个PackageRepository的文本文件,在第一行加入如下的内容weka.core.wekaPackageRepositoryURL=http://www.cs.waikato.ac.nz/ml/weka/packageMetaData

  2. 使用UTF-8数据集或者文件在RunWEKA.ini文件中修改fileEncoding=Cp1252改成fileEncoding=UTF-8。

  3. Weka访问数据库

本文链接:http://task.lmcjl.com/news/12606.html

展开阅读全文