WEKA——数据挖掘与机器学习工具

关键词

WEKA——数据挖掘与机器学习工具

参考书籍

Weka功能

Weka 主界面称为Weka GUI 选择器。

Explorer（探索者）：通过选择菜单和填写表单可以调用Weka的所有功能。不过存在一些问题就是，要求它所需的数据需要一次性全部读入内存。
KnowledgeFlow（知识流）：可以使用增量方式的算法处理大型数据集，用户可以绘制处理数据流的方式和顺序。
Experimenter（实验者）：用于帮助用户解答实际应用分类和回归技术中遇到的一个基本问题——对于一个已知问题，哪种方法及参数值能够取得最佳效果。
Simple CLI（简单命令行界面）：为不提供自己命令行界面的操作系统提供的，该简单的命令行界面用于和用户进行交互，可以直接执行Weka命令。

机器学习分类

机器学习分为两种主要类型：有监督学习和无监督学习。
有监督的学习是指在给定的一系列的I＆O实例构成的数据集的条件下，学习输入的映射关系。这里的数据集合称为训练集，实例个数称为样本个数。
无监督学习有时候也称为知识发现、描述学习。这类问题并没有明确的定义，因为我们不知道要寻找什么样的模式，也没有明显的误差度量可供使用。

数据和数据集

数据视为是待处理的数据对象的集合。数据对象有多个别名如记录、行、向量、点、样本、案例等；数据对象的描述可以用对象的基本特征属性来描述，属性也有多个别名如变量、字段、列、维、特征等。
属性可以分为四种类型：标称（nominal）、序数(ordinal)、区间(interval)和比率(ratio)。其中，标称属性的值不仅仅是不同的名称，标称值仅提供区分对象足够的信息，如性别（男、女）、颜色（红、绿、蓝）、天气（阴、晴、雨、多云）等；序数属性的值可以提供确定对象顺序的足够信息，如成绩等级（优良中差）、职称（初中高）、学生（本硕博）等；区间属性的值之间的差是有意义的，即存在度量单位，如温度、日历日期等；比率属性的值之间的差和比值都是意义的，如绝对温度、年龄、长度、成绩分数等。

数据预处理

避免数据质量问题

数据质量问题的检测和纠正：在数据挖掘之前检测并且纠正数据的一些质量问题，这个过程叫做数据预处理。

使用能够容忍低质量数据的算法：提高算法的健壮性。

 数据预处理的一些技术：聚集、抽样、维度归纳、属性选择、属性创建、离散化和二元化、变量变换。

Weka版本使用

首先下载最新版的适合自己系统的[版本](http://www.cs.waikato.ac.nz/ml/weka/downloading.html)

使用weka包管理器：从包管理器GUI进入管理页面，然后进行install。如果出现无法连接和超时链接的问题，这是因为包所在的SF网站有容量限制，该网站因为用户过多不堪重负。解决办法:找到C:\Users***\wekafiles\props目录之后，在目录中创建一个PackageRepository的文本文件，在第一行加入如下的内容weka.core.wekaPackageRepositoryURL=http://www.cs.waikato.ac.nz/ml/weka/packageMetaData
使用UTF-8数据集或者文件在RunWEKA.ini文件中修改fileEncoding=Cp1252改成fileEncoding=UTF-8。
Weka访问数据库

本文链接：http://task.lmcjl.com/news/12606.html

展开阅读全文

上一篇：Tensorflow环境安装记录–无法识别GPU的问题下一篇：【BZOJ-2962】序列操作线段树 + 区间卷积

热门文章排行

推荐文章

关键词

WEKA——数据挖掘与机器学习工具

Weka功能

机器学习分类

数据和数据集

数据预处理

Weka版本使用