【机器学习】:决策树之CART回归树
在决策树算法当中,cart回归树是决策树的一种,它用来做回归的策略十分常见。可能还会在后续的GBDT模型当中所运用到,用来作为我们分裂节点的一个标准,我们来了解了解。 备注: 在进行计算回归树的c1和c2的值的时候,我们使用的方法,是对c1所在的区域做一个平均值,然后对c2的所在的区域算出一个平均值。c1和c2的交界处就是我们进行split的一个特征。比如x>2.5. 而分裂策略是通过
机器学习实战笔记-利用AdaBoost元算法提高分类性能
做重要决定时,大家可能都会考虑吸取多个专家而不只是一个人的意见。机器学习处理问题时又何尝不是如此?这就是元算法(meta-algorithm ) 背后的思路。元算法是对其他算法进行组合的一种方式 7.1 基于数据集多重抽样的分类器 我们自然可以将不同的分类器组合起来,而这种组合结果则被称为集成方法(ensemblemethod)或者元算法(meta-algorithm)。使用集成方法时会有多种形式:可以是不同算法的集成,也可以
(六)目标检测算法之YOLO
系列文章链接: 关于yolov1(版本1)--->yolov3(版本3)以及其他的版本,我这里暂时只更新yolov1,并且只做简单的介绍,原因是,别人写的太好了!。。。本人实在没有信心写那么好,如果写出来,估计也是抄人家的,因此直接上大佬的链接,大家可以好好看看,大佬的这篇以及系列博客,我看了很多遍:
目标检测之RCNN,fast RCNN,faster RCNN
候选区生成(Selective Search)。 分割成2000左右的候选小区域 合并规则:颜色、纹理相近,尺度均匀,合并后形状规则 特征提取。 归一候选区尺寸为227×227,归一方法。 使用在imageNet上的分类网络作为预训练网络,预训练网络输出4096维特征 预训练网络加上全连接层在分类数据集上预训练 每一类使用SVM分类器 对预训练网络输出的4096维特征,使用多个SVM分类器进行判断 对于负样本过多的
机器学习1k近邻
自己一直学习计算机视觉方面的东西,现在想学习一下数据挖掘跟搜索引擎,自己基础也有点薄弱,看朱明的那本数据挖掘,只能片面的了解这个数据挖掘。不过最近有一本书 机器学习实战,于是乎通过实战的形式了解一下基本的算法的执行过程。在算法当中,很多都是相通的,模式识别、机器学习、数据挖掘、自然语言处理等等这些算法归结起来其实差不了多少,题外话不多说了,好好学习。 k近邻算法 对于这个算法,我用自己的话来描述一下,就是把一个未知数与所有已有的数据
CNN卷积减少参数个数的理解(分为全连接到CNN三个层级)
参考连接 : https://blog.csdn.net/accumulate_zhang/article/details/77816566 1000*1000 的图像, 1000000个隐层神经元,参数个数: 10^12 --> 10^8 --> 100(单一卷积核),或者10000(100个卷积核)
Python/Keras如何将给定的数据集打乱
给定数据集data,数据集对应的标签label index = [i for i in range(len(data))] random.shuffle(index) data = data[index] label = label[index] (1)首先,获得数据集的所有index,其实就是0,1,2,....,num-1(这里的num是数据集中含有的examples的个数,注意,python的索引是从0开始的,所以
Win10+1050Ti配置Tensorflow教程
Win10+1050Ti配置Tensorflow教程 笔者使用的是联想Y7000笔记本,显卡是1050Ti,在安装TensorFlow时,发现自己的显卡型号并不在NVDIA官网上支持型号的名单中,于是网上看了很多教程,很多都有问题(或者不适用于我这台电脑),踩了许多坑,总结很多之后最终配置成功,在这留下详细步骤。 NVDIA官网支持的显卡型号 可以看到并没有1050Ti的支持,然而其实是支持的(我也想要TITANV的显卡,然而实验
caffe IDE 开发环境配置
这篇博文主要记录caffe开发环境的种种。 在直接使用caffe的时候,需要对数据做格式转换。然后配置一个网络格式的描述文件即可进行训练。但是在做预测和格式转化的时候,我们需要将Caffe当作一个sdk那样来使用。 这里我主要解决配置IDE。这里我选用的是nsight,因为装好cuda之后,这个编辑器就自带了。 代码我选用caffe/examples/mnist/convert_mnist_data.cpp/ // This sc
随机森林和AdaBoost的区别
随机森林(Random Forest)和AdaBoost(Adaptive Boosting)都是常用的机器学习算法,都是通过组合多个决策树来提高分类准确率。下面将详细讲解它们的区别。 随机森林 随机森林是一种集成学习算法,通过随机选择样本和特征,生成多个决策树进行分类、回归等。随机森林的基本思想是一般决策树容易过拟合,随机森林则是通过多次采样和减少每次的特征选择,使每棵树的训练数据和特征都不相同,最终通过集成学习的方法得到更稳定和可靠的
数据科学和商业智能的区别
数据科学和商业智能都是涉及数据的领域,但是它们有不同的任务和目标。下面我将为您详细讲解这两者之间的区别。 定义 数据科学是一种应用统计学、大数据、机器学习、数据挖掘等方法研究问题的学科。数据科学家使用数据来获取商业洞见,以解决实际问题。 商业智能和数据分析则是一种以数据和信息作为基础的智能化决策的方法和工具。这种方法和工具可以帮助企业管理者更好地了解企业现状,从而更好地进行决策。 目标 数据科学通过分析数据以发现或构建模型,以预测未来,解
tensorflow使用tf.data.Dataset 处理大型数据集问题
下面是关于“tensorflow使用tf.data.Dataset 处理大型数据集问题”的完整攻略。 tensorflow使用tf.data.Dataset 处理大型数据集问题 本攻略中,将介绍如何使用tf.data.Dataset处理大型数据集问题。我们将提供两个示例来说明如何使用这个方法。 步骤1:tf.data.Dataset介绍 首先,需要了解tf.data.Dataset的基本概念。以下是tf.data.Dataset的基本概念
keras小程序(一),用cnn做分类
为了显示代码的友好性,我会把代码的每一步运行的结果显示出来,让读者可以有一个直观的认识,了解每一步代码的意思,下面我会先以几条数据为例,让读者可以直观的认识每段代码执行出来的效果,文章末我会已一个大数据集实验,并且给出实验效果,读者可以参考 一、 首先,笔者的数据存放在两个excel,一个是存放的是pos评论,一个是neg评论。分别是poss.xlsx和negg.xlsx,里面的内容如下: poss.xls的内容是:
机器学习中强化学习与监督学习、无监督学习区别
监督学习(Supervised learning): 监督学习即具有特征(feature)和标签(label)的,即使数据是没有标签的,也可以通过学习特征和标签之间的关系,判断出标签——分类。 简言之:提供数据,预测标签。比如对动物猫和狗的图片进行预测,预测label为cat或者dog。 通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如分类。 eg.分类和回归问题 无监督学习(Unsupe
【原创 深度学习与TensorFlow 动手实践系列 – 3】第三课:卷积神经网络 –
【原创 深度学习与TensorFlow 动手实践系列 - 3】第三课:卷积神经网络 - 基础篇 提纲: 1. 链式反向梯度传到 2. 卷积神经网络 - 卷积层 3. 卷积神经网络 - 功能层 4. 实例:卷积神经网络MNIST分类 期待目标: 1. 清楚神经网络优化原理,掌握反向传播计算。 2. 掌握卷积神经网络卷积层的结构特点,关键参数,层间的连接方式。 3. 了解不同卷积神经网络功能层的作用,会进行