Python语言线性分类模型简介-职坐标

海同科技，欢迎您！

就业

培训

资料

IT知识库

编程语言

站

热门城市全国站>

其他省市

快速购买

400-636-0069

热门课程

IT学院

职坐标首页 IT知识库编程语言 Python

选择在海同培训： 30 天 1389 名，今日申请 85 人 IT培训咨询 >>

Python语言线性分类模型简介

小标 2018-07-16 来源：阅读 1353 评论 0

摘要：本文主要向大家介绍了Python语言线性分类模型简介，通过具体的内容向大家展示，希望对大家学习Python语言有所帮助。

本文主要向大家介绍了Python语言线性分类模型简介，通过具体的内容向大家展示，希望对大家学习Python语言有所帮助。

在过去几周中，我们开始对机器学习有了更多的了解，也认识到机器学习在机器视觉、图像分类和深度学习领域的重要作用。

我们已经看到卷积神经网络，如LetNet，可以用于对MNIST数据集的手写字迹进行分类。我们使用了k-NN算法来识别一张图片中是否含有猫或狗，并且我们也已经学习了如何调参来优化模型，进而提高分类精度。

然而，还有一个重要的机器学习的算法我们尚未涉及：这个算法非常容易构建，并能很自然地扩展到神经网络和卷积神经网络中。

是什么算法呢？

它是一个简单的线性分类器，并且由于其算法很直观，被认为是更多高级的机器学习和深度学习算法的基石。

继续阅读来加深你对线性分类器的认识，以及如何使用它们进行图像分类。

Python线性分类模型简介

本教程的前半部分主要关注线性分类有关的基本原理和数学知识。总的来说，线性分类指的是那些真正从训练数据中“学习”的有参分类算法。

在这里，我提供了一个真正的线性分类实现代码，以及一个用scikit-learn对一张图片中的内容分类的例子。

4大参数化学习和线性分类的组件

我已经多次使用“参数化”,但它到底是什么意思？

简而言之：参数化是确定模型必要参数的过程。

在机器学习的任务中，参数化根据以下几个方面来确定面对的问题：

1. 数据：这是我们将要学习的输入数据。这些数据包括了数据点（例如，特征向量，颜色矩阵，原始像素特征等）和它们对应的标签。

2. 评分函数：一个函数接收输入数据，然后将数据匹配到类标签上。例如，我们输入特征向量后，评分函数就开始处理这些数据，调用某个函数f（比如我们的评分函数），最后返回预测的分类标签。

3. 损失函数：损失函数可以量化预测的类标签与真实的类标签之间的匹配程度。这两个标签集合之间的相似度越高，损失就越小（即分类精度越高）。我们的目标是最小化损失函数，相应就能提高分类精度。

4. 权重矩阵：权重矩阵，通常标记为W，它是分类器实际优化的权重或参数。我们根据评分函数的输出以及损失函数，调整并优化权重矩阵，提高分类精度。

注意：取决于你使用的模型的种类，参数可能会多的多。但是在最底层，你会经常遇到4个参数化学习的基本模块。

一旦确定了这4个关键组件，我们就可以使用优化方法来找到评分函数的一组参数W，使得损失函数达到最小值（同时提升对数据的分类准确度）

接下来，我们就将看到如何利用这些组件，搭建一个将输入数据转化为真实预测值的分类器。

线性分类器：从图片到标签

在这部分中，我们将更多的从数学角度研究参数模型到机器学习。

首先，我们需要数据。假设训练数据集（图片或者压缩后的特征向量）标记为，每个图或特征向量都有对应的类标签。我们用和表示有N个D维（特征向量的长度）的数据点，划分到K个唯一的类别中。

为了这些表达式更具体点，参考我们以前的教程：基于提取后的颜色矩阵，使用knn分类器识别图片中的猫和狗。

这份数据集中，总共有N=25，000张图片，每张图片的特征都是一个3D颜色直方图，其中每个管道有8个桶。这样产出的特征向量有D=8 x 8 x 8 = 512个元素。最后，我们有k=2个类别标签，一个是“狗”，另一个是“猫”。

有了这些变量后，我们必须定义一个评分函数f，将特征向量映射到类标签的打分上。正如本篇博客标题所说，我们将使用一个简单的线性映射：

我们假设每个都由一个形状为[D x 1]的单列向量所表示。我们在本例中要再次使用颜色直方图，不过如果我们使用的是原始像素粒度，那可以直接把图片中的像素压扁到一个单列向量中。

我们的权重矩阵W形状为[K x D]（类别标签数乘以特征向量的维数）

最后，偏置矩阵b,大小为[K x 1]。实质上，偏置矩阵可以让我们的评分函数向着一个或另一个方向“提升”，而不会真正影响权重矩阵W，这点往往对学习的成功与否非常关键。

回到Kaggle的猫和狗例子中，每个都表示为512维颜色直方图，因此的形状是[512 x 1]。权重矩阵W的形状为[2 x 512]，而偏置矩阵b为[2 x 1]。

下面展示的是线性分类的评分函数f

在上图的左侧是原始输入图片，我们将从中提取特征。在本例中，我们计算的是一个512维的颜色直方图，也可以用其他一些特征表示方式（包括原始像素密度），但是对于这个例子，我们就只用颜色分布，即直方图来表示xi。

然后我们有了权重矩阵W，有2行（每个类标签一行）和512列（每一列都是特征向量中的条目）

将W和xi点乘后，再加上大小为[2 x 1]的偏置矩阵bi。

最后就得到了右边的两个值：猫和狗标签各自的分数。

看着上面的公式，你可以确信输入xi和yi都是固定的，没法修改。我们当然可以通过不同的特征提取技术来得到不同的xi，但是一旦特征抽取后，这些值就不会再改变了。

实际上，我们唯一能控制的参数就是权重矩阵W以及偏置向量b。因此，我们的目标是利用评分函数和损失函数去优化权重和偏置向量，来提升分类的准确度。

如何优化权重矩阵则取决于我们的损失函数，但通常会涉及梯度下降的某种形式。我们会在以后的博客中重温优化和损失函数的概念，不过现在只要简单理解为给定了一个评分函数后，我们还需要定义一个损失函数，来告诉我们对于输入数据的预测有多“好”。

参数学习和线性分类的优点

利用参数学习有两个主要的优点，正如我上面详述的方法：

1. 一旦我们训练完了模型，就可以丢掉输入数据而只保留权重矩阵W和偏置向量b。这大大减少了模型的大小，因为我们只需要存储两个向量集合（而非整个训练集）。

2. 对新的测试数据分类很快。为了执行分类，我们要做的只是点乘W和xi，然后再加上偏置b。这样做远比将每个测试点和整个训练集比较（比如像knn算法那样）快的多。

既然我们理解了线性分类的原理，就一起看下如何在python，opencv和scikit-learn中实现。

使用python，opencv和scikit-learn对图片线性分类

就像在之前的例子Kaggle 猫vs狗数据集和knn算法中，我们将从数据集中提取颜色直方图，不过和前面例子不同的是，我们将用一个线性分类器，而非knn。

准确地说，我们将使用线性支持向量机（SVM），即在n维空间中的数据之间构造一个最大间隔分离超平面。这个分离超平面的目标是将类别为i的所有（或者在给定的容忍度下，尽可能多）的样本分到超平面的一边，而所有类别非i的样本分到另一边。

关于支持向量机的具体描述已经超出本博客的范围。（不过在PyImageSearch Gurus course有详细描述）

同时，只需知道我们的线性SVM使用了和本博客“线性分类器：从图片到标签”部分中相似的评分函数，然后使用损失函数，用于确定最大分离超平面来对数据点分类（同样，我们将在以后的博客中讲述损失函数）。

本文由职坐标整理并发布，希望对同学们学习Python有所帮助，更多内容请关注职坐标编程语言Python频道！

pyhton程序 python编程语言 python智能编程

本文由 @小标发布于职坐标。未经许可，禁止转载。

喜欢 | 1

不喜欢 | 0

看完这篇文章有何感觉？已经有1人表态，100%的人喜欢快给朋友分享吧~

评论（0）

后参与评论

加入IT交流圈

JAVA工程师交流群 +加入

大数据架构师交流群 +加入

人工智能Python交流群 +加入

WEB/H5前端交流群 +加入

职坐标公众号

编程语言 直通车

索取资料
答疑解惑
技术交流
职业测评
面试技巧
高薪秘笈

海同师资推荐更多>>

认证System Analyst，System Architect

程光淼

程光淼联系TA

精通C、C++等语言、智能芯片开发

热门就业培训班更多>>

【零基础】人工智能+Python全栈开发课程

【零基础】人工智能+Python全栈开发课程

人工智能+Python技术风口浪潮

【零基础】JavaEE高级开发工程师课程

【零基础】JavaEE高级开发工程师课程

0基础入学Java课程

【零基础】大数据与分布式架构师课程

【零基础】大数据与分布式架构师课程

培训大数据分布式架构

Python30天热搜词更多>>

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场匹配合适岗位

验证码手机号，获得海同独家IT培训资料

选择就业方向：: 人工智能物联网; 大数据开发/分析; 人工智能Python; Java全栈开发; WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了，明天再试试吧！

提交

我们会在第一时间安排职业规划师联系您！

您也可以联系我们的职业规划师咨询：

小职老师的微信号：z_zhizuobiao

小职老师的微信号：z_zhizuobiao

友情链接

职业技能培训职业教育培训 IT教育培训机构 IT教育北京IT培训广州IT培训深圳IT培训杭州IT培训南京IT培训 IT培训公开课 IT视频教程 IT就业培训班软件工程师培训 IT课程视频职坐标商城 IT培训课程软件开发书籍 IT技术资料 IT教育新闻海同名师海同学员软件开发项目 IT热门话题职坐标介绍 IT知识人工智能大数据 WEB前端移动端开发品牌设计数据库软件测试系统运维常用软件大数据技术大数据应用大数据采集大数据分析云计算编程语言 C语言 VC编程 JAVA语言 PHP编程 C#编程 HTML页面制作 JavaScript jQuery HTML5

版权所有职坐标-一站式IT培训就业服务领导者沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com，All Rights Reserved.
沪公网安备 31011502005948号

关于我们 │ 法律声明 │ 联系我们

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程