Python语言中的实用数据挖掘-职坐标

Python语言中的实用数据挖掘

小标 2018-07-16 来源：阅读 1253 评论 0

摘要：本文主要向大家介绍了Python语言中的实用数据挖掘，通过具体的内容向大家展示，希望对大家学习Python语言有所帮助。

本文主要向大家介绍了Python语言中的实用数据挖掘，通过具体的内容向大家展示，希望对大家学习Python语言有所帮助。

本次讲座的目的是展示一些关于机器学习的高级概念。该笔记中用具体的代码来做演示，大家可以在自己的电脑上运行（需要安装 IPython，如下所示）。

本次讲座的听众需要了解一些基础的编程（不一定是 Python），并拥有一点基本的数据挖掘背景。本次讲座不是机器学习专家的“高级演讲”。

这些代码实例创建了一个有效的、可执行的原型系统：一个使用“spam”（垃圾信息）或“ham”（非垃圾信息）对英文手机短信（”短信类型“的英文）进行分类的 app。

整套代码使用 Python 语言。 python 是一种在管线（pipeline）的所有环节（I/O、数据清洗重整和预处理、模型训练和评估）都好用的通用语言。尽管 python 不是唯一选择，但它灵活、易于开发，性能优越，这得益于它成熟的科学计算生态系统。Python 庞大的、开源生态系统同时避免了任何单一框架或库的限制（以及相关的信息丢失）。

IPython notebook，是 Python 的一个工具，它是一个以 HTML 形式呈现的交互环境，可以通过它立刻看到结果。我们也将重温其它广泛用于数据科学领域的实用工具。

想交互运行下面的例子（选读）？

1. 安装免费的 Anaconda Python 发行版，其中已经包含 Python 本身。

2. 安装“自然语言处理”库——TextBlob：安装包在这。

3. 下载本文的源码（网址：//radimrehurek.com/data_science_python/data_science_python.ipynb 并运行：$ ipython notebook data_science_python.ipynb

4. 观看 IPython notebook 基本用法教程 IPython tutorial video 。

5. 运行下面的第一个代码，如果执行过程没有报错，就可以了。

端到端的例子：自动过滤垃圾信息

Python

%matplotlib inline

import matplotlib.pyplot as plt

import csv

from textblob import TextBlob

import pandas

import sklearn

import cPickle

import numpy as np

from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer

from sklearn.naive_bayes import MultinomialNB

from sklearn.svm import SVC, LinearSVC

from sklearn.metrics import classification_report, f1_score, accuracy_score, confusion_matrix

from sklearn.pipeline import Pipeline

from sklearn.grid_search import GridSearchCV

from sklearn.cross_validation import StratifiedKFold, cross_val_score, train_test_split

from sklearn.tree import DecisionTreeClassifier

from sklearn.learning_curve import learning_curve

第一步：加载数据，浏览一下

让我们跳过真正的第一步（完善资料，了解我们要做的是什么，这在实践过程中是非常重要的），直接到 https://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection 下载 demo 里需要用的 zip 文件，解压到 data 子目录下。你能看到一个大概 0.5MB 大小，名为 SMSSpamCollection 的文件

我们看到一个 TSV 文件（用制表符 tab 分隔），它的第一列是标记正常信息（ham）或“垃圾文件”（spam）的标签，第二列是信息本身。

这个语料库将作为带标签的训练集。通过使用这些标记了 ham/spam 例子，我们将训练一个自动分辨 ham/spam 的机器学习模型。然后，我们可以用训练好的模型将任意未标记的信息标记为 ham 或 spam。

第二步：数据预处理

这一节我们将原始信息（字符序列）转换为向量（数字序列）；

这里的映射并非一对一的，我们要用词袋模型（bag-of-words）把每个不重复的词用一个数字来表示。

自然语言处理（NLP）的问题：

1. 大写字母是否携带信息？

2. 单词的不同形式（“goes”和“go”）是否携带信息？

3. 叹词和限定词是否携带信息？

换句话说，我们想对文本进行更好的标准化。

第三步：数据转换为向量

现在，我们将每条消息（词干列表）转换成机器学习模型可以理解的向量。

用词袋模型完成这项工作需要三个步骤：

1. 对每个词在每条信息中出现的次数进行计数（词频）；

2. 对计数进行加权，这样经常出现的单词将会获得较低的权重（逆向文件频率）；

3. 将向量由原始文本长度归一化到单位长度（L2 范式）。

每个向量的维度等于 SMS 语料库中包含的独立词的数量。

第四步：训练模型,检测垃圾信息

我们使用向量形式的信息来训练 spam/ham 分类器。这部分很简单，有很多实现训练算法的库文件。

有相当多的指标都可以用来评估模型性能，至于哪个最合适是由任务决定的。比如，将“spam”错误预测为“ham”的成本远低于将“ham”错误预测为“spam”的成本。

第五步：如何进行实验？

在上述“评价”中，我们犯了个大忌。为了简单的演示，我们使用训练数据进行了准确性评估。永远不要评估你的训练数据。这是错误的。

这样的评估方法不能告诉我们模型的实际预测能力，如果我们记住训练期间的每个例子，训练的准确率将非常接近 100%，但是我们不能用它来分类任何新信息。

一个正确的做法是将数据分为训练集和测试集，在模型拟合和调参时只能使用训练数据，不能以任何方式使用测试数据，通过这个方法确保模型没有“作弊”，最终使用测试数据评价模型可以代表模型真正的预测性能。Naive Bayes 是一个高偏差-低方差的分类器（简单且稳定，不易过度拟合）。与其相反的例子是低偏差-高方差（容易过度拟合）的 k 最临近（kNN）分类器和决策树。Bagging（随机森林）是一种通过训练许多（高方差）模型和求均值来降低方差的方法。

换句话说：

· 高偏差 = 分类器比较固执。它有自己的想法，数据能够改变的空间有限。另一方面，也没有多少过度拟合的空间（左图）。

· 低偏差 = 分类器更听话，但也更神经质。大家都知道，让它做什么就做什么可能造成麻烦（右图）。

随着性能的提升，训练和交叉验证都表现良好，我们发现由于数据量较少，这个模型难以足够复杂/灵活地捕获所有的细微差别。在这种特殊案例中，不管怎样做精度都很高，这个问题看起来不是很明显。

关于这一点，我们有两个选择：

1. 使用更多的训练数据，增加模型的复杂性；

2. 使用更复杂（更低偏差）的模型，从现有数据中获取更多信息。

在过去的几年里，随着收集大规模训练数据越来越容易，机器越来越快。方法 1 变得越来越流行（更简单的算法，更多的数据）。简单的算法（如 Naive Bayes）也有更容易解释的额外优势（相对一些更复杂的黑箱模型，如神经网络）。

了解了如何正确地评估模型，我们现在可以开始研究参数对性能有哪些影响。

第六步：如何调整参数？

到目前为止，我们看到的只是冰山一角，还有许多其它参数需要调整。比如使用什么算法进行训练。

上面我们已经使用了 Navie Bayes，但是 scikit-learn 支持许多分类器：支持向量机、最邻近算法、决策树、Ensamble 方法等…

我们会问：IDF 加权对准确性有什么影响？消耗额外成本进行词形还原（与只用纯文字相比）真的会有效果吗？

第七步：生成预测器

经过基本分析和调优，真正的工作（工程）开始了。

生成预测器的最后一步是再次对整个数据集合进行训练，以充分利用所有可用数据。当然，我们将使用上面交叉验证找到的最好的参数。这与我们开始做的非常相似，但这次深入了解它的行为和稳定性。在不同的训练/测试子集进行评价。

还有一些需要考虑的问题，比如，生产流水线还需要考虑鲁棒性（服务故障转移、冗余、负载平衡）、监测（包括异常自动报警）、HR 可替代性（避免关于工作如何完成的“知识孤岛”、晦涩/锁定的技术、调整结果的黑艺术）。现在，开源世界都可以为所有这些领域提供可行的解决方法，由于 OSI 批准的开源许可证，今天展示的所有工具都可以免费用于商业用途。

其他实用概念

数据稀疏性

在线学习，数据流

用于内存共享的 mmap，系统“冷启动”负载时间

可扩展性、分布式（集群）处理

无监督学习

大多数数据没有结构化。了解这些数据，其中没有自带的标签（不然就成了监督学习！）。

我们如何训练没有标签的内容？这是什么魔法？

分布假设“在类似语境中出现的词倾向于具有相似的含义”。上下文=句子，文档，滑动窗口……

查看 google 关于无监督学习的 word2vec 在线演示。简单的模型、大量数据（Google 新闻，1000 亿词，没有标签）。

本文由职坐标整理并发布，了解更多内容，请关注职坐标编程语言Python频道！

编程初学 python编程从入门编程语言python