当前位置:首页 > 编程语言 > 正文内容

Data Preparation for Machine Learning

内容介绍:

《Data Preparation for Machine Learning》是Jason Brownlee撰写的一本专注于机器学习数据准备的实用指南。本书于2020年出版,旨在帮助机器学习从业者掌握数据清洗、特征选择和数据转换等关键技术,以提升模型性能和预测能力。

书籍背景与目标

在机器学习项目中,数据准备是至关重要却又常被忽视的环节。作者指出,尽管机器学习算法的实现已经相对成熟,但数据的准备和处理却因每个项目数据的独特性而变得极具挑战性。本书的目标是填补这一知识空白,通过提供系统化的数据准备方法和Python代码示例,帮助读者快速上手并应用到实际项目中。

内容概览

全书分为六个主要部分,涵盖了数据准备的各个方面:

第一部分:基础

  • 第1章:介绍机器学习项目中的数据准备步骤,强调其在整个预测建模流程中的重要性。

  • 第2章:探讨数据在机器学习中的作用,解释为什么原始数据需要经过准备才能用于建模。

  • 第3章:概述常见的数据准备技术,包括数据清洗、特征选择、数据转换、特征工程和降维。

第二部分:数据清洗

  • 第5章:介绍基本的数据清洗方法,如删除单一值列、处理低方差特征和重复行。

  • 第6章:讲解如何识别和处理数据中的异常值,包括标准差法和四分位距法。

  • 第7章:探讨标记和处理缺失数据的方法,强调缺失值对模型性能的影响。

第三部分:特征选择

  • 第11章:介绍特征选择的基本概念,包括监督和无监督方法,以及如何根据数据类型选择合适的统计方法。

  • 第12章:针对分类目标变量,讲解如何选择分类输入特征,使用卡方检验和互信息统计量。

  • 第13章:针对数值输入和分类目标变量,介绍如何使用ANOVA F检验和互信息统计量进行特征选择。

  • 第14章:针对回归目标变量,探讨如何选择数值输入特征,使用相关性统计和互信息统计量。

第四部分:数据转换

  • 第17章:讲解如何对数值数据进行缩放,包括归一化和标准化。

  • 第18章:介绍处理含异常值数据的鲁棒缩放方法。

  • 第19章:讲解如何对分类数据进行编码,包括序数编码和独热编码。

第五部分:高级转换

  • 第24章:探讨如何同时处理不同类型数据的转换,以及如何在回归任务中转换目标变量。

  • 第26章:介绍如何保存和加载数据转换对象,以便在新数据上复现模型。

第六部分:降维

  • 第27章:介绍降维的概念及其在减少输入变量中的作用。

  • 第28-30章:分别介绍线性判别分析(LDA)、主成分分析(PCA)和奇异值分解(SVD)等降维技术。

适用人群

本书适合有一定机器学习基础的开发者,尤其是那些熟悉Python编程、NumPy和scikit-learn库的读者。书中提供了大量可直接运行的代码示例,读者可以通过实践快速掌握数据准备的技巧。

书籍特色

  • 实战性强:通过具体的Python代码示例,读者可以快速将理论应用于实际项目。

  • 系统全面:涵盖了从数据清洗到降维的完整数据准备流程。

  • 易于上手:语言简洁明了,适合初学者和有一定经验的从业者。

总之,《Data Preparation for Machine Learning》是一本实用性强、覆盖面广的机器学习数据准备指南,适合所有希望提升模型性能的机器学习从业者阅读和参考。


扫描二维码推送至手机访问。

版权声明:书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途,谢谢合作。

本文链接:https://book.nadian4.com/43.html

分享给朋友:

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。