本文转自公众号 雷锋网
今日要给大家推荐的资源是一套重磅的书单,这份书单是去年Matthew Mayo在 KDnuggets 上推荐的。Matthew Mayo 是知名数据科学网站 KDnuggets 的副主编,同时也是一位资深的数据科学家、深度学习技术爱好者,在机器学习和数据科学领域具有丰富的科研和从业经验。因此,这份书单也有一定的参考意义。
这份书单大致以由浅入深的顺序排列:首先是关于数据统计,接着是机器学习,最后是一些综合性的更宏观的书籍。
为了方便大家获取这些书籍,已经将其打包传到论坛服务器上,链接放在文末,供大家下载学习。
以下是部分书籍清单和简单介绍:
▌Think Stats: Probability and Statistics for Programmers
作者:Allen B. Downey
本书中文名为:《统计思维:程序员数学之概率统计》。从书名就能看出来,这本书是为程序员群体量身定制的统计学内容介绍,具体内容基于 Python 语言。
本书着重介绍了许多可以用来探索真实数据集的简单技术,同时还能利用这些技术回答许多非常有趣的统计问题。该书的样例基于美国国家卫生研究院的真实数据库,并鼓励读者基于真实的数据进行相关研究。
▌Probabilistic Programming & Bayesian Methods for Hackers
作者:Cam Davidson-Pilon
本书中文名为《贝叶斯方法:概率编程与贝叶斯推断》,以计算/理解为主,数学内容为辅,重点介绍了贝叶斯方法理论和概率编程。
作为推断中最自然和常见的方法,贝叶斯推断一般以晦涩难懂的数学分析理论为大家所熟知。按照一般的模式,在介绍贝叶斯之前,通常都要先介绍两到三章的概率论的相关内容。等到概率论介绍完,又常常由于贝叶斯模型的数学复杂度太高,因此只能向读者展示一些最简单和粗糙的贝叶斯样例,于是给读者造成了一种“贝叶斯似乎也没什么用”的错觉。本书则另辟蹊径,以简单通俗的讲述开始,由浅入深地介绍了贝叶斯理论在黑客和概率编程中的应用。
▌Understanding Machine Learning: From Theory to Algorithms
作者:Shai Shalev-Shwartz 和 Shai Ben-David
本书中文名为:《深入理解机器学习:从原理到算法》,书中从原理性的内容出发,介绍了机器学习的基本理论和算法范例,同时给出了将这些基础理论转化为实际算法的数学推导过程。介绍完这些基础理论之后,本书又介绍了许多其他相关书籍很少涉及的核心内容,包括:模型训练的计算复杂度,稳定性和凸性(convexity)的概念,随机梯度下降、神经网络等算法范例,以及 PAC-Bayes 和 compression-based bounds 等新概念。
▌The Elements of Statistical Learning
作者:Trevor Hastie, Robert Tibshirani 和 Jerome Friedman
本书在一些通用概念框架的基础上介绍了统计学的一些重要思想。虽然书中的许多方法都是基于统计学的,并提供了样例说明和彩色配图,但核心思想是在向读者阐述概念和思想,而并非数学知识。除了统计学概念之外,书中还涉及了神经网络、监督学习、支持向量机、分类、预测和非监督学习等非常丰富的内容。适合于对行业数据挖掘感兴趣的统计人员和所有对新兴科技感兴趣的朋友。
▌An Introduction to Statistical Learning with Applications in R
作者:Gareth James, Daniela Witten, Trevor Hastie 和 Robert Tibshirani
本书中文名为《统计学习导论:基于R应用》,书中以 R 语言为基础,详细介绍了统计学习的核心方法和应用,内容涉及线性回归、分类、再抽样方法、压缩方法、树方法、聚类、支持向量机等。同时,书中提供了大量基于现实数据的样例,这些数据来自近 20 年来生物学、金融学、市场营销学和天体物理学等诸多领域。本书主要面向非数学专业的高年级本科生、硕士研究生和博士生。
▌Foundations of Data Science
作者:Avrim Blum, John Hopcroft 和 Ravindran Kannan
虽然计算机科学的传统领域仍然非常重要,但是现在已经有越来越多的研究员开始着眼于如何使用计算机来理解和挖掘潜藏在大量数据中的有用信息,而不仅仅是用计算机来解决实际的应用问题。本书详细介绍了数据科学的基础理论和应用,作者在前言中指出:“我们希望读者可以从本书中学到在未来 40 年仍然有用的数据科学基础知识,正如自动化相关的理论和算法在 40 年前做的一样。”
▌A Programmer's Guide to Data Mining: The Ancient Art of the Numerati
作者:Ron Zacharski
本书是一个以实践操作为主的循序渐进式的编程参考,主要以 Python 代码为基础,面向数据挖掘的相关使用场景。作者在介绍中表示:“我希望你能参考书中给出的代码,积极参与数据挖据技术的实践编程,当你完成全书的所有内容时,实际上已经为数据挖掘技术奠定了坚实的基础。”
▌Mining of Massive Datasets
作者:Jure Leskovec, Anand Rajaraman 和 Jeff Ullman
本书中文名为《大数据:互联网大规模数据挖掘与分布式处理》,由斯坦福大学 CS246: Mining Massive Datasets 和 CS345A: Data Mining 课程的内容总结而成,主要关注极大规模数据的挖掘。主要内容包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统。大部分章节后都配有对应的习题,以及丰富的扩展阅读推荐,用以巩固所讲解的内容。据官网介绍,本书的内容不涉及任何预备知识,任何人都可以直接学习。
▌Deep Learning
作者:Ian Goodfellow, Yoshua Bengio 和 Aaron Courville
本书为 Yoshua Bengio 和 Ian Goodfellow 等大神合著的深度学习教科书,该书主要分为三个部分:机器学习和数学基础,深度学习的基础实践,深度学习的进一步研究。全书内容扎实、讲解细致、深入浅出,特别适合深度学习的初学者通过这本书正式入门机器学习领域的研究。
▌Machine Learning Yearning
作者:吴恩达(Andrew Ng)
这是大神吴恩达的一本书,官网描述称:
AI,机器学习和深度学习正在改变众多的行业。但如何搭建一个真正的机器学习系统,首先需要解决如下几个问题:
应该收集更多的训练数据吗?
应该使用端到端的深度学习吗?
如何处理与测试集不匹配的训练集?
等等。
此前,关于如何解决这些问题的唯一途径是研究生课程或咨询公司。现在我正在写一本相关的书籍,希望能帮助各位朋友解决类似的问题,帮助大家更好地搭建 AI 系统。
该贴被huang.wang编辑于2018-8-28 17:08:09