书籍封面
本书将带你了解特征工程的完整过程,使机器学习更加系统、高效。你会从理解数据开始学习,机器学习模型的成功正是取决于如何利用不同类型的特征,例如连续特征、分类特征等。你将了解何时纳入一项特征、何时忽略一项特征,以及其中的原因。你还会学习如何将问题陈述转换为有用的新特征,如何提供由商业需求和数学见解驱动的特征,以及如何在自己的机器上进行机器学习,从而自动学习数据中的特征。
微信读书推荐值
75.9%
111人点评
推荐
一般
不行
热门划线
特征:显而易见,这个词在本书中会很常用。从最基本的层面来说,特征是对机器学习过程有意义的数据属性。我们经常需要查看表格,确定哪些列是特征,哪些只是普通的属性。
在特征转换中,最棘手的部分是一开始就不认为原始特征空间是最好的。我们需要接受一个事实:可能有其他的数学坐标轴和系统能用更少的特征描述数据,甚至可以描述得更好。
数据集的原始特征是数据点的描述符/特点,也应该能创造一组新的特征,用更少的列来解释数据点,并且效果不变,甚至更好。