one-hot编码的作用
使用one-hot编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点
将离散特征通过one-hot编码映射到欧式空间,是因为,在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的,而我们常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,基于的就是欧式空间。
sklearn的一个例子
from sklearn import preprocessing enc = preprocessing.OneHotEncoder() enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]]) print(enc.n_values_)//每个特征对应的最大位数 print(enc.transform([[0,1,3]]).toarray()) print(enc.transform([[0,1,1]]).toarray())
上面代码enc.fit()里有一个4行3列的矩阵
1、每一列对应于一个样本的特征序列,即一个样本有三个特征
2、4行表明传入了4个样本
3、观察每一列的值可以知道:第一个特征有两个取值0,1;第二个特征有三个取值0,1,2;第三个特征有4个取值0,1,2,3
4、所以第一个特征的one-hot编码是一个两位的01串,第二个特征是一个三位的01串,第三个特征是一个4位的01串
以上这篇对python sklearn one-hot编码详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。
继续阅读与本文标签相同的文章
上一篇 :
微软透露量子计算编程语言Q Sharp发展方向
下一篇 :
ng-alain表单使用方式详解
-
能牺牲大语种、提升小语种翻译质量的谷歌多语言机器翻译
2026-05-15栏目: 教程
-
操作系统是如何解决硬盘速度较慢的问题的?这个技术了解下
2026-05-15栏目: 教程
-
会蹬三轮车,能与人对话,这个“网红”机器人即将登陆进博会
2026-05-15栏目: 教程
-
禾迈总经理杨波:技术研发是公司的“护城河”
2026-05-15栏目: 教程
-
目标1000万部!谷歌暂停安卓系统开放后,或与华为竞争欧洲市场?
2026-05-15栏目: 教程
