甲骨文认证体系
Vmware认证体系
AWS亚马逊
阿里云认证体系
红帽认证体系
ZStack云计算认证体系
思科认证体系
华为认证体系
CDA数据分析师认证
达梦认证体系
麒麟
定制化课程
晓港实验室分享关于HCIE认证等频分箱操作资料
发布日期:2022-10-08 09:51:37阅读次数:

1.连续数据与离散数据
离散变量是指其数值只能用自然数或整数单位计算的则为离散变量,而连续变量是在一定区间内可以任意取值的变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。这里大家要注意离散数据和连续数据不是以多少来区别,最主要的一点,就是两个点是否可以无限分割。例如,面部识别,虽然个数很多,但不属于连续数据。
2.离散化的意义
数值离散化在数据预处理中发挥重要作用。离散化可以降低特征中的噪声节点,提升特征的表达能力。但在实际应用中要根据不同环境和不同数据,选择合适的数值离散化方法。
离散化仅适用于只关注元素之间的大小关系而不关注元素数值本身的情况。
3.离散的方法
在华为HCIE产品中给我们介绍了离散的方法

这里呢关于分箱的操作,华为的HCIE教材这样描述到


这里小伙伴呢,大家一定要注意,不管是等频分箱也好,等宽分箱也罢。无论哪种分箱,都不会将一个数据分到两个箱子中。不然的话就会产生奇异。
接下来咱们通过实验给大家演示:

源代码

import numpy as np
import pandas as pd

list = [11,12,12,12,13,14,15,16,17,18]
datas = pd.qcut(list, q=5)

print(datas)


输出的结果:
[(10.999, 12.0], (10.999, 12.0], (10.999, 12.0], (10.999, 12.0], (12.6, 14.4], (12.6, 14.4], (14.4, 16.2], (14.4, 16.2], (16.2, 18.0], (16.2, 18.0]] ……

由此课间前4个数据被分到一箱子中,而不是完全均衡。
因此各位小伙伴在学习的时候一定要注意哦。 

腾科教育是华为授权的培训合作伙伴,专业提供华为ICT技术架构认证、平台与服务认证、行业服务认证等华为职业认证服务,连续多年荣获华为年度最佳合作伙伴贡献奖、华为优秀战略合作伙伴、上海HCIE精英俱乐部伙伴,连续多年举办腾科技术嘉年华华为专场,并协办华为ICT大赛、华为生态伙伴精英赛伙伴赛分赛场、华为人才双选会上海场等活动和赛事,提供面向华为生态合作伙伴和ICT学员的人才供需双选平台及ICT学员就业通道,培养ICT行业所需创新型、融合型人才。

腾科教育是华为优秀战略合作伙伴、红帽交付培训合作伙伴、思科优秀合作伙伴、红帽年度优秀合作伙伴、Oracle亚太区优秀合作伙伴,每年协办华为、红帽等厂商技术大赛,定期举办各种技术峰会等技术交流活动。同时也是培生集团(Pearson VUE)与Prometric(普尔文)两大全球国际考试中心授权的双国际电子考试中心,提供一站式ICT认证考试服务,十年来专注于为考生提供包括华为,思科,红帽,Oracle,VMware,ITIL,微软,Citrix等数千种ICT认证考试服务,每年通过腾科教育培训并参加HCIE(华为认证专家)、RHCA(红帽认证架构师)、OCM(甲骨文认证大师)等高级职业认证考试的学员,其通过率高达94.32%。