数据标准化
其中,xi表示标准化之前的属性量化值,xi′为标准化之后的属性量化值。min(X)表示集合X(S)中数值最小的值,同理max(X)表示集合X(S)中数值最大的值。max(X) - min(X)表示属性值域变化的范围。范围标准化之后,集合X(S)中的每一个值变化范围将在0到1之间。范围标准化的缺陷是当有新数据加入到集合里面时,可能会导致max(X)和min(X)的变化,这样需要重新标准化计算;但范围标准化的优点是可以把带有量纲的属性值标准化为无量纲的值。
Z-score标准化也被称为标准差标准化,这是因为Z-score标准化公式中利用到属性的标准差和平均值来计算的。Z-score标准化可以判断出集合中的数值是从x坐标轴的正方向还是反方向远离属性的平均值。和范围标准化方法不同的是,Z-score标准化之后还是有量纲的,单位量是属性的标准差。Z-score标准化的计算公式如下所示: