記2013年“U21青年學(xué)者研討會”

0100-01-01 111041


簡單的二維或者三維我們可以想象出來其分布狀態(tài),那么對于更高維的數(shù)據(jù),能想象出來其分布嗎?還有,就算能描述分布,如何精確地找到這些主成分的軸?如何衡量你提取的主成分到底占了整個數(shù)據(jù)的多少信息?所以,我們就要用到主成分分析的處理方法。

為了說明什么是數(shù)據(jù)的主成分,我們首先得了解數(shù)據(jù)降維,數(shù)據(jù)降維時怎么回事?二,數(shù)據(jù)降維  假設(shè)三維空間中有一系列點,這些點分布在一個過原點的斜面上,如果你用自然坐標(biāo)x,y,z這三個軸來表示這組數(shù)據(jù)的話,需要使用三個維度,而事實上,這些點的分布僅僅是在一個二維的平面上,那么問題出在哪里?如果你仔細想想,能不能把x,y,z坐標(biāo)系旋轉(zhuǎn)一下,使數(shù)據(jù)所在平面與x,y平面重合?這就對了!如果把旋轉(zhuǎn)后的坐標(biāo)記為x',y',z',那么這組數(shù)據(jù)的表示只用x'和y'兩個維度表示即可!

當(dāng)然了,如果想恢復(fù)原來的表示方式,那就得把這兩個坐標(biāo)之間的變換矩陣存下來。這樣就能把數(shù)據(jù)維度降下來了!但是,我們要看到這個過程的本質(zhì),如果把這些數(shù)據(jù)按行或者按類排成一個矩陣,那么這個矩陣的秩就是2!這些數(shù)據(jù)之間是有相關(guān)性的,這些數(shù)據(jù)構(gòu)成的過原點的向量的最大線性無關(guān)組包含2個向量,這就是為什么一開始就假設(shè)平面過原點的原因!

那么如果不過原點呢?這就是數(shù)據(jù)中心化的緣故!將坐標(biāo)原點平移到數(shù)據(jù)中心,這樣原本不相關(guān)的數(shù)據(jù)在這個新坐標(biāo)系中就有相關(guān)性了!有趣的是,三點一定共面,也就是三維空間中任意三點中心化后都是線性相關(guān)的,一般來講n維空間中n個點一定能在一個n-1維子空間中分析!

總結(jié)一下這個例子,數(shù)據(jù)降維后并沒有丟棄任何東西,因為這些數(shù)據(jù)在平面以外的第三個維度的分量都為0。現(xiàn)在,假設(shè)這些數(shù)據(jù)在z'軸有一個很小的抖動,那么我們?nèi)匀挥蒙鲜龅亩S表示這些數(shù)據(jù),理由是我們可以認為這兩個軸的信息是數(shù)據(jù)的主成分,而這些信息對于我們的分析已經(jīng)足夠了,z'軸上的抖動很有可能是噪音,也就是說本來這組數(shù)據(jù)是有相關(guān)性的,噪聲的引入,導(dǎo)致了數(shù)據(jù)不完全相關(guān),但是,這些數(shù)據(jù)在z'軸上的分布與原點構(gòu)成的夾角非常小,也就是說在z'軸上有很大的相關(guān)性,綜合考慮,就可以認為數(shù)據(jù)在x',y'軸上的投影構(gòu)成了數(shù)據(jù)的主成分!

所以說,降維肯定意味著信息的丟失,不過鑒于實際數(shù)據(jù)本身常常存在的相關(guān)性,我們可以想辦法在降維的同時將信息的損失盡量降低。

下面在說一個極端的情況,也許在現(xiàn)實中不會出現(xiàn),但是 類似的情況還是很常見的。

假設(shè)某學(xué)籍?dāng)?shù)據(jù)有兩列M和F,其中M列的取值是如果此學(xué)生為男性,則取值為1,為女性則取0;而F列是學(xué)生為女性,則取值為0,男性則為1.此時如果我們統(tǒng)計全部學(xué)籍?dāng)?shù)據(jù),會發(fā)現(xiàn)對于任何一條記錄來說,當(dāng)M為1時F必定為0,反之當(dāng)M為0時F必定為1,在這種情況下,我們將M或者F去掉實際上沒有任何信息的損失,因為只要保留一列就可以完全還原另一列。

那么降維我們差不多說清楚了,現(xiàn)在我們將自己面對的數(shù)據(jù)抽象為一組向量,那么下面我們有必要研究一些向量的數(shù)學(xué)性質(zhì),而這些數(shù)學(xué)性質(zhì)將成為后續(xù)推導(dǎo)出PCA的理論基礎(chǔ)。



安达市| 泽库县| 海门市| 桦南县| 枝江市| 建昌县| 彭阳县| 图片| 汾阳市| 静安区| 石狮市| 泉州市| 浪卡子县| 金湖县| 赞皇县| 龙胜| 毕节市| 东源县| 安丘市| 巴彦淖尔市| 保定市| 工布江达县| 曲水县| 通城县| 庐江县| 利辛县| 宜君县| 句容市| 两当县| 黄石市| 乌拉特中旗| 汶川县| 怀远县| 乌兰县| 广灵县| 平江县| 安平县| 巧家县| 磐石市| 普格县| 浑源县|