Liniowe metody klasyfikacji

W przypadku braku wiedzy o statystycznych własnościach analizowanych obiektów często stosowane są liniowe funkcje dyskryminacyjne . Ich niewątpliwą zaletą jest prostota związanych z nimi obliczeń. Rozważmy zatem zadanie klasyfikacji nadzorowanej pomiędzy 2 klasami. Przyjmijmy, że dany jest zbiór uczący

\[X_{train}=\{(x_i,y_i):x_i\in X, y_i\in C=\{-1,1\}\}\]

zawierający elementy należące do dwóch klas oznaczonych jako \({-1}\) oraz \(1\). Ponieważ rozważamy przypadek dwuklasowy zatem wystarczy określić jedną funkcję dyskryminacyjną postaci

\[g(x)=g_{-1}(x)-g_{1}(x).\]

Klasyfikacja próbki \(x\) do konkretnej klasy odbywa się na podstawie znaku funkcji \(g(x)\), czyli

\[\begin{split}\left\{\begin{array}{ll} x \textrm{ należy do klasy o etykiecie } -1 & \textrm{ jeśli } g(x)<0\\ x \textrm{ należy do klasy o etykiecie } 1 & \textrm{ jeśli } g(x)>0 \end{array}\right.\end{split}\]

Definicja 8

Liniową funkcją dyskryminacyjną w \(d\)-wymiarowej przestrzeni cech nazywamy funkcję \(g\) postaci

\[g(x_k)=\sum_{i=1}^dw_ix_{ki}+w_0=w^Tx_k+w_0 \quad\textrm{ dla } x\in\mathbb{R}^d.\]

Zauważmy, że równanie \(w^tx+w_0\) określa hiperpłaszczyznę rozdzielającą obie klasy w przestrzeni cech. Wektor \(w\) stanowi wektor normalny do tej płaszczyzny. Określona w ten sposób hiperpłaszczyzna dzieli przestrzeń na dwa obszary decyzyjne: dodatni i ujemny. Dla obszaru decyzyjnego dodatniego wartości \(g(x)>0\), natomiast dla obszaru decyzyjnego ujemnego \(g(x)<0\). Stąd jeśli zbiór jest liniowo separowalny wszystkie obiekty klasy \(1\) znajdują się w dodatnim obszarze decyzyjnym, podobnie wszystkie obiekty z klasy \(-1\) znajdują się w ujemnym obszarze decyzyjnym. Klasyfikator liniowy łatwo uogólnić na przypadek \(L\) klasowy. Wówczas klasyfikator jest zdefiniowany poprzez \(L\) funkcji dyskryminacyjnych o następującej postaci

\[g_i(x_k)=\sum_{j=1}^dw^i_jx_{kj}+w^i_0=\left(w^i\right)^Tx_k+w^i_0 \quad\textrm{ dla } x\in\mathbb{R}^d, x\in\{1,2,\ldots,L\},\]

gdzie \(w_i^j\) określa \(j\)-tą współrzędną wektora wag dla \(i\)-tej klasy. W ogólnym przypadku klasyfikator liniowy składa się z \(d\) węzłów wejściowych. Na każdy z tych węzłów podawany jest tzw. wektor rozszerzony \([x_0,x_1,\ldots,x_d]^T\) powstały po uzupełnieniu wektora cech \([x_1,\ldots,x_d]^T\) o wartość \(x_0=1\). Następnie wektor ten jest mnożony przez odpowiednie wagi \(w_i\) w wyniku czego dla każdej \(i\)-tej składowej wektora rozszerzonego otrzymujemy iloczyn \(w_ix_i\). Te iloczyny są sumowane w tzw. elemencie sumującym w wyniku czego otrzymujemy

\[a=\sum_{i=0}^dw_ix_i,\]

czyli tzw. aktywację elementu. Następnie wartość aktywacji jest podawana do tzw. elementu przenoszącego. Element ten jest charakteryzowany poprzez progową funkcję aktywacji \(f\) postaci

\[\begin{split}f(a)=\left\{\begin{array}{ll} +1 \ & \textrm{ dla } a>0\\ -1 \ & \textrm{ dla } a<0 \end{array}\right.\end{split}\]

W elemencie przenoszącym następuje obliczenie wartości funkcji wyjściowej \(y=f(a)\), po czym analizowany wektor \(x\) zostaje przydzielony do klasy oznaczonej etykietą \(-1\) lub \(1\) w zależności od tego czy wartość funkcji wyjściowej wynosi \(y=-1\) bądź \(y=1\). W następnych podrozdziałach przedstawimy różne metody uczenia wektora \(w=[w_0,w_1,\ldots,w_d]^T\) określającego hiperpłaszczyznę rozdzielającą.

Reguła minimalizacji błędu kwadratowego

Jedną z metod, którą można użyć w przypadku zbioru liniowo nieseparowalnego, uzyskując dobrą sprawność klasyfikacji, jest reguła minimalizacji błędu kwadratowego. Wówczas w roli funkcji kryterialnej \(J\) stosowany jest tzw. błąd kwadratowy . Kryterium \(J\) jest zatem postaci

\[\begin{split}J(w_k)=\sum_{i=1}&n\left(y_i-w_k^Tx_k^i\right)^2.\end{split}\]

Błąd ten stanowi sumę kwadratów błędów dla wszystkich wektorów zbioru uczącego. Zatem jest to suma kwadratów różnic pomiędzy faktyczną przynależnością \(y_i\) do klasy wektora \(x_i\) a empiryczną \(w_k^Tx_{ik}\). Minimum powyższej funkcji kryterialnej uzyskuje się metodą najmniejszych kwadratów (por. [Gren1987]). Przy założeniu, że macierz \(X^TX\) jest odwracalna minimum funkcji kryterialnej wynosi

\[w_k=\left(X^TX\right)^{-1}X^TY\]

gdzie

\[\begin{split}X=\left[\begin{array}{llll} x_{10} & x_{11} & \ldots & x_{1d}\\ x_{20} & x_{21} & \ldots & x_{2d}\\ \vdots & \vdots & \ddots & \vdots\\ x_{n0} & x_{n1} & \ldots & x_{nd} \end{array}\right]\end{split}\]

jest macierzą rozszerzonych wektorów zbioru uczącego, natomiast wektor

\[Y=[y_1,\ldots,y_n]^T \textrm{ gdzie } y_i\in\{-1,1\}\]

jest wektorem etykiet klasowych dla tych wektorów rozszerzonych.

Następna część - Walidacja klasyfikatora