Liniowe metody klasyfikacji¶
W przypadku braku wiedzy o statystycznych własnościach analizowanych obiektów często stosowane są liniowe funkcje dyskryminacyjne . Ich niewątpliwą zaletą jest prostota związanych z nimi obliczeń. Rozważmy zatem zadanie klasyfikacji nadzorowanej pomiędzy 2 klasami. Przyjmijmy, że dany jest zbiór uczący
zawierający elementy należące do dwóch klas oznaczonych jako \({-1}\) oraz \(1\). Ponieważ rozważamy przypadek dwuklasowy zatem wystarczy określić jedną funkcję dyskryminacyjną postaci
Klasyfikacja próbki \(x\) do konkretnej klasy odbywa się na podstawie znaku funkcji \(g(x)\), czyli
Definicja 8
Liniową funkcją dyskryminacyjną w \(d\)-wymiarowej przestrzeni cech nazywamy funkcję \(g\) postaci
Zauważmy, że równanie \(w^tx+w_0\) określa hiperpłaszczyznę rozdzielającą obie klasy w przestrzeni cech. Wektor \(w\) stanowi wektor normalny do tej płaszczyzny. Określona w ten sposób hiperpłaszczyzna dzieli przestrzeń na dwa obszary decyzyjne: dodatni i ujemny. Dla obszaru decyzyjnego dodatniego wartości \(g(x)>0\), natomiast dla obszaru decyzyjnego ujemnego \(g(x)<0\). Stąd jeśli zbiór jest liniowo separowalny wszystkie obiekty klasy \(1\) znajdują się w dodatnim obszarze decyzyjnym, podobnie wszystkie obiekty z klasy \(-1\) znajdują się w ujemnym obszarze decyzyjnym. Klasyfikator liniowy łatwo uogólnić na przypadek \(L\) klasowy. Wówczas klasyfikator jest zdefiniowany poprzez \(L\) funkcji dyskryminacyjnych o następującej postaci
gdzie \(w_i^j\) określa \(j\)-tą współrzędną wektora wag dla \(i\)-tej klasy. W ogólnym przypadku klasyfikator liniowy składa się z \(d\) węzłów wejściowych. Na każdy z tych węzłów podawany jest tzw. wektor rozszerzony \([x_0,x_1,\ldots,x_d]^T\) powstały po uzupełnieniu wektora cech \([x_1,\ldots,x_d]^T\) o wartość \(x_0=1\). Następnie wektor ten jest mnożony przez odpowiednie wagi \(w_i\) w wyniku czego dla każdej \(i\)-tej składowej wektora rozszerzonego otrzymujemy iloczyn \(w_ix_i\). Te iloczyny są sumowane w tzw. elemencie sumującym w wyniku czego otrzymujemy
czyli tzw. aktywację elementu. Następnie wartość aktywacji jest podawana do tzw. elementu przenoszącego. Element ten jest charakteryzowany poprzez progową funkcję aktywacji \(f\) postaci
W elemencie przenoszącym następuje obliczenie wartości funkcji wyjściowej \(y=f(a)\), po czym analizowany wektor \(x\) zostaje przydzielony do klasy oznaczonej etykietą \(-1\) lub \(1\) w zależności od tego czy wartość funkcji wyjściowej wynosi \(y=-1\) bądź \(y=1\). W następnych podrozdziałach przedstawimy różne metody uczenia wektora \(w=[w_0,w_1,\ldots,w_d]^T\) określającego hiperpłaszczyznę rozdzielającą.
Reguła minimalizacji błędu kwadratowego¶
Jedną z metod, którą można użyć w przypadku zbioru liniowo nieseparowalnego, uzyskując dobrą sprawność klasyfikacji, jest reguła minimalizacji błędu kwadratowego. Wówczas w roli funkcji kryterialnej \(J\) stosowany jest tzw. błąd kwadratowy . Kryterium \(J\) jest zatem postaci
Błąd ten stanowi sumę kwadratów błędów dla wszystkich wektorów zbioru uczącego. Zatem jest to suma kwadratów różnic pomiędzy faktyczną przynależnością \(y_i\) do klasy wektora \(x_i\) a empiryczną \(w_k^Tx_{ik}\). Minimum powyższej funkcji kryterialnej uzyskuje się metodą najmniejszych kwadratów (por. [Gren1987]). Przy założeniu, że macierz \(X^TX\) jest odwracalna minimum funkcji kryterialnej wynosi
gdzie
jest macierzą rozszerzonych wektorów zbioru uczącego, natomiast wektor
jest wektorem etykiet klasowych dla tych wektorów rozszerzonych.