Walidacja klasyfikatora¶
Omawiane klasyfikatory charakteryzują się pewnymi parametrami, na przykład liczba \(k\) sąsiadów w algorytmie kNN. Niewłaściwa wartość tych parametrów prowadzi do zwiększenia błędu klasyfikatora, dlatego też ważny jest ich odpowiedni dobór. Typ klasyfikatora i wartości jego parametrów wraz z nauczonymi funkcjami dyskryminacyjnymi tworzą tzw model. Procedurę wyboru odpowiedniego modelu przedstawiamy w rozdziale Sztuczne sieci neuronowe. Procedura uczenia klasyfikatora powinna zapewniać jak najmniejszy poziom błędu klasyfikacji. W praktyce często nie ma możliwości przyjęcia założeń odnośnie postaci rozkładu badanej populacji obiektów. Dlatego też stosuje się różne metody szacowania warunkowego prawdopodobieństwa błędnej klasyfikacji. Takimi metodami są na przykład metody eksperymentalne wykorzystujące próbę pobraną z populacji i wyznaczające na podstawie konkretnego zbioru uczącego oceny prawdopodobieństwa błędnej klasyfikacji. Równoważnie zamiast pojęciem błędu klasyfikatora można posługiwać się pojęciem sprawności klasyfikatora zdefiniowanym jako uzupełnienie do jedności błędu klasyfikatora.
Definicja 9
Błędem empirycznym klasyfikatora \(\phi\) nazywamy nieparametryczny estymator prawdopodobieństwa błędnej klasyfikacji zdefiniowany następująco
gdzie \(wlog(argument)\) oznacza wartość logiczną wyrażenia argument, \(U\) jest zbiorem uczącym, \(x_k\) obiektem zbioru uczącego, natomiast \(T_k\) jego poprawną klasyfikacją.
Tak zdefiniowany estymator jest estymatorem obciążonym i daje zaniżone oszacowania warunkowego prawdopodobieństwa błędnej klasyfikacji. Błędem klasyfikatora jest odsetek niepoprawnie sklasyfikowanych obiektów.
Klasyfikator ma służyć do podejmowania prawidłowych decyzji o obiektach spoza zbioru uczącego. Ponieważ w praktyce dysponujemy jedynie niewielką próbką całej populacji więc prawdopodobieństwo podjęcia błędnej decyzji jest większe od zera. Dlatego też ważne jest aby klasyfikator posiadał jak największą zdolność do tzw. uogólniania własności zbioru uczącego. To oznacza, że klasyfikator powinien znać wszystkie najbardziej reprezentatywne dla całej populacji własności zbioru a zapomnieć te nieistotne, które mogą z kolei być związane z konkretnym zbiorem uczącym. Zbytnie dopasowanie do zbioru uczącego może skutkować tzw. przeuczeniem co skutkuje większym błędem klasyfikatora. Zbyt małe dopasowanie klasyfikatora skutkuje niedouczeniem co znów powoduje wzrost błędu klasyfikacji. Miarą zdolności uogólniających klasyfikatora jest warunkowe prawdopodobieństwo błędnej klasyfikacji, a w praktycznych zastosowaniach w postaci oszacowań rożnymi metodami błędów klasyfikacji. Dobór odpowiednich parametrów klasyfikatora powinien odbywać na zbiorze walidacyjnym, który nie jest częścią zbioru uczącego. Jak ważny jest dobór odpowiednich parametrów zilustrujemy następującym przykładem.
Przykład 6
Ponownie rozważmy zbiór danych iris. W tym przykładzie ograniczamy liczbę cech obiektów do 2. Zbiór iris dzielimy, w sposób losowy na dwie części: uczącą i testową w stosunku 70:30. Następnie przeprowadzamy na zbiorze uczącym proces uczenia klasyfikatora kNN dla parametrów \(k=1\) oraz \(k=9\). Dla parametru \(k=9\) klasyfikator kNN osiągnął sprawność \(80\%\), podczas gdy dla parametru \(k=1\) sprawność klasyfikatora kNN wynosiła \(71\%\).
Eksperymentalne metody oceny błędu klasyfikatora jak i wyboru odpowiedniego modelu przedstawione zostały w rozdziale Sztuczne sieci neuronowe.