Wstęp

Klasyfikacja obiektów, dokonywana w sposób automatyczny, jest podstawowych i jednym z najobszerniejszych działów sztucznej inteligencji. Ta dziedzina badawcza, będąca częścią uczenia maszynowego, zwana jest rozpoznawaniem obiektów (ang. pattern recognition) [Stapor2005], [Theodorodis1999]. Za jej dynamicznym rozwojem przemawia fakt, że w obecnych czasach różnego rodzaju dane zbierane są dosłownie wszędzie, często bez udziału czy nadzoru człowieka. Zbierane są dane dotyczące transakcji bankowych, rozmów telefonicznych, czy zawartości stron w sieci Internet. Tak ogromna ich ilość jest niemożliwa do ogarnięcia i zanalizowania przez człowieka, staje się przez to bezużyteczna. Dopiero opracowanie danych, grupowanie, klasyfikacja i interpretacja pozwala na wysnuwanie wniosków, podejmowanie decyzji często takich, które mogą uchronić od ogromnych strat finansowych, czy nawet uratować życie. Z pomocą przychodzą tutaj inteligentne komputerowe systemy automatycznej klasyfikacji. Uczenie takich systemów odbywa się poprzez przykłady, których podawanie pozwala na dokonanie uogólnienia i wytworzenie pewnych reguł decyzyjnych, pozwalających na poprawną klasyfikację przykładów wcześniej nie obserwowanych.

Zasadniczo wyróżniamy dwa typy zadania klasyfikacji: pod nadzorem oraz nienadzorowanej. Klasyfikacja nadzorowana, uczenie pod nadzorem, polega na nauczeniu systemu odpowiadania na zadane wektory wejściowe w oczekiwany sposób (zgodnie z etykietą klasy). W przypadku klasyfikacji nienadzorowanej (grupowania danych) wejściem systemu jest jedynie zbiór danych opisujących obiekty uczące. Grupowania dokonuje się w celu usystematyzowania i podsumowania danych, a także dla lepszego ich zrozumienia. Ogólnie zadanie grupowania polega na dokonaniu efektywnego podziału zbioru obiektów wejściowych na pewną liczbę podzbiorów w taki sposób, aby dane należące do jednej grupy były do siebie znacznie bardziej podobne, niż te umieszczone w różnych grupach. Grupowanie polega na odkrywaniu naturalnych grup obiektów, bez wcześniejszej wiedzy dotyczącej struktury klasowej w tym zbiorze, czy nawet liczby grup, które dają się w nim zidentyfikować.

Zakładać będziemy, że zbiór danych podlegający klasyfikacji O złożony jest z obiektów, inaczej próbek czy przykładów, z których każdy opisany jest za pomocą zbioru atrybutów, wyrażonych poprzez wektor cech. Cechy opisujące obiekt mogą być ilościowe, więc z natury liczbowe, dające się mierzyć, porównywać itd, bądź nominalne. Atrybutem ilościowym będzie więc przykładowo waga obiektu, wysokość, szerokość, natomiast nominalnym kolor, płeć itp.

Następna część - Reprezentacja wzorców