Zadanie grupowania¶

Zadanie grupowania danych polega na dokonaniu efektywnego podziału zadanego zbioru próbek uczących na pewną ilość podzbiorów \({{C}_{1}},{{C}_{2}},...,{{C}_{K}}\), wewnątrz których próbki te są do siebie w określonym sensie podobne, natomiast należące do różnych grup możliwie niepodobne [Jain1998], [Stapor2005]. Zadanie to inaczej nazywamy również klasyfikacją nienadzorowaną, l ub analizą skupień, natomiast podzbiory na które dokonywany jest podział nazywamy grupami, skupiskami czy klasami. W literaturze spotkać możemy się także z określeniem klasteryzacji w odniesieniu do grupowania, czy klastra w odniesieniu do grupy, które pochodzą wprost od angielskiego terminu clustering. Obydwu tych terminów jednak będziemy starać się nie stosować. Zbiór próbek, który nazywamy też zbiorem obiektów, czy wektorów uczących, oznaczamy symbolem \(X\), a każdy z jego elementów opisywany jest przez zestaw atrybutów \(\{{a}_{1}\},...,\{{a}_{p}\}\) ze zbioru \(A\), przy czym zajmujemy się tylko przypadkiem atrybutów z dziedziny rzeczywistej. Obiekty uczące nazywamy również wektorami cech, a atrybuty go opisujące cechami. Atrybuty te tworzą tak zwaną przestrzeń cech a każdy obiekt reprezentowany jest \(p\) wymiarowym wektorem cech, czyli poprzez \(p\) liczb rzeczywistych. Ostatecznie mamy zatem:

\[\left\{ {{x}_{1}},...,{{x}_{N}} \right\}\text{, gdzie }{{x}_{i}}={{\left[ {{x}_{i1}},...,{{x}_{ip}} \right]}^{T}}\text{ dla }i=1,...,N\]

Na całość zadania grupowania składają się takie elementy jak: reprezentacja danych i przetwarzanie wstępne, w razie potrzeby selekcja lub ekstrakcja cech oraz zdefiniowanie miary podobieństwa między próbkami. Następnymi etapami są samo grupowanie a także walidacja wyniku tego procesu oraz abstrakcja danych.

Reprezentacja danych¶

Bardzo popularnym sposobem reprezentacji całego zbioru danych poprzez miarę odległości, podobieństwa czy niepodobieństwa pomiędzy każdą parą obiektów, jest tak zwana macierz sąsiedztwa lub bliskości (ang. proximity matrix). W przypadku stosowania jednej z miar odległości jest to zatem symetryczna macierz kwadratowa \(D=\left[ {{d}_{ij}} \right]\) rozmiaru \(N\times N\), taka że:

\[{{d}_{ij}}=d\left( {{x}_{i}},{{x}_{j}} \right)\text{ dla }i,j=1,...,N\]

Również podział zbioru na grupy, uzyskany w wyniku działania algorytmu grupowania, zwracać możemy również w postaci macierzy sąsiedztwa. W takim przypadku określamy miarę niepodobieństwa w ten sposób, że dla obiektów tej samej grupy wynosi 0, a dla obiektów należących do różnych grup jest równe 1. Miara niepodobieństwa w tym przypadku ma zatem postać:

\[\begin{split}D\left( i,j \right)=\left\{ \begin{matrix} 0 & \text{gdy }{{x}_{i}},{{x}_{j}}\text{ nale }\!\!\dot{\mathrm{z}}\!\!\text{ do tej samej grupy} \\ 1 & \text{w przeciwnym wypadku} \\ \end{matrix} \right.\end{split}\]

a symetryczna macierz kwadratowa złożona z elementów \(D\left( i,j \right)\) dla \(i,j=1,...,N\) jest wspomnianą macierzą sąsiedztwa.

Następna część - Charakterystyka podejść do grupowania danych