Zadania kontrolne
- Wczytać zbiór danych iris. Podać liczbę próbek w tym zbiorze oraz ilość atrybutów opisujących każdą z nich.
- Odczytać wartości atrybutów dla próbek o numerach 10 i 75. Obliczyć ich odległość euklidesową.
- Podać wartości minimalne, maksymalne, średnie i odchylenia standardowe dla każdego z atrybutów
- Dokonać wizualizacji zbioru iris w przestrzeni złożonej z dwóch pierwszych atrybutów
- Dokonać wizualizacji zbioru iris w przestrzeni złożonej z atrybutów 1 oraz 3 przy czym elementy każdej z klas zaznaczyć innym kolorem
- Podać średnią wartość zmierzonych atrybutów dla próbek z klasy setosa oraz versicolor.
- Dane poddać normalizacji i po dokonaniu tej operacji obliczyć ponownie wartości minimalne, maksymalne, średnie i odchylenia standardowe dla każdego z atrybutów.
- Wygenerować losowo zbiór 10 danych w przestrzeni dwuwymiarowej. Pierwszy atrybut z rozkładu \(N(-2,1)\), drugi z rozkładu jednostajnego na przedziale \([0,10]\). Zbiór danych zwizualizować za pomocą wykresu.
- Podać macierz odległości euklidesowych, mahalanobisa oraz Minkowskiego \(L_1\) dla wszystkich par elementów tego zbioru
- Dokonać skalowania liniowego wygenerowanego zbioru na przedział \([0,1]\) i ponownie obliczyć odległości dla wszystkich par obiektów.
- Zaproponować postać funkcji klasyfikujących dla problemu klasyfikacyjnego dla dwóch klas i dwuwymiarowej przestrzeni cech przy założeniu, że elementy klasy 1 znajdują się w drugiej, a elementy klasy 2 w czwartej ćwiartce układu współrzędnych. Podać wzór określający powierzchnię decyzyjną tego klasyfikatora.
- Wygenerować przykładowy zbiór danych testowych (po 10 próbek na klasę) dla problemu z poprzedniego zadania. Dokonać testowania zaproponowanego klasyfikatora.
Następna część - Optymalny klasyfikator statystyczny