Patrząc na ten wykres zapytasz pewnie sam siebie: Czy ktoś do reszty oszalał? Zapewniam Cię, że nikt nie oszalał (no chyba, że na punkcie wizualizacji danych…), tylko chce przedstawić Excelową odsłonę analizy wizualnej dużego zbioru danych. A tym podejściem będzie interaktywny wykres współrzędnych równoległych (ang. parallel coordinates). Jak można zauważyć wykres jest dość specyficzny: zawiera mnóstwo serii danych, dane te podzielone są na zróżnicowane kategorie, skala osi pionowej nic Ci nie mówi. W poniższym artykule dowiesz się jak stworzyć taki wykres, jak czytać prezentowane na nim dane i stwierdzić w końcu, że taka wizualizacja danych ma jakiś sens.
Jak przygotować dane źródłowe?
Dane źródłowe to zestaw wskaźników dla 133 krajów. Dane zawierają informację na temat liczby abonentów sieci komórkowych, wartości eksportu, śmiertelności poniżej piątego roku życia, wydatków na zdrowie na jednego obywatela, populacji w mieście, przewidywanej długości życia oraz przychodów z turystyki.
Dane dotyczą 2010 roku i jak widać są bardzo zróźnicowane: różne jednostki, różne wskaźniki. Poza tym nawet dane dotyczące jednego wskaźnika mogą być bardzo zróżnicowane. Jak więc takie dane pokazać na wykresie? Czy zwykły wykres liniowy bądź kolumnowy miałby tu zastosowanie? Może i tak, ale wskaźniki należałoby przedstawić na osobnych wykresach, kraje pogrupować. Może zatem przedstawić dane na wykresie o jednej skali osi pionowej, który będzie miał za zadanie raczej porównanie wartości dla danego kraju w stosunku do innego niż przedstawienie „rzeczywistych” danych?
Aby tego dokonać musimy najpierw usystematyzować dane. Pierwszym krokiem w tym kierunku będzie wyznaczenie maksymalnej wartości dla każdego ze wskaźników.
Dokonujemy tego za pomocą formuły = MAX, która zwraca największą wartość we wskazanym zbiorze danych.
Następnie wyznaczamy wartość minimalną dla każdego ze wskaźników.
Pomoże nam w tym formuła =MIN, która zwraca minimalną wartość w zbiorze liczbowym.
Obie formuły przeliczamy dla wszystkich wskaźników.
Następnym krokiem będzie dodanie kolumn technicznych w ilości odpowiadającej ilości kolumn z danymi dla poszczególnych wskaźników – kolumny będą nosiły te same nazwy.
Następnie kolumny techniczne wypełnimy danymi na podstawie poniżej formuły, która zwraca stosunek wartości do wartości maksymalnej i minimalnej.
Formułę przeciągamy do wszystkich pól kolumn technicznych.
W polu A1 oraz A2 wpisujemy cyfry 1 i 2. Obie komórki wykorzystamy do indeksowania oraz finalnie do wykresu.
Nad kolumnami technicznymi (jak na poniższym screenie) wpisujemy formułę Indeks, która zawiera dane z poszczególnych kolumn (nazwa kraju i kolumny techniczne) oraz cyfry z pól A1 i A2.
Formułę przeciągamy przez wszystkie pola nad kolumnami technicznymi.
Kolejnym krokiem będzie zaznaczenie danych z kolumn technicznych i wstawienie na ich podstawie wykresu liniowego.
Domyślny wykres nie wygląda tak, jakbyśmy chcieli. W legendzie pojawiły się nazwy wskaźników, a w etykietach kraje.
Aby zmienić układ wystarczy przełączyć wiersz/kolumnę w oknie Wybieranie źródła danych.
Po tym zabiegu wykres prezentuje się jak poniżej. Nazwy wskaźników pojawiły się już jako etykiety, nazwy krajów w legendzie. Serie danych zawierają wartości dla ponad 130 krajów.
Ustawmy wartość maksymalną osi pionowej na 1, jednostkę zmieńmy na 0,1 i usuńmy na razie legendę.
Teraz przejdziemy do dość pracochłonnej czynności jaką będzie zmiana kolorów wszystkich serii danych na kolor jasnoszary – dzięki temu łatwiej będzie porównywać tylko zaznaczone serie na osi. Pomocny może być klawisz F4 (powtórz ostatnią operację) i przechodzenie przez serie strzałką w dół.
Teraz zmieńmy położenie osi pionowej, tak aby rozpoczynała się na znacznikach osi poziomej.
Następnie usuńmy poziome linie siatki na rzecz pionowych, które lepiej oddzielają wartości dla poszczególnych wskaźników
Teraz wstawimy dwie dodatkowe serie danych, które zostały obliczone nad kolumnami technicznymi (te, które wyliczają się z formuły Indeks). Aby wkleić serie wystarczy je zaznaczyć, skopiować i wkleić w obszar wykresu.
Wstawmy ponownie legendę, usuńmy z niej wszystkie pozycje oprócz tych, które dotyczą wklejonych przed chwilą serii. Zmieńmy kolor serii na bardziej wyróżniający się – w tym przypadku będzie to niebieski oraz czerwony.
Nad wykresem dodajmy jeszcze tytuły dla niebieskiej i czerwonej serii.
Następnie pod tytułami z zakładki Deweloper wklejmy dwa pola kombi (dostępne w poleceniu Wstaw).
Następnie wybieramy formatowanie formantu, aby wprowadzić niezbędne połączenia.
Zakres wejściowy niebieskiej i czerwonej serii to lista krajów. Łącze komórki w niebieskiej serii będzie odnosiło się do cyfry 1 z pola A1.
Natomiast łącze komórki w czerwonej serii będzie odnosiło się do cyfry 2 z pola A2.
Zastosowanie pól kombi umożliwia porównanie dwóch dowolnie wybranych krajów na wykresie. Serie wyróżniają się na tle innych „nieaktywnych” szarych serii i możemy korzystać z wygodnych list rozwijanych.
Gotowy interaktywny wykres współrzędnych równoległych prezentuje się jak poniżej. Wykres doskonale obrazuje dysproporcje , na przykład, między Polską a USA w wartościach eksportu, wydatkach na zdrowie oraz przychodach z turystyki. Zaznaczone serie wyróżniają się. Na wykresie nie mamy możliwości porównania wartości w wybranych wskaźników, ale wykres sprawdza się doskonale w przypadku konieczności porównania wielu serii danych i wartości, dla których nie można zastosować jednej osi oraz skali. Skala jest ujednolicona tak, aby wszystkie wskaźniki były ze sobą porównywalne, a właściwie żeby były porównywalne w wybranych krajach.
Co pokazuje wykres współrzędnych równoległych?
- Korelacje – dodatnie i ujemne zależności są wskazywane poprzez kierunek linii. Jeśli linie krzyżują się między seriami (powstaje „x”), zależność jest ujemna, gdy większość linii jest równoległa, mamy zależność dodatnią.
- Elementy dominujące – ukazują się w postaci przepływu szarej linii
- Obserwacje odstające – nie pasują do głównego „nurtu”
- Grupy danych o takich samych cechach – wykres pozwala rozbić zbiór danych na kilka grup, których elementy mają pokrywające się lub zbliżone kształtem linie.
Jak zwiększyć możliwości analizy wykresu współrzędnych równoległych?
- Dodaj kolejne interakcje za pomocą fragmentatorów lub innych filtrów, aby szukać zależności w mniejszych grupach (w Excelu 2013 fragmenator można tworzyć na tabeli zdefiniowanej, w Excelu 2010 tylko na tabeli przestawnej)
- Wykorzystaj kolor, aby odróżnić od siebie grupy danych. W naszym przypadku można by dodać podział krajów na kontynenty lub ze względu na PKB/mieszkańca
- Przeglądaj wykres, korzystając z opcji filtru, stojącego obok wykresu w Excelu 2013
Plik do pobrania
Tu możesz pobrać plik z wykresem współrzędnych równoległych w Excelu.
Znów ogromnie pomogłeś! Dzięki 🙂