DNI
GODZIN
MINUT
SEKUND
DO STARTU:

Rzadziej używane kalkulacje w tabeli przestawnej i ich praktyczne zastosowanie

Dziś mały wstęp do statystki a być może dla Ciebie powrót? Otóż tymi rzadziej wykorzystywanymi kalkulacjami w tabeli przestawnej są miary statystyczne czyli odchylenie standardowe oraz wariancja. By móc je zastosować należy wiedzieć czym są  🙂 Zatem w tym artykule wyjaśniam co rozumiem pod nazwą średniej, odchylenia standardowego oraz wariancji (nieco wiedzy statystycznej znajdziesz we wpisie o wykresie Gaussa). Do czego i w jaki sposób będzie można je zastosować?

Wyjaśnienie pojęć statystycznych

Sztuką jest przekazać wiedzę niełatwą w przystępny sposób, czyli np. statystykę. Spróbuję a ocenisz sam/a…

  • Średnia – od niej należy zacząć, najczęściej rozumiana jako średnia arytmetyczna, czyli suma wartości zmiennych danego zbioru podzielona przez liczbę tych zmiennych, jest miarą tendencji centralnej czyli miejsca największej koncentracji wyników.
  • Odchylenie standardowe – zaraz po średniej najczęściej stosowane pojęcie statystyczne. Odchylenie mówi jak daleko od średniej rozrzucone są wartości w danym zbiorze – im odchylenie jest mniejsze tym wartości są bardziej skupione wokół średniej. Odchylenie jest pierwiastkiem z wariancji.
  • Wariancja – mówi o rozproszeniu wyników – czy są skoncentrowane wokół średniej, czy może od niej oddalone. Gdy wynosi zero, oznacza to, że wyniki nie są w ogóle zróżnicowane. Częściej stosowane od niej jest odchylenie standardowe.

Obliczenia w tabeli przestawnej

Warto pamiętać, że nie muszę w tabeli przestawnej tworzyć pola obliczeniowego by obliczyć odchylenie standardowe, ponieważ jest to możliwe wśród wbudowanych narzędzi tabeli przestawnej.

Aby dostać się do ustawień pola wartości tabeli przestawnej wybieram jedną z możliwości:

  • w polach tabeli przestawnej, w obszarze wartości wybieram jedno z pól > wciskam strzałkę po prawej stronie (włączam menu podręczne) > ustawienia pola wartości

Rzadziej używane kalkulacje w tabeli przestawnej i ich praktyczne zastosowanie 1

  • klikając prawym przyciskiem myszy w obszarze raportu tabeli przestawnej > ustawienia pola wartości

Rzadziej używane kalkulacje w tabeli przestawnej i ich praktyczne zastosowanie 2

Poniżej okno ustawień pola wartości , oprócz popularnie używanych: sumy czy licznika, znajdują się tu również Odchylenie standardowe, Odchstdc, Wariancja oraz Wariancja populacji.

Rzadziej używane kalkulacje w tabeli przestawnej i ich praktyczne zastosowanie 3

Nazwy bardzo podobne, jednak znaczenie miar nieco inne.

  • Odchylenie standardowe, Wariancja – używam gdy dane na których pracuję są tylko wycinkiem całości, czyli podzbiorem populacji.
  • OdchStdc, Wariancja populacji – gdy badany element jest całą populacją (nie jest wycinkiem).

Wśród rzadziej używanych kalkulacji w tabeli przestawnej oprócz miar statystycznych znajdują się:

  • Iloczyn – (ang. Product) jak sama nazwa mówi to iloczyn wartości, jeżeli dane pole nie zawiera liczb a np. tekst wówczas iloczyn wynosi zero. Do czego można wykorzystać iloczyn? Np. do obliczenia średniej geometrycznej.
  • Licznik num. – zliczenie wartości, które są liczbami , zlicza wystąpienia liczb, czyli jeżeli w danej kolumnie oprócz liczb znajdzie się tekst, wówczas nie zostanie on zliczony. Tę funkcję można wykorzystać do szybkiego sprawdzenia formatu w danych – porównując wartość Licznik num. z ilością wierszy w źródłowej tabeli.

Zastosowanie miar statystycznych w tabeli przestawnej

Posiadając wiedzę na temat poszczególnych miar statystycznych, mogę wykorzystać je do analizy danych w tabeli.

Poniżej tabela z danymi dot. sprzedaży w podziale na segmenty rynku (korporacje, małe firmy, osoba fizyczna, biuro w domu). Zamieściłem w niej sumę ze sprzedaży, średnią oraz po dwa typy odchylenia standardowego oraz wariancji.

Rzadziej używane kalkulacje w tabeli przestawnej i ich praktyczne zastosowanie 4

Na pierwszy rzut oka, średnie dla poszczególnych segmentów nie odbiegają zbytnio od siebie. Dzięki odchyleniu standardowemu mogę powiedzieć więcej o danych. Największe odchylenie występuje w segmencie korporacyjnym – co oznacza że występują w nim największe odchylenia od średniej, dane są najbardziej rozproszone (mamy jednocześnie bardzo niskie wartości sprzedaży jak i bardzo wysokie).

W segmencie gdzie odchylenie standardowe jest wysokie a średnia w porównaniu do innych segmentów jest porównywalna, można podejrzewać, że średnia jest błędną miarą wartości centralnej i być może należy wybrać inną np. medianę, dominantę, która lepiej zobrazuje zmienność wartości w segmencie.

Dzięki regule 3sigm (99,7% obserwacji znajduje się w odległości +/- 3 odchyleń standardowych od średniej) , odchylnie standardowe pozwala na odrzucenie ze zbioru danych wartości odstających, które mogą zniekształcać pomiary.

Dodatkowe korzyści daje również zamieszczenie odchylenia w tabeli przestawnej, ponieważ dane z łatwością można drążyć, poprzez dodanie kolejnych pól w obszarze wierszy. Poniżej pogłębienie analizy o regiony, dla segmentu korporacji. Widać, że to głównie region południowy generuje największą zmienność.

Rzadziej używane kalkulacje w tabeli przestawnej i ich praktyczne zastosowanie 5

Bazę którą tu analizuję, traktuję jako całą populację, nie jako jej podzbiór, więc adekwatnymi miarami będą OdchStdc oraz Wariancja populacji – stosowane dla całych populacji.

Średnia a odchylenie standardowe na wykresie

Spróbuję pokazać regułę 3sigm na wykresie, również z oznaczeniem średniej. Dane pochodzą ze strony NBP i są to dzienne kursy euro w 2016 roku. Ponieważ kursy są podane z dokładnością do 4 miejsc po przecinku, zaokrąglam je do dwóch miejsc by później móc je zagregować (przy czterech miejscach, praktycznie żaden z kursów się nie powtarza).

Rzadziej używane kalkulacje w tabeli przestawnej i ich praktyczne zastosowanie 6

Następnie w kolumnie G przeklejam jako wartości zaokrąglone kursy i usuwam z nich duplikaty. W kolumnie H zliczam ilość wystąpień każdego z kursów na przestrzeni całego roku. Ilość wystąpień oraz nieduplikujące się  kursy posłużą mi do budowy wykresu.

Zaznaczam zakres G1:H29 > Wstawianie > Wykresy > Wykres punktowy.

Rzadziej używane kalkulacje w tabeli przestawnej i ich praktyczne zastosowanie 7

W komórkach L2 oraz L3 znajduje się odpowiednio średnia oraz odchylenie standardowe.

Rzadziej używane kalkulacje w tabeli przestawnej i ich praktyczne zastosowanie 8

Wartości te wykorzystam do zaprezentowania reguły 3sigm czyli zakresu 3 odchyleń standardowych +/- od średniej. Średnią również zamieszczę na wykresie. Zatem zaczynam od przygotowania danych dla poszczególnych serii.

Dane dla średniej będą wyglądały jak poniżej:

Rzadziej używane kalkulacje w tabeli przestawnej i ich praktyczne zastosowanie 9

Do wykresu dodam nową serię danych – Średnią. Prawym przyciskiem myszy klikam w obszarze kreślenia i z menu podręcznego wybieram > Zaznacz Dane.

Rzadziej używane kalkulacje w tabeli przestawnej i ich praktyczne zastosowanie 10

Wybieram Dodaj

Rzadziej używane kalkulacje w tabeli przestawnej i ich praktyczne zastosowanie 11

Uzupełniam okno Edytowanie serii odwołaniami do odpowiednich komórek > OK > OK.

Rzadziej używane kalkulacje w tabeli przestawnej i ich praktyczne zastosowanie 12

Na wykresie pojawiły się dwa punkty – zmienię je na linię prezentowaną na pomocniczej osi Y. Wybieram kartę Projektowanie > Typ > Zmień typ wykresu.

Rzadziej używane kalkulacje w tabeli przestawnej i ich praktyczne zastosowanie 13

W oknie Zmienianie typu wykresu wybieram > Wszystkie wykresy > Kombi.

Dla serii danych „Średnia” wybieram oś pomocniczą i wykres punktowy z wygładzonymi liniami a dla ilości wystąpień – wykres punktowy> OK.

Rzadziej używane kalkulacje w tabeli przestawnej i ich praktyczne zastosowanie 14

Odrywam poziomą linię pomocniczą wybierając plus przy wykresie.

Rzadziej używane kalkulacje w tabeli przestawnej i ich praktyczne zastosowanie 15

Zaznaczam poziomą oś pomocniczą > Formatowanie Osi > Opcje osi > Opcje osi > oś daty – dzięki temu pomarańczowa linia będzie pionowa.

Rzadziej używane kalkulacje w tabeli przestawnej i ich praktyczne zastosowanie 16

Również klikając podwójnie na pionową oś pomocniczą wybieram Formatowanie Osi > Opcje osi > Opcje osi . Jako Maksimum wpisuję 1> Enter.

Rzadziej używane kalkulacje w tabeli przestawnej i ich praktyczne zastosowanie 17

Dzięki czemu Seria danych „Średnia” na wykresie prezentuje się jak poniżej.

Rzadziej używane kalkulacje w tabeli przestawnej i ich praktyczne zastosowanie 18

Tworzę jeszcze dwie serie – dla dolnej i górnej granicy przedziału (+/- 3 odchylenia standardowe od średniej). Będę je prezentować na osiach głównych więc wartości osi Y podaję od 0 do 20. Analogicznie jak wcześniej dodaję obie serie danych do wykresu i zmieniam dla nich typ na  punktowy z wygładzonymi liniami. Po dodaniu obu serii automatycznie zmieni się wartość maksymalna na osi Y , wówczas należy w Formatowaniu osi i jej Opcjach zmienić maksimum na 20 (wskazówka poniżej).

Rzadziej używane kalkulacje w tabeli przestawnej i ich praktyczne zastosowanie 19

Po zmianach kolorystycznych wykres prezentuje się następująco:

Rzadziej używane kalkulacje w tabeli przestawnej i ich praktyczne zastosowanie 20

Widać że wszystkie pomiary (punkty) mieszczą się w przedziale 3 odchyleń standardowych od średniej.

Pobierz plik Excel

Pobierz plik Rzadziej używane kalkulacje w tabeli przestawnej i umieść własne dane.

Udostępnij ten wpis:

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *