W statystyce wartość odstająca lub „odstająca” to układ odniesienia, który odbiega bardzo daleko od jakiegokolwiek innego układu odniesienia w próbce lub zestawie układów odniesienia (zestaw układów odniesienia nazywa się danymi). Często wartość odstająca w zbiorze danych może służyć jako ostrzeżenie dla statystyka o nieprawidłowościach lub błędach eksperymentalnych w wykonanych pomiarach, co może prowadzić do usunięcia wartości odstającej ze zbioru danych. Jeśli statystyk usunie wartości odstające ze zbioru danych, wnioski wyciągnięte z badania mogą być bardzo różne. Dlatego wiedza o tym, jak obliczać i analizować wartości odstające, jest bardzo ważna, aby zapewnić prawidłowe zrozumienie zestawu danych statystycznych.
Krok
Krok 1. Dowiedz się, jak identyfikować potencjalnie odstające dane
Zanim zdecydujemy, czy usunąć odstające układy odniesienia ze zbioru odniesienia, czy nie, musimy oczywiście określić, które układy odniesienia mogą potencjalnie stać się wartościami odstającymi. Ogólnie rzecz biorąc, wartość odstająca to układ odniesienia, który odbiega bardzo daleko od innych układów odniesienia w jednym zestawie - innymi słowy, wartość odstająca znajduje się „poza” innymi układami odniesienia. Zwykle łatwo jest wykryć wartości odstające w tabeli danych lub (w szczególności) na wykresie. Jeśli jeden zestaw punktów odniesienia jest opisany wizualnie za pomocą wykresu, odstający punkt odniesienia będzie wydawał się być „bardzo oddalony” od innych punktów odniesienia. Jeśli, na przykład, większość punktów odniesienia w zestawie punktów odniesienia tworzy linię prostą, odstające punkty odniesienia nie będą rozsądnie interpretowane jako tworzące tę linię.
Przyjrzyjmy się zestawowi danych reprezentujących temperatury 12 różnych obiektów w pomieszczeniu. Jeśli 11 przedmiotów ma temperaturę około 70 Fahrenheita (21 stopni Celsjusza), ale 12 przedmiot, piekarnik, ma temperaturę 300 Fahrenheita (150 stopni Celsjusza), od razu widać, że temperatura piekarnika jest bardzo prawdopodobna odstający
Krok 2. Ułóż punkty odniesienia w zestawie punktów odniesienia od najniższego do najwyższego
Pierwszym krokiem do obliczenia wartości odstających w zbiorze odniesienia jest znalezienie mediany (wartości środkowej) tego zbioru odniesienia. Zadanie to staje się bardzo proste, jeśli punkty odniesienia w zbiorze punktów odniesienia są ułożone od najmniejszego do największego. Tak więc przed kontynuowaniem ułóż punkty odniesienia w jednym takim zestawie punktów odniesienia.
Kontynuujmy powyższy przykład. Oto nasz zestaw danych reprezentujących temperatury kilku obiektów w pomieszczeniu: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Jeśli uporządkujemy układy odniesienia od najniższego do najwyższego, kolejność układów odniesienia będzie następująca: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}
Krok 3. Oblicz medianę zbioru odniesienia
Mediana zbioru odniesienia jest punktem odniesienia, w którym druga połowa odniesienia znajduje się powyżej tego punktu odniesienia, a pozostała połowa znajduje się poniżej - w zasadzie ten punkt odniesienia jest punktem odniesienia, który znajduje się w „środku” zbioru odniesienia. Jeśli liczba punktów odniesienia w zbiorze punktów odniesienia jest nieparzysta, bardzo łatwo ją znaleźć - mediana to punkt odniesienia, który ma tę samą liczbę powyżej i poniżej. Jednakże, jeśli liczba punktów odniesienia w zbiorze punktów odniesienia jest parzysta, to ponieważ żaden punkt odniesienia nie mieści się w środku, 2 punkty odniesienia w środku są uśredniane w celu znalezienia mediany. Należy zauważyć, że przy obliczaniu wartości odstających medianie zwykle przypisuje się zmienną Q2-ni, ponieważ Q2 znajduje się między Q1 a Q3, dolnym i górnym kwartylem, co omówimy później.
- Nie mylić z zestawem odniesienia, w którym liczba punktów odniesienia jest parzysta - średnia z 2 środkowych punktów odniesienia często zwróci liczbę, której nie ma w samym zestawie odniesienia - jest to w porządku. Jednakże, jeśli 2 środkowe punkty odniesienia mają tę samą liczbę, średnia oczywiście również będzie taka sama, co również jest w porządku.
- W powyższym przykładzie mamy 12 punktów odniesienia. 2 środkowe punkty odniesienia to 6 i 7 punkt odniesienia - odpowiednio 70 i 71. Tak więc mediana naszego zestawu punktów odniesienia jest średnią z tych 2 liczb: ((70 + 71) / 2), = 70.5.
Krok 4. Oblicz dolny kwartyl
Ta wartość, którą podajemy zmiennej Q1, jest punktem odniesienia reprezentującym 25 procent (lub jedną czwartą) punktów odniesienia. Innymi słowy, jest to układ odniesienia, który przecina układy odniesienia znajdujące się poniżej mediany. Jeśli liczba punktów odniesienia poniżej mediany jest parzysta, musisz ponownie uśrednić 2 punkty odniesienia w środku, aby znaleźć Q1, tak jak w przypadku znalezienia samej mediany.
W naszym przykładzie jest 6 punktów odniesienia leżących powyżej mediany i 6 punktów odniesienia leżących poniżej mediany. Oznacza to, że aby znaleźć dolny kwartyl, będziemy musieli uśrednić 2 punkty odniesienia w środku z 6 punktów odniesienia poniżej mediany. Zarówno trzeci, jak i czwarty punkt odniesienia z 6 punktów odniesienia poniżej mediany wynoszą 70. Tak więc średnia wynosi ((70 + 70) / 2), = 70. 70 staje się naszym pierwszym kwartałem.
Krok 5. Oblicz górny kwartyl
Ta wartość, którą podajemy zmiennej Q3, jest punktem odniesienia, na którym znajduje się 25 procent punktów odniesienia w zbiorze punktów odniesienia. Znalezienie Q3 jest prawie takie samo jak znalezienie Q1, z wyjątkiem tego, że w tym przypadku patrzymy na układy odniesienia powyżej mediany, a nie poniżej mediany.
Kontynuując nasz przykład powyżej, 2 punkty odniesienia w środku z 6 punktów odniesienia powyżej mediany to 71 i 72. Średnia z tych 2 punktów odniesienia to ((71 + 72)/2), = 71, 5. 71, 5 to nasz Q3.
Krok 6. Znajdź odległość międzykwartylową
Teraz, gdy znaleźliśmy Q1 i Q3, musimy obliczyć odległość między tymi dwiema zmiennymi. Odległość od Q1 do Q3 obliczamy odejmując Q1 od Q3. Wartości, które otrzymujesz dla odległości międzykwartylowych, są bardzo ważne dla zdefiniowania granic nieodstających punktów odniesienia w twoim zbiorze odniesienia.
- W naszym przykładzie nasze wartości Q1 i Q3 to 70 i 71, 5. Aby znaleźć odległość międzykwartylową, odejmujemy Q3 - Q1 = 71,5 - 70 = 1, 5.
- Należy zauważyć, że jest to również prawdą, nawet jeśli Q1, Q3 lub oba są liczbami ujemnymi. Na przykład, jeśli nasza wartość Q1 wynosiła -70, nasza prawidłowa odległość międzykwartylowa wynosiłaby 71,5 - (-70) = 141, 5.
Krok 7. Znajdź „wewnętrzne ogrodzenie” w zestawie odniesienia
Wartości odstające można znaleźć, sprawdzając, czy punkt odniesienia mieści się w granicach liczb zwanych „ogrodzeniem wewnętrznym” i „ogrodzeniem zewnętrznym”. Odniesienie, które wypada poza wewnętrzne ogrodzenie zestawu odniesienia, jest określane jako „mniejsze wartości odstające”, podczas gdy dane, które wykraczają poza granicę zewnętrzną, są określane jako „główne odstające”. Aby znaleźć wewnętrzne ogrodzenie w twoim zbiorze odniesienia, najpierw pomnóż odległość międzykwartylową przez 1, 5. Następnie dodaj wynik przez Q3 i odejmij go od Q1. Dwie wartości, które otrzymujesz, to wewnętrzne granice ogrodzenia twojego zestawu odniesienia.
-
W naszym przykładzie odległość międzykwartylowa wynosi (71,5 - 70) lub 1,5. Pomnóż 1,5 przez 1,5, co daje 2,25. Dodajemy tę liczbę do Q3 i odejmujemy Q1 przez tę liczbę, aby znaleźć granice wewnętrznego ogrodzenia w następujący sposób:
- 71, 5 + 2, 25 = 73, 75
- 70 - 2, 25 = 67, 75
- Tak więc granice naszego wewnętrznego ogrodzenia są 67, 75 i 73, 75.
-
W naszym zestawie punktów odniesienia tylko temperatura pieca, 300 Fahrenheita, jest poza tymi granicami, a więc ta dana jest niewielką wartością odstającą. Jednak nadal nie obliczyliśmy, czy ta temperatura jest główną wartością odstającą, więc nie wyciągaj pochopnych wniosków, dopóki nie wykonamy naszych obliczeń.
Krok 8. Znajdź „zewnętrzne ogrodzenie” w zestawie odniesienia
Odbywa się to w taki sam sposób, jak znajdowanie ogrodzenia wewnętrznego, z wyjątkiem tego, że odległość międzykwartylową jest mnożona przez 3 zamiast 1,5. Wynik jest następnie dodawany do Q3 i odejmowany od Q1, aby znaleźć górną i dolną granicę ogrodzenia zewnętrznego.
-
W naszym przykładzie pomnożenie odległości międzykwartylowej przez 3 daje (1, 5 x 3) lub 4, 5. Granice ogrodzenia zewnętrznego znajdujemy w taki sam sposób jak poprzednio:
- 71, 5 + 4, 5 = 76
- 70 - 4, 5 = 65, 5
- Granice ogrodzenia zewnętrznego są 65,5 i 76.
-
Odniesienia leżące poza granicą ogrodzenia zewnętrznego są określane jako główne wartości odstające. W tym przykładzie temperatura pieca, 300 Fahrenheita, jest wyraźnie poza ogrodzeniem zewnętrznym, więc ta wartość odniesienia jest „zdecydowanie” dużym odstaniem.
Krok 9. Użyj oceny jakościowej, aby określić, czy „odrzucić” odstający punkt odniesienia
Używając metody opisanej powyżej, można określić, czy odniesienie jest drugorzędnym odniesieniem, głównym odniesieniem, czy w ogóle nie jest wartością odstającą. Jednak nie popełnij błędu - znalezienie odniesienia jako wartości odstającej oznacza tylko to, że jest to „kandydat” do usunięcia ze zbioru odniesienia, a nie jako punkt odniesienia, który „powinien” zostać odrzucony. „Powód”, który powoduje, że odstający układ odniesienia odbiega od innych układów odniesienia w zestawie odniesienia, jest bardzo ważny przy określaniu, czy go odrzucić, czy nie. Ogólnie rzecz biorąc, wartość odstającą spowodowaną na przykład błędem pomiaru, rejestracji lub planowania eksperymentów można odrzucić. Z drugiej strony wartości odstające, które nie są spowodowane błędem i które wskazują na nowe informacje lub trendy, które nie były wcześniej przewidywane, są zwykle „nie” odrzucane.
- Innym kryterium do rozważenia jest to, czy wartość odstająca ma duży wpływ na średnią zbioru danych, tj. czy wartość odstająca go myli lub sprawia, że wydaje się ona błędna. Jest to bardzo ważne, aby wziąć pod uwagę, jeśli zamierzasz wyciągnąć wnioski ze średniej ze swojego zestawu danych.
-
Przeanalizujmy nasz przykład. W tym przykładzie, ponieważ wydaje się „wysoce” nieprawdopodobne, aby piekarnik osiągnął 300 Fahrenheita w wyniku nieprzewidywalnych sił naturalnych, możemy stwierdzić z prawie pewnością, że piekarnik został przypadkowo pozostawiony włączony, co spowodowało nieprawidłowość odniesienia wysokiej temperatury. Ponadto, jeśli nie usuniemy wartości odstających, nasza średnia zestawu odniesienia wynosi (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 Fahrenheita (32 stopnie Celsjusza), podczas gdy średnia po usunięciu wartości odstających wynosi (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70,55 Fahrenheita (21 stopni Celsjusza).
Ponieważ te wartości odstające były spowodowane błędem człowieka i ponieważ błędem byłoby stwierdzenie, że średnia temperatura w pomieszczeniu osiąga prawie 90 Fahrenheita (32 stopnie Celsjusza), lepiej wybrać „wyrzucenie” naszych wartości odstających
Krok 10. Poznaj znaczenie (czasami) utrzymywania wartości odstających
Chociaż niektóre wartości odstające należy usunąć ze zbioru odniesienia, ponieważ powodują błędy i/lub powodują niedokładne lub błędne wyniki, niektóre wartości odstające należy zachować. Jeśli, na przykład, obserwacja odstająca wydaje się być nabyta w sposób naturalny (to znaczy nie jest wynikiem błędu) i/lub zapewnia nowe spojrzenie na badane zjawisko, obserwacja odstająca nie powinna być usuwana ze zbioru danych. Badania naukowe to zazwyczaj bardzo delikatna sytuacja, jeśli chodzi o wartości odstające – nieprawidłowe usunięcie wartości odstających może oznaczać odrzucenie informacji wskazujących na nowy trend lub odkrycie.