Jak zjistit odlehlé hodnoty: 10 kroků (s obrázky)

Obsah:

Jak zjistit odlehlé hodnoty: 10 kroků (s obrázky)
Jak zjistit odlehlé hodnoty: 10 kroků (s obrázky)

Video: Jak zjistit odlehlé hodnoty: 10 kroků (s obrázky)

Video: Jak zjistit odlehlé hodnoty: 10 kroků (s obrázky)
Video: NAŠEL GLAMROCK BONNIE! JE ŽIVÝ? Návod na FNAF RUINS 🩸 Návod na Five Nights at Freddy's: Ruin DLC 2024, Smět
Anonim

Ve statistikách je odlehlá hodnota nebo „odlehlá hodnota“vztažným bodem, který se velmi liší od jakéhokoli jiného vztažného bodu ve vzorku nebo sadě vztažných bodů (množina vztažných bodů se nazývá data). Odlehlá hodnota v sadě nulových bodů může často statistikům sloužit jako varování před abnormalitou nebo experimentální chybou v provedených měřeních, což by mohlo statistika vést k odstranění odlehlé hodnoty ze sady nulových bodů. Pokud statistik odstraní odlehlé hodnoty ze sady dat, mohou být závěry ze studie velmi odlišné. Proto je velmi důležité vědět, jak vypočítat a analyzovat odlehlé hodnoty, aby bylo zajištěno správné porozumění sadě statistických dat.

Krok

Výpočet odlehlých hodnot Krok 1
Výpočet odlehlých hodnot Krok 1

Krok 1. Zjistěte, jak identifikovat potenciálně odlehlá data

Předtím, než se rozhodneme, zda odebereme odlehlá data ze sady dat, nebo ne, samozřejmě musíme identifikovat, která data mají potenciál stát se odlehlými hodnotami. Obecně platí, že odlehlá hodnota je vztažný bod, který se velmi liší od ostatních vztažných bodů v jedné sadě vztažných bodů - jinými slovy, odlehlé hodnoty jsou „mimo“ostatní vztažné body. Obvykle je snadné zjistit odlehlé hodnoty v datové tabulce nebo (zejména) grafu. Pokud je jedna sada referencí popsána vizuálně pomocí grafu, bude se vztažný bod od ostatních podkladů jevit „velmi daleko“. Pokud například většina vztažných bodů v sadě počátečních bodů tvoří přímku, odlehlý nulový bod nebude rozumně interpretován tak, že tvoří tuto přímku.

Podívejme se na sadu podkladů představujících teploty 12 různých objektů v místnosti. Pokud má 11 předmětů teplotu asi 70 stupňů Fahrenheita (21 stupňů Celsia), ale 12. objekt, pec, má teplotu 300 stupňů Fahrenheita (150 stupňů Celsia), je okamžitě vidět, že teplota pece je velmi pravděpodobná odlehlá hodnota

Výpočet odlehlých hodnot Krok 2
Výpočet odlehlých hodnot Krok 2

Krok 2. Uspořádejte základny v sadě základen od nejnižší po nejvyšší

Prvním krokem k výpočtu odlehlých hodnot v sadě nulových bodů je nalezení mediánu (střední hodnoty) této sady nulových bodů. Tento úkol se stává velmi jednoduchým, pokud jsou vztažné body v sadě vztažných bodů uspořádány od nejmenšího po největší. Než tedy budete pokračovat, uspořádejte vztažné body do jedné takové sady dat.

Pokračujme výše uvedeným příkladem. Toto je naše sada dat představujících teploty několika objektů v místnosti: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Pokud uspořádáme vztažné body od nejnižší po nejvyšší, stane se pořadí těchto základen: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}

Výpočet odlehlých hodnot Krok 3
Výpočet odlehlých hodnot Krok 3

Krok 3. Vypočítejte medián sady nulových bodů

Medián sady nulových bodů je nulový bod, kde je druhá polovina nulového bodu nad tímto vztažným bodem a zbývající polovina je pod ním - v zásadě je tento vztažný bod vztažným bodem, který je „uprostřed“množiny nulových bodů. Pokud je počet vztažných bodů v sadě nulových bodů lichý, je velmi snadné jej najít - medián je vztažný bod, který má stejné číslo nad i pod ním. Pokud je však počet vztažných bodů v sadě vztažných bodů sudý, pak, protože se žádný údaj nevejde do středu, jsou 2 vztažné body uprostřed průměrovány k nalezení mediánu. Je třeba poznamenat, že při výpočtu odlehlých hodnot je mediánu obvykle přiřazena proměnná Q2-ni, protože Q2 je mezi Q1 a Q3, dolním a horním kvartilem, o kterém budeme diskutovat později.

  • Nesmí být zaměňována s množinou vztažných bodů, kde je počet vztažných bodů sudý-průměr 2 středních vztažných bodů často vrátí číslo, které není v samotné sadě počátečních bodů-to je v pořádku. Pokud jsou však 2 střední vztažné body stejné číslo, průměr bude samozřejmě také stejný počet, což je také v pořádku.
  • Ve výše uvedeném příkladu máme 12 datumů. 2 prostřední vztažné body jsou 6. a 7. základna-70 respektive 71. Medián naší sady základen je tedy průměrem těchto 2 čísel: (((70 + 71) / 2), = 70.5.
Výpočet odlehlých hodnot Krok 4
Výpočet odlehlých hodnot Krok 4

Krok 4. Vypočítejte spodní kvartil

Tato hodnota, kterou dáváme proměnné Q1, je vztažným bodem, který představuje 25 procent (nebo čtvrtinu) vztažných bodů. Jinými slovy, je to nulový bod, který půlí body, které jsou pod mediánem. Pokud je počet vztažných bodů pod mediánem sudý, musíte znovu průměrovat 2 vztažné body uprostřed, abyste našli Q1, stejně jako byste našli medián samotný.

V našem příkladu je 6 vztažných bodů ležících nad mediánem a 6 vztažných bodů ležících pod mediánem. To znamená, že k nalezení dolního kvartilu budeme potřebovat průměr 2 datumů uprostřed 6 datumů pod mediánem. 3. a 4. základna 6 opěrných bodů pod mediánem je 70. Průměr je tedy ((70 + 70) / 2), = 70. 70 se stává naším Q1.

Výpočet odlehlých hodnot Krok 5
Výpočet odlehlých hodnot Krok 5

Krok 5. Vypočítejte horní kvartil

Tato hodnota, které dáváme proměnnou Q3, je vztažný bod, na kterém je 25 procent vztažných bodů v sadě vztažných bodů. Hledání Q3 je téměř stejné jako nalezení Q1, kromě toho, že v tomto případě se díváme na vztažné body nad mediánem, nikoli pod mediánem.

Pokračujeme -li v našem příkladu výše, 2 datumy uprostřed 6 datumů nad mediánem jsou 71 a 72. Průměr těchto 2 datumů je ((71 + 72)/2), = 71, 5. 71, 5 je naše Q3.

Výpočet odlehlých hodnot Krok 6
Výpočet odlehlých hodnot Krok 6

Krok 6. Najděte mezikvartilní vzdálenost

Nyní, když jsme našli Q1 a Q3, musíme vypočítat vzdálenost mezi těmito dvěma proměnnými. Vzdálenost od Q1 do Q3 se zjistí odečtením Q1 od Q3. Hodnoty, které získáte pro mezikvartilové vzdálenosti, jsou velmi důležité pro definování hranic referenčních čísel ve vaší sadě dat.

  • V našem případě jsou naše hodnoty Q1 a Q3 70 a 71, 5. Abychom našli mezikvartilní vzdálenost, odečteme Q3 - Q1 = 71,5 - 70 = 1, 5.
  • Je třeba poznamenat, že to platí také v případě, že Q1, Q3 nebo obojí jsou záporná čísla. Pokud by například naše hodnota Q1 byla -70, naše správná mezikvartilní vzdálenost by byla 71,5 -(-70) = 141, 5.
Výpočet odlehlých hodnot Krok 7
Výpočet odlehlých hodnot Krok 7

Krok 7. Najděte „vnitřní plot“v sadě nulových bodů

Odlehlé hodnoty lze zjistit kontrolou, zda vztažný bod spadá do číselných hranic nazývaných „vnitřní plot“a „vnější plot“. Vztažný bod, který spadá mimo vnitřní plot sady nulových bodů, se označuje jako „malá odlehlá hodnota“, zatímco vztažný bod, který spadá mimo vnější ohradník, se označuje jako „hlavní odlehlá hodnota“. Chcete -li ve své sadě nulových bodů najít vnitřní plot, nejprve vynásobte mezikvartilní vzdálenost 1, 5. Poté výsledek sečtěte Q3 a také jej odečtěte od Q1. Dvě hodnoty, které získáte, jsou vnitřní hranice plotu vaší sady nulových bodů.

  • V našem případě je mezikvartilní vzdálenost (71,5 - 70) nebo 1,5. Vynásobte 1,5 1,5, což vede k 2,25. Toto číslo přidáme do Q3 a odečteme Q1 tímto číslem, abychom našli hranice vnitřního plotu následujícím způsobem:

    • 71, 5 + 2, 25 = 73, 75
    • 70 - 2, 25 = 67, 75
    • Hranice našeho vnitřního plotu tedy jsou 67, 75 a 73, 75.
  • V naší sadě dat je mimo tyto limity pouze teplota trouby, 300 Fahrenheit - a tento údaj je tedy jen malou odchylkou. Stále jsme však nevypočítali, zda je tato teplota hlavní odchylkou, takže nedělejte unáhlené závěry, dokud neprovedeme naše výpočty.

    Vypočítejte odlehlé hodnoty Krok 7 Bullet2
    Vypočítejte odlehlé hodnoty Krok 7 Bullet2
Výpočet odlehlých hodnot Krok 8
Výpočet odlehlých hodnot Krok 8

Krok 8. Najděte „vnější plot“v sadě nulových bodů

To se děje stejným způsobem jako při hledání vnitřního plotu, kromě toho, že mezikvartilní vzdálenost se vynásobí 3 místo 1,5. Výsledek se pak přičte k Q3 a odečte se od Q1, aby se našla horní a dolní hranice vnějšího plotu.

  • V našem případě vynásobením mezikvartilové vzdálenosti 3 dostaneme (1, 5 x 3) nebo 4, 5. Hranice vnějšího plotu najdeme stejným způsobem jako dříve:

    • 71, 5 + 4, 5 = 76
    • 70 - 4, 5 = 65, 5
    • Hranice vnějšího plotu jsou 65,5 a 76.
  • Data, která leží mimo hranici vnějšího plotu, se označují jako hlavní odlehlé hodnoty. V tomto případě je teplota trouby 300 Fahrenheita jasně mimo vnější plot, takže tento údaj je „rozhodně“velkým odlehlým bodem.

    Vypočítejte odlehlé hodnoty Krok 8 Bullet2
    Vypočítejte odlehlé hodnoty Krok 8 Bullet2
Výpočet odlehlých hodnot Krok 9
Výpočet odlehlých hodnot Krok 9

Krok 9. Použijte kvalitativní úsudek k určení, zda „vyřadit“odlehlý údaj nebo ne

Pomocí výše popsané metody lze určit, zda je vztažný bod vedlejším vztažným bodem, hlavním vztažným bodem, nebo zda se jedná o odlehlou hodnotu. Nenechte se však zmýlit - nalezení počátku jako odlehlé hodnoty pouze označí tento počátek jako „kandidát“, který má být odstraněn ze sady počátečních bodů, nikoli jako počátek, který by „měl“být zahozen. „Důvod“, který způsobí, že se odchylný nulový bod odchýlí od ostatních vztažných bodů v sadě datových bodů, je velmi důležitý při určování, zda jej zahodit nebo ne. Obecně lze odlehlou hodnotu, například způsobenou chybou v měření, záznamu nebo experimentálním plánování, zahodit. Na druhé straně odlehlé hodnoty, které nejsou způsobeny chybou a které indikují nové informace nebo trendy, které nebyly dříve předpovězeny, obvykle „nejsou“vyřazeny.

  • Dalším kritériem, které je třeba zvážit, je, zda odlehlá hodnota má velký vliv na průměr množiny nulových bodů, tj. Zda ji odlehlá hodnota zaměňuje nebo zda se jeví jako nesprávná. To je velmi důležité vzít v úvahu, pokud máte v úmyslu vyvodit závěry z průměru vašeho souboru dat.
  • Pojďme si prostudovat náš příklad. V tomto příkladu, protože se zdá „vysoce“nepravděpodobné, že trouba dosáhla 300 Fahrenheita nepředvídatelnými přírodními silami, můžeme téměř s jistotou uzavřít, že trouba byla omylem ponechána zapnutá, což mělo za následek nenormální abnormality vysoké teploty. Pokud také neodstraníme odlehlé hodnoty, bude naše výchozí hodnota nastavena na (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 Fahrenheita (32 stupňů Celsia)), zatímco průměr, pokud odstraníme odlehlé hodnoty, je (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70,55 Fahrenheita (21 stupňů Celsia).

    Protože tyto odlehlé hodnoty byly způsobeny lidskou chybou a protože by bylo nesprávné tvrdit, že průměrná pokojová teplota dosahuje téměř 90 stupňů Fahrenheita (32 stupňů Celsia), raději se rozhodneme „odhodit“naše odlehlé hodnoty

Výpočet odlehlých hodnot Krok 10
Výpočet odlehlých hodnot Krok 10

Krok 10. Poznejte důležitost (někdy) udržování odlehlých hodnot

Ačkoli některé odlehlé hodnoty by měly být ze sady počátečních bodů odstraněny, protože způsobují chyby a/nebo způsobují, že výsledky jsou nepřesné nebo chybné, některé odlehlé hodnoty by měly být zachovány. Pokud se například zdá, že odlehlá hodnota je přirozeně získána (to znamená, že není výsledkem chyby) a/nebo poskytuje nový pohled na zkoumaný jev, odlehlou hodnotu nelze ze sady nulových bodů odstranit. Vědecký výzkum je obvykle velmi citlivou situací, pokud jde o odlehlé hodnoty - nesprávné odstranění odlehlých hodnot může znamenat vyřazení informací, které naznačují nový trend nebo objev.

Řekněme například, že navrhujeme nový lék na zvýšení velikosti ryb v rybníce. Použijeme naši starou sadu základen ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), kromě toho, že tentokrát bude každý údaj představovat hmotnost ryby (v gramech) po podání jiného experimentálního léčiva od narození. Jinými slovy, první droga způsobí, že jedna ryba váží 71 gramů, druhá droga způsobí, že další ryba váží 70 gramů atd. V tomto případě je 300 „stále“velká odlehlá hodnota, ale neměli bychom tento údaj zahodit, protože za předpokladu, že byl získán bez chyby, představuje ve studii úspěch. Droga, díky které mohou ryby vážit 300 gramů, funguje lépe než všechny ostatní drogy, takže tento údaj je ve skutečnosti „nejdůležitější“v naší sadě dat, nikoli „nejméně důležitý“

Doporučuje: