Lägesmått och spridningsmått

Från Wikiskola
Hoppa till navigering Hoppa till sök


[redigera]
Mål för undervisningen Lägesmått och spridningsmått

Vi repeterar medelvärde och lär oss hur man beräknar standardavvikelsen. Vi lär oss använda digitala verktyg för beräkningar och presentation av detta.


Medelvärde, median och typvärde är olika lägesmått. Kvartil, variationsbredd och standardavvikelse är spridningsmått.

Medelvärde och standardavvikelse

Medelvärde

Det lägesmått som är det vanligast använda kallas för medelvärdet. Medelvärdet är definierat som summan av alla ingående observationer dividerat med antalet observationer. Medelvärdet ger ofta en bra sammanfattning av en serie observationer, men om det är stor spridning på ens observationers värden kan man få ett visserligen korrekt, men missvisande, medelvärde.

Median

Om vi sorterar alla våra observationer i storleksordning och sedan undersöker det värde som hamnar i mitten av denna sorterade serie observationer, så har vi hittat medianen. Har vi ett jämnt antal observationer i vår serie så har man inget enskilt observationsvärde som kan utgöra medianen - i dessa fall beräknar man medianen som medelvärdet av de två mittersta observationsvärdena.

Medianen är ett lämpligare lägesmått än medelvärdet om vi har en serie observationer där det finns enstaka värden (mycket stora eller mycket små värden) som annars riskerar att leda till att medelvärdet ger en skev bild av serien som helhet.

Typvärde

Det observationsvärde som förekommer flest antal gånger i en serie värden kallas för typvärdet.

Medelvärde, median och typvärde är alla exempel på olika lägesmått. Lägesmått kan vara användbara eftersom de ger en snabb överblick över en stor mängd observationsvärden och därigenom förhoppningsvis säger någonting om värdena i serien.

För att kunna jämföra olika serier observationsvärden vill vi även veta hur stor spridningen är bland värdena. På samma sätt som det finns olika lägesmått finns det olika spridningsmått.

Standardavvikelse

Standardavvikelsen är ett spridningsmått som ofta används.

Med standardavvikelsen menar vi ett mått på den genomsnittliga avvikelsen från medelvärdet i en serie observationsvärden. Ju större standardavvikelsen är, desto större är spridningen bland våra observationsvärden.

Definition
Medelvärde, variationsbredd och standardavvikelse
Aritmetiskt medelvärde: [math]\displaystyle{ \, M(x) =\mu = \frac{x_1 + x_2 + \cdots + x_n}{n} = \frac{1}{n}\sum_{i=1}^n x_i }[/math]
Medelvärdet kan även anges som [math]\displaystyle{ \overline{x} }[/math].


Variationsbredd är inom statistik ett mått på skillnaden mellan det minsta och största värdet i ett givet material. Variationsbredden räknas ut genom att ta skillnaden mellan max- och min-värdet i en datatabell.


Standardavvikelse för ett stickprov kan skrivas:
[math]\displaystyle{ s = \sqrt{\frac{ (x_1 - \overline{x})^2 + (x_2 - \overline{x})^2 + ... + (x_n - \overline{x})^2}{n-1} }. }[/math]

där s är standardavvikelsen, [math]\displaystyle{ \overline{x} }[/math] är medlevärdet och n är antalet värden.


Definitionen ovan och formelsamlingen från Skolverket använder en formel för standardavvikelsen för ett stickprov (urval) där man dividerar med n-1. Det förekommer en formel där man delar med n vilken används för standardavvikelsen för hela mängden.

Mycket av texten ovan kommer från Matteboken.

Varationsbredd och låddiagram

Figure 2. Boxplot with whiskers from minimum to maximum
Figure 2. Boxplot with whiskers from minimum to maximum

Variationsbredd

Ett enkelt mått på spridning i en serie observationsvärden är variationsbredd, som definieras som skillnaden (differensen) mellan det största och det minsta observationsvärdet i serien.

Kvartiler

Ett bättre sätt att beskriva spridningen runt medianen är att dela in observationsvärdena i kvartiler. Kvartil betyder fjärdedel och dessa kvartiler kommer vi fram till genom att dela in våra storlekssorterade observationsvärden i fyra lika stora grupper.

Det finns fem viktiga värden att hålla koll på när vi ska dela in våra observationsvärden i kvartiler:

Det högsta värdet och det lägsta värdet, som är de mest extrema observationsvärdena vi har åt vardera hållet i serien. Dessa motsvarar alltså det största och det minsta värdet som vi använde då vi räknade ut variationsbredden tidigare i avsnittet.

Vi behöver även känna till medianen, som ju delar våra storlekssorterade observationsvärden i två lika stora delar.

De två sista värdena som vi måste ta reda på är den nedre kvartilen, som delar de lägre 50 % av värdena i två lika stora delar, och den övre kvartilen, som delar upp de högre 50 % av värdena i två lika stora delar. Detta innebär att 25 % av våra observationsvärden kommer att vara mindre än den nedre kvartilen och 75 % av observationsvärdena kommer att vara mindre än den övre kvartilen.

Ofta betecknar man den nedre kvartilen som Q1, medianen som Q2 och den övre kvartilen som Q3.

Lådagram

Med hjälp av de begrepp rörande kvartiler som vi har introducerat ovan kan vi åskådliggöra spridningen runt medianen med hjälp av lådagram. Ett annat ord är låddiagram och på engelska kallas det BoxPlot.

Ett lådagram ritas på en tallinje och består av en låda (rektangel) vars vänstra respektive högra sida befinner sig vid den nedre respektive den övre kvartilen. Observationsvärdenas medianvärde är även markerat med en vertikal linje inuti lådagrammet. Från lådans respektive sidor sträcker sig en vågrät linje ut till det största respektive lägsta observationsvärdet i serien.

Definition
Låddiagram

Lådagram, låddiagram eller boxplot är ett diagram där ett statistiskt material åskådliggörs i form av en låda, som rymmer den mittersta hälften av materialet. Lådagrammet sammanfattar materialet med hjälp av fem värden: medianvärdet, undre och övre kvartilen samt minimum och maximum. Eventuella extremvärden betraktas som utliggare och markeras med egna symboler.

Wikipedia skriver om Lådagram


Låddiagram är inte så vanligt förekommande i nyhetsprogram och tidningar men dyker ofta upp på prov i Ma2c.

Det mesta av texten ovan kommer från Matteboken.se.

[redigera]

Polarisen

Uppgift
När började polarisarna smälta

Följ länken till Arctic Sea Ice News & Analysis

Undersök vilket år isens areae hamnade utanför två standardavvikelser från medelvärdet under åren 1979-2000.



[redigera]

Statistikfunktioner i GeoGebra Graphic

Mått

Det finns kommandon som ger dig medelvärde, standardavvikelse, Standardavvikelse för urval, mm som du kör i Grafikläget. I dessa exempel kan du ersätta listan med namnet på en lista.

Skapa en lista med värden. l1= {1,3,2,4,11,12}
Standardavvikelse: stdev( <Lista med tal (rådata)> )
Typvärde: Typvärde( <Lista med tal> )
Minsta värde: Min( <List> )
Största värde: Max( <List> )

Diagrram

Det finns kommandon som ger dig diagram, exempelvis stapeldiagram

Låddiagram: BoxPlot[0,1,{4, 3, 5, 6, 7, 8, 9, 9, 11, 12, 3, 4}] så får du ditt diagram i ritfönstret:
Stapeldiagram: Stapeldiagram( <Lista med rådata>, <Staplarnas bredd>, <Vertikal Skalfaktor (optional)> )
Stolpdiagram: Stolpdiagram( <Lista med punkter> ) Exempelvis Lista3= {A,B,C,D,E,F,G,H,I,J}


Du kan även leta rätt på andra kommandon för vad du nu vill skapa. Börjar du skriva på kommandoraden så får du förslag från GGB.

Histogram

Histogram: Histogram( <Lista med klassgränser>, <Lista med höjder> )
GGB-verktyg att mata in data i.
Histogram Command

Lägg till icke-formaterad text här

Standardavvikelse i GeoGebra

Kör GeoGebra som Grafräknare.

Skapa listan genom att skriva in exempelvis {1,3,2,4,11,12}. GeoGebra kommer att döpa din lista till Lista1.

Nu kan du skriva standardavvikelse och GeoGebra kommer att ge dig olika förslag. Välj till exempel standardavvikelse för urval och Skriv in Lista1 (här får du använda under score).

Stickprov eller inte stickprov

StandardAvvikelseFörUrval(Lista) = Stdev(Lista) ger standardavviklese för stickprov

stdevp(Lista) ger standardavvikelsen för hela mängden, dvs ett lägre värde eftersom formeln innehåller division med n.

Övning

Här kan du också lära dig skapa stapeldiagram i Geogebra

Geogebra Undersök med Geogebra-applet: Malin C - Övning Stapeldiagram


GeoGebra Classic

Siffrorna ovan kan man exempelvis klippa in i GeoGebra Classics kalkylblad. Problemet är att data kommer på en rad och är svåröverskådliga men man kan få fram medelvärde, standardavvikelse mm genom att klicka på en knapp.

Tips: Det finns enklare sätt att få in data men om man kopiera direkt hamnar alla tal i en ruta. Sätter man däremot listan mellan måsvingar så skapaas en lista.

{4, 3, 5, 6, 7, 8, 9, 9, 11, 12, 3, 4}

Klicka på knappen för analys, se bildens.

[redigera]

Excel


Skriv likhetstecken i cellen, välj kommando och markera de celler där data ingår.

Google Drive

Skriv likhetstecken i cellen, välj kommando och markera de celler där data ingår.

[redigera]

Undersök statistikfunktionen i Python

Programmeringsuppgift

Statistik_i_python och Fler uppgifter

Här är några enkla statisktikfunktioenr som finns i Python.

Statistikbibliotek i Python

Programmeringsuppgift

Statistikfunktionen_i_Python

Det finns ett bibliotek med fler statistikfunktioner.

Medelvärde med listor i Python

Programmeringsuppgift

Medelvärde_med_listor_i_Python

[redigera]
Swayen till detta avsnitt: [https xxx]




Fördjupningstext

Statistik i Excel – en introduktion, avThommy Perlinger, SU.

NP-uppgifter

Länk finns även på NP-avsnittet.

  • Här är en serie uppgifter på Statistik, något som man ofta inte hinner öva så mycket på. De är i en PPT:


Exit ticket