Median matematisk statistikk. Strukturelle egenskaper ved variasjonsfordelingsserien

Median meg de kaller verdien av attributtet som faller i midten av den rangerte serien og deler den i to deler like i antall enheter. Således, i den rangerte raden i distribusjonen, har den ene halvdelen av raden attributtverdier som overstiger medianen, den andre halvparten er mindre enn medianen.

Medianen brukes i stedet for det aritmetiske gjennomsnittet når de ekstreme alternativene til den rangerte serien (minste og største) sammenlignet med resten viser seg å være for store eller for små.

I diskret i en variantserie som inneholder et oddetall enheter, er medianen lik varianten av karakteristikken som har tallet:
,
hvor N er antall befolkningsenheter.
I en diskret serie som består av et jevnt antall befolkningsenheter, er medianen definert som gjennomsnittet av alternativene med tall og:
.
I fordelingen av arbeidere etter tjenestetid er medianen lik gjennomsnittet av alternativene med tall 10 i den rangerte serien: 2 = 5 og 10: 2 + 1 = 6. Alternativene for den femte og sjette egenskapen er like til 4 år altså
årets
Ved beregning av medianen i intervall rad først finne median intervall, (dvs. inneholder medianen), for hvilke akkumulerte frekvenser eller frekvenser brukes. Medianen er et intervall hvis akkumulerte frekvens er lik eller større enn halvparten av populasjonens totale volum. Medianverdien beregnes deretter ved hjelp av formelen:
,
hvor er den nedre grensen for medianintervallet;
– bredden på medianintervallet;
– akkumulert frekvens av intervallet før medianen;
– frekvensen av medianintervallet.
La oss beregne medianen av fordelingen av arbeidere etter lønn (se forelesning "Sammendrag og gruppering av statistiske data").
Medianen er lønnsområdet 800-900 UAH, siden den kumulative frekvensen er 17, som overstiger halvparten av summen av alle frekvenser (). Deretter
Me=800+100 UAH.
Den oppnådde verdien indikerer at halvparten av arbeiderne har lønn under 875 UAH, men dette er over gjennomsnittet.
For å bestemme medianen kan du bruke kumulative frekvenser i stedet for kumulative frekvenser.
Medianen, som modusen, avhenger ikke av ekstremverdiene til varianten, derfor brukes den også til å karakterisere senteret i distribusjonsserier med usikre grenser.
Median eiendom : summen av absolutte verdier av avvik fra medianen er mindre enn fra noen annen verdi (inkludert det aritmetiske gjennomsnittet):

Denne egenskapen til medianen brukes i transport ved utforming av plasseringen av trikke- og trolleybussholdeplasser, bensinstasjoner, samlingssteder, etc.
Eksempel. Det er 10 garasjer langs den 100 km lange motorveien. For å designe byggingen av en bensinstasjon ble det samlet inn data om antall forventede turer til bensinstasjonen for hver garasje.
Tabell 2 - Data om antall turer til bensinstasjon for hver garasje.

Det er nødvendig å installere en bensinstasjon slik at den totale kjørelengden til kjøretøyer for tanking er minimal.
Valg 1. Hvis en bensinstasjon er plassert midt på motorveien, det vil si på den 50. kilometeren (senteret av rekkevidden av endringer i attributtet), vil kjørelengden, tatt i betraktning antall turer, være:
a) i én retning:
;
b) motsatt:
;
c) total kjørelengde i begge retninger: .

Alternativ 2. Hvis en bensinstasjon er plassert på den midtre delen av motorveien, bestemt av den aritmetiske gjennomsnittsformelen, tatt i betraktning antall turer:

Medianen kan bestemmes grafisk ved hjelp av kumuleringen (se forelesning "Sammendrag og gruppering av statistiske data"). For dette, den siste ordinaten, lik beløpet alle frekvenser eller frekvenser er delt i to. Fra det resulterende punktet gjenopprettes en perpendikulær til den skjærer med kumulatet. Abscissen til skjæringspunktet gir medianverdien.

TEST

Om emnet: "Modus. Median. Metoder for deres beregning"


Introduksjon

Gjennomsnittsverdier og tilhørende variasjonsindikatorer spiller en svært viktig rolle i statistikk, noe som skyldes emnet for studien. Derfor dette emnet er en av de sentrale i kurset.

Gjennomsnittet er et svært vanlig oppsummeringsmål i statistikk. Dette forklares med at bare ved hjelp av gjennomsnittet kan en populasjon karakteriseres av en kvantitativt varierende egenskap. Gjennomsnittsstørrelse i statistikk kalles en generaliserende karakteristikk av et sett med lignende fenomener i henhold til noen kvantitativt varierende karakteristikk. Gjennomsnittet viser nivået på denne karakteristikken per enhet av befolkningen.

Når de studerer sosiale fenomener og prøver å identifisere deres karakteristiske, typiske trekk under spesifikke forhold for sted og tid, bruker statistikere mye gjennomsnittsverdier. Ved å bruke gjennomsnitt kan du sammenligne ulike populasjoner med hverandre i henhold til ulike egenskaper.

Gjennomsnitt brukt i statistikk tilhører klassen effektgjennomsnitt. Av effektgjennomsnitt brukes oftest det aritmetiske gjennomsnittet, sjeldnere det harmoniske gjennomsnittet; Det harmoniske gjennomsnittet brukes bare ved beregning av gjennomsnittlige dynamikkrater, og middelkvadraten brukes bare ved beregning av variasjonsindekser.

Det aritmetiske gjennomsnittet er kvotienten for å dele summen av variantene med antallet. Det brukes i tilfeller der volumet av en varierende karakteristikk for hele befolkningen dannes som summen av de karakteristiske verdiene til dens individuelle enheter. Det aritmetiske gjennomsnittet er den vanligste typen gjennomsnitt, siden det tilsvarer naturen til sosiale fenomener, der volumet av varierende egenskaper i aggregatet oftest dannes nøyaktig som summen av de karakteristiske verdiene til individuelle enheter av befolkningen .

I henhold til dens definerende egenskap, bør det harmoniske gjennomsnittet brukes når det totale volumet av attributtet dannes som summen av de inverse verdiene til varianten. Den brukes når vektene, avhengig av materialet, ikke må multipliseres, men deles inn i alternativer eller, hva er det samme, multiplisert med deres gjensidige verdi. Det harmoniske gjennomsnittet i disse tilfellene er det resiproke av det aritmetiske gjennomsnittet av de gjensidige verdiene til karakteristikken.

Det harmoniske middelverdien bør ty til i tilfeller der ikke populasjonsenhetene - bærerne av karakteristikken - brukes som vekter, men produktene av disse enhetene ved verdien av karakteristikken.


1. Definisjon av modus og median i statistikk

Aritmetiske og harmoniske midler er generaliserende egenskaper ved befolkningen i henhold til en eller annen varierende karakteristikk. Hjelpe beskrivende kjennetegn ved fordelingen av en varierende egenskap er modus og median.

I statistikk er en modus verdien av en egenskap (variant) som oftest finnes i en gitt populasjon. I en variantserie vil dette være alternativet med høyest frekvens.

I statistikk er medianen alternativet som er i midten variantserie. Medianen deler serien i to; på begge sider av den (opp og ned) er det samme antall befolkningsenheter.

Modus og median, i motsetning til kraftmidler, er spesifikke egenskaper; deres betydning er tilordnet ethvert spesifikt alternativ i variasjonsserien.

Modus brukes i tilfeller der det er nødvendig å karakterisere den hyppigst forekommende verdien av en egenskap. Hvis det for eksempel er nødvendig å finne ut den vanligste lønnssatsen i en bedrift, prisen på markedet hvor det ble solgt flest varer, skostørrelsen som er størst etterspørsel blant forbrukerne osv. disse tilfellene tyr de til mote.

Medianen er interessant ved at den viser den kvantitative grensen for verdien av en varierende egenskap, som halvparten av medlemmene av befolkningen har nådd. La gjennomsnittslønnen til bankansatte være 650 000 rubler. per måned. Denne egenskapen kan suppleres hvis vi sier at halvparten av arbeiderne fikk en lønn på 700 000 rubler. og høyere, dvs. La oss gi medianen. Modus og median er typiske kjennetegn i tilfeller der populasjonene er homogene og store i antall.


2. Finne modus og median i en diskret variantserie

Å finne modusen og medianen i en variasjonsserie, der verdiene til en karakteristikk er gitt av visse tall, er ikke veldig vanskelig. La oss se på tabell 1 med fordelingen av familier etter antall barn.

Tabell 1. Fordeling av familier etter antall barn

Åpenbart, i dette eksemplet, vil moten være en familie med to barn, siden denne verdien tilsvarer største antall familier. Det kan være distribusjoner der alle alternativer forekommer like ofte, i så fall er det ingen modus, eller med andre ord kan vi si at alle alternativer er like modale. I andre tilfeller kan ikke ett, men to alternativer være av høyeste frekvens. Da blir det to moduser, fordelingen blir bimodal. Bimodale fordelinger kan indikere kvalitativ heterogenitet av befolkningen i henhold til egenskapen som studeres.

For å finne medianen i en diskret variasjonsserie, må du dele summen av frekvenser i to og legge til ½ til resultatet. Så, i fordelingen av 185 familier etter antall barn, vil medianen være: 185/2 + ½ = 93, dvs. Det 93. alternativet, som deler den bestilte raden i to. Hva er meningen med det 93. alternativet? For å finne det ut, må du akkumulere frekvenser, med utgangspunkt i de minste alternativene. Summen av frekvensene til 1. og 2. alternativ er 40. Det er tydelig at det ikke er 93 alternativer her. Hvis vi legger til frekvensen av det 3. alternativet til 40, får vi en sum lik 40 + 75 = 115. Derfor tilsvarer det 93. alternativet den tredje verdien av den varierende karakteristikken, og medianen vil være en familie med to barn.

Modusen og medianen i dette eksemplet falt sammen. Hvis vi hadde en jevn sum av frekvenser (for eksempel 184), ville vi, ved å bruke formelen ovenfor, få tallet på medianalternativet, 184/2 + ½ =92,5. Siden det ikke er noen brøkalternativer, indikerer resultatet at medianen er midt mellom 92 og 93 alternativer.

3. Beregning av modus og median i intervallvariasjonsserier

Den beskrivende karakteren til modusen og medianen skyldes at de ikke kompenserer for individuelle avvik. De samsvarer alltid med et bestemt alternativ. Derfor krever ikke modusen og medianen beregninger for å finne ut om alle verdiene til attributtet er kjent. Imidlertid, i en intervallvariasjonsserie, brukes beregninger for å finne den omtrentlige verdien av modusen og medianen innenfor et visst intervall.

For å beregne en viss verdi av modalverdien til en karakteristikk i et intervall, bruk formelen:

Mo = X Mo + i Mo *(f Mo – f Mo-1)/((f Mo – f Mo-1) + (f Mo – f Mo+1)),

Hvor XMo er minimumsgrensen for det modale intervallet;

i Mo – verdien av det modale intervallet;

f Mo – frekvensen til det modale intervallet;

f Mo-1 – frekvensen til intervallet før det modale;

f Mo+1 – frekvensen til intervallet etter det modale.

La oss vise beregningen av modusen ved å bruke eksemplet gitt i tabell 2.


Tabell 2. Fordeling av bedriftsarbeidere etter oppfyllelse av produksjonsstandarder

For å finne modusen, bestemmer vi først det modale intervallet til denne serien. Eksempelet viser at den høyeste frekvensen tilsvarer intervallet hvor variantene ligger i området fra 100 til 105. Dette er det modale intervallet. Modalintervallverdien er 5.

Ved å erstatte de numeriske verdiene fra tabell 2 i formelen ovenfor, får vi:

Mo = 100 + 5 * (104 -12)/((104 - 12) + (104 - 98)) = 108,8

Betydningen av denne formelen er som følger: Verdien av den delen av det modale intervallet som må legges til minimumsgrensen bestemmes avhengig av størrelsen på frekvensene til de foregående og påfølgende intervallene. I i dette tilfellet til 100 legger vi til 8,8, dvs. mer enn halvparten av intervallet fordi frekvensen til det foregående intervallet er mindre enn frekvensen til det påfølgende intervallet.

La oss nå beregne medianen. For å finne medianen i en intervallvariasjonsserie, bestemmer vi først intervallet den befinner seg i (medianintervall). Et slikt intervall vil være et hvis kumulative frekvens er lik eller større enn halvparten av summen av frekvensene. Kumulative frekvenser dannes ved gradvis å summere frekvenser, med utgangspunkt i intervallet med den laveste verdien av attributtet. Halvparten av summen av frekvenser er 250 (500:2). Derfor, i henhold til tabell 3, vil medianintervallet være intervallet med en lønnsverdi på 350 000 rubler. opptil 400 000 gni.

Tabell 3. Beregning av medianen i intervallvariasjonsserien

Før dette intervallet var summen av de akkumulerte frekvensene 160. Derfor, for å få medianverdien, er det nødvendig å legge til ytterligere 90 enheter (250 – 160).

Modus og median– en spesiell type gjennomsnitt som brukes til å studere strukturen til variasjonsseriene. De kalles noen ganger strukturelle gjennomsnitt, i motsetning til de tidligere diskuterte kraftgjennomsnittene.

Mote– dette er verdien av en egenskap (variant) som oftest finnes i en gitt populasjon, dvs. har høyest frekvens.

Mote har stor praktisk anvendelse og i noen tilfeller er det bare mote som kan karakterisere sosiale fenomener.

Median- dette er en variant som er midt i en bestilt variantserie.

Medianen viser den kvantitative grensen for verdien av en varierende egenskap, som er nådd av halvparten av enhetene i befolkningen. Det anbefales å bruke medianen sammen med gjennomsnittet eller i stedet for det hvis det er åpne intervaller i variasjonsserien, fordi for å beregne medianen er det ikke nødvendig med betinget etablering av grensene for åpne intervaller, og derfor påvirker mangelen på informasjon om dem ikke nøyaktigheten av beregningen av medianen.

Medianen brukes også når indikatorene som skal brukes som vekt er ukjente. Medianen brukes i stedet for det aritmetiske gjennomsnittet i statistiske metoder for produktkvalitetskontroll. Summen av de absolutte avvikene til alternativene fra medianen er mindre enn fra noe annet tall.

La oss vurdere beregningen av modusen og medianen i en diskret variasjonsserie :

Bestem modus og median.

Mote Mo = 4 år, siden denne verdien tilsvarer den høyeste frekvensen f = 5.

De. det største antallet arbeidere har 4 års erfaring.

For å beregne medianen finner vi først halve summen av frekvensene. Hvis summen av frekvenser er et oddetall, legger vi først en til denne summen og deler deretter i to:

Medianen vil være det åttende alternativet.

For å finne hvilket alternativ som vil være den åttende etter tall, vil vi akkumulere frekvenser til vi får en sum av frekvenser lik eller større enn halvparten av summen av alle frekvenser. Det tilsvarende alternativet vil være medianen.

Meh = 4 år.

De. halvparten av arbeiderne har mindre enn fire års erfaring, halvparten mer.

Hvis summen av akkumulerte frekvenser mot ett alternativ er lik halvparten av summen av frekvenser, er medianen definert som det aritmetiske gjennomsnittet av dette alternativet og det neste.

Beregning av modus og median i intervallvariasjonsserier

Modusen i intervallvariasjonsserien beregnes av formelen

Hvor X M0- innledende grense for det modale intervallet,

hm 0 – verdien av det modale intervallet,

fm 0 , fm 0-1 , fm 0+1 – frekvensen av det modale intervallet henholdsvis foran og etter det modale intervallet.

Modal Intervallet som den høyeste frekvensen tilsvarer kalles.

Eksempel 1

Grupper etter erfaring

Antall arbeidere, mennesker

Akkumulerte frekvenser

Bestem modus og median.

Modalt intervall, fordi det tilsvarer den høyeste frekvensen f = 35. Da:

Hm 0 =6, 0 =35

MEDIAN-funksjonen i Excel brukes til å analysere et område numeriske verdier og returnerer et tall som er midten av settet som undersøkes (median). Det vil si at denne funksjonen betinget deler et sett med tall i to delsett, hvorav den første inneholder tall mindre enn medianen, og den andre - mer. Medianen er en av flere metoder for å bestemme den sentrale tendensen til et interesseområde.

Eksempler på bruk av MEDIAN-funksjonen i Excel

Ved studering av aldersgrupper av studenter ble data fra en tilfeldig valgt gruppe studenter ved et universitet brukt. Oppgaven er å bestemme gjennomsnittsalderen til elevene.

Opprinnelige data:

Formel for beregning:


Argumentbeskrivelse:

  • B3:B15 – aldersspekter studert.

Resultat:

Det vil si at det er elever i gruppen som har en alder under 21 år og høyere enn denne verdien.



Sammenligning av funksjonene MEDIAN og AVERAGE for å beregne gjennomsnittsverdien

I løpet av kveldsrundene på sykehuset ble hver pasients kroppstemperatur målt. Vis nytten av å bruke medianparameteren i stedet for middelverdien for å undersøke en rekke oppnådde verdier.

Opprinnelige data:

Formel for å finne gjennomsnittet:

Formel for å finne medianen:

Som man kan se av gjennomsnittsverdien, er i gjennomsnitt temperaturen til pasientene høyere enn normalt, men dette er ikke sant. Medianen viser at minst halvparten av pasientene har normal kroppstemperatur, ikke over 36,6.

Merk følgende! En annen metode for å bestemme sentral tendens er modus (den hyppigst forekommende verdien i området som studeres). For å bestemme sentral tendens i Excel, bør du bruke MODUS-funksjonen. Vær oppmerksom på at i dette eksemplet er verdiene til medianen og modusen de samme:

Det vil si at medianverdien som deler ett sett i delsett med mindre og større verdier også er den hyppigst forekommende verdien i settet. Som du kan se, har de fleste pasienter en temperatur på 36,6.

Et eksempel på beregning av medianen i statistisk analyse i Excel

Eksempel 3. Det er 3 selgere som jobber i en butikk. Basert på resultatene fra de siste 10 dagene, er det nødvendig å bestemme den ansatte som vil få bonusen. Når du velger den beste ansatte, tas det hensyn til graden av effektivitet i arbeidet hans, og ikke antall solgte varer.

Opprinnelig datatabell:


For å karakterisere effektivitet vil vi bruke tre indikatorer samtidig: middelverdi, median og modus. La oss bestemme dem for hver ansatt ved å bruke formlene AVERAGE, MEDIAN og MODE, henholdsvis:


For å bestemme graden av dataspredning bruker vi en verdi som er den totale verdien av modulen til differansen mellom henholdsvis middelverdi og modus, middelverdi og median. Det vil si koeffisienten x=|av-med|+|av-mod|, hvor:

  • av – gjennomsnittsverdi;
  • med – median;
  • mod - mote.

La oss beregne verdien av x-koeffisienten for den første selgeren:

Vi vil utføre beregninger tilsvarende for andre selgere. Resultater:


La oss bestemme selgeren som bonusen skal gis til:

Merk: SMALL-funksjonen returnerer den første minimumsverdien fra det betraktede området med x-koeffisientverdier.


X-koeffisienten er en viss kvantitativ karakteristikk av stabiliteten til selgernes arbeid, som ble introdusert av butikkøkonomen. Med dens hjelp var det mulig å bestemme området med de minste avvikene i verdier. Denne metoden viser hvordan tre metoder for å bestemme sentral tendens kan brukes samtidig for å oppnå de mest pålitelige resultatene.

Funksjoner ved bruk av MEDIAN-funksjonen i Excel

Funksjonen har følgende syntaks:

MEDIAN(tall1; [tall2];...)

Beskrivelse av argumentene:

  • nummer1 er et nødvendig argument som karakteriserer den første numeriske verdien i området som studeres;
  • [nummer2] – valgfrie andre (og påfølgende argumenter, opptil 255 argumenter totalt), som karakteriserer den andre og påfølgende verdiene i området som studeres.

Merknader 1:

  1. Når du gjør beregninger, er det mer praktisk å overføre hele spekteret av verdier som studeres på en gang i stedet for å legge inn argumenter sekvensielt.
  2. Argumentene som godtas er numeriske data, navn som inneholder tall, referansetypedata og matriser (for eksempel =MEDIAN((1,2,3,5,7,10))).
  3. Ved beregning av medianen blir celler som inneholder tomme verdier eller logisk TRUE, FALSE tatt i betraktning, som vil bli tolket som henholdsvis numeriske verdier 1 og 0. For eksempel, resultatet av å utføre en funksjon med logiske verdier i argumentene (TRUE; FALSE) tilsvarer resultatet av å utføre den med argumenter (1;0) og er lik 0,5.
  4. Hvis ett eller flere funksjonsargumenter aksepterer tekstverdier som ikke kan konverteres til numeriske verdier, eller inneholder feilkoder, vil funksjonen returnere #VALUE!-feilkoden.
  5. Andre Excel-funksjoner kan brukes til å bestemme medianen til en prøve: PERCENTIL.IN, QUARTILE.IN, MAX Eksempler på bruk:
  • =PERSENTIL.IN(A1:A10,0.5), siden medianen per definisjon er den 50. persentilen.
  • =KVARTIL.PÅ(A1:A10;2), siden medianen er 2. kvartil.
  • =HØY(A1:A9,COUNT(A1:A9)/2), men bare hvis antall tall i området er et oddetall.

Merknader 2:

  1. Hvis alle tall i området som studeres er fordelt symmetrisk rundt gjennomsnittet, vil det aritmetiske gjennomsnittet og medianen for dette området være ekvivalente.
  2. Med store dataavvik i området ("spredning" av verdier), gjenspeiler medianen bedre trenden i fordelingen av verdier enn det aritmetiske gjennomsnittet. Et utmerket eksempel er bruken av medianen for å bestemme det reelle lønnsnivået blant befolkningen i en stat der tjenestemenn tjener en størrelsesorden mer enn vanlige borgere.
  3. Utvalget av verdier som studeres kan inneholde:
  • Et oddetall tall. I dette tilfellet vil medianen være entall, dele området i to delsett med henholdsvis større og mindre verdier;
  • Like antall tall. Deretter beregnes medianen som det aritmetiske gjennomsnittet av to numeriske verdier som deler settet inn i de to delmengdene som er angitt ovenfor.

For å beregne medianen i MS EXCEL er det en spesiell funksjon MEDIAN(). I denne artikkelen vil vi definere medianen og lære hvordan vi beregner den for et utvalg og for en gitt distribusjonslov tilfeldig variabel.

La oss begynne med medianer Til prøver(dvs. for et fast sett med verdier).

Prøvemedian

Median(median) er et tall som er midten av et sett med tall: halvparten av tallene i settet er større enn median, og halvparten av tallene er mindre enn median.

Å beregne medianer nødvendig først (verdier i prøve). For eksempel, median for prøve (2; 3; 3; 4 ; 5; 7; 10) blir 4. Fordi akkurat inn prøve 7 verdier, tre av dem er mindre enn 4 (dvs. 2; 3; 3), og tre verdier er større (dvs. 5; 7; 10).

Hvis settet inneholder et partall med tall, beregnes det for de to tallene i midten av settet. For eksempel, median for prøve (2; 3; 3 ; 6 ; 7; 10) vil være 4,5, fordi (3+6)/2=4,5.

For å bestemme medianer i MS EXCEL er det en funksjon med samme navn MEDIAN(), engelsk versjon MEDIAN().

Median sammenfaller ikke nødvendigvis med . Et samsvar oppstår bare hvis verdiene i prøven er fordelt symmetrisk i forhold til gjennomsnitt. For eksempel for prøver (1; 2; 3 ; 4 ; 5; 6) median Og gjennomsnitt lik 3,5.

Om kjent Distribusjonsfunksjon F(x) eller sannsynlighetstetthetsfunksjon s(X), Det median kan finnes fra ligningen:

For eksempel, etter å ha løst denne ligningen analytisk for lognormalfordelingen lnN(μ; σ 2), får vi at median beregnes ved hjelp av formelen =EXP(μ). Når μ=0, er medianen 1.

Vær oppmerksom på poenget Distribusjonsfunksjoner, for hvilket F(x)=0,5(se bildet over) . Abscissen til dette punktet er lik 1. Dette er verdien av medianen, som naturlig faller sammen med den tidligere beregnede verdien ved bruk av em-formelen.

I MS EXCEL median Til lognormal fordeling LnN(0;1) kan beregnes ved hjelp av formelen =LOGNORM.REV(0,5;0;1).

Merk: Husk at integralen av over hele domenet for å spesifisere den tilfeldige variabelen er lik én.

Derfor deler medianlinjen (x=median) området under grafen sannsynlighetstetthetsfunksjoner i to like deler.

Del med venner eller spar selv:

Laster inn...