Esența și semnificația valorilor medii.

Valori absolute și relative.

Tipuri de grupuri.

În funcție de sarcinile rezolvate cu ajutorul grupărilor, se disting următoarele tipuri:

Tipologic

Structural

Analitic

Sarcina principală a tipologiei este de a clasifica fenomenele socio-economice prin identificarea grupurilor care sunt omogene relațiilor calitative.

Omogenitatea calitativă este înțeleasă în sensul că, în ceea ce privește proprietatea studiată, toate unitățile populației se supun aceleiași legi de dezvoltare. De exemplu: gruparea întreprinderilor din sectoarele economice.

O valoare absolută este un indicator care exprimă dimensiunea unui fenomen socio-economic.

În statistică, o valoare relativă este un indicator care exprimă relația cantitativă dintre fenomene. Se obține prin împărțirea unei valori absolute la o altă valoare absolută. Se numește cantitatea cu care facem comparații bază sau baza de comparatie.

Mărimile absolute sunt întotdeauna denumite mărimi.

Valorile relative sunt exprimate în coeficienți, procente, ppm etc.

Valoarea relativă arată de câte ori, sau în ce procent, valoarea comparată este mai mare sau mai mică decât baza de comparație.

În statistică, există 8 tipuri de mărimi relative:

Mediile sunt una dintre cele mai comune statistici rezumative. Ele urmăresc să caracterizeze cu un număr o populație statistică formată dintr-o minoritate de unități. Mediile sunt strâns legate de legea numerelor mari. Esența acestei dependențe constă în faptul că, cu un număr mare de observații, abaterile aleatorii de la statisticile generale se anulează reciproc și, în medie, un model statistic apare mai clar.

Folosind metoda in medie Următoarele sarcini principale sunt rezolvate:

1. Caracteristici ale nivelului de dezvoltare a fenomenelor.

2. Compararea a două sau mai multe niveluri.

3. Studiul interrelaţiilor dintre fenomenele socio-economice.

4. Analiza amplasării fenomenelor socio-economice în spațiu.

Pentru a rezolva aceste probleme, metodologia statistică a dezvoltat diferite tipuri de medii.

Pentru a clarifica metoda de calcul a mediei aritmetice, folosim următoarea notație:

X - semn aritmetic

X (X1, X2, ... X3) - variante ale unei anumite caracteristici

n - numărul de unități de populație

Valoarea medie a atributului

În funcție de datele sursă, media aritmetică poate fi calculată în două moduri:

1. Dacă datele de observație statistică nu sunt grupate, sau opțiunile grupate au aceleași frecvențe, atunci se calculează media aritmetică simplă:

2. Dacă frecvențele grupate în date sunt diferite, atunci se calculează media aritmetică ponderată:

Numărul (frecvența) de opțiuni

Suma frecvențelor

Media aritmetică este calculată diferit în serii de variații discrete și pe intervale.

În serii discrete, variantele unei caracteristici sunt înmulțite cu frecvențe, aceste produse sunt însumate, iar suma de produse rezultată este împărțită la suma frecvențelor.

Să luăm în considerare un exemplu de calcul al mediei aritmetice într-o serie discretă:

În seria de intervale, valoarea unei caracteristici este dată, după cum se știe, sub formă de intervale, prin urmare, înainte de a calcula media aritmetică, trebuie să treceți de la o serie de intervale la una discretă.

Mijlocul intervalelor corespunzătoare este folosit ca opțiuni Xi. Ele sunt definite ca jumătate din suma limitelor inferioare și superioare.

Dacă un interval nu are o limită inferioară, atunci mijlocul său este determinat ca diferența dintre limita superioară și jumătate din valoarea următoarelor intervale. În absența limitelor superioare, mijlocul intervalului este determinat ca suma dintre limita inferioară și jumătate din valoarea intervalului anterior. După trecerea la o serie discretă, alte calcule au loc conform metodei discutate mai sus.

Dacă greutate fi sunt date nu în termeni absoluti, ci în termeni relativi, atunci formula pentru calcularea mediei aritmetice va fi următoarea:

pi - valori relative ale structurii, arătând ce procent sunt frecvențele variantelor în suma tuturor frecvențelor.

Dacă valorile relative ale structurii sunt specificate nu în procente, ci în acțiuni, atunci media aritmetică va fi calculată folosind formula:

Valoarea medie

Valoarea medie- caracteristicile numerice ale unui set de numere sau funcţii (la matematică); - un anumit număr între cea mai mică și cea mai mare dintre valorile lor.

Informatii de baza

Punctul de plecare pentru dezvoltarea teoriei mediilor a fost studiul proporțiilor de către școala lui Pitagora. În același timp, nu s-a făcut o distincție strictă între conceptele de mărime medie și proporție. Un impuls semnificativ dezvoltării teoriei proporțiilor din punct de vedere aritmetic l-au dat matematicienii greci - Nicomachus din Geras (sfârșitul secolului I - începutul secolului II d.Hr.) și Pappus al Alexandriei (secolul III d.Hr.). Prima etapă în dezvoltarea conceptului de medie este etapa în care media a început să fie considerată membrul central al unei proporții continue. Dar conceptul de medie ca valoare centrală a unei progresii nu face posibilă derivarea conceptului de medie în raport cu o succesiune de n termeni, indiferent de ordinea în care se succed. În acest scop este necesar să se recurgă la o generalizare formală a mediilor. Următoarea etapă este trecerea de la proporții continue la progresii - aritmetice, geometrice și armonice ( Engleză).

În istoria statisticii, pentru prima dată, utilizarea pe scară largă a mediilor este asociată cu numele omului de știință englez W. Petty. W. Petty a fost unul dintre primii care a încercat să dea valorii medii un sens statistic, legând-o de categoriile economice. Dar Petty nu a descris conceptul de dimensiune medie și nici nu l-a distins. A. Quetelet este considerat a fi fondatorul teoriei mediilor. El a fost unul dintre primii care au dezvoltat în mod constant teoria mediilor, încercând să ofere o bază matematică pentru aceasta. A. Quetelet a distins două tipuri de medii - medii reale și medii aritmetice. De fapt, media reprezintă un lucru, un număr, care există de fapt. De fapt, mediile sau mediile statistice ar trebui să fie derivate din fenomene de aceeași calitate, identice în sensul lor intern. Mediile aritmetice sunt numere care dau cea mai apropiată idee posibilă a multor numere, diferite, deși omogene.

Fiecare tip de medie poate apărea fie sub forma unei simple, fie sub forma unei medii ponderate. Alegerea corectă a formei mijlocii rezultă din natura materială a obiectului de studiu. Formulele medii simple sunt utilizate dacă valorile individuale ale caracteristicii care se face media nu se repetă. Când în cercetarea practică valorile individuale ale caracteristicii studiate apar de mai multe ori în unitățile populației studiate, atunci frecvența repetărilor valorilor individuale ale caracteristicii este prezentă în formulele de calcul ale mediilor de putere. În acest caz, ele sunt numite formule medii ponderate.

Ierarhia mediilor în matematică

  • Valoarea medie a unei funcții este un concept definit în multe feluri.
    • Mai precis, dar pe baza unor funcții arbitrare, mijloacele Kolmogorov sunt determinate pentru un set de numere.
      • media puterii este un caz special al mediilor Kolmogorov cu ϕ (x) = x α (\displaystyle \phi (x)=x^(\alpha )) . Mediile de diferite grade sunt conectate prin inegalitatea cu privire la medii. Cele mai frecvente cazuri speciale:
        1. media aritmetică (α = 1 (\displaystyle \alpha =1));
        2. pătrat mediu (α = 2 (\displaystyle \alpha =2));
        3. medie armonică (α = − 1 (\displaystyle \alpha =-1));
        4. prin continuitate ca α → 0 (\displaystyle \alpha \to 0) media geometrică este definită în continuare, care este și media Kolmogorov pentru ϕ (x) = log ⁡ x (\displaystyle \phi (x)=\log x)
  • Media ponderată este o generalizare a mediei în cazul unei combinații liniare arbitrare:
    • Media aritmetică ponderată.
    • Media geometrică ponderată.
    • Media armonică ponderată.
  • cronologic mediu - generalizează valorile unei caracteristici pentru aceeași unitate sau populație în ansamblu, modificându-se în timp.
  • medie logaritmică, determinată de formula a ¯ = a 1 − a 2 ln ⁡ (a 1 / a 2) (\textstyle (\bar (a))=(\frac (a_(1)-a_(2))( \ ln(a_(1)/a_(2))))), utilizat în ingineria termică
  • media logaritmică, determinată în izolația electrică în conformitate cu GOST 27905.4-88, este definită ca l o g a ¯ = log ⁡ a 1 + l o g a 2 + . . . + . . . l o g a n a 1 + a 2 + . . . + o n (\textstyle log(\bar (a))=(\frac (\log a_(1)+loga_(2)+...+...loga_(n))(a_(1)+a_( 2)+...+a_(n)))) (logaritm la orice bază)

În teoria probabilității și statistică

Articolul principal: Indicatori centre de distribuție
  • mijloace neparametrice - mod, mediană.
  • valoarea medie a unei variabile aleatoare este aceeași cu așteptarea matematică a unei variabile aleatoare. De fapt, este valoarea medie a funcției sale de distribuție.

Ce semn denotă media aritmetică?

Să presupunem că suma este epsilon capital...

Ksenia

Media aritmetică este limita în jurul căreia sunt grupate valorile individuale ale caracteristicilor observate și studiate. Media aritmetică este coeficientul de împărțire a sumei valorilor unei anumite caracteristici la numărul de elemente din populație. În statistică, media aritmetică este de obicei notă prin valori individuale ale unei caracteristici (sau rezultate particulare ale unui experiment) - prin x1, x2, x3 etc. și numărul total de caracteristici (sau numărul de experimente) - n.
Cu un număr mare de măsurători, erorile aleatoare pozitive și negative apar la fel de des. Din măsurători repetate ale oricărei mărimi fizice, se poate determina valoarea medie aritmetică a acesteia. Măsurătorile repetate permit, de asemenea, stabilirea acurateței măsurătorii, atât pentru rezultatul final, cât și pentru măsurătorile individuale, adică găsirea limitelor în care se află rezultatul rezultat al valorii măsurate.
Cu n măsurători ale unei anumite mărimi, obținem n valori diferite. Cea mai apropiată de valoarea adevărată a valorii măsurate va fi media aritmetică a tuturor măsurătorilor.
Dacă notăm măsurătorile individuale cu a\, az, a3, ..an, atunci valoarea medie aritmetică a valorii măsurate este determinată de formula:
P
n - la + ag + - + D„_\1 a,-
A _ ------------------
=Y-^
^J P
Valorile măsurătorilor individuale diferă de valoarea medie aritmetică a0 prin următoarele valori:
Valorile absolute ale diferențelor (Da^Dag,...) dintre valoarea medie aritmetică a mărimii măsurate și valoarea măsurătorilor individuale se numesc erori absolute ale măsurătorilor individuale. Media aritmetică a erorilor absolute ale tuturor măsurătorilor, care este necesară pentru a determina eroarea relativă de măsurare și pentru a înregistra rezultatul final, se calculează prin formula:
^-. (2)
Această eroare se numește eroare medie absolută de măsurare. Acceptând un semn de erori absolute, luăm în mod deliberat cea mai mare eroare posibilă.

Care este media aritmetică? Cum se găsește media aritmetică?

Formula pentru medie aritmetică?

Alex-89

Media aritmetică a mai multor numere este suma acestor numere împărțită la numărul lor.

x av - medie aritmetică

S - suma numerelor

n - numărul de numere.

De exemplu, trebuie să găsim media aritmetică a numerelor 3, 4, 5 și 6.

Pentru a face acest lucru, trebuie să le adunăm și să împărțim suma rezultată la 4:

(3 + 4 + 5 + 6) : 4 = 18: 4 = 4,5.

De asemenea, sh

Ca matematician, sunt interesat de întrebări pe acest subiect.

Voi începe cu istoricul problemei. Valorile medii au fost gândite încă din cele mai vechi timpuri. Media aritmetică, medie geometrică, medie armonică. Aceste concepte au fost propuse în Grecia antică de către pitagoreici.

Și acum întrebarea care ne interesează. Ce se înţelege prin media aritmetică a mai multor numere:

Deci, pentru a găsi media aritmetică a numerelor, trebuie să adăugați toate numerele și să împărțiți suma rezultată la numărul de termeni.

Formula este:


Exemplu. Aflați media aritmetică a numerelor: 100, 175, 325.

Să folosim formula pentru găsirea mediei aritmetice a trei numere (adică, în loc de n vor fi 3; trebuie să adunați toate cele 3 numere și să împărțiți suma rezultată la numărul lor, adică la 3). Avem: x=(100+175+325)/3=600/3=200.

Raspuns: 200.

Aritmetica este considerată cea mai elementară ramură a matematicii și studiază operațiile simple cu numere. Prin urmare, media aritmetică este, de asemenea, foarte ușor de găsit. Să începem cu o definiție. Media aritmetică este o valoare care arată care număr este cel mai apropiat de adevăr după mai multe operații succesive de același tip. De exemplu, atunci când alergați o sută de metri, o persoană arată un timp diferit de fiecare dată, dar valoarea medie va fi în, de exemplu, 12 secunde. Găsirea mediei aritmetice în acest fel se reduce la însumarea secvenţială a tuturor numerelor dintr-o anumită serie (rezultatele cursei) şi împărţirea acestei sume la numărul acestor curse (încercări, numere). Sub formă de formulă arată astfel:

Sarif = (Х1+Х2+..+Хn)/n

Media aritmetică este numărul mediu dintre mai multe numere.

De exemplu, între numerele 2 și 4, numărul mediu este 3.

Formula pentru determinarea mediei aritmetice este:

Trebuie să adunați toate numerele și să împărțiți la numărul acestor numere:

De exemplu, avem 3 numere: 2, 5 și 8.

Aflarea mediei aritmetice:

X=(2+5+8)/3=15/3=5

Domeniul de aplicare al mediei aritmetice este destul de larg.

De exemplu, cunoscând coordonatele a două puncte de pe un segment, puteți găsi coordonatele mijlocului acestui segment.

De exemplu, coordonatele segmentului: (X1,Y1,Z1)-(X2,Y2,Z2).

Să notăm mijlocul acestui segment prin coordonatele X3,Y3,Z3.

Găsim separat punctul de mijloc pentru fiecare coordonată:

Poiana frumoasa

Media aritmetică este numerele adunate și împărțite la numărul lor, răspunsul rezultat este media aritmetică.

De exemplu: Katya a pus 50 de ruble în pușculiță, Maxim 100 de ruble, iar Sasha a pus 150 de ruble în pușculiță. 50 + 100 + 150 = 300 de ruble în pușculiță, acum împărțim această sumă la trei (trei oameni pun bani). Deci 300: 3 = 100 de ruble. Aceste 100 de ruble vor fi media aritmetică, fiecare dintre ele pusă în pușculiță.

Există un exemplu atât de simplu: o persoană mănâncă carne, o altă persoană mănâncă varză, iar media aritmetică ei mănâncă ambii sarmale.

Salariul mediu se calculeaza in acelasi mod...

Media aritmetică este media datei...

Acestea. Pur și simplu, avem un număr de bețe de lungimi diferite și vrem să aflăm valoarea lor medie..

Este logic ca pentru aceasta să le aducem împreună, obținând un băț lung și apoi să-l împărțim în numărul necesar de părți.

Iată media aritmetică...

Acesta este modul în care se derivă formula: Sa=(S(1)+..S(n))/n..

Birdie2014

Media aritmetică este suma tuturor valorilor și împărțită la numărul lor.

De exemplu, numerele 2, 3, 5, 6. Trebuie să le adunăm 2+ 3+ 5 + 6 = 16

Împărțim 16 la 4 și obținem răspunsul 4.

4 este media aritmetică a acestor numere.

Azamatik

Media aritmetică este suma numerelor împărțită la numărul acestor numere. Și găsirea mediei aritmetice este foarte simplă.

După cum rezultă din definiție, trebuie să luăm numerele, să le adunăm și să le împărțim la numărul lor.

Să dăm un exemplu: ni se dau numerele 1, 3, 5, 7 și trebuie să aflăm media aritmetică a acestor numere.

  • mai întâi adăugați aceste numere (1+3+5+7) și obțineți 16
  • Trebuie să împărțim rezultatul rezultat la 4 (cantitate): 16/4 și obținem rezultatul 4.

Deci, media aritmetică a numerelor 1, 3, 5 și 7 este 4.

Media aritmetică - valoarea medie dintre indicatorii dați.

Se găsește împărțind suma tuturor indicatorilor la numărul lor.

De exemplu, am 5 mere care cântăresc 200, 250, 180, 220 și 230 de grame.

Găsim greutatea medie a unui măr după cum urmează:

  • căutăm greutatea totală a tuturor merelor (suma tuturor indicatorilor) - este egală cu 1080 de grame,
  • Împărțiți greutatea totală la numărul de mere 1080:5 = 216 grame. Aceasta este media aritmetică.

Acesta este cel mai des utilizat indicator în statistică.

Cheburechek verde

Știm asta de la școală. Oricine a avut un profesor bun de matematică și-a putut aminti prima dată această acțiune simplă.

Când găsiți media aritmetică, trebuie să adunați toate numerele disponibile și să împărțiți la numărul lor.

De exemplu, am cumpărat de la magazin 1 kg de mere, 2 kg de banane, 3 kg de portocale și 1 kg de kiwi. Câte kilograme de fructe am cumpărat în medie?

7/4= 1,8 kilograme. Aceasta va fi media aritmetică.

Byemon epu

Îmi amintesc că am luat testul final la matematică

Deci acolo a fost necesar să se găsească media aritmetică.

Este bine că oamenii amabili au sugerat ce să facă, altfel ar fi probleme.

De exemplu, avem 4 numere.

Adunați numerele și împărțiți la numărul lor (în acest caz 4)

De exemplu numerele 2,6,1,1. Adaugă 2+6+1+1 și împarte la 4 = 2,5

După cum puteți vedea, nimic complicat. Deci media aritmetică este media tuturor numerelor.

În cele mai multe cazuri, datele sunt concentrate în jurul unui punct central. Astfel, pentru a descrie orice set de date, este suficient să indicați valoarea medie. Să luăm în considerare secvenţial trei caracteristici numerice care sunt utilizate pentru estimarea valorii medii a distribuţiei: media aritmetică, mediana şi modul.

In medie

Media aritmetică (deseori numită pur și simplu medie) este cea mai comună estimare a mediei unei distribuții. Este rezultatul împărțirii sumei tuturor valorilor numerice observate la numărul lor. Pentru un eșantion format din numere X 1, X 2, …, Xn, medie eșantionului (notat cu ) egal = (X 1 + X 2 + … + Xn) / n, sau

unde este media eșantionului, n- marime de mostra, Xi– al-lea element al probei.

Descărcați nota în sau format, exemple în format

Luați în considerare calcularea mediei aritmetice a randamentelor medii anuale pe cinci ani a 15 fonduri mutuale cu risc foarte ridicat (Figura 1).

Orez. 1. Rentabilitatea medie anuală a 15 fonduri mutuale cu risc foarte ridicat

Media eșantionului se calculează după cum urmează:

Acesta este un randament bun, mai ales în comparație cu randamentul de 3-4% pe care l-au primit deponenții băncii sau uniunii de credit în aceeași perioadă de timp. Dacă sortăm randamentele, este ușor de observat că opt fonduri au randamente peste medie și șapte - sub medie. Media aritmetică acționează ca punct de echilibru, astfel încât fondurile cu randamente scăzute echilibrează fondurile cu randamente ridicate. Toate elementele eșantionului sunt implicate în calcularea mediei. Niciuna dintre celelalte estimări ale mediei unei distribuții nu are această proprietate.

Când ar trebui să calculezi media aritmetică? Deoarece media aritmetică depinde de toate elementele din eșantion, prezența valorilor extreme afectează în mod semnificativ rezultatul. În astfel de situații, media aritmetică poate distorsiona sensul datelor numerice. Prin urmare, atunci când se descrie un set de date care conține valori extreme, este necesar să se indice mediana sau media aritmetică și mediana. De exemplu, dacă eliminăm randamentele fondului RS Emerging Growth din eșantion, media eșantionului a randamentelor celor 14 fonduri scade cu aproape 1% până la 5,19%.

Median

Mediana reprezintă valoarea de mijloc a unui tablou ordonat de numere. Dacă matricea nu conține numere care se repetă, atunci jumătate dintre elementele sale vor fi mai mici decât mediana și jumătate va fi mai mare decât mediana. Dacă eșantionul conține valori extreme, este mai bine să folosiți mediana mai degrabă decât media aritmetică pentru a estima media. Pentru a calcula mediana unui eșantion, acesta trebuie mai întâi comandat.

Această formulă este ambiguă. Rezultatul depinde dacă numărul este par sau impar n:

  • Dacă eșantionul conține un număr impar de elemente, mediana este (n+1)/2-al-lea element.
  • Dacă eșantionul conține un număr par de elemente, mediana se află între cele două elemente din mijloc ale eșantionului și este egală cu media aritmetică calculată pentru aceste două elemente.

Pentru a calcula mediana unui eșantion care conține randamentele a 15 fonduri mutuale cu risc foarte ridicat, mai întâi trebuie să sortați datele brute (Figura 2). Atunci mediana va fi opusă numărului elementului mijlociu al probei; în exemplul nostru nr. 8. Excel are o funcție specială =MEDIAN() care funcționează și cu tablouri neordonate.

Orez. 2. Median 15 fonduri

Astfel, mediana este 6,5. Aceasta înseamnă că randamentul unei jumătăți din fondurile cu risc foarte mare nu depășește 6,5, iar randamentul celeilalte jumătate îl depășește. Rețineți că mediana de 6,5 nu este cu mult mai mare decât media de 6,08.

Dacă eliminăm randamentul fondului RS Emerging Growth din eșantion, atunci mediana celor 14 fonduri rămase scade la 6,2%, adică nu la fel de semnificativ ca media aritmetică (Figura 3).

Orez. 3. Median 14 fonduri

Modă

Termenul a fost inventat pentru prima dată de Pearson în 1894. Moda este numărul care apare cel mai des într-un eșantion (cel mai la modă). Moda descrie bine, de exemplu, reacția tipică a șoferilor la un semnal de semafor de a se opri din mișcare. Un exemplu clasic de utilizare a modei este alegerea mărimii pantofilor sau a culorii tapetului. Dacă o distribuție are mai multe moduri, atunci se spune că este multimodală sau multimodală (are două sau mai multe „vârfuri”). Multimodalitatea distribuției oferă informații importante despre natura variabilei studiate. De exemplu, în anchetele sociologice, dacă o variabilă reprezintă o preferință sau atitudine față de ceva, atunci multimodalitatea poate însemna că există mai multe opinii distinct diferite. Multimodalitatea servește, de asemenea, ca un indicator că eșantionul nu este omogen și observațiile pot fi generate de două sau mai multe distribuții „suprapuse”. Spre deosebire de media aritmetică, valorile aberante nu afectează modul. Pentru variabile aleatoare distribuite continuu, cum ar fi randamentul mediu anual al fondurilor mutuale, modul uneori nu există (sau nu are sens) deloc. Deoarece acești indicatori pot lua valori foarte diferite, valorile repetate sunt extrem de rare.

Quartile

Quartilele sunt metricile cel mai des folosite pentru a evalua distribuția datelor atunci când se descriu proprietățile eșantioanelor numerice mari. În timp ce mediana împarte matricea ordonată în jumătate (50% din elementele matricei sunt mai mici decât mediana și 50% sunt mai mari), quartilele împart setul de date ordonat în patru părți. Valorile Q 1 , mediana și Q 3 sunt percentilele 25, 50 și, respectiv, 75. Prima cuartilă Q 1 este un număr care împarte eșantionul în două părți: 25% dintre elemente sunt mai mici decât prima cuartilă și 75% sunt mai mari decât prima.

A treia cuartilă Q 3 este un număr care împarte eșantionul în două părți: 75% dintre elemente sunt mai mici decât, iar 25% sunt mai mari decât, a treia cuartilă.

Pentru a calcula quartile în versiunile de Excel înainte de 2007, utilizați funcția =QUARTILE(array,part) . Începând cu Excel 2010, sunt utilizate două funcții:

  • =QUARTILE.ON(matrice,parte)
  • =QUARTILE.EXC(matrice,parte)

Aceste două funcții dau valori ușor diferite (Figura 4). De exemplu, atunci când se calculează quartilele unui eșantion care conține randamentele medii anuale a 15 fonduri mutuale cu risc foarte ridicat, Q 1 = 1,8 sau –0,7 pentru QUARTILE.IN și, respectiv, QUARTILE.EX. Apropo, funcția QUARTILE, folosită anterior, corespunde funcției moderne QUARTILE.ON. Pentru a calcula quartile în Excel folosind formulele de mai sus, matricea de date nu trebuie să fie ordonată.

Orez. 4. Calcularea quartilelor în Excel

Să subliniem din nou. Excel poate calcula cuartile pentru un univariat serie discretă, care conține valorile unei variabile aleatoare. Calculul quartilelor pentru o distribuție bazată pe frecvență este prezentat mai jos în secțiune.

Medie geometrică

Spre deosebire de media aritmetică, media geometrică vă permite să estimați gradul de modificare a unei variabile în timp. Media geometrică este rădăcina n gradul de la lucrare n cantități (în Excel se folosește funcția =SRGEOM):

G= (X 1 * X 2 * … * X n) 1/n

Un parametru similar - valoarea medie geometrică a ratei profitului - este determinat de formula:

G = [(1 + R 1) * (1 + R 2) * … * (1 + R n)] 1/n – 1,

Unde R i– rata profitului pt i a-a perioadă de timp.

De exemplu, să presupunem că investiția inițială este de 100.000 USD. Până la sfârșitul primului an, scade la 50.000 USD, iar la sfârșitul celui de-al doilea an, se recuperează la nivelul inițial de 100.000 USD -perioada anului este egală cu 0, deoarece sumele inițiale și finale ale fondurilor sunt egale între ele. Cu toate acestea, media aritmetică a ratelor anuale de profit este = (–0,5 + 1) / 2 = 0,25 sau 25%, întrucât rata profitului în primul an R 1 = (50.000 – 100.000) / 100.000 = –0,5 , iar în al doilea R 2 = (100.000 – 50.000) / 50.000 = 1. În același timp, valoarea medie geometrică a ratei profitului pe doi ani este egală cu: G = [(1–0,5) * (1+1 ) ] 1/2 – 1 = ½ – 1 = 1 – 1 = 0. Astfel, media geometrică reflectă mai exact modificarea (mai precis, absența modificărilor) a volumului investiției pe o perioadă de doi ani decât aritmetica Rău.

Fapte interesante.În primul rând, media geometrică va fi întotdeauna mai mică decât media aritmetică a acelorași numere. Cu excepția cazului în care toate numerele luate sunt egale între ele. În al doilea rând, luând în considerare proprietățile unui triunghi dreptunghic, puteți înțelege de ce media se numește geometrică. Înălțimea unui triunghi dreptunghic, coborât la ipotenuză, este media proporțională dintre proiecțiile catetelor pe ipotenuză, iar fiecare catete este media proporțională dintre ipotenuză și proiecția acesteia pe ipotenuză (Fig. 5). Aceasta oferă o modalitate geometrică de a construi media geometrică a două (lungimi) segmente: trebuie să construiți un cerc pe suma acestor două segmente ca diametru, apoi înălțimea restabilită de la punctul de conectare la intersecția cu cercul. va da valoarea dorită:

Orez. 5. Natura geometrică a mediei geometrice (figura de pe Wikipedia)

A doua proprietate importantă a datelor numerice este lor variație, care caracterizează gradul de dispersie a datelor. Două eșantioane diferite pot diferi atât în ​​ceea ce privește mediile, cât și variațiile. Totuși, așa cum se arată în Fig. 6 și 7, două mostre pot avea aceleași variații, dar mijloace diferite, sau aceleași mijloace și variații complet diferite. Datele care corespund poligonului B din Fig. 7, se modifică mult mai puțin decât datele pe care a fost construit poligonul A.

Orez. 6. Două distribuții simetrice în formă de clopot cu aceeași răspândire și valori medii diferite

Orez. 7. Două distribuții simetrice în formă de clopot cu aceleași valori medii și spread diferite

Există cinci estimări ale variației datelor:

  • domeniul de aplicare,
  • intervalul intercuartil,
  • dispersie,
  • deviație standard,
  • coeficientul de variație.

Domeniul de aplicare

Intervalul este diferența dintre cele mai mari și cele mai mici elemente ale eșantionului:

Interval = XMax - XMin

Intervalul unui eșantion care conține randamentele anuale medii a 15 fonduri mutuale cu risc foarte ridicat poate fi calculat utilizând matricea ordonată (vezi Figura 4): Interval = 18,5 – (–6,1) = 24,6. Aceasta înseamnă că diferența dintre randamentul mediu anual cel mai ridicat și cel mai scăzut al fondurilor cu risc foarte ridicat este de 24,6%.

Intervalul măsoară răspândirea globală a datelor. Deși intervalul de eșantionare este o estimare foarte simplă a răspândirii generale a datelor, slăbiciunea sa este că nu ia în considerare exact modul în care datele sunt distribuite între elementele minime și maxime. Acest efect este clar vizibil în fig. 8, care ilustrează mostre având același interval. Scala B demonstrează că, dacă un eșantion conține cel puțin o valoare extremă, intervalul eșantionului este o estimare foarte imprecisă a răspândirii datelor.

Orez. 8. Comparația a trei probe cu același interval; triunghiul simbolizează suportul scalei, iar locația acesteia corespunde mediei eșantionului

Intervalul intercuartil

Intervalul intercuartil, sau media, este diferența dintre a treia și prima cuartilă a eșantionului:

Interval intercuartil = Q 3 – Q 1

Această valoare ne permite să estimăm împrăștierea a 50% din elemente și să nu ținem cont de influența elementelor extreme. Intervalul intercuartil al unui eșantion care conține randamentele medii anuale a 15 fonduri mutuale cu risc foarte ridicat poate fi calculat folosind datele din Fig. 4 (de exemplu, pentru funcția QUARTILE.EXC): Interval interquartile = 9,8 – (–0,7) = 10,5. Intervalul delimitat de numerele 9,8 și -0,7 este adesea numit jumătatea mijlocie.

Trebuie remarcat faptul că valorile Q 1 și Q 3 și, prin urmare, intervalul intercuartil, nu depind de prezența valorilor aberante, deoarece calculul lor nu ia în considerare nicio valoare care ar fi mai mică decât Q 1 sau mai mare. decât Q 3 . Măsurile rezumative, cum ar fi mediana, primul și al treilea quartile și intervalul intercuartil care nu sunt afectate de valori aberante, se numesc măsuri robuste.

Deși intervalul și intervalul intercuartil oferă estimări ale răspândirii generale și, respectiv, medii a unui eșantion, niciuna dintre aceste estimări nu ia în considerare exact modul în care sunt distribuite datele. Varianta si abaterea standard sunt lipsite de acest dezavantaj. Acești indicatori vă permit să evaluați gradul în care datele fluctuează în jurul valorii medii. Varianta eșantionului este o aproximare a mediei aritmetice calculată din pătratele diferențelor dintre fiecare element eșantion și media eșantionului. Pentru un eșantion X 1, X 2, ... X n, varianța eșantionului (notat cu simbolul S 2 este dată de următoarea formulă:

În general, varianța eșantionului este suma pătratelor diferențelor dintre elementele eșantionului și media eșantionului, împărțită la o valoare egală cu dimensiunea eșantionului minus unu:

Unde - medie aritmetică, n- marime de mostra, X i - i al-lea element al selecției X. În Excel înainte de versiunea 2007, funcția =VARIN() a fost utilizată pentru a calcula varianța eșantionului, începând cu versiunea 2010, este utilizată funcția =VARIAN().

Cea mai practică și larg acceptată estimare a răspândirii datelor este abaterea standard a probei. Acest indicator este notat cu simbolul S și este egal cu rădăcina pătrată a varianței eșantionului:

În Excel înainte de versiunea 2007, funcția =STDEV.() a fost utilizată pentru a calcula abaterea standard a eșantionului începând cu versiunea 2010, este utilizată funcția =STDEV.V(). Pentru a calcula aceste funcții, matricea de date poate fi neordonată.

Nici varianța eșantionului și nici abaterea standard a eșantionului nu pot fi negative. Singura situație în care indicatorii S 2 și S pot fi zero este dacă toate elementele eșantionului sunt egale între ele. În acest caz complet improbabil, intervalul și intervalul intercuartil sunt, de asemenea, zero.

Datele numerice sunt în mod inerent volatile. Orice variabilă poate lua multe valori diferite. De exemplu, diferite fonduri mutuale au rate diferite de rentabilitate și pierdere. Datorită variabilității datelor numerice, este foarte important să se studieze nu numai estimări ale mediei, care sunt de natură rezumată, ci și estimări ale varianței, care caracterizează răspândirea datelor.

Dispersia și abaterea standard vă permit să estimați răspândirea datelor în jurul valorii medii, cu alte cuvinte, să determinați câte elemente de eșantion sunt mai mici decât media și câte sunt mai multe. Dispersia are unele proprietăți matematice valoroase. Cu toate acestea, valoarea sa este pătratul unității de măsură - procent pătrat, dolar pătrat, inch pătrat etc. Prin urmare, o măsură naturală a dispersiei este abaterea standard, care este exprimată în unități de măsură comune - procentul venitului, dolari sau inci.

Abaterea standard vă permite să estimați cantitatea de variație a elementelor eșantionului în jurul valorii medii. În aproape toate situațiile, majoritatea valorilor observate se află în intervalul de plus sau minus o abatere standard de la medie. În consecință, cunoscând media aritmetică a elementelor eșantionului și abaterea standard a eșantionului, este posibil să se determine intervalul căruia îi aparține cea mai mare parte a datelor.

Abaterea standard a randamentelor pentru cele 15 fonduri mutuale cu risc foarte ridicat este de 6,6 (Figura 9). Aceasta înseamnă că profitabilitatea majorității fondurilor diferă de valoarea medie cu cel mult 6,6% (adică, fluctuează în intervalul de la – S= 6,2 – 6,6 = –0,4 la +S= 12,8). De fapt, randamentul mediu anual pe cinci ani de 53,3% (8 din 15) din fonduri se află în acest interval.

Orez. 9. Eșantion de abatere standard

Rețineți că atunci când însumăm diferențele pătrate, elementelor eșantionului care sunt mai departe de medie li se acordă mai multă pondere decât elementelor care sunt mai aproape de medie. Această proprietate este principalul motiv pentru care media aritmetică este cel mai des folosită pentru a estima media unei distribuții.

Coeficientul de variație

Spre deosebire de estimările anterioare ale dispersiei, coeficientul de variație este o estimare relativă. Este întotdeauna măsurată ca procent și nu în unitățile datelor originale. Coeficientul de variație, notat cu simbolurile CV, măsoară dispersia datelor în jurul mediei. Coeficientul de variație este egal cu abaterea standard împărțită la media aritmetică și înmulțită cu 100%:

Unde S- abaterea standard a probei, - media eșantionului.

Coeficientul de variație vă permite să comparați două eșantioane ale căror elemente sunt exprimate în unități de măsură diferite. De exemplu, managerul unui serviciu de livrare poștă intenționează să-și reînnoiască flota de camioane. La încărcarea pachetelor, există două restricții de luat în considerare: greutatea (în lire sterline) și volumul (în picioare cubi) ale fiecărui pachet. Să presupunem că într-o probă care conține 200 de saci, greutatea medie este de 26,0 lire sterline, abaterea standard a greutății este de 3,9 lire sterline, volumul mediu al sacului este de 8,8 picioare cubi și abaterea standard a volumului este de 2,2 picioare cubi. Cum se compară variația de greutate și volum a pachetelor?

Deoarece unitățile de măsură pentru greutate și volum diferă unele de altele, managerul trebuie să compare răspândirea relativă a acestor cantități. Coeficientul de variație al greutății este CV W = 3,9 / 26,0 * 100% = 15%, iar coeficientul de variație al volumului este CV V = 2,2 / 8,8 * 100% = 25%. Astfel, variația relativă a volumului pachetelor este mult mai mare decât variația relativă a greutății acestora.

Formular de distribuire

A treia proprietate importantă a unui eșantion este forma distribuției sale. Această distribuție poate fi simetrică sau asimetrică. Pentru a descrie forma unei distribuții, este necesar să se calculeze media și mediana acesteia. Dacă cele două sunt la fel, variabila este considerată distribuită simetric. Dacă valoarea medie a unei variabile este mai mare decât mediana, distribuția ei are o asimetrie pozitivă (Fig. 10). Dacă mediana este mai mare decât media, distribuția variabilei este denaturată negativ. Deformarea pozitivă apare atunci când media crește la valori neobișnuit de ridicate. Deformarea negativă apare atunci când media scade la valori neobișnuit de mici. O variabilă este distribuită simetric dacă nu ia valori extreme în nicio direcție, astfel încât valorile mari și mici ale variabilei se anulează reciproc.

Orez. 10. Trei tipuri de distribuții

Datele afișate pe scara A sunt denaturate negativ. Această figură arată o coadă lungă și o înclinare spre stânga cauzată de prezența unor valori neobișnuit de mici. Aceste valori extrem de mici deplasează valoarea medie spre stânga, făcând-o mai mică decât mediana. Datele prezentate pe scara B sunt distribuite simetric. Jumătățile stânga și dreapta ale distribuției sunt imagini în oglindă ale lor. Valorile mari și mici se echilibrează reciproc, iar media și mediana sunt egale. Datele afișate pe scara B sunt denaturate pozitiv. Această figură arată o coadă lungă și o înclinare spre dreapta cauzată de prezența unor valori neobișnuit de ridicate. Aceste valori prea mari deplasează media spre dreapta, făcând-o mai mare decât mediana.

În Excel, statisticile descriptive pot fi obținute folosind un add-in Pachet de analize. Treceți prin meniu DateAnaliza datelor, în fereastra care se deschide, selectați linia Statisticile descriptiveși faceți clic Bine. La fereastră Statisticile descriptive asigurați-vă că indicați Interval de intrare(Fig. 11). Dacă doriți să vedeți statistici descriptive pe aceeași foaie cu datele originale, selectați butonul radio Interval de ieșireși specificați celula în care ar trebui să fie plasat colțul din stânga sus al statisticilor afișate (în exemplul nostru, $C$1). Dacă doriți să scoateți date într-o foaie nouă sau într-un registru de lucru nou, trebuie doar să selectați butonul radio corespunzător. Bifați caseta de lângă Statistici rezumate. Dacă doriți, puteți alege și Nivel de dificultate,al k-lea cel mai mic șia k-a cea mai mare.

Dacă în depozit Dateîn zonă Analiză nu vezi pictograma Analiza datelor, mai întâi trebuie să instalați suplimentul Pachet de analize(vezi, de exemplu,).

Orez. 11. Statistici descriptive ale randamentelor medii anuale pe cinci ani ale fondurilor cu niveluri foarte ridicate de risc, calculate folosind programul de completare Analiza datelor programe Excel

Excel calculează un număr de statistici discutate mai sus: medie, mediană, mod, abatere standard, varianță, interval ( interval), minim, maxim și dimensiunea eșantionului ( Verifica). Excel calculează, de asemenea, unele statistici care sunt noi pentru noi: eroare standard, curtosis și asimetrie. Eroare standard egală cu abaterea standard împărțită la rădăcina pătrată a dimensiunii eșantionului. Asimetrie caracterizează abaterea de la simetria distribuţiei şi este o funcţie care depinde de cubul diferenţelor dintre elementele eşantionului şi de valoarea medie. Kurtosis este o măsură a concentrației relative a datelor în jurul mediei în comparație cu cozile distribuției și depinde de diferențele dintre elementele eșantionului și media ridicată la a patra putere.

Calcularea statisticilor descriptive pentru o populație

Media, răspândirea și forma distribuției discutate mai sus sunt caracteristici determinate din eșantion. Cu toate acestea, dacă setul de date conține măsurători numerice ale întregii populații, parametrii acesteia pot fi calculați. Astfel de parametri includ valoarea așteptată, dispersia și abaterea standard a populației.

Valorea estimata egal cu suma tuturor valorilor din populație împărțită la dimensiunea populației:

Unde µ - valorea estimata, Xi- i a-a observație a unei variabile X, N- volumul populaţiei generale. În Excel, pentru a calcula așteptările matematice, se folosește aceeași funcție ca pentru media aritmetică: =AVERAGE().

Varianta populatiei egală cu suma pătratelor diferenţelor dintre elementele populaţiei generale şi mat. așteptări împărțite la dimensiunea populației:

Unde σ 2– dispersia populaţiei generale. În Excel înainte de versiunea 2007, funcția =VARP() este utilizată pentru a calcula varianța unei populații, începând cu versiunea 2010 =VARP().

Abaterea standard a populației egal cu rădăcina pătrată a varianței populației:

În Excel înainte de versiunea 2007, funcția =STDEV() este utilizată pentru a calcula abaterea standard a unei populații, începând cu versiunea 2010 =STDEV.Y(). Rețineți că formulele pentru varianța populației și abaterea standard sunt diferite de formulele pentru calcularea varianței eșantionului și a abaterii standard. La calcularea statisticilor eșantionului S 2Și S numitorul fracției este n – 1, și la calcularea parametrilor σ 2Și σ - volumul populaţiei generale N.

Regula generală

În majoritatea situațiilor, o mare parte a observațiilor sunt concentrate în jurul mediei, formând un cluster. În seturile de date cu asimetrie pozitivă, acest cluster este situat la stânga (adică, dedesubt) așteptării matematice, iar în seturile cu asimetrie negativă, acest cluster este situat la dreapta (adică, deasupra) așteptării matematice. Pentru datele simetrice, media și mediana sunt aceleași, iar observațiile se grupează în jurul mediei, formând o distribuție în formă de clopot. Dacă distribuția nu este în mod clar denaturată și datele sunt concentrate în jurul unui centru de greutate, o regulă generală care poate fi utilizată pentru a estima variabilitatea este că, dacă datele au o distribuție în formă de clopot, atunci aproximativ 68% dintre observații sunt în o abatere standard a valorii așteptate aproximativ 95% din observații sunt la cel mult două abateri standard de așteptarea matematică și 99,7% dintre observații sunt la cel mult trei abateri standard de așteptarea matematică.

Astfel, abaterea standard, care este o estimare a variației medii în jurul valorii așteptate, ajută la înțelegerea modului în care sunt distribuite observațiile și la identificarea valorii aberante. Regula generală este că, pentru distribuțiile în formă de clopot, doar o valoare din douăzeci diferă de așteptarea matematică cu mai mult de două abateri standard. Prin urmare, valori în afara intervalului µ ± 2σ, pot fi considerate valori aberante. În plus, doar trei din 1000 de observații diferă de așteptările matematice cu mai mult de trei abateri standard. Astfel, valorile în afara intervalului µ ± 3σ sunt aproape întotdeauna valori aberante. Pentru distribuțiile care sunt foarte denaturate sau nu au formă de clopot, se poate aplica regula generală Bienamay-Chebyshev.

În urmă cu peste o sută de ani, matematicienii Bienamay și Chebyshev au descoperit în mod independent proprietatea utilă a deviației standard. Ei au descoperit că pentru orice set de date, indiferent de forma distribuției, procentul de observații care se află la o distanță de k abateri standard de la așteptările matematice, nu mai puțin (1 – 1/ k 2)*100%.

De exemplu, dacă k= 2, regula Bienname-Chebyshev prevede că cel puțin (1 – (1/2) 2) x 100% = 75% din observații trebuie să se afle în interval µ ± 2σ. Această regulă este valabilă pentru orice k, depășind unu. Regula Bienamay-Chebyshev este foarte generală și valabilă pentru distribuțiile de orice tip. Specifică numărul minim de observații, distanța de la care până la așteptarea matematică nu depășește o valoare specificată. Cu toate acestea, dacă distribuția este în formă de clopot, regula generală estimează mai precis concentrația datelor în jurul valorii așteptate.

Calcularea statisticilor descriptive pentru o distribuție bazată pe frecvență

Dacă datele originale nu sunt disponibile, distribuția frecvenței devine singura sursă de informații. În astfel de situații, este posibil să se calculeze valori aproximative ale indicatorilor cantitativi ai distribuției, cum ar fi media aritmetică, abaterea standard și quartilele.

Dacă datele eșantionului sunt reprezentate ca o distribuție de frecvență, o aproximare a mediei aritmetice poate fi calculată presupunând că toate valorile din fiecare clasă sunt concentrate la mijlocul clasei:

Unde - media eșantionului, n- numărul de observații sau dimensiunea eșantionului; Cu- numărul de clase în distribuția de frecvență, m j- punct de mijloc j clasa a-a, fj- frecventa corespunzatoare j- clasa a-a.

Pentru a calcula abaterea standard de la o distribuție de frecvență, se presupune, de asemenea, că toate valorile din cadrul fiecărei clase sunt concentrate la mijlocul clasei.

Pentru a înțelege cum se determină quartilele unei serii pe baza frecvențelor, luați în considerare calculul quartilei inferioare pe baza datelor pentru 2013 privind distribuția populației ruse în funcție de venitul monetar mediu pe cap de locuitor (Fig. 12).

Orez. 12. Ponderea populației ruse cu venit mediu pe cap de locuitor pe lună, ruble

Pentru a calcula primul quartil al unei serii de variații de interval, puteți folosi formula:

unde Q1 este valoarea primului cuartil, xQ1 este limita inferioară a intervalului care conține primul cuartil (intervalul este determinat de frecvența acumulată care depășește mai întâi 25%); i – valoarea intervalului; Σf – suma frecvențelor întregului eșantion; probabil întotdeauna egal cu 100%; SQ1–1 – frecvența acumulată a intervalului care precede intervalul care conține quartila inferioară; fQ1 – frecvența intervalului care conține quartila inferioară. Formula pentru a treia cuartilă diferă prin aceea că în toate locurile trebuie să utilizați Q3 în loc de Q1 și să înlocuiți ¾ în loc de ¼.

În exemplul nostru (Fig. 12), quartila inferioară se află în intervalul 7000,1 – 10.000, a cărei frecvență acumulată este de 26,4%. Limita inferioară a acestui interval este de 7000 de ruble, valoarea intervalului este de 3000 de ruble, frecvența acumulată a intervalului care precede intervalul care conține quartila inferioară este de 13,4%, frecvența intervalului care conține quartila inferioară este de 13,0%. Astfel: Q1 = 7000 + 3000 * (¼ * 100 – 13,4) / 13 = 9677 rub.

Capcane asociate cu statisticile descriptive

În această postare, am analizat cum să descriem un set de date folosind diverse statistici care evaluează media, răspândirea și distribuția acestuia. Următorul pas este analiza și interpretarea datelor. Până acum, am studiat proprietățile obiective ale datelor, iar acum trecem la interpretarea subiectivă a acestora. Cercetătorul se confruntă cu două greșeli: un subiect de analiză ales incorect și o interpretare incorectă a rezultatelor.

Analiza randamentelor a 15 fonduri mutuale cu risc foarte ridicat este destul de imparțială. El a condus la concluzii complet obiective: toate fondurile mutuale au randamente diferite, spread-ul randamentelor fondurilor variază de la -6,1 la 18,5, iar randamentul mediu este de 6,08. Obiectivitatea analizei datelor este asigurată de alegerea corectă a indicatorilor cantitativi sumari de distribuție. Au fost luate în considerare mai multe metode de estimare a mediei și dispersării datelor și au fost indicate avantajele și dezavantajele acestora. Cum alegi statisticile potrivite pentru a oferi o analiză obiectivă și imparțială? Dacă distribuția datelor este ușor denaturată, ar trebui să alegeți mediana mai degrabă decât media? Care indicator caracterizează mai exact răspândirea datelor: abaterea standard sau intervalul? Ar trebui subliniată asimetria pozitivă a distribuției?

Pe de altă parte, interpretarea datelor este un proces subiectiv. Oameni diferiți ajung la concluzii diferite atunci când interpretează aceleași rezultate. Fiecare are punctul lui de vedere. Cineva consideră că randamentele totale medii anuale a 15 fonduri cu un nivel de risc foarte ridicat sunt bune și este destul de mulțumit de veniturile primite. Alții pot considera că aceste fonduri au randamente prea mici. Astfel, subiectivitatea ar trebui compensată de onestitate, neutralitate și claritatea concluziilor.

Probleme etice

Analiza datelor este indisolubil legată de problemele etice. Ar trebui să criticați informațiile difuzate de ziare, radio, televiziune și internet. De-a lungul timpului, vei învăța să fii sceptic nu numai cu privire la rezultate, ci și cu privire la obiectivele, subiectul și obiectivitatea cercetării. Celebrul politician britanic Benjamin Disraeli a spus-o cel mai bine: „Există trei feluri de minciuni: minciuni, minciuni blestemate și statistici”.

După cum se menționează în notă, la alegerea rezultatelor care ar trebui prezentate în raport apar probleme etice. Ar trebui publicate atât rezultatele pozitive, cât și cele negative. În plus, la realizarea unui raport sau raport scris, rezultatele trebuie prezentate onest, neutru și obiectiv. Trebuie făcută o distincție între prezentările nereușite și cele necinstite. Pentru a face acest lucru, este necesar să se determine care au fost intențiile vorbitorului. Uneori, vorbitorul omite informații importante din ignoranță, iar uneori este deliberat (de exemplu, dacă folosește media aritmetică pentru a estima media datelor clar denaturate pentru a obține rezultatul dorit). De asemenea, este necinstit să suprimi rezultate care nu corespund punctului de vedere al cercetătorului.

Sunt utilizate materiale din cartea Levin et al. – M.: Williams, 2004. – p. 178–209

Funcția QUARTILE a fost păstrată pentru compatibilitate cu versiunile anterioare de Excel.

Cel mai comun tip de medie este media aritmetică.

Media aritmetică simplă

O medie aritmetică simplă este termenul mediu, în determinarea căruia volumul total al unui anumit atribut din date este distribuit în mod egal între toate unitățile incluse în populația dată. Astfel, producția medie anuală per angajat este cantitatea de producție care ar fi produsă de fiecare angajat dacă întregul volum de producție ar fi distribuit în mod egal între toți angajații organizației. Valoarea medie aritmetică simplă se calculează folosind formula:

Media aritmetică simplă- Egal cu raportul dintre suma valorilor individuale ale unei caracteristici și numărul de caracteristici în agregat

Exemplul 1 . O echipă de 6 muncitori primește 3 3,2 3,3 3,5 3,8 3,1 mii de ruble pe lună.

Găsiți salariul mediu
Rezolvare: (3 + 3,2 + 3,3 +3,5 + 3,8 + 3,1) / 6 = 3,32 mii de ruble.

Media aritmetică ponderată

Dacă volumul setului de date este mare și reprezintă o serie de distribuție, atunci se calculează media aritmetică ponderată. Așa se determină prețul mediu ponderat pe unitatea de producție: costul total de producție (suma produselor cantității sale cu prețul unei unități de producție) se împarte la cantitatea totală de producție.

Să ne imaginăm acest lucru sub forma următoarei formule:

Media aritmetică ponderată— egal cu raportul dintre (suma produselor valorii unei trăsături la frecvența de repetare a acestei trăsături) la (suma frecvențelor tuturor trăsăturilor Se utilizează atunci când apar variante ale populației studiate). un număr inegal de ori.

Exemplul 2 . Găsiți salariul mediu lunar al lucrătorilor atelierului

Salariul mediu poate fi obținut prin împărțirea salariului total la numărul total de lucrători:

Răspuns: 3,35 mii de ruble.

Media aritmetică pentru serii de intervale

Când calculați media aritmetică pentru o serie de variații de interval, mai întâi determinați media pentru fiecare interval ca jumătate de sumă a limitelor superioare și inferioare și apoi media întregii serii. În cazul intervalelor deschise, valoarea intervalului inferior sau superior este determinată de mărimea intervalelor adiacente acestora.

Mediile calculate din serii de intervale sunt aproximative.

Exemplul 3. Determinați vârsta medie a studenților de seară.

Mediile calculate din serii de intervale sunt aproximative. Gradul de aproximare a acestora depinde de măsura în care distribuția reală a unităților de populație în cadrul intervalului se apropie de uniformitate.

Când se calculează medii, nu numai valorile absolute, ci și valorile relative (frecvența) pot fi folosite ca ponderi:

Media aritmetică are o serie de proprietăți care dezvăluie mai pe deplin esența sa și simplifică calculele:

1. Produsul mediei prin suma frecvențelor este întotdeauna egal cu suma produselor variantei după frecvențe, i.e.

2. Media aritmetică a sumei mărimilor variabile este egală cu suma medielor aritmetice a acestor mărimi:

3. Suma algebrică a abaterilor valorilor individuale ale unei caracteristici de la medie este egală cu zero:

4. Suma abaterilor la pătrat ale opțiunilor de la medie este mai mică decât suma abaterilor la pătrat de la orice altă valoare arbitrară, adică.

valoarea medie- acesta este un indicator general al unei populații statistice care elimină diferențele individuale în valorile cantităților statistice, permițându-vă să comparați diferite populații între ele.

Există 2 clase valori medii: și .

Mediile structurale includ ModăȘi median, dar cel mai des folosit medii de putere tipuri variate.

Medii de putere

Mediile de putere pot fi simpluȘi ponderat.

Medie simplă calculat dacă sunt două sau mai multe negrupate mărimi statistice aranjate în ordine aleatorie după următoarea formulă generală:

Medie ponderată calculat de grupate valori statistice folosind următoarea formulă generală:

Unde X sunt valorile valorilor statistice individuale sau mijlocul intervalelor de grupare;
m este exponentul, a cărui valoare determină următoarele tipuri de medii de putere:
la m = -1;
la m = 0;
când m = 1;
la m = 2;
la m = 3.

Folosind formule generale pentru medii simple și ponderate pentru diferiți exponenți m, obținem formule particulare de fiecare tip, care vor fi discutate în detaliu mai jos.

Media aritmetică

Media aritmetică- aceasta este valoarea medie cel mai frecvent utilizată, care se obține prin substituirea m=1 în formula generală. Media aritmetică simplu are următoarea formă:

Unde X sunt valorile cantităților pentru care trebuie calculată valoarea medie; N este numărul total de valori X (numărul de unități din populația studiată).

De exemplu, un elev a promovat 4 examene și a primit următoarele note: 3, 4, 4 și 5. Să calculăm scorul mediu folosind formula medie aritmetică simplă: (3+4+4+5)/4 = 16/4 = 4.

Media aritmetică ponderat are următoarea formă:

Unde f este numărul de mărimi cu aceeași valoare X (frecvență).

De exemplu, un elev a promovat 4 examene și a primit următoarele note: 3, 4, 4 și 5. Să calculăm scorul mediu folosind formula medie aritmetică ponderată: (3*1 + 4*2 + 5*1)/4 = 16/4 = 4.

Dacă valorile X sunt specificate ca intervale, atunci punctele de mijloc ale intervalelor X sunt utilizate pentru calcule, care sunt definite ca jumătate de suma limitelor superioare și inferioare ale intervalului. Și dacă intervalul X nu are o limită inferioară sau superioară (interval deschis), atunci pentru a-l găsi, utilizați intervalul (diferența dintre limita superioară și inferioară) a intervalului adiacent X.

De exemplu, o întreprindere are 10 angajați cu până la 3 ani de experiență, 20 cu 3 până la 5 ani de experiență, 5 angajați cu mai mult de 5 ani de experiență. Apoi calculăm vechimea medie a angajaților folosind formula medie aritmetică ponderată, luând ca X punctul de mijloc al intervalelor de vechime în muncă (2, 4 și 6 ani):
(2*10+4*20+6*5)/(10+20+5) = 3,71 ani.

Media aritmetică este folosită cel mai des, dar există momente când este necesară utilizarea altor tipuri de medii. Să luăm în considerare astfel de cazuri în continuare.

Mijloc armonic

Mijloc armonic este utilizat atunci când datele sursă nu conțin frecvențele f pentru valorile individuale X, ci sunt prezentate ca produsul lor Xf. După ce am desemnat Xf=w, exprimăm f=w/X și, substituind aceste notații în formula pentru media ponderată aritmetică, obținem formula pentru media ponderată armonică:

Astfel, media armonică ponderată este utilizată atunci când frecvențele f sunt necunoscute și w=Xf este cunoscut. În cazurile în care toate w = 1, adică valorile individuale ale lui X apar o dată, se aplică formula primelor armonice medii:

De exemplu, o mașină se deplasa din punctul A în punctul B cu o viteză de 90 km/h și înapoi cu o viteză de 110 km/h. Pentru a determina viteza medie, aplicăm formula pentru armonica medie simplă, deoarece în exemplu este dată distanța w 1 =w 2 (distanța de la punctul A la punctul B este aceeași ca de la B la A), care este egal cu produsul dintre viteză (X) și timp (f). Viteza medie = (1+1)/(1/90+1/110) = 99 km/h.

Medie geometrică

Medie geometrică utilizat la determinarea modificărilor relative medii, așa cum sa discutat în subiectul Serii dinamice. Media geometrică oferă cel mai precis rezultat de mediere dacă sarcina este de a găsi o valoare a lui X care ar fi echidistantă de valorile maxime și minime ale lui X.

De exemplu, între 2005 și 2008 indicele de inflatieîn Rusia a fost: în 2005 - 1.109; în 2006 - 1.090; în 2007 - 1.119; în 2008 - 1.133. Întrucât indicele de inflație este o modificare relativă (indice dinamic), valoarea medie trebuie calculată folosind media geometrică: (1,109*1,090*1,119*1,133)^(1/4) = 1,1126, adică pentru perioada din 2005 până în 2008 preţurile au crescut anual cu o medie de 11,26%. Un calcul eronat folosind media aritmetică ar da un rezultat incorect de 11,28%.

Medie pătrată

Medie pătrată utilizat în cazurile în care valorile inițiale ale lui X pot fi atât pozitive, cât și negative, de exemplu, la calcularea abaterilor medii.

Aplicația principală a mediei pătratice este măsurarea variației valorilor X, care va fi discutată.

Cubic mediu

Cubic mediu este folosit extrem de rar, de exemplu, la calcularea indicilor de sărăcie pentru țările în curs de dezvoltare (TIN-1) și pentru cele dezvoltate (TIN-2), propuși și calculați de ONU.

Medii structurale

La cele mai des folosite medie structurală include și .

Modul statistic

Modul statistic este cea mai frecventă valoare a lui X repetată într-o populație statistică.

Dacă este dat X discret, atunci modul este determinat fără calcul ca valoare a caracteristicii cu cea mai mare frecvență. Într-o populație statistică există 2 sau mai multe moduri, atunci se consideră bimodal(dacă există două moduri) sau multimodal(dacă există mai mult de două moduri), iar acest lucru indică eterogenitatea populației.

De exemplu, compania are 16 angajați: 4 dintre aceștia au 1 an de experiență, 3 persoane au 2 ani de experiență, 5 au 3 ani de experiență și 4 persoane au 4 ani de experiență. Astfel, experiența modală Mo = 3 ani, deoarece frecvența acestei valori este maximă (f = 5).

Dacă este dat X la intervale egale, atunci intervalul modal este mai întâi definit ca intervalul cu cea mai mare frecvență f. În acest interval, valoarea condiționată a modului se găsește folosind formula:

Unde Mo este moda;
X NMo – limita inferioară a intervalului modal;
h Mo este domeniul intervalului modal (diferența dintre limitele sale superioare și inferioare);
f Mo – frecvența intervalului modal;
f Mo-1 – frecvența intervalului premergător celui modal;
f Mo+1 – frecvența intervalului următor celui modal.

De exemplu, o întreprindere are 10 angajați cu până la 3 ani de experiență, 20 cu 3 până la 5 ani de experiență, 5 angajați cu mai mult de 5 ani de experiență. Să calculăm experiența modală de muncă în intervalul modal de la 3 la 5 ani: Mo = 3 + 2*(20-10)/(2*20-10-5) = 3,8 (ani).

Dacă intervalul de intervale h este diferit, atunci în locul frecvențelor f este necesar să se utilizeze densități de interval, calculate prin împărțirea frecvențelor f la intervalul h.

Mediană statistică

Mediană statistică– aceasta este valoarea lui X, care împarte o populație statistică ordonată crescător sau descrescător în 2 părți egale. Ca urmare, o jumătate are o valoare mai mare decât mediana, iar cealaltă jumătate are o valoare mai mică decât mediana.

Dacă este dat X discret, apoi pentru a determina mediana, toate valorile sunt numerotate de la 0 la N în ordine crescătoare, atunci mediana pentru un număr par N va fi la mijloc între X cu numerele 0,5N și (0,5N+1), iar pentru un număr impar N va corespunde valorii lui X cu numărul 0,5(N+1) .

De exemplu, există date despre vârsta studenților cu fracțiune de normă într-un grup de 10 persoane - X: 18, 19, 19, 20, 21, 23, 23, 25, 28, 30 de ani. Aceste date sunt deja ordonate crescător, iar numărul lor N=10 este par, deci mediana se va situa între X cu numere 0,5*10=5 și (0,5*10+1)=6, care corespund valorilor X 5 = 21 și X 6 = 23, apoi mediana: Me = (21+23)/2 = 22 (ani).

Dacă X este dat sub formă intervale egale, apoi se determină mai întâi intervalul median (intervalul în care se termină o jumătate din frecvențele f și începe cealaltă jumătate), în care valoarea condiționată a medianei se găsește folosind formula:

Unde Eu este mediana;
X НМе – limita inferioară a intervalului median;
h Ме – domeniul intervalului median (diferența dintre limitele sale superioare și inferioare);
f Ме – frecvența intervalului median;
f Ме-1 – suma frecvențelor intervalelor care preced mediana.

În exemplul discutat anterior, atunci când se calculează vechimea modală (întreprinderea are 10 angajați cu până la 3 ani de experiență, 20 cu 3 până la 5 ani de experiență, 5 angajați cu mai mult de 5 ani de experiență), calculăm mediana vechime în serviciu. Jumătate din numărul total de muncitori este (10+20+5)/2 = 17,5 și este în intervalul de la 3 la 5 ani, iar în primul interval până la 3 ani sunt doar 10 muncitori, iar în primii doi - (10+20) =30, care este mai mult de 17,5, înseamnă că intervalul de la 3 la 5 ani este mediana. În interiorul acestuia, determinăm valoarea condiționată a medianei: Me = 3+2*(0,5*30-10)/20 = 3,5 (ani).

La fel ca și în cazul modului, la determinarea medianei, dacă intervalul intervalelor h este diferit, atunci în locul frecvențelor f este necesar să se utilizeze densități de interval, calculate prin împărțirea frecvențelor f la intervalul h.

Indicatori de variație

Variație este diferența dintre valorile valorilor X pentru unitățile individuale ale populației statistice. Pentru a studia puterea variației, se calculează următoarele indicatori de variație: , , , , .

Gama de variație

Gama de variație este diferența dintre valorile maxime și minime ale lui X disponibile în populația statistică studiată:

Dezavantajul lui H este că arată doar diferența maximă în valorile X și nu poate măsura puterea variației în întreaga populație.

Abaterea liniară medie

Abaterea liniară medie este modulul mediu al abaterilor valorilor X de la media aritmetică. Poate fi calculat folosind formula mediei aritmetice simplu- primim :

De exemplu, un elev a promovat 4 examene și a primit următoarele note: 3, 4, 4 și 5. = 4. Să calculăm abaterea liniară medie simplă: L = (|3-4|+|4-4|+|4 -4|+|. 5-4|)/4 = 0,5.

Dacă datele sursă X sunt grupate (există frecvențe f), atunci abaterea liniară medie este calculată folosind formula mediei aritmetice ponderat- primim :

Să revenim la exemplul unui elev care a promovat 4 examene și a primit următoarele note: 3, 4, 4 și 5. = 4 și = 0,5. Să calculăm abaterea liniară medie ponderată: L = (|3-4|*1+|4-4|*2+|5-4|*1)/4 = 0,5.

Coeficient liniar de variație

Coeficient liniar de variație este raportul dintre abaterea liniară medie și media aritmetică:

Folosind coeficientul liniar de variație, puteți compara variația diferitelor populații deoarece, spre deosebire de abaterea liniară medie, valoarea acesteia nu depinde de unitățile de măsură X.

În exemplul luat în considerare despre un student care a promovat 4 examene și a primit următoarele note: 3, 4, 4 și 5, coeficientul liniar de variație va fi 0,5/4 = 0,125 sau 12,5%.

Dispersia

Dispersia este pătratul mediu al abaterilor valorilor X de la media aritmetică. Dispersia poate fi calculată folosind formula mediei aritmetice simplu- primim varianță simplă:

În exemplul deja familiar pentru un student care a promovat 4 examene și a primit note: 3, 4, 4 și 5, = 4. Atunci varianța este simplă D = ((3-4) 2 +(4-4) 2 +(4-4) 2 +(5-4) 2)/4 = 0,5.

Dacă datele originale X sunt grupate (există frecvențe f), atunci varianța este calculată folosind formula mediei aritmetice ponderat- primim varianță ponderată:

În exemplul luat în considerare despre un student care a promovat 4 examene și a primit următoarele note: 3, 4, 4 și 5, calculăm varianța ponderată: D = ((3-4) 2 *1+(4-4) 2 *2+(5 -4) 2 *1)/4 = 0,5.

Dacă transformați formula de variație (deschideți parantezele în numărător, împărțiți termen cu termen la numitor și dați altele similare), puteți obține o altă formulă pentru calcularea acesteia ca diferență dintre pătratele medii și media pătratică:

Este chiar mai ușor de găsit deviație standard, dacă varianța este precalculată ca rădăcină pătrată a acesteia:

În exemplul despre student, în care mai sus, găsim abaterea standard ca rădăcină pătrată a acesteia: .

Coeficientul de variație pătratic

Coeficientul de variație pătratic este cea mai populară măsură relativă a variației:

Valoarea criteriului Coeficientul patratic de variație V este 0,333 sau 33,3%, adică dacă V este mai mic sau egal cu 0,333, variația este considerată slabă, iar dacă este mai mare de 0,333, este considerată puternică. În caz de variație puternică, se ia în considerare populația statistică studiată eterogen, iar valoarea medie este atipicși nu poate fi folosit ca indicator general al acestei populații.

În exemplul despre un elev, în care mai sus, găsim coeficientul pătratic de variație V = 0,707/4 = 0,177, care este mai mic decât valoarea criteriului de 0,333, ceea ce înseamnă că variația este slabă și egală cu 17,7%.

Media aritmetică, sau pur și simplu media, este una dintre principalele caracteristici ale unui eșantion.

In medie– o astfel de valoare a unei caracteristici, suma abaterilor de la care valorile eșantionului caracteristicii este egală cu zero (ținând cont de semnul abaterii).

Media este de obicei indicată cu aceeași literă ca și opțiunile de eșantionare, singura diferență fiind că simbolul de mediere - o bară - este plasat deasupra literei. De exemplu, dacă notăm caracteristica studiată prin X, iar valorile sale numerice sunt prin x i, atunci media aritmetică are denumirea .

Media aritmetică, ca și alte caracteristici numerice ale unui eșantion, poate fi calculată atât din datele primare brute, cât și din rezultatele grupării acestor date.

Pentru datele negrupate, media aritmetică se determină folosind următoarea formulă:

Unde n- marime de mostra;

x i- opțiuni de eșantionare.

Dacă datele sunt grupate, atunci

Unde n- marime de mostra;

k- numărul de intervale de grupare;

n i- frecvență i intervalul;

x i- valoarea mediană i- al-lea interval.

Media aritmetică este o valoare cu același nume ca și valorile caracteristicilor.

Găsirea mediei aritmetice a unei serii de variații continue este complicată dacă intervalele extreme nu sunt închise (adică arată ca „mai puțin de 10” sau „mai mult de 60”). În acest caz, se consideră că lățimea primului interval este egală cu lățimea celui de-al doilea, iar lățimea ultimului este egală cu lățimea penultimului.

Se mai numește și media aritmetică calculată folosind formula medie ponderată, subliniind că în formulă x i, se însumează cu coeficienți (greutăți) egali cu frecvențele de apariție în intervalele de grupare.

Median

Median (Meh) această valoare de atribut este numită X, când exact jumătate din valorile datelor experimentale sunt mai mici decât acestea, iar a doua jumătate sunt mai mari.

Dacă există puține date (dimensiunea eșantionului este mică), mediana este calculată foarte simplu. Pentru a face acest lucru, eșantionul este clasat, adică datele sunt aranjate în ordine crescătoare sau descrescătoare, iar în eșantionul clasat care conține n membri, rang R(numărul ordinal) al medianei este definit ca

Exemplul 7.8. Există un eșantion clasat care conține un număr impar de membri n = 9:

12, 14, 14, 18, 20, 22, 22, 26, 28.

Apoi rangul medianei:

iar mediana coincide cu al cincilea termen al seriei: Meh = 20.

Dacă eșantionul conține un număr par de membri, atunci mediana nu poate fi determinată atât de clar.

Exemplul 7.9. Există un eșantion clasat care conține 10 membri:

6, 8, 10, 12, 14, 16, 18, 20, 22, 24.

Rangul mediei se dovedește a fi:

Mediana în acest caz poate fi orice număr între 14 și 16 (termenii 5 și 6 ai seriei). Pentru certitudine, se obișnuiește să se ia în considerare media aritmetică a acestor valori ca mediană, adică:

Dacă trebuie să găsiți mediana pentru datele grupate, procedați după cum urmează. În primul rând, intervalul de grupare care conține mediana este găsit prin numărarea frecvențelor acumulate sau a frecvențelor relative acumulate.

Mediana va fi intervalul în care frecvența acumulată este mai întâi mai mare sau frecvența relativă acumulată este mai mare de 0,5. În intervalul median, mediana este determinată de următoarea formulă:

unde este limita inferioară a intervalului median;

h eu- lăţimea intervalului median;

Frecvența cumulativă a intervalului care precede mediana,

- frecvenţa intervalului median.

Exemplul 7.10. Găsiți mediana pentru seria de intervale din Exemplul 6.3.

Mărimea eșantionului este P = 50 + 32 + 26 + 11 + 5 = 124.

Să găsim intervalul median - intervalul în care frecvența acumulată pentru prima dată se dovedește a fi mai mare sau frecvența relativă acumulată este mai mare de 0,5.

Deoarece frecvența cumulativă a celui de-al doilea interval este 50 + 32 = 82 > 62, atunci intervalul (30; 40) va fi median și = 30, h eu = 40 – 30 = 10, = 50, = 32.

Mediana este de obicei ușor diferită de media aritmetică. Acest lucru se întâmplă întotdeauna când există o formă asimetrică a distribuției empirice.

Modă

Modă ( lu) reprezintă valoarea atributului care apare cel mai frecvent în eșantion.

Serialul se numește unimodal, dacă are o singură valoare modală și multimodal, dacă există mai multe valori caracteristice care apar la fel de des. Pentru o serie multimodală, modul nu este calculat.

Pentru o serie discretă, modul se găsește prin definiție.

Se numește intervalul de grupare cu cea mai mare frecvență modal.

Pentru a determina modul într-o serie de intervale, se utilizează următoarea formulă:

unde este limita inferioară a intervalului modal;

h- lăţimea intervalului de grupare;

n Lu- frecvenţa intervalului modal;

nMo-1- frecvenţa intervalului premergător celui modal;

nMo+1- frecvenţa intervalului următor celui modal.


Închide