Christian Burkhart

3 august 2018

burkhart

Metodele statistice sunt acolo pentru a găsi răspunsuri la întrebări. Medicamentul X este mai bun decât medicamentul Y? Sau, este dieta P mai bună decât dieta S? Toată lumea știe astfel de întrebări, acestea sunt adesea întâlnite în conversațiile de zi cu zi și încă nu se mișcă în domenii în care laici statistici ar prefera să părăsească sala de îndată ce lectorul aruncă în jurul unor termeni precum parametrii statistici, distribuția eșantionului sau abaterea standard.

Pentru a răspunde la astfel de întrebări de diferență (este X mai bun decât Y), sunt necesare metode statistice. Aceste proceduri nu trebuie deloc complicate. Imaginați-vă că doriți să știți dacă dieta 1, dieta 2 sau dieta 3 este mai bună pentru a pierde în greutate. Împărțiți 60 de persoane în 3 grupuri fiecare (20 de persoane pe grup). Grupul 1 trebuie să treacă prin dieta 1, grupul 2 trebuie să treacă prin dieta 2 și grupul 3 trebuie să treacă prin dieta 3. Fiecare grup timp de exact 6 săptămâni. Înainte de începerea experimentului, fiecare este cântărită din nou. La sfârșitul experimentului, toată lumea trebuie să fie din nou pe cântar. Acum, care dietă este cea mai bună? Cel mai simplu răspuns ar fi grupul care a slăbit cel mai mult. Hai să verificăm.

R, R-Studio și Tidyverse

Voi parcurge toate analizele cu R imediat. R este un limbaj de programare care a fost scris pentru evaluări statistice. Dacă doriți să participați, aveți nevoie de R și R-Studio. Preluăm setul de date pentru acest exemplu de pe acest site web (descărcați fișierul CSV pe subiectul dietei). Dacă nu ați făcut-o încă, instalați mai întâi pachetul tidyverse și pachetul gghighlight:

Apoi putem încărca pachetele și le putem citi în înregistrarea de date:

Dacă sunteți nou în R, asigurați-vă că determinați directorul de lucru corect înainte de a citi datele. Cel mai simplu mod este să introduceți următoarea comandă în consolă și să selectați folderul în care se află fișierul stcp-Rdataset-Diet.csv.

Datele ar trebui acum încărcate și le puteți vizualiza cu o privire:

Acum ne preocupă doar două dintre aceste variabile: greutatea 6 săptămâni și dieta. Dieta nu este altceva decât o variabilă care conține numerele 1, 2 și 3. 1 reprezintă dieta 1 și așa mai departe. weight6weeks indică greutatea oamenilor după 6 săptămâni.

Cu toate acestea, ne interesează diferența de greutate după 6 săptămâni. Pentru a face acest lucru, creăm o nouă variabilă:

mutarea este o funcție pe care o putem folosi pentru a crea noi variabile.

Acum suntem gata să aflăm dacă dietele au acum diferite grade de succes.

Dieta face diferența? O modalitate simplă de a răspunde la întrebare

Care ar fi cel mai simplu mod de a verifica dacă grupurile sunt diferite? Comparăm valorile medii.

Sau, mai simplu spus, adunăm toate valorile și împărțim această sumă la numărul de valori. În primul rând, să găsim media celor trei grupuri.

Mmmmh, ok Grupul 3 pare să fi slăbit cel mai mult. Deci este dieta 3 cea mai bună? Sau, altfel spus, de ce diferență este mai bună o dietă decât alta? Sau, nu poate fi pur și simplu că diferențele sunt supuse fluctuațiilor aleatorii? Gândește-te singur la asta. Acum, dacă media Dietei 3 ar fi -4, ați spune că dieta este mai bună decât cealaltă? Ce se întâmplă dacă valoarea medie a fost -3,5? Observați că decizia este puțin arbitrară. De obicei, avem nevoie de o valoare limită pentru a determina dacă dieta face diferența. Determinăm această valoare limită folosind alte metode.

O altă metodă de determinare a diferențelor între grupuri

În loc să luăm mijloace pentru a afla dacă grupurile diferă, am putea întreba, de asemenea, dacă aceste diferențe sunt supuse fluctuațiilor statistice aleatorii sau dacă este de fapt puțin probabil ca 3 grupuri să fie atât de diferite între ele. Pentru a înțelege ce vreau să spun prin asta, un mic exemplu.

Un exemplu de cub

Să presupunem că aveți o matriță pe 6 fețe. Vrei să știi dacă acest zar arată într-adevăr fiecare număr cu aceeași probabilitate. Aceasta înseamnă că fiecare număr ar trebui să apară cu o (1/6 * 100) procent, adică 16,67% probabilitate. Cu toate acestea, dacă aruncăm zarurile de 6 ori, este foarte puțin probabil ca fiecare număr să apară exact o dată. Apariția numerelor este supusă anumitor fluctuații statistice. Cu toate acestea, dacă aruncăm de 10.000 de ori, putem presupune că fiecare număr apare aproximativ 16,67%.

Un cub nemanipulat

Mai întâi rulăm o rolă nemanipulată de 10000 de ori:

Cu set.seet (100) obțineți aceleași rezultate ca și mine. ADEVĂRAT înseamnă că avem șansa să rulăm numerele de la 1 la 6 de fiecare dată.

Cât de des ar trebui să apară fiecare număr? Exact de 1667 de ori aproximativ. Deoarece fiecare număr are șanse egale de apariție, împărțim 10000 la 6 și obținem 1667 (rotunjit). Obținem valori similare înapoi de la R:

Vedem că nu fiecare număr a fost rulat exact de 1667 de ori, dar sunt de așteptat aceste fluctuații statistice. Dacă am efectua acest experiment de un milion de ori mai degrabă decât 10.000, am obține aproape exact aceeași probabilitate pentru fiecare cub. Cuburile reale, pe de altă parte, nu sunt perfecte. Chiar și o margine ruptă ar putea însemna că unele numere sunt mai susceptibile de a fi rulate.

Un cub trucat

Ce se întâmplă acum dacă cubul a fost manipulat? Cum putem determina dacă diferențele de apariție a numerelor nu sunt supuse fluctuațiilor statistice aleatorii (ca în cazul aruncărilor ne-manipulate), dar sunt sistematice? Pentru a răspunde la această întrebare, repetăm ​​experimentul de 1000 de ori. De 1000 de ori Să aruncăm zarurile de 100 de ori și să vedem cât de des apare numărul 4 în el. Statistic, ar trebui să presupunem că numărul patru apare de aproximativ 1667 de ori cel mai mult.

Această funcție este mai complicată. Puțin cu puțin:

  • 1: 1000: Creăm un vector cu numerele de la 1 la 1000
  • map_dbl: Pentru fiecare dintre aceste numere de la 1 la 1000 rulăm o funcție peste ea
  • eșantion (1: 6, 1000, ADEVĂRAT): Lansăm zarurile de 100 de ori
  • tabel (.): Putem afișa frecvențele numerelor din aceste 100 de aruncări
  • .[nume (.) == 4]: numărăm cât de des apare numărul 4 în aceste frecvențe
  • tabel: Din cele 1000 de experimente, numărăm cât de des au apărut cele 4 în fiecare dintre experimente.

Acum putem vizualiza această distribuție:

Ok, se pare că cu 100 de aruncări este foarte probabil să obții numărul 4 de 16 sau 17 ori. Primirea numărului 4 27 sau chiar de 6 ori este extrem de puțin probabil dacă presupunem că cubul nu a fost manipulat.

Ceea ce vedeți aici este o distribuție de probabilitate. Din distribuție putem determina cât de probabil va apărea un eveniment (apariția numărului 4 din 100 aruncări). Pe baza graficii pe care le-am simulat, putem spune că un cub a fost probabil manipulat dacă 4 apare de 27 de ori.

Distribuție binomială

Putem folosi distribuția de probabilitate care tocmai a fost creată pentru a determina dacă cubul a fost manipulat. De exemplu, dacă am primi numărul 4 doar de 6 ori din 100 de aruncări, ar fi foarte puțin probabil ca matrița să fie modificată. Și exact așa testăm întrebările științifice. Nu ne întrebăm dacă întrebarea noastră științifică este corectă, ci mai degrabă dacă evenimentul nostru (diferențele de slăbire între diete) este puțin probabil dacă nu acceptăm diferențe.

Nu trebuie să simulăm aceste distribuții de probabilitate de fiecare dată. Au fost deja calculate. Pentru exemplul cubului, este logic să folosiți o distribuție binomială. În principiu, nimic altceva nu este distribuția noastră de probabilitate. Cu o distribuție binomială testăm probabilitatea pentru n evenimente cu o anumită probabilitate. De exemplu: Cât de probabil este că cu 5 aruncări vom arunca numărul 4 de 3 ori?

Acum putem reprezenta distribuția noastră de probabilitate ca o distribuție binomială:

Deci, când începem să credem că cubul nu este probabil un cub normal (dar a fost manipulat)? Anterior am stabilit în mod arbitrar o limită. Oamenii de știință fac un lucru foarte asemănător.

Dacă probabilitatea unui eveniment este mai mică de 5% pe baza unei distribuții de probabilitate, un eveniment este puțin probabil.

În distribuția noastră, acestea sunt următoarele evenimente:

Deci, dacă aruncăm numărul 4 de 22 ori sau mai mult, trebuie să presupunem că nu este un zar normal, ci că zarurile au fost probabil manipulate. Vorbim apoi despre un eveniment semnificativ.

Distribuția F.

Cu distribuția binomială, testăm dacă este probabil sau puțin probabil să apară un anumit număr de evenimente. Cu distribuția F testăm dacă diferențele dintre două varianțe sunt supuse fluctuațiilor statistice sau dacă sunt sistematice. Pentru a înțelege acest lucru, trebuie mai întâi să înțelegem ce se înțelege prin varianță.

Varianța

Varianța este o măsură statistică pe care o putem folosi pentru a arăta cât variază o variabilă. De exemplu, oamenii variază în greutate. Unii oameni sunt dificili, alții sunt ușori. Să calculăm formula după cum urmează:

Cu alte cuvinte, adăugăm abaterile pătrate ale valorilor individuale ale greutății cu valoarea medie a eșantionului și împărțim această sumă la n - 1. Este întotdeauna foarte practic să vizualizăm grafic asemenea idei matematice.

Linia orizontală reprezintă media eșantionului nostru variabil. Fiecare punct este greutatea fiecărei persoane după 6 săptămâni.

În acest exemplu, varianța nu este altceva decât aria medie a acestor pătrate împărțită la numărul de pătrate - 1. Până acum, am lăsat-o deschisă, motiv pentru care nu împărțim pur și simplu aceste pătrate la numărul de pătrate, ci la numărul de pătrate minus 1 Acest lucru se datorează faptului că tindem să subestimăm varianța unei populații atunci când atragem doar câțiva oameni dintr-un eșantion (aici numărul de persoane care participă la experimentul nostru). Această corecție se mai numește și corecția lui Bessel.

Varianța pentru greutatea noastră variabilă 6 săptămâni arată grafic după cum urmează:

Din nou trebuie doar să împărțim suma ariei acestor pătrate la numărul de pătrate minus 1 și să obținem varianța.

Cu cât aria acestor pătrate este mai mică, cu atât este mai mică varianța variabilei. Cu alte cuvinte, cu cât valorile individuale se abat de la valoarea medie a variabilei, cu atât este mai mică varianța.

În R putem calcula această varianță după cum urmează:

Ambele comenzi produc o varianță de 79.64677.

Coeficient de variație

Putem compara varianțele între ele formând un coeficient de două varianțe. De exemplu, am putea compara varianța primului grup de dietă cu varianța celui de-al doilea grup de dietă.

Dacă valoarea este mai mare de 1, varianța primului grup ar fi mai mare decât varianța celui de-al doilea grup. Dacă valoarea este mai mică de 1, varianța primului grup este mai mică decât varianța celui de-al doilea grup.

Valoarea F rezultă dintr-un astfel de coeficient. Dar, în loc să comparăm în mod arbitrar varianțele cu un coeficient, comparăm de obicei o varianță sistematică cu una nesistematică. O varianță sistematică apare de obicei prin manipulări pe care noi înșine le producem. De exemplu, am atribuit 3 diete celor 60 de persoane. Această atribuire a fost sistematică. Varianța nesistematică este varianța dată de date. De exemplu, varianța tuturor datelor în jurul mediei variabilei.

Valoarea F

Valoarea F este coeficientul varianței dintre cele 3 grupuri de diete (SSB) și varianța nesistematică din datele noastre (SSW).

Suma pătratelor între (SSB)

Calculăm varianța dintre grupuri scăzând media grupurilor din media totală a reducerii greutății variabile, pătrând-o și calculând-o de ori numărul de cazuri.

Pătratele sunt greu de văzut, deoarece scalarea este atât de diferită. Linia din mijloc indică valoarea medie a variabilei, punctele sunt valorile medii ale grupurilor individuale. Există atât de multe puncte câte persoane sunt în fiecare grup. Dacă tragem pătratele, arată astfel:

Trebuie să adunăm din nou aceste pătrate.

Suma pătratelor în interior (SSW)

Varianța intragrup nu este altceva decât suma varianței intragrup.

Valoarea F

Până acum am adăugat doar pătratele, dar nu am calculat încă nicio varianță. Pentru aceasta trebuie să împărțim SSB și SSW la un numitor:

  • Pătrate medii între (MSB): SSB/(k - 1). K sunt numărul de grupuri, aici 2.
  • Pătrate medii în (MSW): SSW/(n - k). N este numărul de persoane din toate grupurile, aici 78

Valoarea F este acum formată din coeficientul dintre MSB și MSW.

Dacă crezi că aș fi potrivit, aș putea face o treabă pentru tine sau mă vei dori în echipa ta, trimite-mi un mesaj. Mă dezvolt într-un mediu care îi pasă de învățarea elevilor și care dorește să ofere experiențe de învățare online bine concepute sau vizualizări de date.

Despre mine

Sunt un proiectant de instruire, cu cunoștințe solide în dezvoltarea web, învățarea online și vizualizarea datelor.

a lua legatura

Nu fi timid să mă contactezi. Aștept cu nerăbdare să aud de la tine.