To cite this paper / Pentru a cita lucrarea:
Petrisor AI (1999), Notiuni de biostatistica si epidemiologie, cu aplicatii in ecologie, Catedra UNESCO-Cousteau de ecologie sistemica si managementul mediului, Facultatea de biologie, Universitatea Bucuresti (cursul "Biostatistica", titular: conf. dr. Liviu Dragomirescu), Bucuresti, Romania, 4 ianuarie 1999

Notiuni de

biostatistica si epidemiologie,

cu aplicatii în ecologie


Notite de curs


Asistent universitar Alexandru-Ionut Petrisor

Universitatea din Carolina de Sud

Columbia, Carolina de Sud, SUA


Decembrie 1999


Regresia lineara multipla


Baza teoretica. Particularitati si aplicatii


1. Corelatie


Legatura dintre doua variabile calitative este numita asociere. În cazul variabilelor tip masuratoare, aceasta legatura se numeste corelatie.

2. Regresie


Regresia este utilizata pentru a exprima o variabila aleatoare, numita în literatura de specialitate "variabila dependenta" si notata Y, ca o functie de alte p variabile, numite "variabile independente" si notate Xi, unde i = 1, 2, . . . , p:

Y = f (Xi)


Regresia reprezinta o metoda statistica de a explica variabilitatea unei variabile aleatoare si/sau de a prezice o valoare a variabilei respective. În ultimul caz, se vorbeste despre predictie.

2. 1. Regresia lineara simpla

Numele de "lineara" denota presupunerea ca variabila dependenta, Y, poate fi scrisa ca o combinatie lineara a variabilelor independente Xi. Numele de "simpla" se refera la faptul ca, în acest caz, exista o singura variabila independenta.

Regresia lineara simpla presupune îndeplinirea a patru conditii, care pot fi reunite sub forma cuvântului "line" (linie, în limba engleza):
L - variabila dependenta, Y, reprezinta o combinatie lineara a variabilelor independente, Xi
I - independenta perechilor de observatii (Xi, Yi)
N - normalitatea erorilor
E - egalitatea dispersiilor (ultimele doua concepte vor fi explicate în continuare) .

Mai exact, modelul care se afla "în spatele" regresiei lineare simple poate fi prezentat sub forma ecuatiei:

Y = b0 + b1 X + e, unde:


b0 reprezinta ordonata la origine;
b1 este panta liniei de regresie,
e reprezinta abaterea variabilei dependente fata de valoarea teoretica (eroarea) .

Pe baza acestui model, ultimele doua presupuneri care stau la baza regresiei lineare simple pot fi exprimate matematic astfel:
e~ N (0,s2), adica, în limbaj curent, eroarea este o variabila aleatoare distribuita normal, cu media 0 si dispersia egala cu dispersia variabilei dependente (aceasta este s2) .
O formula sintetica, cuprinzând toate conditiile, este: Y ~ N ( (b0 + b1 X), s2)

Exemplu în ecologie.

La anumite organisme, rata de dezvoltare creste linear cu cresterea temperaturii. În general, este greu de gasit în ecologie un model linear teoretic. Legile caracteristice se bazeaza pe o dependenta functionala de tipul legii tolerantei.

2. 2. Regresia lineara multipla

Regresia lineara multipla reprezinta o extensie a regresiei lineare simple, în sensul ca relatia dintre variabila dependenta Y si oricare variabila independenta Xi este descrisa de modelul prezentat în cazul regresiei lineare simple.

Modelul regresiei lineare multiple este:

Y = b0 + b1 X1 + ... + bi Xi + ... + bp Xp + e


b0 este, si în acest caz, ordonata la origine;
Coeficientii bi pot fi interpretati ca pante ale dreptei de regresie Y = f (Xi) considerând ca toate valorile Xj (cu j<>i) ramân constante.

Regresia lineara multipla se bazeaza pe aceleasi presupuneri ca si regresia lineara simpla.
Programele statistice permit, în cazul regresiei lineare multiple, testarea urmatoarelor ipoteze:

I. H0: bi (ią 0) = 0, sau, altfel spus, variabila dependenta Y nu depinde de nici una dintre variabilele independente Xi (ipoteza alternativa fiind: exista cel putin un bią0) .
În acest caz, se foloseste un test F (numit testul F global) , care poate fi definit simplistic sub forma:
F = procentul de variatie explicata de model / procentul de variatie datorat fluctuatiilor pur aleatoare

Observatie: testarea acestei ipoteze este echivalenta cu testarea H0: variatia combinatiei de Xi alese nu explica variatia variabilei Y (ipoteza alternativa fiind: variatia Y poate fi explicata prin variatia combinatiei Xi alese) .

II. H0: variabila Xj nu este necesara, dat fiind ca variabilele Xi (iąj) sunt incluse în model (ipoteza alternativa fiind: Xj este necesar în modelul pentru predictia valorilor Y) .
În acest caz, se foloseste un test t (Student) partial, calculat pe baza variatiei explicate de Xj, în afara de ceea ce este explicat de restul variabilelor.

În regresia lineara multipla, o atentie deosebita trebuie acordata urmatoarelor elemente:

a. Puncte cu influenta puternica (denumite în limba engleza "high leverage points") : sunt perechi (Xi, Yi) cu un impact pronuntat asupra liniei de regresie

b. Valori aberante (numite în limba engleza "outliers") - sunt valori anormale ale Y pentru un X dat; în studiul regresiei, pentru îmbunatatirea estimarii coeficientilor de regresie, aceste valori trebuie eliminate.

c. Colinearitate: acest termen denota situatia în care una dintre variabilele independente poate fi scrisa ca o combinatie lineara a celorlalte, ceea ce determina cresterea variantei coeficientilor estimati si scaderea preciziei estimatiei.

d. În unele cazuri, pentru îndeplinirea conditiilor regresiei lineare multiple, în special a normalitatii variabilei dependente, aceasta este supusa unor transformari matematice (logaritmare, extragerea radacinii patrate etc.) .

e. "Confounder". Acest termen este folosit în limba engleza pentru a defini o terta variabila, asociata atât cu variabila dependenta Y, cât si cu una sau mai multe variabile dependente, având ca efect reducerea preciziei estimatiei coeficientilor de regresie, si care pune sub semnul îndoielii validitatea rezultatelor privind relatia dintre Y si variabilele independente.

2. 3. Cazuri speciale ale regresiei lineare multiple

a. Modelarea interactiunii
Interactiunea a doua variabile independente (X1 si X2) este definita ca situatia în care efectul relativ al unei a dintre variabilele independente asupra variabilei dependente variaza pentru diferite nivele ale celeilalte variabile independente. Modelul matematic este, în acest caz:

Y = b0 + b1 X1 + b2 X2 + b3 X1 X2


În cazul în care exista interactiune între X1 si X2, coeficientii b1, b2 si b3 nu mai pot fi interpretati ca pante ale dreptelor de regresie corespunzatoare.
Testarea interactiunii se face testând ipoteza nula b3 = 0 (versus b3ą0) .

b. Regresia polinomiala
Se bazeaza pe un model de forma:

Y = b0 + b1 X + b2 X^2 + . . . + bp X^p + e


c. Regresia folosind variabile-indicator (numite în limba engleza "dummy variables")
Fie o variabila dichotomica (cu doua nivele - da/nu, înalt/scund etc. ) , V. O variabila indicator, I, poate fi definita astfel:
I = 0, daca V se afla la nivelul "1"
I = 1, daca V se afla la nivelul "2"
Modelul matematic este:

Y = b0 + b1 I + e, sau, explicitat:


Y = b0 + e, daca V se afla pe nivelul "1" (nivelul de referinta) ;
Y = b0 + b1 + e, daca V se afla pe nivelul "2"

d. Analiza covariantei (ANACOVA)
În acest caz, Y poate fi scris ca o fuctie de variabile tip masuratoare, dar si calitative (de regula, folosind variabile-indicator) :

Y = b0 + b1 I + b2 X + b3 I X + e


Acest model presupune existenta unei interactiuni între variabila X (tip masuratoare) si o variabila dichotomica, exprimata prin variabila-indicator I.
Un astfel de model devine:
Y = (b0 + b1) + (b2 + b3) X + e, pentru nivelul "2" al variabilei dichotomice, si
Y = b0 + b2 X + e, pentru nivelul de referinta ("1") .
În acest caz, testarea interactiunii se face testând H0: b3 = 0 (versus b3ą0) . Aceasta este echivalent cu a testa H0: panta dreptei de regresie Y = f (X) este aceeasi pentru cele doua niveluri ale variabilei dichotomice (alternativa fiind, în acest caz, reprezentata de una dintre urmatoarele situatii:
* b3ą0 (pantele difera în functie de nivelurile variabilei dichotomice, adica exista interactiune)
* oricare dintre situatiile particulare în care este investigata o relatie de ordine între pantele celor doua drepte (test unilateral) :b3 >0 saub3<0.
Daca nu exista interactiune, modelul precedent este rescris sub forma:
Y = b0 + b1 I + b2 X + e, care devine:
Y = (b0 + b1) + b2 X + e, pentru nivelul "2" al variabilei dichotomice, si
Y = b0 + b2 X + e, pentru nivelul de referinta ("1") .
Acest ultim model este folosit pentru a testa egalitatea ordonatelor în origine.

2. 4. Selectia modelelor

Selectia modelelor se face cu un scop bine determinat; uneori, se doreste un model pentru corelatie, adica un model care sa stabileasca setul de variabile independente Xi care explica variatia variabilei dependente. În alte situatii, se urmareste predictia, adica estimarea cât mai precisa a valorilor Y pentru combinatii bine determinate ale variabilelor independente. Cele mai bine cunoscute criterii sunt:
* valoarea coeficientului de corelatie multipla, R2; în cazul regresiei lineare multiple, acesta indica procentul de variabilitate explicata de model din variabilitatea totala.
* varianta estimata (de un parametru numit MSE = "mean square error" - abaterea patratica medie) .
Programele statistice actuale permit selectia automata a modelelor, pe baza unor criterii specificate de fiecare procedura în parte.

Exemplu în ecologie

Exemplul urmator provine dintr-un studiu efectuat în 1998, împreuna cu Departamentul pentru igiena si controlul calitatii mediului ("State Department of Health and Environmental Control") din Carolina de Sud. Acest studiu a urmarit modelarea concentratiei de compusi bifenil-policlorurati (PCB, abrevierea provenind din limba engleza - sunt substante cu potential cancerigen) din tesuturile mai multor specii de pesti din lacul Hartwell (Carolina de Sud) în functie de specie, statia de prelevare, sex, lungime, masa, concentratia lipidelor (PCB sunt compusi liposolubili) si raportul dintre masa si lungime. Aceasta ultima variabila a fost introdusa datorita unui demers matematic de a aproxima forma corpului pestilor cu un cilindru.

Un prim obiectiv a fost reprezentat de selectia celui mai bun model pentru a prezice concentratia PCB în functie de celelalte variabile. Analiza statistica a fost realizata folosind programul SAS(r), iar selectia modelelor s-a bazat pe nivelul de semnificatie corespunzator testului partial t asociat cu fiecare variabila prezenta în model. Astfel, acest program calculeaza, pentru fiecare valoare t, probabilitatea de a respinge, pentru valoarea obtinuta, ipoteza nula, atunci când aceasta este adevarata. Programele statistice denumesc aceasta valoare "p-value" (valoare p) , iar ipoteza nula poate fi respinsa daca valoarea calculata a testului statistic depaseste valoarea tabelata sau daca valoarea p corespunzatoare este mai mica decât nivelul de semnificatie ales.

Un prim model a inclus statia de prelevare, anul, specia, sexul, lungimea, masa si concentratia lipidelor, exprimata procentual. În acest caz, valoarea p corespunzatoare variabilei "SEX" a fost 0,4316 >0,05. În acest caz, ipoteza nula ("variabila "SEX" nu este necesara în model, data fiind prezenta celorlalte variabile") nu a putut fi respinsa, iar variabila "SEX"a fost eliminata.
Aceste rezultate conduc la urmatoarea ecuatie (valorile coeficientilor de regresie sunt rotunjite la doua zecimale) :
Concentratia PCB = 63,19 - 0,55 (Anul colectarii - 1990) - 0,02 (Lungimea pestelui) + 0,01 (Masa pestelui) + 0,18 (Concentratia de lipide) - 4,05 (Masa pestelui / Lungimea pestelui)

Sa presupunem, de exemplu, ca avem de-a face cu un peste prins în 2000, masurând 30 cm. , cântarind 1 kg. (adica 1000 g) , iar masuratorile de laborator au indicat o concentratie de lipide de 10%. Conform ecuatiei precedente, concentratia PCB în tesuturile pestelui respectiv este:
C = 63,19 - 0,55 (2000 - 1990) - 0,02 (30) + 0,01 (1000) + 0,18 (0,1) - 4,05 (30/1000) = 66,99 (mg/ml)

În plan teoretic, modelul indica o tendinta de scadere a concentratiei în timp (coeficientul b corespunzator variabilei "YEAR" este negativ) .

Studiul prezentat este doar una din aplicatiile regresiei lineare multiple în ecologie. În încheierea acestui capitol, propunem urmatoarea aplicatie:

Pe baza datelor prezentate în ultimul exemplu, sa se calculeze concentratia PCB din tesuturile unui peste prins în anul 1995, masurând 50 cm. si cântarind 2000 g. , daca masuratorile de laborator au determinat o concentratie a lipidelor în tesuturi de 20%.

(Raspuns: 79,24 mg/ml)

Tipuri de studii epidemiologice


Avantaje si dezavantaje caracteristice fiecarui tip


Studiile epidemiologice urmaresc:
* descrierea aparitiei si raspândirii spatiale a bolilor
* investigarea etiologiei bolilor (cauzele si modul de propagare)
* descrierea factorilor de risc si a celor cu valoare de diagnostic sau prognoza
* prevenirea bolilor

În cele ce urmeaza, ne vom referi la investigatii care urmaresc stabilirea relatiei dintre un factor de risc F si o boala B. Acesta reprezinta, de fapt, un caz particular; exista studii în care factorul B are, de fapt, un efect curativ asupra unei boli B, sau în care evenimentul de interes (notat B) nu este o boala, ci un rezultat "pozitiv".

1. O prima categorie, numita în limba engleza "intervention studies", reuneste acele studii în care investigatorul manipuleaza un anumit factor si masoara rezultatele produse de modificarea acestuia. Un astfel de studiu presupune existenta a cel putin doua loturi (unul de control si unul supus modificarii factorului investigat) , si alocarea în mod aleator a pacientilor la cele doua loturi.

Avantaje

* variabilele externe pot fi controlate relativ usor
* aduce cele mai bune dovezi în sprijinul legaturilor cauzale
* permite alocarea subiectilor în mod aleator
* permite stabilirea secventei temporale corecte (ordinea celor doua evenimente: expunerea la un anumit factor de risc si producerea unui eveniment de interes)

Dezavantaje

* imposibilitatea controlului comportamentului subiectilor
* constrângeri de ordin etic privind expunerea la un factor de risc
* cost relativ ridicat

2. Studii prospective (de cohorta)

Subiecti aparent sanatosi (în cele ce urmeaza, termenul de "sanatos" se refera exclusiv la absenta bolii B; astfel, într-un studiu în care se studiaza cancerul, un pacient suferind de tuberculoza este "sanatos" din punctul de vedere al bolii investigate) sunt clasificati initial pe baza prezentei unui anumit factor de risc si urmariti de-a lungul unei perioade de timp, la sfârsitul careia se determina statutul medical (sau producerea unui eveniment de interes) .

Avantaje

* permit cea mai buna estimare a riscului de a contracta o anumita boala, data fiind prezenta unui anumit factor de risc
* se evita erorile de estimare a riscului datorate supravietuirii selective sau memoriei selective

Dezavantaje

* sunt scumpe si dificil de organizat
* nu sunt adesea posibile în cazul bolilor rare
* sunt supuse erorilor de estimare a riscului datorita retragerii participantilor sau investigatorilor
* perioada de latenta a anumitor boli (cum ar fi cancerul) poate fi foarte mare
* în cele mai multe cazuri, nu permit studiul a mai mult de un factor de risc.

Bolnavi cu factorul de risc prezent - A
Sanatosi cu factorul de risc prezent - B
Bolnavi cu factorul de risc absent - C
Sanatosi cu factorul de risc absent - D

În acest caz, riscul relativ se poate calcula direct:

RR = (A / (A + B) ) / (C / (C + D) ) , si are urmatoarea interpretare:


Subiectii care prezinta factorul de risc (F) au un risc de (RR) ori mai mare de a contracta boala (B) decat subiectii care nu prezinta factorul F. În cazul în care RR< 1, se spune ca factorul F are un efect protector.

Studiile de cohorta retrospective: pe baza înregistrarilor medicale, se poate detecta expunerea la un factor de risc, apoi se poate determina statutul medical (bolnav-sanatos) .

3. Studiile retrospective (numite în limba engleza "case control" - caz-control)

Subiectii sunt selectionati pe baza statutului medical (bolnavi - "cazuri" sau sanatosi - grup de "control") , si, pe baza unui interviu sau a înregistrarilor medicale, se determina expunerea în trecut la un anumit factor de risc.

În acest caz, riscul relativ nu poate fi calculat direct (deoarece proportia de cazuri din esantionul studiat nu corespunde în mod necesar cu proportia de cazuri din populatie) , dar este estimat indirect de "raportul sanselor" ("odds ratio", în limba engleza) , calculat cu ajutorul formulei:

OR = AD / BC, si având urmatoarea interpretare:


Sansa expunerii la factorul de risc (F) este de (OR) mai mare în cazul celor care sufera de boala B fata de sansa de a fi fost expus la factorul F în cazul persoanelor sanatoase.

Avantaje

* sunt relativ ieftine si rapide
* permit investigarea mai multor factori de risc simultan
* sunt cele mai potrivite studii în cazul bolilor rare sau care necesita îngrijire medicala

Dezavantaje

* precizia estimarii riscului relativ scade datorita erorilor sistematice produse de supravietuirea selectiva, memoria selectiva sau faptului ca grupul de control nu este reprezentativ pentru populatia de origine sau pentru grupul "cazurilor"
* secventa temporala nu poate fi întotdeauna precis stabilita (nu se poate sti exact daca boala B este o consecinta a expunerii la factorul F, sau daca nu cumva prezenta factorului F nu este o consecinta (un simptom) al bolii B)
* riscul relativ este supus unui proces de estimare, si nu calculat direct
* nu se poate studia decât un singur eveniment de interes (o singura boala)

Uneori, se practica gruparea cazurilor si a pacientilor din grupul de control (situatie denumita în limba engleza "matched design") în functie de apartenenta la aceeasi categorie a unei variabile externe, presupusa a produce erori în estimarea riscului relativ datorita asocierii cu boala B si factorul de risc F. În literatura de specialitate anglo-saxona, termenul de "confounder" este folosit pentru a defini o terta variabila, asociata atât cu evenimentul de interes (F) , cât si cu factorul de risc (F) , si care nu reprezinta o treapta intermediara în mecanismul biologic prin care factorul F conduce la aparitia bolii B, si are ca efect reducerea preciziei estimatiei riscului relativ, punând sub semnul îndoielii validitatea rezultatelor privind relatia dintre F si B.

4. Studii "încrucisate" (numite în limba engleza "cross-sectional studies")

Determinarea statutului medical si a prezentei sau absentei factorului de risc se realizeaza simultan. În acest caz se calculeaza "raportul prevalentelor" ("prevalence ratio", în limba engleza) , adica raportul dintre prevalenta bolii B în rândul celor expusi la factorul F raportata la prevalenta bolii B în rândul celor care nu prezinta factorul F:

PR = (A / (A + B) ) / (C / (C + D) )


Avantaje

* descriu cel mai bine problema investigata
* se bazeaza pe întreaga populatie
* sunt utile pentru activitatea serviciilor sanitare
* sunt cele mai ieftine si rapide
* sunt utile si importante în determinarea starii de sanatate a populatiei la un moment dat

Dezavantaje

* nu ofera o masura a riscului relativ
* nu permit determinarea secventei temporale (cauzalitatii)
* precizia estimatiei este afectata de supravietuirea selectiva si de memoria selectiva

5. Studiile ecologice

Termenul de "ecologice" se refera la abordarea asocierii dintre o boala B si un factor de risc F la nivel populational si nu individual. Sunt studii încrucisate (în majoritatea cazurilor) si folosesc date agregate. Studiile ecologice încearca sa raspunda întrebarii:"Exista vreo legatura (asociere, corelatie) între frecventa ridicata a expunerii la un anumit factor de risc F în cazul unor grupuri sau regiuni si frecventa ridicata a unei boli B în cazul acelorasi grupuri sau regiuni?"

Limite

* asociatiile identificate pot fi ireale, sau validitatea situatiei identificate la nivelul populatiei poate fi contestata la nivelul individual
* prezenta a numeroase variabile externe ce pot avea rolul de "confounder"

Aplicatie. Acest exemplu reprezinta rezultatul unui studiu real, efectuat în 1999. Pentru 6705 mame (numarul de participanti a fost initial mai mare, dar datele pentru unii subiecti au fost eliminate pe baza a diferite criterii) , s-a urmarit legatura dintre fumatul la mame si sindromul Down la noii nascuti. Pentru copii au fost utilizate datele din certificatele de nastere, verificând prezenta sau absenta sindromului Down, si urmarindu-se apoi daca mamele au fost sau nu fumatoare. Urmatorul tabel prezinta doar rezultatele obtinute pentru mamele de culoare (1024 subiecti) .

>Mame fumatoare cu copii suferinzi de sindromul Down - 23
Mame fumatoare cu copii sanatosi - 84
Mame nefumatoare cu copii suferinzi de sindromul Down - 117
Mame nefumatoare cu copii sanatosi - 800

Pe baza informatiilor de mai sus, se cere:
a. Sa se precizeze tipul de studiu;
b. În conditiile de la punctul a, sa se calculeze si interpreteze cea mai potrivita masura a riscului unei mame care fumeaza de a da nastere unui copil suferind de sindromul Down.

Rezolvare

a. Având în vedere ca subiectii au fost clasificati pe baza statutului medical (prezenta sau absenta sindromului Down) , urmarindu-se apoi prezenta unui factor de risc (fumatul matern) , avem de-a face cu un studiu retrospectiv.

b. În cazul studiilor retrospective, se calculeaza raportul sanselor ("odds ratio") :

OR = AD / BC = 1,87


Interpretare: În rândul populatiei de culoare, "sansele" unui copil suferind de sindromul Down ca aceasta boala sa fie datorata faptului ca mama sa a fost fumatoare sunt de 1,87 ori mai mari ca în cazul unui copil sanatos.

Analiza variantei (ANOVA)


1. Generalitati


Analiza variantei este utilizata pentru compararea mediilor a k populatii (numite si tratamente) .

Modelul utilizat în ANOVA poate fi rezumat sub forma expresiei:

Yij = mi + eij, unde


i = 1, 2, ..., k
j = 1, 2, ..., ni
ni este numarul de indivizi din grupul i
Yij este frecventa observata în celula (i, j)
Presupunerile pe care se bazeaza acest model sunt reunite sub forma literelor "INE":
I - independenta celor k populatii
N - normalitatea erorilor:eij ~ N (0,s2) , adica erorile sunt distribuite normal, cu media 0 si varianta egala cu varianta variabilei dependente Y
E - cele k populatii au variante egale, altfel spus: s12 = s22 = ... = sk2 = s2.

În cazul ANOVA, este testat urmatorul cuplu de ipoteze statistice:
H0:m1 = m2 = m3 = ... = mk = m, unde mi este media populatiei i, iar m este "media generala"
HA: orice diferenta posibila.
Testul folosit, numit "testul F global" este un test F (Fisher) .

ANOVA poate fi exprimata si sub forma unui model de regresie, folosind variabile-indicator.
Spre exemplu, sa presupunem ca se studiaza productia primara neta în cele patru anotimpuri. Astfel, cele patru anotimpuri sunt patru populatii statistice, si pot fi incluse într-un model de regresie folosind urmatoarele variabile-indicator:
I1 = 1, pentru "primavara"
0, în rest
I2 = 1, pentru "vara"
0, în rest
I3 = 1, pentru "toamna"
0, în rest
(În acest model, anotimpul de referinta este iarna. )

2. Comparatii multiple


În cazul în care testul F global respinge ipoteza nula, nu se poate preciza sursa diferentelor identificate. În acest caz, se folosesc comparatiile multiple.

a. Comparatii multiple "pe perechi" - în acest caz, se foloseste un test t (Student) .

Riscul de speta I este probabilitatea de a respinge ipoteza nula pentru cel putin o pereche, în conditiile în care m1 = m2 = m3 = ... = mk:

ma = P (H0 respinsa cel putin o data |m1 = m2 = m3 = ... = mk)


Daca se folosesc p teste independente, fiecare la nivelul de semnificatie a, atunci probabilitatea de a nu face nici o eroare de speta I este:

P = (1 -a) x p, iar nivelul global de semnificatie:


a* = 1 - (1 -a) x p.


Datorita faptului ca nivelul global de semnificatie difera de a, diverse proceduri ajusteaza valoarea critica (valoarea la care se respinge H0) pentru noul nivel de semnificatie. Dintre acestea, cele mai cunoscute sunt: Scheffe, Tukey, Bonferoni, Student-Newman-Keuls si Duncan.

b. Contraste

Contrastele sunt combinatii lineare ale mediilor tratamentelor (populatiilor) .

În anumite situatii, se folosesc contraste multiple, iar nivelul de semnificatie este ajustat folosind una dintre procedurile mentionate (cel mai adesea, Scheffe).

3. Analiza bifactoriala a variantei


Este folosita pentru a investiga simultan doi factori (notati în mod traditional A si B) .

Avantaje

* puterea este mai mare (altfel spus, daca exista diferente, acestea sunt detectate mai usor)
* se poate evalua interactiunea celor doi factori

Grafic, daca nu exista interactiune, liniile care unesc mediile pentru fiecare nivel al unui factor sunt paralele, ceea ce nu se întâmpla în cazul interactiunii.
În termeni matematici, daca nu exista interactiune, modelul pentru analiza bifactoriala a variantei poate fi scris:

Yijk = m + ai + bj + eijk, sau mij = m + ai + bj.


Exemplu în ecologie.

Urmatorul exemplu se bazeaza pe datele utilizate în studiul prezentat pentru regresia lineara multipla. De aceasta data, analiza statistica încearca sa raspunda la urmatoarea întrebare:"Exista diferente între speciile de pesti utilizate în studiu în privinta concetratiilor PCB?" Cea mai potrivita metoda pentru a raspunde acestei întrebari este ANOVA unifactoriala, adica folosind o singura variabila calitativa: specia.

Datele obtinute pot fi prezentate sintetic astfel:

Micropterus salmoides-LMB-2,86
Morone saxatilis × M. chrysops-HYS-3,25
Ictalurus punctatus-CHC-1,72
Morone saxatilis-SB-3,29
Dorosoa petenense-TS-1,65

Într-o prima etapa, programul SAS a furnizat urmatoarele rezultate:
F = 5,73, cu valoarea p asociata 0,0001.
Deoarece p = 0,0001< 0,05, se respinge ipoteza nula (H0: concentratiile PCB nu difera în functie de specie) , concluzia fiind: concentratiile PCB difera pentru cele cinci specii investigate.

Unde se afla aceste diferente? Pentru a putea raspunde la aceasta întrebare, am folosit programul SAS si am calculat mediile concentratiilor PCB pentru speciile respective, incluzând si teste de semnificatie a diferentei dintre fiecare pereche posibila de specii. Am folosit trei metode de "comparare multipla" (Tukey, Bonferroni, Duncan si Scheffe) , obtinând diferente semnificative (a = 0,05) între urmatoarele perechi de specii: CHC-HYS si CHC-LMB. Alte diferente nu au fost evidentiate.

Concluzie: Analiza statistica a evidentiat faptul ca media concentratiei PCB pentru specia Ictalurus punctatus este mai mica decât mediile concentratiei PCB pentru speciile Micropterus salmoides si hibridul Morone saxatilis x M. chrysops.

Bibliografie


1. Addy, L. Cheryl - "BIOS 759: Biostatistical Methods for Rates and proportions - Fall 1999", University of South Carolina
2. Husey, James Robert - "BIOS 701: Concepts and Methods of Biostatistics - Fall 1998", University of South Carolina
3. Husey, James Robert - "BIOS 757: Intermediate Biometrics - Spring 1998", University of South Carolina
4. McKeown, Robert - "BIOS 701: Concepts and Methods of Epidemiology - Fall 1998", University of South Carolina
5. Petrisor, Alexandru-Ionut - "Maternal Smoking and Down Syndrome by Maternal Race", lucrare prezentata în conferinta "South Carolina Public Health Association", Myrtle Beach, 27 mai 1999
6. Petrisor, Alexandru-Ionut - "Fish Contamination with PCBs in Lake Hartwell", "Bulletin of South Carolina Academy of Science", Vol. LXI, 1999, pag. 82-83, aprilie 1999