STATISTICA APPLICATA ALLE BIOTECNOLOGIE
cod. 1004402

Anno accademico 2013/14
1° anno di corso - Secondo semestre
Docente
Settore scientifico disciplinare
Statistica per la ricerca sperimentale e tecnologica (SECS-S/02)
Field
Discipline per le competenze professionali
Tipologia attività formativa
Caratterizzante
42 ore
di attività frontali
6 crediti
sede: PARMA
insegnamento
in - - -

Obiettivi formativi

Obiettivi formativi
Applicare i concetti e i metodi acquisiti nel primo ciclo a idee nuove, come l’argomento di testi, in un contesto di ricerca universitaria e industriale. Scrivere rapporti divulgativi e scientifici presentando i risultati delle analisi statistiche effettuate con programmi informatici. Fornire l’interpretazione biologica, medica o genetica dei risultati statistici sia a esperti che a un pubblico non esperto. Sviluppare gli argomenti discussi, sulla base della bibliografia internazionale.

Prerequisiti

Come concetti di base, sono dati per acquisiti i metodi di statistica descrittiva, dalle rappresentazioni tabellari e grafiche alla stima degli indici o statistiche, oltre alle distribuzioni teoriche fondamentali: la binomiale, la poissoniana, l’ipergeometrica e la normale. Devono essere noti i test d’inferenza che formano la base di un corso iniziale: chi quadrato, t di Student, l’ANOVA nei suoi vari disegni sperimentali, la regressione e la correlazione lineari.

Contenuti dell'insegnamento

Contenuti
Assumendo che siano già noti i metodi parametrici, per le situazioni con grande variabilità dei dati e presenza di outlier sono presentati e applicati diversi test non parametrici: per uno e per due campioni dipendenti e indipendenti; test per k campioni, test per il trend; correlazione e regressione lineare non parametriche.
Sono discussi i metodi più utili nella ricerca, dopo l’acquisizione dei test sulle medie e le varianze: i confronti multipli a priori e a posteriori, le trasformazioni dei dati, la verifica della normalità e l’identificazione degli outlier.

Programma esteso

Programma
Il corso è rivolto a studenti che hanno già seguito sia il corso di statistica di base, fondato sui metodi parametrici, sia il corso di statistica e bioinformatica, fondato sui metodi non parametrici. Il programma presenta approfondimenti di alcuni concetti e l’applicazione di quanto già studiato all’analisi dei dati, mediante l’applicazione del programma informatico PAST (ultima versione attuale 2.17b). Inoltre per la potenza a priori e a posteriori è mostrato l’uso del programma G-Power (ultima versione attuale 3.1). Entrambi sono scaricabili gratuitamente dalla rete, con il manuale d’uso.

Il corso e la verifica finale richiedono la capacità di inserire i dati (input) e di spiegare i risultati (output) di vari test; quando sono possibili due o più test come scegliere il test più potente o più robusto :
- statistiche descrittive e intervalli di confidenza con bootstrap; istogramma, box.plot e dispersione dei dati;
- test chi quadro, tabelle di contingenza, indici di associazione;
- test t di Student per un campione, c on intervallo di confidenza;
- test t di Student , test dei segni, test T di Wilcoxon (approssimazione normale, Montecarlo e probabilità esatta) per due campioni dipendenti;
- confronto tra due medie e due varianze con le statistiche (conoscenza di media, varianza e dimensione dei campioni);
- test t per due campioni indipendenti con varianze uguali e con varianze diverse, test per omogeneità della varianza,, intervallo di confidenza della differenza tra due medie, test di Mann-Whitney per due campioni indipendenti con probabilità asintotica, Montecarlo e esatta;
- test di Kolmogorov-Smirnov per due campioni indipendenti, con probabilità per campioni piccoli e grandi;
- - confronto tra due coefficienti di variazione;
- ANOVA a un criterio con varianze uguali e diverse, confronto tra varianze, confronti multipli, ANOVA non parametrica o test di Kruskal-Wallis;
- ANOVA a due criteri, test di Friedman;
- correlazione parametrica e correlazione non parametrica,
regressione lineare parametrica e non parametrica, retta passante per l’orgine.
- stima della potenza a priori e a posteriori di vari disegni sperimentali con G-Power

Argomenti nuovi
1 - I confronti multipli. Il controllo dell’errore o di tipo I.
La logica dei confronti pianificati o a priori tra più medie. I contrasti lineari o confronti ortogonali mediante i coefficienti polinomiali Scomposizione della devianza, con i confronti ortogonali. Input e output di un programma informatico per i confronti ortogonali o a priori. I contrasti di Helmert per la verifica di gradienti tra livelli ordinati: La logica dei confronti multipli a posteriori (UMPC): experimentwise o familywise e comparisonwise. Le procedure dei confronti post-hoc e le rappresentazioni grafiche dell’intervallo di incertezza. Il principio di Bonferroni e la procedura di Dunn-Bonferroni. Le probabilità comparisonswise di Dunn-Sidàk. Uso della media armonica o metodo di Miller-Winer. Il test LSD di Fisher e il t protetto o test di Fisher-Hayte. Il test FSD o GSD di Scheffé, con la SCD. Il test di Tukey; la procedura di Tukey-Kramer. Il test di Newman-Keul studentizzato o test SNK. Il test di Duncan. Il test di Dunnett per il confronto dei trattamenti con il controllo. Il test Gabriel e il test GT2 di Hochberg, per campioni non bilanciati. Il false discovery rate (FDR).

2 – Le trasformazione dei dati
– La trasformazione lineare, in ranghi, Standard Score, logaritmica, in radice quadrata e in radice cubica, reciproca, in potenza (al quadrato e al cubo), angolare o in gradi (arcoseno) per le proporzioni, probit e logit;
la scelta della trasformazione idonea: il metodo di Box-Cox. Esempio degli effetti delle trasformazioni dei dati, sui risultati dell’ANOVA. La trasformazione dei valori negativi e cenni su altre famiglie di trasformazioni di potenze

3 -. Test per l’indipendenza (randomness) delle misure.
I test dei segni e i runs test per la casualità; il test o rapporto di von Neumann e il test non-parametrico di Bartels.

4 - Verifiche della normalità univariata su dati campionari.
- Normal Quantile e Normal Probability Plot univariati: Q-Q, P-P e SP plot
- Misure e test per simmetria e curtosi, con i momenti intorno alla media: , , , , ,
- Verifica della normalità con il test ; con il test di Kolmogorov-Smirnov; il test di Lilliefors.
- Test di tipo quadratico: Cramér-von Mises e Anderson-Darling.
- Test di correlazione: Shapiro-Wilk o W test, il test di Shapiro-Francia o W’ test e il test di Royston
- Altri test di regressione/correlazione: test di Filliben e test di Gan-Koehler
Test con indici di simmetria e curtosi: D’Agostino, Anscombe-Glynn e D’Agostino-Pearson
Il test di Jarque-Bera per la normalità dei residui

5 - L’outlier: dato anomalo o dato sbagliato? Definizioni di extreme value, stragglers e outlier..
- Identificazione degli outlier con il grafico Box-and-Whiskers di Tukey: vantaggi, limiti e modifiche
- Il probability plot
- Metodi statistici per grandi campioni: verifica degli outlier con la distribuzione di Chebyshev e la distribuzione Z, il g test di Gauss, la “huge rule”
- Il test di Grubbs o maximum normed residual secondo la Royal Society of Chemistry e il Michigan Department of Environmental Quality-
- Il test Q di Dixon (estreme value test) o test ratios for gross errors, per un outlier con campioni piccoli; la modifica di Gibbons per più outlier
- Il test della discordanza (Discordance Test); il test di Rosner. Il test non parametrico di Walsh
- I criteri di Chauvenet e di Peirce

6 – La logica falsificazionista di Fisher e di Neyman-Pearson.
Sample size e effect size.
Stima della Potenza a priori e a posteriori, con la normale, con il t di Student, nell’ANOVA e in altri test.

Nel corso dell’anno 2012-2013 partecipano anche studenti che nella laurea triennale non hanno seguito il corso di non parametrica. Essi devono acquisire anche queste nozioni e la capacità di usare i test relativi
1 - Statistica descrittiva per metodi non parametrici: richiamo dei metodo parametrici e il box-plot di Tukey, con sue varianti.
2 - Confronti tra proporzioni o rapporti:il test chi quadrato e il test G.
Il test chi-quadrato per la bontà dell’adattamento; sue condizioni di validità e correzioni di Yates. Il chi quadrato per tabelle di contingenza 2 x 2; condizioni di validità e correzione di Yates; il metodo esatto di Fisher per campioni piccoli; il test z per campioni grandi. Le tabelle di contingenza 2 x N e M x N.
Il log likelihood ratio o test G per il confronto tra una distribuzione osservata e la distribuzione attesa, in tabelle di contingenza 2 x 2 e in tabelle M x N.
3 - Metodi non parametrici per un campione.
Il test delle successioni (Runs test) con dati qualitativi e con dati quantitativi. Il test dei segni, il test T di Wilcoxon, l’intervallo di confidenza della mediana, il test di casualizzazione. Il test di Kolmogorov-Smirnov per il confronto tra una distribuzione osservata e una distribuzione attesa, con classi ordinali.
4 - Metodi non parametrici per due campioni dipendenti.
Il test di Mc Nemar. Test dei segni, test T di Wilcoxon, intervallo di confidenza della mediana, test di casualizzazione.
5 - Metodi non parametrici per due campioni indipendenti.
Test per la tendenza centrale: il test della mediana, il test T di Wilcoxon-Mann-Whitney, il test U di Mann-Whitney, intervallo di confidenza della differenza mediana, il test S di Kendall, il test di casualizzazione.
Test per la variabilità: il test di Levene non parametrico; test di Siegel Tukey, test di Freund-Ansary-Bradley, test di Moses
Test generalisti per il confronto tra due distribuzioni. Il test di Kolmogorov-Smirnov, il test delle successioni o test di Wald-Wolfowitz.
6 - Metodi non parametrici per k campioni.
Estensione del test della mediano o test di Brown-Mood; ANOVA non parametrica a un criterio o test di Kruskall-Wallis; ANOVA non parametrica a due criteri o test di Friedman; test di Quade, test di Pettitt per il punto di svolta, test di Jonckheere e test di Cuzick per il trend delle medie Nell’ANOVA a un criterio, test di Mack-Wolfe o umbrella test, test di Page per il trend delle medie Nell’ANOVA a due criteri.
7 - Correlazione non parametrica e regressione lineare non parametrica.
La correlazione rho di Spearman e tau di Kendall. La retta non parametrica o robusta di Theil.
Uso della correlazione per i trend spaziali e temporali.
Il test di Mann-Kendall per il trend in fenomeni ciclici.

Bibliografia

Dispense consigliate.
A) Per la statistica parametrica:
Lamberto Soliani (2008) Statistica applicata. UNI.NOVA, Parma. (pagg. X + 694);
ISBN:978-88-6319-041-0; www.uninova.net
B) Per la statistica non parametrica:
Soliani Lamberto (2008) I test non parametrici più citati nelle discipline scientifiche, UNI.NOVA, Parma. (pagg. VII + 828); ISBN: 978-88-6319-022-9; www.uninova.net
Edite dalla casa editrice di testi universitari UNINOVA di Parma, gruppo Pegaso Libreria;Via Cavedani, 7
Tel. 0521-290245 - Fax 0521-291661 - E-mail: libreria@gruppopegaso.it
Su supporto informatico, dispense su confronti multipli, trasformazioni, test di normalità e per outlier.

Testi internazionali di riferimento:
- Sokal R. R. and F. J. Rohlf 2012. Biometry: the principles and practice of statistics in biological research. 4th edition. W. H. Freeman and Co.: New York. 937 pp
- Zar Jerrold (2010). Biostatistical Analysis, Fifth Edition. Pearson Education International, New Jersey, 944 pp

Testi internazionali gratuiti in rete, con argomenti utili al chimico
- EPA 530/R-09-007, March 2009, Statistical Analysis of Groundwater Monitoring Data at RCRA Facilities. Unified Guidance, Environmental Protection Agency, United States (pp. 888).
- EM 1110-1-4014, 31 Jan 2008, Environmental Quality - ENVIRONMENTAL STATISTICS, Department of the Army, U. S. Army Corps of Engineers (pp. 544).

Metodi didattici

Metodi didattici
La presentazioni dei concetti e dei metodi avviene con lezioni frontali, proiettando e discutendo le formule con applicazioni a vari esempi. L’uso di programmi informatici richiede la capacità di effettuare grafici e test, la lettura dell’output e la discussione dei risultati.

Altre informazioni e attività di supporto.
Uso di almeno un programma informatico gratuito di riconosciuta validità internazionale, come PAleontological STatistics: www.nhm.uio.no/norlex/past/download.html
La scelta del programma è motivata dalla semplicità d’uso, dalla possibilità di caricare i dati direttamente da Excel, dalla qualità dei metodi descrittivi e dei test proposti, dalla sua diffusione del programma nelle discipline scientifiche, dalla semplicità con la quale ogni studente può averlo disponibile e aggiornato gratuitamente sul suo personal.

Modalità verifica apprendimento

Colloquio orale con discussione di esempi, per verificare l’apprendimento dei concetti e dei metodi della statistica inferenziale, la capacità di illustrare gli output informatici e di interpretarne i risultati. Il voto dipende dalla entità del programma studiato, dagli approfondimenti sui temi illustrati, dalla correttezza dell’ipotesi formulate e della procedura statistica usata, dalla correttezza delle conclusioni tratte dal risultato statistico e del linguaggio scientifico.

Altre informazioni

Nei periodi di esami vi sarà un appello tutte le settimane, eccetto luglio e agosto.
In questi due mesi vi saranno due appelli.
Per informazioni esatte e aggiornate, mandare e-mail al docente.
Per colloquio, prendere appuntamento.
E-mail: lamberto.soliani@unipr.it