Effetto soffitto (statistica)

Un effetto soffitto nella raccolta dei dati, quando la varianza in una variabile dipendente non è misurata o stimata al di sopra di un certo livello, è un problema pratico comunemente incontrato nella raccolta dei dati in molte discipline scientifiche. Tale effetto è spesso il risultato di vincoli sugli strumenti di raccolta dei dati. Quando si verifica un effetto tetto nella raccolta dei dati, c’è un raggruppamento di punteggi al livello superiore riportato da uno strumento.

Vincoli di bias di rispostaModifica

Il bias di risposta si verifica comunemente nella ricerca riguardante questioni che possono avere basi etiche o sono generalmente percepite come aventi connotazioni negative. I partecipanti possono non rispondere a una misura in modo appropriato in base al fatto che credono che la risposta accurata sia vista negativamente. Un’indagine di popolazione sulle variabili dello stile di vita che influenzano gli esiti della salute potrebbe includere una domanda sull’abitudine al fumo. Per proteggersi dalla possibilità che un intervistato che è un fumatore accanito possa rifiutarsi di dare una risposta accurata sul fumo, il livello massimo di fumo richiesto nello strumento di indagine potrebbe essere “due pacchetti al giorno o più”. Questo si traduce in un effetto limite nel senso che le persone che fumano tre pacchetti o più al giorno non vengono distinte dalle persone che fumano esattamente due pacchetti. Un’indagine demoscopica sul reddito potrebbe analogamente avere un livello di risposta massimo di “100.000 dollari all’anno o più”, piuttosto che includere fasce di reddito più alte, poiché gli intervistati potrebbero rifiutarsi di rispondere se le domande dell’indagine identificano il loro reddito in modo troppo specifico. Anche questo si traduce in un effetto tetto, non distinguendo le persone che hanno un reddito di 500.000 dollari all’anno o superiore da quelle il cui reddito è esattamente di 100.000 dollari all’anno. Il ruolo della distorsione delle risposte nel causare effetti di massimale è chiaramente visto attraverso l’esempio degli intervistati che credono che la risposta desiderabile sia il valore massimo riferibile, con il risultato di un raggruppamento dei punti dati. Il tentativo di prevenire la distorsione di risposta, nel caso dell’indagine sull’abitudine al fumo, porta a effetti tetto attraverso il disegno di base della misura.

Vincoli della gamma di strumentiModifica

La gamma di dati che possono essere raccolti da un particolare strumento può essere vincolata da limiti inerenti al disegno dello strumento. Spesso il design di un particolare strumento implica dei compromessi tra effetti limite ed effetti di base. Se una variabile dipendente misurata su una scala nominale non ha categorie di risposta che coprono adeguatamente l’estremità superiore della distribuzione del campione, il valore massimo di risposta dovrà includere tutti i valori al di sopra dell’estremità della scala. Questo si tradurrà in un effetto limite dovuto al raggruppamento dei rispondenti nella singola categoria massima, che impedisce una rappresentazione accurata della deviazione oltre quel punto. Questo problema si verifica in molti tipi di indagini che utilizzano risposte predeterminate in stile parentesi. Quando molti soggetti hanno punteggi su una variabile al limite superiore di ciò che uno strumento riporta, l’analisi dei dati fornisce informazioni imprecise perché alcune variazioni effettive nei dati non si riflettono nei punteggi ottenuti da quello strumento.

Si dice che si verifica un effetto tetto quando un’alta percentuale di soggetti in uno studio ha punteggi massimi sulla variabile osservata. Questo rende impossibile la discriminazione tra i soggetti all’estremità superiore della scala. Per esempio, un documento d’esame può portare, diciamo, il 50% degli studenti a segnare il 100%. Mentre un tale documento può servire come un utile test di soglia, non permette di classificare i migliori esecutori. Per questo motivo, l’esame dei risultati dei test per un possibile effetto tetto, e l’effetto pavimento inverso, è spesso incorporato nella convalida di strumenti come quelli usati per misurare la qualità della vita.

In tal caso, l’effetto tetto impedisce allo strumento di rilevare una misura o una stima superiore a qualche limite non legato al fenomeno osservato, ma piuttosto legato alla progettazione dello strumento. Un esempio grossolano sarebbe misurare l’altezza degli alberi con un righello di soli 20 metri di lunghezza, se è evidente sulla base di altre prove che ci sono alberi molto più alti di 20 metri. Usare il righello di 20 metri come unico mezzo di misurazione degli alberi imporrebbe un tetto alla raccolta di dati sull’altezza degli alberi. L’effetto soffitto e l’effetto pavimento limitano entrambi la gamma di dati riportati dallo strumento, riducendo la variabilità dei dati raccolti. Una variabilità limitata nei dati raccolti su una variabile può ridurre la potenza delle statistiche sulle correlazioni tra quella variabile e un’altra variabile.

Test di ammissione al collegeModifica

Nei vari paesi che usano test di ammissione come elemento principale o importante per determinare l’idoneità agli studi universitari, i dati raccolti riguardano i diversi livelli di prestazione dei candidati ai test. Quando un test di ammissione all’università ha un punteggio massimo possibile che può essere raggiunto senza una prestazione perfetta sul contenuto delle voci del test, la scala di punteggio del test ha un effetto tetto. Inoltre, se il contenuto degli item del test è facile per molti partecipanti, il test potrebbe non riflettere le reali differenze di rendimento (come sarebbe rilevato con altri strumenti) tra i partecipanti all’estremità superiore del range di rendimento del test. I test di matematica usati per l’ammissione al college negli Stati Uniti e test simili usati per l’ammissione all’università in Gran Bretagna illustrano entrambi i fenomeni.

Psicologia cognitivaModifica

In psicologia cognitiva, i processi mentali come la risoluzione dei problemi e la memorizzazione sono studiati sperimentalmente usando definizioni operative che permettono una chiara misurazione. Una misura comune di interesse è il tempo impiegato per rispondere a un dato stimolo. Nello studio di questa variabile, il limite massimo può essere il numero più basso possibile (il minor numero di millisecondi per una risposta), piuttosto che il valore più alto, come è l’interpretazione usuale di “limite massimo”. Negli studi sul tempo di risposta, può sembrare che si sia verificato un limite massimo nelle misurazioni a causa di un apparente raggruppamento intorno a una quantità minima di tempo (come il tempo più veloce registrato in un esperimento). Tuttavia, questo raggruppamento potrebbe effettivamente rappresentare un limite fisiologico naturale del tempo di risposta, piuttosto che un artefatto della sensibilità del cronometro (che naturalmente sarebbe un effetto tetto). Ulteriori studi statistici, e il giudizio scientifico, possono risolvere se le osservazioni sono dovute a un limite massimo o sono la verità della questione.

Validità dei vincoli dello strumentoModifica

Test del QI Modifica

Alcuni autori sull’educazione dei dotati scrivono di effetti limite nei test del QI con conseguenze negative sugli individui. Questi autori a volte sostengono che tali massimali producono una sottostima sistematica del QI delle persone intellettualmente dotate. In questo caso, è necessario distinguere attentamente due modi diversi in cui il termine “tetto” è usato negli scritti sul test del QI.

I punteggi del QI possono differire in qualche misura per lo stesso individuo su diversi test del QI (età 12-13 anni). (Dati della tabella dei punteggi del QI e pseudonimi degli alunni adattati dalla descrizione dello studio di normalizzazione KABC-II citato in Kaufman 2009.)
Allievo	KABC-II	WISC-III	WJ-III
Asher	90	95	111
Brianna	125	110	105
Colin	100	93	101
Danica	116	127	118
Elpha	93	105	93
Fritz	106	105	105
Georgi	95	100	90
Hector	112	113	103
Imelda	104	96	97
Jose	101	99	86
Keoku	81	78	75
Leo	116	124	102

I massimali dei sottotest del QI sono imposti dai loro range di item progressivamente più difficili. Un test del QI con un’ampia gamma di domande progressivamente più difficili avrà un tetto più alto di uno con una gamma stretta e pochi item difficili. L’effetto soffitto porta all’incapacità, in primo luogo, di distinguere tra i dotati (se moderatamente dotati, profondamente dotati, ecc.), e in secondo luogo, porta all’erronea classificazione di alcune persone dotate come superiori alla media, ma non dotate.

Supponiamo che un test del QI abbia tre sottotesti: vocabolario, aritmetica e immagini analogiche. I punteggi di ciascuna delle sottoprove sono normalizzati (vedi punteggio standard) e poi sommati per produrre un punteggio di QI composito. Ora supponiamo che Joe ottenga il punteggio massimo di 20 nel test di aritmetica, ma ottenga 10 su 20 nei test di vocabolario e analogie. È giusto dire che il punteggio totale di 20+10+10 di Joe, o 40, rappresenta la sua capacità totale? La risposta è no, perché Joe ha ottenuto il massimo punteggio possibile di 20 nel test di aritmetica. Se il test di aritmetica avesse incluso elementi aggiuntivi e più difficili, Joe avrebbe potuto ottenere 30 punti in quel sottotest, producendo un punteggio “vero” di 30+10+10 o 50. Confrontate la prestazione di Joe con quella di Jim, che ha ottenuto 15+15+15 = 45, senza incappare in alcun limite del subtest. Nella formulazione originale del test, Jim ha fatto meglio di Joe (45 contro 40), mentre è Joe che in realtà avrebbe dovuto ottenere un punteggio di intelligenza “totale” più alto di Jim (punteggio di 50 per Joe contro 45 per Jim) usando un test riformulato che include item aritmetici più difficili.

Gli scritti sull’educazione dei dotati fanno emergere due ragioni per supporre che alcuni punteggi del QI siano una sottostima dell’intelligenza di chi fa il test:

tendono a fare tutti i subtest meglio delle persone meno dotate;
tendono a fare molto meglio in alcuni subtest che in altri, aumentando la variabilità inter-subtest e la possibilità che si incontri un tetto massimo.

Analisi statisticaModifica

Gli effetti soffitto sulla misurazione compromettono la verità scientifica e la comprensione attraverso una serie di aberrazioni statistiche correlate.

In primo luogo, i soffitti compromettono la capacità dei ricercatori di determinare la tendenza centrale dei dati. Quando un effetto tetto si riferisce ai dati raccolti su una variabile dipendente, il mancato riconoscimento di tale effetto tetto può “portare alla conclusione errata che la variabile indipendente non ha effetto”. Per ragioni matematiche che vanno oltre lo scopo di questo articolo (vedi analisi della varianza), questa varianza inibita riduce la sensibilità degli esperimenti scientifici progettati per determinare se la media di un gruppo è significativamente diversa dalla media di un altro gruppo. Per esempio, un trattamento dato a un gruppo può produrre un effetto, ma l’effetto può sfuggire al rilevamento perché la media del gruppo trattato non sarà abbastanza diversa dalla media del gruppo non trattato.

Quindi “gli effetti soffitto sono un complesso di questioni e il loro evitamento una questione di attenta valutazione di una serie di questioni.”

PrevenzioneModifica

Perché gli effetti soffitto impediscono un’interpretazione accurata dei dati, è importante tentare di impedire che gli effetti si verifichino o usare la presenza degli effetti per aggiustare lo strumento e le procedure utilizzate. I ricercatori possono cercare di evitare che si verifichino effetti di soffitto utilizzando una serie di metodi. Il primo dei quali è la scelta di una misura precedentemente convalidata esaminando le ricerche passate. Se non esistono misure convalidate, i test pilota possono essere condotti utilizzando i metodi proposti. Il test pilota, o la conduzione di un esperimento pilota, comporta una prova su piccola scala degli strumenti e delle procedure prima dell’esperimento vero e proprio, consentendo di riconoscere che le regolazioni dovrebbero essere fatte per la raccolta dei dati più efficiente e accurata. Se i ricercatori stanno usando un disegno che non è stato precedentemente convalidato, una combinazione di indagini, tra cui quella originariamente proposta e un’altra supportata dalla letteratura passata, può essere utilizzata per valutare la presenza di effetti limite. Se qualsiasi ricerca, specialmente lo studio pilota, mostra un effetto tetto, si dovrebbe cercare di aggiustare lo strumento in modo che l’effetto possa essere mitigato e si possa condurre una ricerca informativa.