“Best-worst rating scale”, teoria e pratica non vanno a braccetto.


A tutti è capitato, non una ma più volte, di dover giudicare. A molti è capitato di farlo attraverso un questionario. Punteggi, voti, livello di accordo con questa o quella affermazione, le informazioni di maggior valore spesso sono proprio quelle connesse al giudizio del consumatore,  del cliente, del cittadino. Non è un caso quindi che le maggiori energie nella fase di stesura di un questionario siano fagocitate dalle scale. Le scale costituiscono l’incubo del ricercatore. Adottare la scala migliore in funzione della situazione concreta è a volte una scommessa.

Sulle scale si scontrano per lo più due esigenze contrapposte e difficilmente conciliabili:

  1. da un lato l’esigenza del rispetto di una serie di “buone qualità statistico–metodologiche” della scala, quali ad esempio la consistenza interna, la riproducibilità, la validità dei contenuti, la validità concorrente, la validità di costrutto, l’appropriatezza, la precisione, ecc.
  2. dall’altro la fattibilità pratica, che tiene in considerazione i limiti imposti al tempo di intervista o di compilazione, il tasso di abbandono (spesso conseguente alla durata eccessiva dell’intervista), l’analisi dei dati, le esigenze di comunicazione dei risultati e delle procedure seguite per ottenerli.

Come ho detto le due classi di esigenze sono difficilmente conciliabili. Il risultato è un profondo solco che separa la ricerca di stampo accademico dagli studi realizzati dalle aziende. Questi ultimi accettano implicitamente un certo grado di “imprecisione”, da alleviare attraverso una buona gestione di alcuni parametri (randomizzazione delle domande, affiancamento di un tutor durante la compilazione, istruzioni preliminari, ecc.), ma che comunque è accettata affinché lo studio sia effettivamente realizzabile.

Occorre evidenziare che anche in questo campo in Italia siamo maestri di dualismo. I due fronti si fronteggiano senza nessuna possibilità di compromessi. Se da un lato il mondo della ricerca accademica rimane arroccato su posizioni di oltranzismo metodologico di difficile attuazione nella realtà, dall’altra si produce una gran mole di dati di scarsa o scarsissima qualità. Il tutto aggravato dalla forte svalutazione del valore degli studi e delle ricerche di mercato, in un contesto low-cost che non lascia spazio a grandi fantasie.  rating

Sul tema ho letto in questi giorni un interessante articolo di Bryan Orme, presidente di Sawtooth Software, pubblicato da Quirks Magazine nel numero di luglio 2018 . L’articolo descrive una sperimentazione comparativa di alcuni metodi di rating/scala, per la verità un po’ parziale, dato che ha preso in esame solo tre alternative:

  • voto su scala 1-10
  • 100 punti da suddividere tra le risposte in modo che la somma rimanga costante
  • cosiddetta scala best-worst (di seguito, brevemente, BWS).

La scala BWS consiste nel presentare agli intervistati un numero di alternative e far scegliere loro contemporaneamente quella preferita (best) e quella più sgradita (worst). L’articolo è impostato interamente sulla tesi che la scala BWS sia la migliore tra quelle testate. Evidenzia pertanto i principali limiti delle due soluzioni concorrenti, ovvero:

  • i punteggi, siano essi a 5 o 10 termini (solo questi ? non esistono pure le scale a 7 termini ? (…) ), sono soggetti a
    • distorsione, perché persone di diversa estrazione culturale o diversa età possono avere sensibilità diverse e usare la scala in modo diverso (vero, secondo la mia esperienza, solo per la scala “scolastica” a 10 termini)
    • marcato effetto yea-say (ovvero tendenza a accettare le tesi dell’intervistatore o di chi ha ideato il questionario, dando voti tendenzialmente medio-alti a prescindere)  (solo parzialmente vero, in base alle mie esperienze, e comunque dipende dal tema trattato)
  • le soluzioni a somma costante sarebbero invece di difficile attuazione tutte le volte che gli item sono più di 4, dato che l’intervistato deve fare una serie di calcoli che lo stancano e lo demoralizzano  (sono d’accordo, le uso poco in ambito consumer).

Sulla base di una applicazione piuttosto elaborata l’articolo dimostra che la scala BWS non ha queste limitazioni e anzi riesce a discriminare molto bene non solo l’ordine di preferenza delle varie alternative, ma anche le giuste distanze tra il valore di ogni alternativa e quelle immediatamente successive o precedenti.

Su questo risultato ho pochi dubbi e riconosco anche che il metodo è elegante e concettualmente molto facile da gestire.

Peccato che.. triplichi la durata del questionario (!). zetsuen_no_tempest-18-hakaze-panic-distress-fear-anxiety-holding_head_with_hands

Sì perché il metodo si basa in sostanza su confronti multipli di vari set di alternative, combinate più volte tra loro in una sorta di disegno sperimentale incompleto. In sostanza ogni item deve comparire in almeno tre subset diversi, così da essere confrontato con un certo numero di (altri) item. Questo per più buoni motivi, il principale dei quali è che l’obiettivo finale dell’operazione è stilare una graduatoria di preferenza per ciascun intervistato. Questo è ovviamente impossibile da fare con una sola unica domanda.

Immaginiamo per semplicità di avere 9 item alternativi da valutare e di voler inserire in ogni confronto non più di 3 items alla volta (in realtà in genere sono almeno 4, spesso 5, al massimo 6). Se volessimo proporre all’intervistato tutti i subset possibili di confronti dovremmo inserire 84 domande di confronto (risultato del calcolo delle combinazioni di 9 oggetti presi a 3 a 3). In questo modo ogni singolo item sarebbe presente in 28 subset diversi. Ma accontentandoci di presentarlo al massimo 3 volte al (povero) rispondente, avremo una riduzione a 9 subset, da pianificare opportunamente in base a uno schema di rotazione predefinito. Quindi utilizzeremmo 9 domande per fare quello che una scala di rating farebbe in un’unica domanda. In pratica, il malcapitato compilatore si vedrà catapultato in una girandola impazzita dove si troverà a valutare più volte gli stessi item, quasi sempre senza essere avvertito del numero di domande totali di questo tipo che dovrà affrontare.

Fattibile? Assolutamente no. Per una abitudine tutta italica, anch’essa legata al concetto di ricerca low-cost, tutti i nostri questionari viaggiano sul filo della massima tollerabilità da parte dell’intervistato. Per intendersi, se fissiamo in 10-12 minuti la durata massima consigliata di una intervista CATI, in 15 minuti quella di una face to face “stradale”, in 10 minuti quella di una autocompilata online, in 20-30 minuti quella di una intervista in un ambito “ufficiale” (per esempio ai dipendenti di una azienda, convocati dall’azienda stessa), in 40-50 minuti quella di una face to face in central location con omaggio-incentivo, ebbene… nelle abitudini italiche si va sempre oltre!  Tanto basta per non ritenere fattibile l’uso della scala BWS.

Senza contare che la scala BWS si porta dietro un problema, risolvibile solo aggiungendo ulteriori domande al questionario, che è quello della conoscenza del valore assoluto conferito dal rispondente agli item confrontati. Questo può essere fatto aggiungendo domande di confronto tra alcuni degli item proposti e altri aspetti del tema trattato dei quali si conosce il valore,  oppure utilizzando cosiddette domande di ancoraggio su alcuni degli item (p.e. “su una scala 1-100, questo aspetto X per Te vale più o meno di 50?”), per poi stimare i valori di tutti gli item rimanenti attraverso la graduatoria ricostruita sulla base della scala BWS.

In definitiva l’uso della scala BWS, sebbene molto elegante e metodologicamente consistente non è applicabile in Italia al contesto della ricerca aziendale. Lo affermo con grande rammarico, essendomi laureato in statistica con un piano di studi fortemente orientato al filone metodologico, per cui apprezzo in generale tutte le metodologie che cercano di rispondere in modo preciso all’esigenza di conoscere la realtà nel suo massimo dettaglio. Ma il mondo reale, oggi, va in un’altra direzione.

 

Annunci

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione /  Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione /  Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione /  Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione /  Modifica )

Connessione a %s...

Annunci

Crea un sito o un blog gratuitamente presso WordPress.com.

Su ↑

%d blogger hanno fatto clic su Mi Piace per questo: