Continuiamo quindi a costruire la nostra ipotesi di struttura della ricerca per la stima dei “bacini di utenza” delle società di serie A.

Nei precedenti post abbiamo fissato una definizione di sostenitore e costruito una zonizzazione basata su 17 AGL (Aree Geografiche Locali) e 7 AGR (Aree Geografiche Residuali).

Ci accingiamo a definire un campione stratificato per area geografica, con allocazione del campione NON proporzionale al numero di appassionati di calcio delle diverse aree. Procederemo infatti a un sovracampionamento delle AGR, come vedremo nel seguito, per garantire una maggiore precisione alle stime dei sostenitori delle società con tifoseria essenzialmente locale.

Il questionario da somministrare non sarà sviluppato qui nel dettaglio. Possiamo però dire che sarebbe composto di almeno tre parti distinte:

  1. sezione di screening, nella quale si cercherà di classificare il rispondente come SOSTENITORE di una squadra di serie A, oppure NON SOSTENITORE. Tra i non sostenitori si potrà anche distinguere tra APPASSIONATI di calcio che sostengono esclusivamente squadre di altri campionati (B, Prima o Seconda Divisione, serie minori, o anche di campionati stranieri) e NON APPASSIONATI. La classificazione deriva dal possesso o meno dei requisiti fissati nella parte finale del post del primo maggio (CLIC)
  2. sezione principale, nella quale si determinerà la squadra della quale l’intervistato è sostenitore, nonché si potranno porre altri quesiti per misurare l’intensità del legame tra intervistato e club preferito.
  3. notizie anagrafiche (età, genere, professione, ecc.).

Il target dell’indagine è costituito da tutta la popolazione residente, eventualmente con esclusione dei bambini, i quali maturano del resto una elaborazione autonoma delle proprie preferenze calcistiche in età più avanzata. Per esempio, si potrebbe far riferimento alla popolazione residente di età non inferiore a 14 anni, in totale circa 52 milioni di individui.

La metodologia più immediata per poterli contattare senza esclusioni di rilievo e con pari opportunità di inclusione nel campione è l’indagine telefonica CATI.
Infatti, anche se è tecnicamente possibile comporre il campione ricorrendo a più strumenti di rilevazione, ricomponendo poi i diversi sub-campioni con tecniche di sample blending, si devono escludere tutta una serie di ipotesi che potrebbero portare a una distorsione dei risultati.
Per esempio:

  • l’effettuazione di interviste presso agenzie scommesse, bar e altri punti di ritrovo può alterare la stima dell’incidenza degli appassionati di calcio, che risulterebbero più di quanti effettivamente essi siano
  • l’effettuazione delle interviste presso gli stadi comporterebbe l’alterazione sia delle stime sull’incidenza degli appassionati che la loro distribuzione per club preferito
  • l’effettuazione di interviste online può alterare la stima dell’incidenza degli appassionati, a causa della composizione dei panel web, dove sono fortemente sovra-rappresentati gli individui in età adolescenziale e adulta media.

Pertanto si procederebbe alla estrazione di utenze telefoniche e alla somministrazione dell’intervista a un individuo della famiglia contattata via telefono, scelto casualmente tra gli adulti disponibili.

Detto questo, passiamo ora alla determinazione della numerosità campionaria e della sua allocazione negli strati, ossia come ripartire il campione totale nelle 24 aree territoriali definite.

La determinazione della numerosità campionaria è in genere un esercizio di equilibrio tra l’esigenza di affidabilità delle stime e il budget a disposizione. Non avendo idea di quale possa essere il budget reso disponibile svilupperemo un’ipotesi abbastanza ambiziosa, ossia:

  1. errore massimo del numero di sostenitori non superiore all’1% del totale dei sostenitori italiani, per ciascun club
  2. errore relativo della stima del numero dei sostenitori di ogni squadra non superiore a un quarto del proprio valore. Per quanto detto al punto 1, questo secondo obiettivo si applica in pratica solo ai club che hanno uno share non superiore al 4% del totale, in modo da mantenere un grado di precisione elevato della stima anche per i club più piccoli.

Occorre ovviamente tener conto della struttura del campione e del cosiddetto “stimatore”, ossia dell’algoritmo di calcolo delle stime del numero di sostenitori. Nel dettaglio:

  • il numero di stimatori di ciascun club può essere espresso dalla moltiplicazione tra il numero di sostenitori totali delle squadre di serie A e la percentuale di sostenitori che appartiene al club X in esame (la sua “quota di mercato”). A rigore entrambe le componenti (numero totale di sostenitori e “quota di mercato” del club X) sono componenti aleatorie. Solo ai fini di questa esposizione considereremo il numero di sostenitori come una quantità deterministica e la percentuale del club come una variabile aleatoria. Più avanti riprenderemo questo concetto facendo delle considerazioni aggiuntive. Per ora ci concentreremo quindi sulla stima della componente aleatoria, ossia della percentuale dei sostenitori italiani totali che “appartiene” al club X.
  • lo stimatore corretto della percentuale di sostenitori di ciascun club è dato dalla media ponderata delle percentuali di sostenitori del club X nelle 24 aree geografiche, con pesi dati dai sostenitori totali di ciascuna delle 24 aree stesse
  • la varianza dello stimatore così definito è data dalla somma delle varianze delle stime in ciascuna area geografica rispettivamente moltiplicate per il quadrato del peso utilizzato per quell’area (ciò in conseguenza di una delle proprietà della varianza)
  • l’errore massimo delle stima della percentuale di ciascun club è approssimabile dal doppio della radice quadrata della varianza definita nel precedente punto.

Quindi …