… quindi nello schema del campionamento casuale semplice la numerosità totale del campione atta a stimare lo share di un qualsiasi club di serie A, calcolata in base alle formule di letteratura e sotto l’ipotesi che lo share massimo del club più amato non superi il 40% del totale, è pari a 9.600 interviste valide.

La stratificazione per area geografica porta però a un abbattimento dell’errore campionario e quindi a una diminuzione della numerosità ideale. Il calcolo di tale effetto, chiamato comunemente design efficiency, si dovrebbe però basare su indagini similari o su precise ipotesi sulla distribuzione dei tifosi per ciascun club coinvolto. Operazione con molti margini di incertezza.

Basterà allora riferirsi ad alcune approssimazioni di letteratura, si veda per esempio quanto scritto da G. Fabbris, che postula che il contributo della stratificazione alla riduzione dell’errore campionario per la stima di percentuali è basso. Nella mia esperienza la design efficiency del disegno stratificato si aggira intorno al 95% (ossia l’errore è abbattuto del 5%), a volte scende a 92% ma si tratta di casi eccezionali.

Considerando che il sovracampionamento di alcune AGL porta a un lieve aumento della variabilità delle stime, fissiamo allora la design efficiency a 95%, cosicché la numerosità ideale totale sarebbe pari a 9.120 interviste.

Per la ripartizione delle 9.120 interviste nelle AGL e AGR occorre stabilire la misura del sovracampionamento delle AGL delle società con concentrazione dei sostenitori nell’ambito locale. In questo caso, infatti, l’algoritmo di stima dello share del generico club X può essere approssimato a:  P(x)=P(x)l*S(lx)/S(T), ossia alla percentuale di sostenitori del club X nel proprio bacino locale l-esimo, moltiplicata per il numero di sostenitori di TUTTE le società presenti nel bacino l-esimo, diviso poi per il numero totale di sostenitori sull’intero territorio nazionale.

Considerando poi che vogliamo che per queste società l’errore massimo delle stime sia non superiore a 0,25*P(x) e nell’ipotesi che lo share locale di tale società non scenda mai al di sotto del 30%, allora la numerosità minima di interviste per l’AGL di riferimento è pari a 149 , che approssimiamo per motivi estetici a 150.

Le società con distribuzione polarizzata con effetto immigrazione (si vedano i post precedenti per la descrizione di questa tipologia), si trovano in una situazione un pò più articolata e anche difficile da valutare matematicamente. Possiamo senz’altro confermare che anche in questo caso il sovracampionamento è necessario, anche se in misura minore. Per semplicità applicheremo la stessa numerosità minima (150) anche per gli AGR delle società di questo gruppo.

Tutto ciò premesso, l’allocazione delle 9.120 interviste si ottiene in tre passi:

  1. allocazione proporzionale in base al rispettivo numero totale di sostenitori (che però è ancora sconosciuto, per cui si utilizzerebbe come proxi la popolazione residente)
  2.  imposizione del vincolo della numerosità minima pari a 150 casi negli AGL dei club con concentrazione locale o polarizzata…
  3. ricalcolo della numerosità per i restanti AGL e per gli AGR in modo da ottenere la quadratura (ossia un totale di 9.120 interviste).

Applicando la procedura al nostro caso si otterrebbe:

  • AGL 1 (rif. Juventus): province di Torino, Aosta, Cuneo, Biella, Vercelli , Asti = 528 interviste
  • AGL 2 (rif. Sampdoria/Genoa): LIGURIA  = 237
  • AGL 3 (rif. Inter/Milan): province di Milano, Monza, Varese, Como, Lecco, Pavia, Lodi  = 965
  • AGL 4 (rif. Brescia): provincia di Brescia  = 184
  • AGL 5 (rif. Chievo): provincia di Verona  = 150
  • AGL 6 (rif. Udinese): provv. di Udine e Pordenone  = 150
  • AGL 7 (rif. Cesena): provincia di Forlì-Cesena  = 150
  • AGL 8 (rif. Bologna): prov. di Bologna  = 150
  • AGL 9 (rif. Parma): prov. di Parma  = 150
  • AGL 10 (rif. Fiorentina): provv. di Firenze e Prato  = 183
  • AGL 11 (rif. Roma/Lazio): LAZIO  = 837
  • AGL 12 (rif. Napoli): CAMPANIA  = 853
  • AGL 13 (rif. Bari): provv. di Bari e Barletta-Andria-Trani  = 242
  • AGL 14 (rif Lecce): prov. di Lecce  = 150
  • AGL 15 (rif. Catania): prov. di Catania  = 159
  • AGL 16 (rif. Palermo): provv. di Palermo e Trapani  = 247
  • AGL 17 (rif. Cagliari): SARDEGNA  = 245
  • AGR 1: provv. di Verbania, Novara, Alessandria, Piacenza, Sondrio, Bergamo, Cremona, Mantova  = 486
  • AGR 2: TRENTINO A.A., VENETO (esclusa prov. di Verona), provv. di Gorizia, Trieste, Ferrara e Ravenna  = 905
  • AGR 3: provv. di Reggio Emilia, Modena, TOSCANA (escluse provv. di Firenze e Prato)  = 546
  • AGR 4: provv. di Rimini; MARCHE, UMBRIA  = 410
  • AGR 5: ABRUZZO; MOLISE; prov. Foggia, Matera, Brindisi e Taranto  = 511
  • AGR 6: Prov. Potenza, CALABRIA  =351
  • AGR 7: SICILIA (escluse provv. di Trapani, Palermo e Catania)  = 333.

In definitiva il sovracampionamento interesserebbe quindi solo sei bacini AGL, con ritocchi alla numerosità iniziale che sono rilevanti solo per le province di Forlì-Cesena e Parma.

Come già ricordato tali sovracampionamenti non costituiscono motivo di sovrastima del numero di sostenitori delle sei squadre interessate (Verona, Udinese, Cesena, Bologna, Parma e Lecce) dato che l’algoritmo di stima tiene conto delle reali incidenze in termini di popolazione, ri-equilibrando tali sovracampionamenti.