Scenario

Il web e le statistiche scomparse

In questi ultimi anni, più o meno a partire dalla fine della pandemia, sta diventando sempre più difficile per le aziende raccogliere statistiche relative agli utenti dei loro servizi web e anche, più in generale, dei servizi online. Questo fenomeno dipende da una serie di fattori; dagli utenti con la fobia di farsi rubare le informazioni personali alle architetture stratificate che per favorire le prestazioni non fanno più arrivare l’utente finale sul sito. Abbiamo osservato il fenomeno e ve ne diamo un quadro almeno per i fattori principali.

Come avviene la raccolta dei dati

Le statistiche di accesso a un sito web si raccolgono, in linea di principio, in una maniera molto semplice: contando le pagine servite. Questo ci bastava fino alla fine degli anni ’90. Infatti, esistono una marea di software sviluppati in quegli anni per analizzare i file di log di un web server ed estrarre volumi di traffico e provenienza degli utenti. Questo, però, oggi, non è più sufficiente.

Da una parte, contare chi arriva sul nostro sito web non ci basta più. Dei nostri utenti abbiamo bisogno di sapere che contenuti gli interessano, come ci sono arrivati, se sono visitatori abituali. Insomma, abbiamo bisogno di associarli ad un profilo comportamentale per capire come migliorare il nostro servizio. E questo, facciamo attenzione, è una cosa radicalmente diversa dal riconoscerli.

Quello che si fa oggi è aggiungere alle pagine degli elementi esterni al sito. Questi elementi vengono gestiti direttamente dal browser che, per collezionarli, si collega a uno o più siti di raccolta di statistiche e lascia dietro di se una scia digitale. Tutto questo viene combinato con il meccanismo dei cookie, che tengono traccia delle sessioni degli utenti, per estrarre statistiche e catalogare gli utenti.

Se questo meccanismo venga poi usato o abusato è un discorso diverso e che non tratteremo qui. Il punto veramente importante è che questa architettura, negli ultimi due anni, ha cominciato a non funzionare più per una commistione di motivi tecnologici e non.

La fobia degli utenti

Gli utenti online hanno sviluppato, soprattutto in questi ultimi tempi, un po’ in risposta a degli abusi un po’ in maniera poco razionale, un rifiuto sistematico al farsi tracciare e catalogare.

Secondo le direttive della Comunità Europea, tutti i siti che raccolgono statistiche sono oggi obbligati a far scegliere esplicitamente agli utenti se farsi tracciare attraverso i cookie oppure no. Una significativa fetta di utenti nega sistematicamente qualunque tipo di consenso. Parte perché non capisce che cosa sta accettando e parte perché chi gestisce il sito potrebbe essere a volte un po’ più esplicito sul perché vorrebbe tracciarli. Ad esempio, non sarebbe male spiegare meglio quali servizi a valore aggiunto possono essere erogati grazie al tracciamento.

Rifiutare i cookie non previene di poter tenere traccia delle visite a un sito. Infatti, ci sono anche altri meccanismi di conteggio. Purtroppo, però, sta diventando anche pratica comune dotarsi di plug-in (i cosiddetti ad-blocker) che rimuovono dalle pagine non solo i cookie ma anche altri elementi esterni a volte anche in maniera un po’ indiscriminata. Questo non elimina ma sicuramente riduce sensibilmente la scia digitale del browser che si menzionava prima. Teniamo conto che gli ad-blocker non sono più un fenomeno così tanto di nicchia; infatti, tra quelli più famosi ne troviamo uno promosso dalla Electronic Frontier Foundation. Inoltre, in alcuni casi, ci sono dei browser che li forniscono come parte delle loro funzionalità.

Scorpi la super offerta NordVPN – 63% di sconto

Una resistenza che non si ferma al web

La resistenza degli utenti a farsi tracciare, purtroppo, non si ferma all’uso del browser. Perché esistono molte applicazioni che fanno tracciamento ma non sono browser. Ovviamente, anche per queste ultime si sono sviluppate delle contromisure. Pi-Hole, ad esempio, è un servizio che un utente può installare in casa propria con un investimento irrisorio e che permette di bloccare tutto il traffico in uscita verso siti di tracciamento. Questo oscura non solo i PC ma anche la domotica e i cellulari che usano WiFi. Ovviamente, per poterlo installare serve un minimo di scolarizzazione informatica. Rimane un fenomeno di minoranza, ma non è neppure più una attività di nicchia come usava essere 5 o 6 di anni fa.

In un panorama del genere, molti utenti di un sito web si trasformano in una specie di fantasmi di cui diventa difficile tenere traccia. Non sappiamo chi sono, ma molto spesso non sappiamo neppure che esistono perché la pagina non la prendono dal nostro sito ma da un proxy esterno. Questo proxy, che fa parte di una CDN, esiste per migliorare le prestazioni del nostro sito e, molto spesso, siamo noi a richiederlo.

web statistiche hiding

Le Content Delivery Network (CDN)

Una CDN è una infrastruttura di rete che si pone tra i nostri server e l’utente. In pratica, tutta una serie di contenuti vengono forniti direttamente dalla CDN e non dal nostro sito. Di solito, lo si fa per i contenuti molto grandi o che non variano nel tempo. Un operatore CDN ha spesso degli accordi con gli operatori telefonici e installa i suoi proxy direttamente sulla dorsale dei provider. La motivazione per usare il loro servizio è quindi duplice: da una parte si riduce il traffico e dall’altra si riducono i tempi di attesa dell’utente (e migliora il nostro rank SEO).

Il problema delle CDN e che se l’utente filtra direttamente sul browser tutto quello che è stato aggiunto per tracciarlo, ciò che rimane arriva unicamente dal provider della CDN. Per cui, noi potremmo non sapere neppure mai che l’utente ha usufruito del nostro contenuto. È questo è uno dei motivi per cui, oggi, su molti siti, l’analisi del log di sistema non è più significativa.

Le CDN dei social

Ci va di fare una menzione speciale per le CDN delle piattaforme social. È un dato di fatto che chi distribuisce contenuti usufruisce di una frazione di visualizzazioni dirette (gente che si collega al sito) e di una parte di visualizzazioni perché le pagine vengono segnalate da terze parti. Queste terze parti sono i motori di ricerca, ma anche piattaforme social attraverso le quali il contenuto viene promosso. Le piattaforme social, però, almeno nella versione mobile, non rimandano al nostro sito ma spesso forniscono all’utente una versione interna che hanno registrato. Questo approccio permette a un social network di dare l’informazione più velocemente all’utente e anche di formattarla in maniera più leggibile.

L’ effetto secondario è che la pagina viene anche ripulita di una serie di elementi, tra cui la pubblicità, e qualche volta anche i sistemi di tracciamento. Se ci facciamo caso, anche se una pagina sul nostro sito cambia, spesso dobbiamo aspettare che la CDN del social network se ne renda conto. O, in alternativa, richiedere esplicitamente un aggiornamento per vedere il cambiamento sul cellulare. Ogni social e motore di ricerca ha dei servizi online con cui fare la richieste.

Non troviamo questo fenomeno irragionevole. In fondo, vi facciamo notare, anche i social network sono società che fanno profitto con la (loro) pubblicità e che danno un valore alle statistiche sui (loro) utenti.

I siti indipendenti per le stime

Esistono, e tutti lo sappiamo, dei siti online che forniscono delle stime sul traffico presunto di un sito web. Sorge quindi spontanea una domanda: ma se il traffico non lo sa il proprietario del sito, come fanno a saperlo loro?

Infatti, non lo sanno; ne fanno una stima.

Non pensiamo sia questo il posto giusto dove discutere di teorie matematiche. Tuttavia, se chiedete a un matematico che si intende di statistica che cosa è uno stimatore, è molto probabile che vi risponderà con una frase che contiene la parola “opinione”.

Questi servizi online, molto spesso, analizzano i nostri siti e ne traggono informazioni relative alle parole chiave dei contenuti. Successivamente, chiedono ai motori di ricerca quanto sono gettonate le ricerche con quelle parole chiave. Oppure, fanno delle rievazioni sulle campagne marketing e le confrontano con casi noti. Alla fine, raccolte molte informazioni, mettono tutto a fattor comune ed effettuano una stima del nostro sito. Purtroppo, quali dati sono raccolti e come vengono aggregati, è una informazione che raramente viene resa pubblica.

Tuttavia, proprio perché siamo di fronte a una stima, dobbiamo ammettere un margine di errore e, in tutta onestà, nessuno può garantire che la realtà sia ben diversa.

Un discorso molto più complesso di così

In questa nostra disanima abbiamo lasciato scoperto un aspetto importante e anche molto spinoso: chi non distribuisce contenuti ma fa e-commerce. Li la prospettiva è diversa perché l’utente si deve registrare. Tuttavia, la difficoltà a tracciare gli utenti casuali o prima che si autenticano rende più difficile capire il motivo delle mancate conversioni o identificare i prodotti di maggiore interesse per il pubblico.

Come redazione ci teniamo a ringraziare tutte le persone (troppe per menzionarle singolarmente) con cui, direttamente o indirettamente, ci siamo confrontati in questi mesi e che hanno contribuito alla formulazione di questa analisi.

Da non perdere questa settimana su Techbusiness

🔝LinkedIn pubblica il report Top Companies Italia 2024: al primo posto Intesa Sanpaolo
 
🍪Il futuro della privacy online: Google dice addio ai cookie di terze parti
 
🪪Parliamo di SASE: intervista a Aldo Di Mattia di Fortinet
 
💡AMD e i data center energeticamente sostenibili. Intervista ad Alexander Troshin
 
✒️ La nostra imperdibile newsletter Caffellattech! Iscriviti qui 
 
🎧 Ma lo sai che anche Fjona ha la sua newsletter?! Iscriviti a SuggeriPODCAST!
 
📺 Trovi Fjona anche su RAI Play con Touch - Impronta digitale!
 
💌 Risolviamo i tuoi problemi di cuore con B1NARY
 
🎧 Ascolta il nostro imperdibile podcast Le vie del Tech
 
💸E trovi un po' di offerte interessanti su Telegram!

Dario Maggiorini

Si occupa di tecnologia e di tutto quello che gira attorno al mondo dell'ICT da quando sa usare una tastiera. Ha un passato come sistemista e system integrator, si è dedicato per anni a fare ricerca nel mondo delle telecomunicazioni e oggi si interessa per lo più di scalabilità e sistemi distribuiti; soprattutto in ambito multimediale e per sistemi interattivi. Il pallino, però, è sempre lo stesso: fare e usare cose che siano di reale utilità per chi lavora nel settore.

Ti potrebbero interessare anche:

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Back to top button