Risulta sempre più facile incappare nel termine "Big Data", quando si parla di internet, social, intelligenza artificiale, esplorazione spaziale ma anche di finanza, economia e persino di politica.
Con la dicitura Big Data si vuole indicare la grande capacità, concessa dalla tecnologia attuale, di raccogliere informazioni da grandi volumi di dati.
Ma facciamo prima un passo indietro con qualche breve cenno storico.
Per molti anni la raccolta e immagazzinamento di grandi volumi di dati sono stati appannaggio dei governi.
Il primo dispositivo di elaborazione di dati è nato nel 1943 ed è stato sviluppato dal governo britannico per decifrare le comunicazioni provenienti dal regime tedesco, durante la seconda guerra mondiale.
Colossus era in grado di identificare dei modelli e pattern all’interno dei messaggi a una velocità di circa cinque mila caratteri al secondo.
Un successivo esempio di tentativo di definire una piattaforma dati è del 1965 quando il governo americano creò un data center per immagazzinare le anagrafiche dei cittadini, ma la tecnologia in questione era ancora ben lontana da quella odierna.
Con la creazione della rete internet per la raccolta e lo scambio di informazioni, però, servivano strumenti più sofisticati, fu così che nel 1992 il Teradata DBC 1012 è così diventato il primo sistema in grado di memorizzare e analizzare grandi volumi di dati corrispondenti a circa 1 Terabyte (l’equivalente di 1000 GB).
Nel 2005 ci furono i primi utilizzi dell’espressione “big data” ed a partire da quell’anno, social come Facebook e YouTube, contribuirono alla crescita esponenziale dei dati online generati dagli utenti. Successivamente, con lo sviluppo dell’Internet of Things, evoluzione della domotica, sono state raccolte grandi quantità di dati provenienti da ogni tipo di oggetto e dispositivo collegato in rete, facilitando in questo modo l’accesso a nuove tipologie di dati che consentono di identificare dei pattern di utilizzo di prodotti da parte dei consumatori e, di conseguenza, di ottimizzare le soluzioni offerte.
Aumenta così in maniera massiccia non solo il volume di dati raccolti, ma anche la varietà di questi ultimi, che negli ultimi anni vengono sfruttati dalle aziende per le più svariate applicazioni. A dispetto del nome, Big Data che sembra suggerire lo slogan del pennello Cinghiale: “Ci vogliono grandi dati o dati grandi?”, la vera rivoluzione è anche nella capacità saperli elaborare ed analizzare.
Si tratta infatti di volumi talmente grandi da non poter essere gestiti dagli strumenti convenzionali, bensì sono necessarie tecnologie e metodi innovativi, come il Machine Learning ed le Cloud Data Platforms in grado di raccoglierli ed elaborarli con lo scopo di rispondere a precise e profonde esigenze aziendali quali il migliorare i processi, ridurre gli sprechi e predire trend di comportamento.
In questo modo le informazioni ricavate possono suggerire strategie più efficienti ed efficaci. Si tratta quindi di veri e propri beni, del resto la parola “Dato” è il participio passato del verbo “Dare” ed il loro sostantivo altro non è che un “Dono”.
Beni che la blockchain ad esempio sta uno ad uno trasformando in valori decentralizzati attraverso la definizione di monete virtuali, basti pensare a Young, la cui definizione si basa sulla capacità di restare giovani facendo fitness e tenendosi in moto.
Alla luce di queste considerazioni risulta ovvio come la possibilità di raccogliere una quantità di dati sempre più elevata, unita a quella di estrazione delle informazioni utili, rappresentino ad oggi due attività centrali nell’ambito di qualsivoglia business.
Grazie al loro utilizzo è possibile migliorare i processi produttivi, le capacità decisionali, prevedere con maggiore accuratezza le tendenze attuali e future e, in conseguenza di ciò, rendere più mirate e precise le attività commerciali nell’individuazione di ogni target di mercato. Fatte queste premesse la risposta al quesito “Quanto valore hanno i big data?” non può che essere positiva, anche se bisogna considerare elementi ulteriori rispetto al valore intrinseco che il dato reca con sé.
I dati hanno valore non in quanto dati grezzi, piuttosto per le informazioni in essi contenute. Il passaggio dal dato all’informazione è una operazione strettamente tecnologica che prevede attività di organizzazione, gestione, filtraggio e soprattutto di estrazione intelligente delle informazioni per potenziare la comprensione, la presa di decisioni e l’automazione dei processi. Si parla anche delle 5V dei big data:
Volume: il riferimento è all’enorme mole di dati generata ogni secondo, dalle email ai messaggi, ai post sui social network contenenti testo, foto e video, dati generati da sensori, fino a tante altre tipologie di contenuti prodotti ogni secondo;
Velocità: riguarda la velocità con cui vengono generati nuovi dati ma anche la velocità con cui si spostano gli stessi. Basti pensare ai contenuti virali e alla rapidità con cui vengono condivisi dagli utenti tramite i social network, ma anche a procedure che richiedono spostamenti di dati che avvengono in millesimi di secondi, come il controllo sicurezza che viene effettuato in una transazione bancaria per evitare situazioni di frode;
Varietà: si tratta di differenti tipi di dati che vengono generati, raccolti e analizzati.
Questi possono essere strutturati, ossia organizzati secondo schemi predefiniti, in tabelle per esempio, come i dati di tipo finanziario, dati di vendita, di costo ecc. e dati non strutturati, che rappresentano la gran parte dei dati generati, e possono essere di diverse tipologie come le fotografie, i messaggi scritti, le registrazioni vocali, i video, ecc.
Veracità: sottolinea l’eventuale utilità che potremmo chiamare anche “mangiabilità” dei big data per la presa di decisioni.
Proprio considerando che i dati analizzati possono essere usati come base per la presa di decisioni, si intuisce l’importanza di effettuare un “controllo qualità” adeguato.
Chiaramente, il grande volume di dati generati al secondo rende difficile garantire l’affidabilità e l’accuratezza.
A seconda della tipologia di dati, essi possono essere più o meno facili da controllare, si pensi per esempio ai post pubblicati sui social network ed al loro altissimo valore entropico;
Valore: si tratta della capacità di “trasformare” i dati in valore e cioè di sfruttarli, come già detto, per fare delle previsioni.
Il classico esempio è quello di un’azienda che si basa sull’analisi dei prodotti maggiormente acquistati da ogni categoria di clienti per prevedere il comportamento di acquisto di quest’ultimi e proporre loro dei prodotti, dei servizi o dei cambiamenti nel business, sulla base di queste previsioni.
Questa veloce analisi di grandi volumi di dati porta inoltre all’automazione dei processi per quanto riguarda per esempio la capacità di fornire delle risposte adeguate sia in termini di assistenza che di scelta degli annunci pubblicitari da mostrare ai propri clienti. Come si dice in gergo anglossassone, last but not least, il termine chiave è proprio nella parola Valore, e già, è proprio dall’informazione che si ricava dai dati che si evidenzia il valore.
Certo si tratta di una elaborazione condizionata dall’obiettivo, del resto chi sferrerebbe una freccia senza prima individuare e localizzare il bersaglio? Per questo un insieme di dati può avere un valore alto o basso in funzione dell’obiettivo di business.
Per fare una breve panoramica sulla tipologia di azioni propedeutiche all’utilizzo dei big data, si considerino i principali passaggi che vengono compiuti come: la raccolta dati; l’elaborazione; l’interpretazione ed uso. Nell’ambito poi del business riguardante i dati, si hanno diverse tipologie di attività commerciali a titolo di esempio si citano da una parte, quelle che consentono l’accesso a servizi ed a beni dietro il rilascio di dati, nelle quali si tende ad abbassare il prezzo del servizio in cambio dell’accesso ai suddetti dati; dall’altra l’attività di veri e propri brokers o content provider la cui occupazione consiste esattamente nel raccogliere e generare grandi quantità di dati per poi rivenderle agli operatori interessati a possederne ai fini di una più ottimale profilazione dei clienti.
Da quanto discusso sino a questo momento appare implicitamente evidente come tutte queste considerazioni trovino largo impiego prevalentemente nel mondo digitale e non potrebbe essere altrimenti con la grande trasformazione in atto.
Tuttavia, se è facile pensare ai molteplici utilizzi possibili grazie allo sfruttamento dei dati, altrettante sono le paure che ne derivano: in primo luogo, sorgono preoccupazioni nell’ambito del rapporto tra big data e tutela della privacy degli utenti rispetto alla raccolta di dati personali; ancora, altre preoccupazioni sorgono rispetto alle possibili derive anti-concorrenziali laddove è pacifico ritenere i big data una risorsa capace di incidere profondamente sulle corrette dinamiche di mercato; infine anche gli aspetti legati agli impatti ambientali causati dall’importante carico computazionale che la analisi di grandi moli di dati richiede.
In conclusione, il tema dei big data è sicuramente molto complesso e, come detto, trasversale ed un osservatore attento non può e non deve dare nulla per scontato.
A questo punto possiamo riprendere il quesito insito nel titolo dell’articolo: “Quanto devono essere grandi questi dati?”. L'atterraggio sulla luna è stato supportato da algoritmi di intelligenza artificiale che utilizzavano dati in tempo reale per apprendere e prevedere continuamente. Pochi dati ma di ottima qualità. Dove per qualità si intende la loro veracità, in questo sicuramente la freccia del tempo e le dinamiche del sistema sono elementi fondamentali rispetto ai quali si può stabilire l’obsolescenza dell’informazione in essi contenuta. Non si dimentichi, come già citato, che si è in una fase della evoluzione tecnologica in cui gli aspetti legati all’impatto ambientale hanno sempre più importanza e peso, percui il punto di attenzione dell’uso dei big data è dato proprio dal carico computazionale richiesto per analizzarli.
Del resto un sistema intelligente può essere realizzato anche con volumi di informazioni ricavate da pochi dati ma buoni. Tutto questo per dire che oggi abbiamo una vasta gamma di tecnologie disponibili che offrono la possibilità di scegliere ed individuare quelle che risolvono le esigenze nel rispetto di tutti i vincoli progettuali.
Il nostro cervello, ad esempio, non riceve tutti i dati in modo così caotico come avviene nelle macchine, ha una organizzazione parallela limitata alla memoria di lavoro e le informazioni che arrivano hanno sempre una sequenzialità legata al tempo che scorre e conseguentemente gestibile.
Se chiedessimo al nostro cervello di elaborare dei big data così come loù chiediamo alle macchine probabilmente ordinerebbe immediatamente una GPU su Amazon!
In conclusione analizzando tutti gli aspetti sia i grandi benefici che i punti di attenzione possiamo ancora una volta sostenere che per vincere questa corsa al “dato” presto non basterà più effettuare una sorta di pesca a strascico ma piuttosto occorrerà agire in maniera capillare posizionando la barca nei punti precisi per prendere le informazioni utili in maniera ottimale sia rispetto agli obiettivi di business che rispetto agli impatti ambientali.
Del resto siamo sempre noi che dobbiamo dominare la scena, siamo ancora esseri umani!
Σχόλια