Big data
Il termine big data si riferisce ad una mole di dati informatici che sono grandi, complessi e prodotti ad una velocità così elevata. Tale mole di dati è praticamente impossibile da elaborare con strumenti di gestione e analisi dei dati tradizionali. L’accesso e la memorizzazione di grandi quantità di dati su cui effettuare analisi sono attività disponibili da molto tempo, ma i big data hanno rappresentato una nuova sfida nell’ambito dell’analisi dei dati, proprio poiché sono caratterizzati da un’enorme quantità: essi infatti sono raccolti e prodotti in diversi formati e ad una velocità impressionante.
Caratteristiche dei big data
I big data sono stati inizialmente caratterizzati in letteratura per le "tre V": volume, varietà e velocità. Accanto a queste tre caratteristiche sono state poi aggiunte altre due V: veridicità e valore. Di seguito vengono elencate le diverse caratteristiche, che costituiscono appunto il modello delle "cinque V".
Volume
Con il termine volume ci si riferisce alla quantità di dati generati e memorizzati dai big data. La dimensione dei dati determina il valore e il potenziale nascosto nei dati, inoltre determina la caratterizzazione stessa di big data per quel particolare insieme di dati. La dimensione di un insieme di dati di questo tipo è generalmente nell’ordine di terabyte e petabyte.
Varietà
Ci si riferisce al tipo ed alla natura dei dati, che possono essere semi-strutturati e non strutturati affatto. Tecnologie di gestione dei dati come i database relazionali sono in grado di gestire i dati strutturati in modo efficiente ed efficace, ma il cambiamento nella natura dei dati ha messo in discussione l’utilizzo di tali tecnologie per i big data ed ha causato l’avvento di nuove tecnologie evolute appositamente. In tali tecnologie i dati sono disponibili in tutti i tipi di formati, dai dati strutturati e numerici dei database tradizionali, ai documenti di testo non strutturati, alle e-mail, ai video, audio, transazioni finanziarie.
Velocità
Ci si riferisce appunto alla velocità con cui i dati vengono generati ed elaborati per soddisfare i requisiti richiesti, che a volte possono anche essere relativi ad una disponibilità in tempo reale. Rispetto a piccoli dati, i big data vengono prodotti continuamente. Due tipi di indici relativi ai big data sono la frequenza di generazione e la frequenza di aggiornamento. La frequenza di generazione si riferisce alla frequenza con cui i dati vengono prodotti o generati. La frequenza di aggiornamento, invece, si riferisce alla frequenza con cui i dati vengono aggiornati o modificati. La frequenza di aggiornamento è importante per capire quanto frequentemente i dati cambiano e quanto velocemente devono essere elaborati e analizzati per ottenere informazioni aggiornate.
Veridicità
La veridicità si riferisce alla qualità dei dati. Poiché i dati provengono da così tante fonti diverse, è difficile collegare, abbinare, pulire e trasformare i dati tra i diversi sistemi che li raccolgono o li manipolano. Le aziende hanno bisogno di collegare e correlare relazioni e gerarchie tra i dati, in caso contrario si potrebbe andare rapidamente fuori controllo nel processo di gestione dei dati stessi.
Valore
Ci si riferisce al valore delle informazioni che può essere ottenuto dall’elaborazione e analisi di grandi insiemi di dati. Il valore può essere misurato da un valutazione delle altre qualità dei big data o può essere rappresentato dalla redditività delle informazioni recuperate dal processo di analisi.