Dati strutturati e non strutturati: quali sono le criticità

19 marzo 2020

Estrarre valore dai big data è un compito che richiede la predisposizione di modelli e l’uso di tecnologie avanzate ma che, soprattutto, si basa sulla capacità di estrarre, manipolare e analizzare i dati. L’efficacia di questi processi è condizionata dalla qualità dei dati e dalla loro natura strutturata o destrutturata.

 

Dati strutturati e semi-strutturati

I dati strutturati sono quelli che rispettano un set di regole predeterminato ovvero per i quali è possibile definirne la tipologia (data, nome, numero, caratteri, indirizzo) e le relazioni reciproche. I dati strutturati dipendono da uno schema e possono essere rappresentati da righe e colonne e archiviati in un repository centrale, tipicamente un database relazionale, da cui possono essere recuperati separatamente o in una varietà di combinazioni per l'elaborazione e l'analisi.

Oltre ai dati strutturati vi sono anche quelli semi-strutturati, che contengono tag semantici senza essere conformi alla struttura tipica associata ai database relazionali. Sono dati senza schema, non adatti per un database relazionale, che vengono rappresentati tramite etichette, grafici e strutture ad albero.

Esempi di dati semi-strutturati sono e-mail, file HTML, XML, utilizzati principalmente per trasmettere dati tra un server e un'applicazione Web.

 

Dati non strutturati

I dati non strutturati non hanno un modello predefinito e non possono essere organizzati in righe e colonne. Esempi di dati non strutturati sono immagini, audio, video, e-mail, fogli di calcolo e oggetti archiviati come file.

I dati non strutturati possono, però, avere origini molto diverse: estratti da un linguaggio umano con NLP (Natural Language Processing), acquisiti attraverso sensori, estratti dai social media, acquisiti da database NoSQL. Questa caratteristica ne rende difficile la comprensione e ambigua la collocazione.

Inoltre, tendono a essere molto più grandi e occupano volumi molto superiori rispetto ai dati strutturati arrivando anche a scale del Petabyte.

Per queste ragioni gli strumenti e le tecniche che si sono dimostrati così efficaci nel trasformare dati strutturati in business non funzionano quando si tratta di dati non strutturati.

Sotto questa spinta, negli ultimi anni, abbiamo assistito allo sviluppo di nuovi strumenti (come Hadoop, NoSQL o MongoDB) per l’archiviazione dei dati.

Altre tecnologie sono state sviluppate per estrarre informazioni a valore dai dati non strutturati tra cui ricordiamo:

  • tecnologie di data mining per effettuare elaborazione su vasta scala;
  • intelligenza artificiale per aiutare le aziende ad aggiungere automaticamente struttura ai propri dati;
  • elaborazione del linguaggio naturale per assegnare significato a documenti aziendali, e-mail, articoli di riviste e post sui social media;
  • algoritmi di riconoscimento dei modelli per identificare persone, animali o altri oggetti in immagini e video digitali; 
  • conversione da sintesi vocale a testo per convertire l'audio dei video in testo ricercabile.

A questi, hanno fatto seguito tecniche di analisi sempre più sofisticate, basate su un utilizzo avanzato della matematica e della capacità di definire modelli rappresentativi di scenari di business.

 

Nuovi strumenti per nuove opportunità

Secondo Gartner, i dati non strutturati rappresentano ormai l'80% del patrimonio informativo aziendale e la loro crescita avviene al ritmo del 65% all'anno (Fonte Datamation 2018). Una crescita che sarà ulteriormente accelerata dall’aumento dei dati generati dalle macchine come, per esempio, immagini satellitari, dati scientifici, foto e video di sorveglianza, dati generati da sensori.

Poiché la maggior parte delle informazioni è non strutturata, si comprende perché, soprattutto nelle aziende “data driven”, l’analisi dei dati non strutturati sia diventata fondamentale per individuare abitudini di acquisto, intercettare nuove tendenze, guidare l’offerta commerciale e per fornire indicazioni su come migliorare le prestazioni di un servizio specifico o dell'azienda nel suo complesso.

Per esempio, Netflix utilizza i dati video per prevedere le abitudini di visualizzazione dei suoi utenti e per valutarne la qualità dell'esperienza dei clienti. Un altro esempio è quello delle aziende che commercializzano carte di credito che sono in grado, analizzando i dati vocali dei call center e del servizio clienti, di mettere a punto in tempo reale offerte ottimizzate e personalizzate.

Il “prezzo” da pagare per approfittare di queste potenzialità, come evidenziato, è la necessità di dotarsi di nuovi strumenti tecnologici, innovative modalità di analisi e nuove competenze.

Tra le criticità dei dati destrutturati va annoverato anche il tema delle strategie di protezione, che sono messe a dura prova sia dalla loro dimensione sia dalle loro caratteristiche: basti pensare che, per eseguire il backup di alcune tipologie di dati non strutturati, potrebbe essere necessario eseguire una “snapshot” dell’intero file system.

 

Non c’è valore senza data quality

La possibilità dei dati strutturati di fornire un accesso granulare alle informazioni e di poter essere gestiti utilizzando applicazioni e tecnologie solide e di comprovata affidabilità ne rafforza l’apprezzamento da parte delle aziende.

I dati strutturati continuano a essere sfruttati con successo in molti ambiti come, per esempio, nell’e-commerce. Amazon ha rivelato tempo fa che circa il 30% delle vendite viene generato attraverso il suo motore di raccomandazione che sfrutta dati strutturati relativi al comportamento storico dell’utente.

Tuttavia, non va scordato che la possibilità di inserire un dato strutturato all’interno di un database relazionale non lo rende automaticamente un dato utile.

Infatti, la semplicità di archiviazione ed elaborazione dei dati strutturati porta, a volte, a trascurare l’attenzione alla loro qualità. Se la categorizzazione delle informazioni richiesta da un database standard, come SQL, non è fatta correttamente, gli strumenti di analisi produrranno scenari previsionali inesatti.

La best practice per sfruttare al meglio i propri dati va identificata nella capacità di predisporre modalità di integrazione di entrambi i tipi nei processi aziendali, coordinando i dati non strutturati con le informazioni strutturate tradizionali.

 

New call-to-action