ICT Professional Services



Big Data: Tecnologie e Problematiche

Submit to FacebookSubmit to TwitterSubmit to LinkedIn

Descrizione
I Big Data rappresentano la principale tendenza in campo informatico degli ultimi anni. Con Big Data si intendono dataset aventi dimensioni e caratteristiche tali da non essere facilmente trattati con sistemi tradizionali quali, ad esempio, i database relazionali. Questo non vuol dire che gli strumenti di gestione dati normalmente presenti in azienda non siano in grado di trattare i big data ma che il loro utilizzo può essere poco produttivo in termini di tempi e costi di elaborazione. A tal fine, gli strumenti tradizionali, possono essere affiancati (mai sostituiti) da nuovi prodotti quali file system distribuiti, database NoSQL e framework di elaborazione distribuita come map reduce. La scelta degli strumenti non può essere fatta in modo superficiale e deve essere basata sui requisiti di business dell’azienda.
Ma quali caratteristiche devono avere i dati per essere considerati “Big”? Quali vantaggi di business possono derivare dalla loro elaborazione? Quali sono le principali tecnologie per la loro memorizzazione, elaborazione e gestione? Questo corso vuole fornire una panoramica sullo stato dell’arte delle tecnologie e dei processi per la gestione di Big Data.
Gli argomenti sono descritti tramite l’esposizione di casi di studio reali.

Destinatari

  • Capi progetto
  • Analisti
  • Progettisti
  • Sviluppatori
  • Chiunque sia interessato ad approfondire i concetti relativi ai Big Data

Prerequisiti

Conoscenze base sui database, sulle tecnologie internet e sulle applicazioni distribuite.

Contenuti

Introduzione ai Big Data – cosa sono i Big Data; quanto sono grandi i Big Data? Le principali proprietà: volume, velocità, varietà, valore, veracità; classificazione dei Big Data; come individuare i Big Data; sorgenti di provenienza dei Big Data; quali opportunità per il business? Vantaggi e svantaggi nel loro utilizzo; come si posizionano i Big Data rispetto agli strumenti tradizionali (RDBMS, DWH, BI, …); il processo di gestione dei Big Data;

  • Come memorizzare i Big Data – pattern architetturali; utilizzo di file system distribuiti (es. HDFS); database NoSQL e loro classificazione; criteri per la scelta dello strumento di storage; Il concetto di Data Lake: cos’è e come implementarlo; come trasferire i dati da e verso il DataLake; memorizzare i dati in base alle esigenze del busines; strumenti per il trasferimento dei dati;
  • Come elaborare e analizzare i Big Data – elaborazione distribuita; Map/Reduce; strumenti per l’implementazione del Map/Reduce (YARN, TEZ, PIG, …); integrazione con i linguaggi di programmazione tradizionali; Real-time analytics e complex event processing; R programming language; concetti base di Data Mining;
  • Come interrogare e come visualizzare i Big Data – utilizzo degli strumenti e dei linguaggi di interrogazione nativi; mapping su SQL (Hive, Drill, Impala, ….); integrazione con RDBMS e con strumenti di Business Intelligence tradizionali;
  • Big Data Governance – che cos’è la data governance; processo di governance; il repository dei metadati; ruoli e responsabilità; nuove figure professionali (es. Data Scientist).
  • Introduzione ad Hadoop – che cos’è Hadoop; principali strumenti forniti; principali pattern architetturali; principali distribuzioni a confronto (MapR, Cloudera, Hortonworks);
  • Principali NoSQL Database a confronto – architettura, caratteristiche e funzionalità di MongoDB, Cassandra, CouchDB e altri.
  • Integrazione con i sistemi aziendali esistenti – architetture di integrazione; strumenti utilizzabili;
  • Problematiche di sicurezza e privacy – come memorizzare i dati in modo sicuro; gestione multitenancy; politiche di accesso.
  • Casi di studio ed esempi pratici.

Durata

3 giorni

Questo sito fa uso di cookie anche di terze parti per poterti offrire una migliore esperienza di visita; cliccando su "Accetto" acconsenti all’ uso. Per approfondire clicca su Informativa.