mail unicampaniaunicampania webcerca

    Antonello D'AMBRA

    Insegnamento di DATA MINING

    Corso di laurea magistrale in ECONOMIA E MANAGEMENT

    SSD: SECS-S/01

    CFU: 8,00

    ORE PER UNITÀ DIDATTICA: 56,00

    Periodo di Erogazione: Primo Semestre

    Italiano

    Lingua di insegnamento

    ITALIANO

    Contenuti

    Questo corso si propone di descrivere metodi e modelli statistici per l’analisi di grandi moli di dati di proprietà delle aziende di produzione e/o servizi pubbliche o private. Più specificamente si propone lo studio della gestione dei data-warehouse, dalla codifica delle informazioni all’analisi della qualità dei dati; dallo studio descrittivo/confermativo dei fenomeni all’analisi esplorativa multivariata; dall’analisi della dipendenza tra due variabili allo studio dei modelli multivariati della dipendenza. Nella parte finale del corso si introducono strumenti di misura di fenomeni strettamente connessi all’attività di gestione e di marketing di una azienda, quali la valutazione dell’innovazione, le relazioni tra vendite/consumi, la soddisfazione del cliente/utente, etc..

    Testi di riferimento

    Giudici P. Data Mining, metodi informatici, statistici ed applicazioni. McGraw-Hill- cap. I, II, III, IV, V.
    Gherghi M., Lauro N.C. Analisi Multidimensionale dei Dati. Ed. EDISU; Introduzione, cap. I, VI.
    Durante il corso saranno rilasciate alcune dispense integrative

    Obiettivi formativi

    Il corso intende favorire negli studenti:
    a) lo sviluppo delle conoscenze degli strumenti statistici, la capacità di analisi statistiche per lo studio di problemi concreti. La capacità di utilizzo di pacchetti di software statistico e la conoscenza di un ambiente di programmazione lineare. La capacità dell’utilizzo di tecniche e metodi e/o strategie di analisi utili a prendere decisioni aziendali.
    b) lo sviluppo di autonomia di giudizio nella scelta appropriata della tecnica/modello statistico per l’elaborazione dei dati, la capacità critica d’interpretare la bontà dei risultati dei modelli/metodi applicati su database aziendali pubblici o privati;
    c) la sperimentazione dei metodi e modelli statistici con l’utilizzo di pacchetti di software statistico, la capacità di comunicazione dei risultati delle analisi effettuate e delle soluzioni proposte;
    d) lo sviluppo di capacità di apprendimento utili per interpretare in maniera autonoma report tridimensionali –come ad esempio l’ OLAP (on line analytical processing)- grafici, tabelle, mappe fattoriali, alberi di classificazione, utilizzati nelle imprese per descrive fenomeni multivariati.

    Prerequisiti

    Conoscenze di elementi di statistica e probabilità

    Metodologie didattiche

    - Lezioni frontali partecipate finalizzate al miglioramento delle conoscenze e capacità di comprensione degli studenti mediante l’esposizione di teorie, modelli e metodi statistici multivariati; gli studenti sono invitati a partecipare alla lezione con autonomia di giudizio, formulando domande, presentando esempi.
    - Laboratorio informatico-statistico e case study: gli studenti utilizzano i PC del laboratorio informatico e iniziano l’apprendimento dell’ambiente di programmazione R - http://cran.r-project.org/ e affrontano un case study, sotto forma di una matrice dati, nella quale sono presenti alcune informazioni “critiche” (variabili miste, di natura qualitativa e quantitativa). Gli studenti in gruppo elaborano i dati, simulando un intervento professionale e/o consulenziale del “data scientist”, nel quale, applicando i modelli e/o metodi statistici multivariati, espongono in maniera critica le analisi effettuate, i risultati ottenuti e le soluzioni proposte.
    - Presentazioni e esposizione in aula delle analisi statistiche dei dati: alcuni studenti presentano in aula le elaborazioni svolte con il coordinamento del docente, si avvia così una discussione e un confronto fra le diverse metodologie di analisi possibili. Particolare enfasi viene dedicata alla capacità di critica dei metodi statistici considerati e alle abilità comunicative.
    - Studio individuale: agli studenti sono suggeriti alcuni libri di testo, siti-web sul funzionamento di pacchetti di funzioni statistiche disponibili in R, funzionali allo sviluppo di autonome capacità di apprendimento.

    Metodi di valutazione

    Esercitazioni svolte dagli studenti con la supervisione dell'insegnante durante la quale gli studenti analizzano un problema statistico al fine di utilizzare le tecniche statistiche più appropriate presentate durante il corso e interpretare i risultati.

    Altre informazioni

    Verifica ad hoc per gli studenti Erasmus

    Programma del corso

    Nel corso si affrontano i seguenti argomenti:
    Codifica dati, Qualità dei dati, Magazzini e Fonti dati, Analisi reportistica ed esplorativa dei dati, Modelli della Dipendenza, Analisi fattoriali.
    In dettaglio
    Introduzione al Data Mining
    Qualità ed organizzazione dei dati: Data Warehouse e Data MART
    Analisi esplorativa dei dati:
    Analisi delle Componenti Principali
    Modello di Regressione lineare multiplo
    Ipotesi per la costruzione del modello
    Inferenza sui parametri del modello
    Diagnostica e Analisi dei residui del
    modello
    Introduzione ai Modelli a scelta discreta: la regressione logistica
    La classificazione automatica, metodi gerarchici e non-gerarchici.

    English

    Teaching language

    Italian

    Contents

    This course aims to describe methods and statistical models for the analysis of large database of the public or private companies. More specifically, the course proposes the study of the data-warehouse management, from the coding of the information to analyze the quality of data; from the descriptive/ confirmatory study to the exploratory multivariate data analysis of phenomena; from the analysis of dependence between two variables to the multivariate models. In the final part of the course, it will be introduced some statistical tools for measuring phenomena closely related to the management and marketing of a company, such as the assessment of the innovation, the relationship between sales and consumptions, the evaluation of the customer satisfaction, etc.

    Textbook and course materials

    iudici P. Data Mining, metodi informatici, statistici ed applicazioni. McGraw-Hill- chap. I,II, III, IV, V.
    Gherghi M., Lauro N.C. Analisi Multidimensionale dei Dati. Ed. EDISU; Introduction, chap. I, VI.
    During the course it will be provided supplementary documents.

    Course objectives

    The course aims to foster in students:
    a. the development of statistical tools knowledge, the ability of statistical analysis for the study of concrete problems. The ability to use statistical software packages and knowledge of a linear programming environment. The ability to use techniques, methods and/or analysis strategies useful in making business decisions.
    b. the development of independent evaluation in the appropriate choice of the technique or statistical model for data processing, the critical capacity to interpret the goodness of the models/methods applied results on public and private corporate databases;
    c. the testing of methods and statistical models with the use of statistical software packages, the ability to communicate the results of the analyzes and proposed solutions;
    d. the development of learning skills for interpreting independently -like three-dimensional reports, for example the 'OLAP (online analytical processing) - graphs, charts, factorial maps, used in enterprises for describing multivariate phenomena.

    Prerequisites

    Knowledge of elements of statistics and probability

    Teaching methods

    The teaching is based on the following breakdown:
    - Participate Lectures aimed at improving knowledge and understanding of the students through the exposure of theories, models and multivariate statistical methods; students are invited to attend the lecture with independent judgment, asking questions, giving examples.
    - Computer-Statistical Laboratory and case studies: students should use the computer lab and start learning the environment R - http://cran.r-project.org/- programming and tackle a case study, in the form of a data matrix, in which there are some "critical" information (mixed variables, qualitative and quantitative nature). Students process data, simulating a professional intervention and/or consulting as "data scientists", in which, applying the models and/or multivariate statistical methods critically expose the analysis findings carried out, the results obtained and the proposed solutions.
    - Presentations and exposure in the classroom of the statistical analysis of data: some students present in the classroom the calculations carried out with the coordination of the teacher, so you start a discussion and a comparison between the different possible methods of analysis. Particular emphasis is given to the critical capacity of the statistical results and to the communication skills.
    - Individual study: the students are suggested to consider some textbooks, web-sites about the available statistical R functions, functional to the development of autonomous learning ability.

    Evaluation methods

    Exercises carried out by students with supervision of the teacher during which students analyze a statistical problem in order to use the most appropriate statistical techniques presented during the course and to interpret the results .

    Other information

    Ad hoc verification for Erasmus students

    Course Syllabus

    The course will cover the following topics:
    Data coding, quality of data, and stores data sources, reports and exploratory data analysis, models of addiction, factorial analysis.
    In detail
    Introduction to Data Mining
    Quality and organization of the data: Data Warehouse and Data Mart
    Exploratory Data Analysis: Principal Component Analysis
    Multiple Linear Regression Model
    Inference on the model parameters
    Diagnostics and Analysis of model residuals Introduction to discrete choice models: logistic regression
    Cluster analysis, hierarchical and non-hierarchical algorithms.

    facebook logoinstagram buttonyoutube logotype