Thesis

The BIG research group offers many thesis opportunities, usually (but not exclusively) aimed at Master students in Computer Science and Engineering and related to research projects and/or collaborations with companies.

Our open opportunities are shown below. If you are looking for a thesis with internship in a company, click here to jump to the related opportunities.

If the open opportunities don’t suite you but you still wished to pursue a thesis on Information Systems, Big Data, or Data Mining, don’t hesitate to contact us.

Open research thesis

[NEW] Prompting and fine-tuning of LLMs
Master - Research thesis
Field: Data Mining
Status: Open
Abstract: The advancements in data-intensive applications and data platforms ask for technological solutions that can hardly be managed by users without a background in computer science. In this direction, LLMs bridge such technological and cultural gap by enabling human-machine interaction through natural language. In this research thesis, the student is asked to study the fundamentals of LLMs, the prompting and fine-tuning techniques, and to apply them to a system for smart irrigation, allowing the student to practice with cutting-edge technologies applied to a real-world case study.
Contact: Prof. Matteo Golfarelli, Dr. Matteo Francia

[NEW] Data Platforms for Agritech
Master - Research thesis
Field: Data Mining
Status: Open
Abstract: Digital transformation is one of the most disruptive trends of recent years, and the synergy of information and communications technologies and precision agriculture is fostering new potential in the agritech domain. Indeed, data-driven decision support systems are now taking on a major role due to the spread of the internet of (robotic) things devices coupled with artificial intelligence and machine learning, which make it possible to precisely act in every aspect of the life cycle of agricultural assets. In this context, data platforms answer the issues related to data collection, processing, exploitation, and management. The goal of the project is to engineer a domain-level data platform to collect, integrate, and manage every data relevant to the Agritech Spoke 3. Domain level refers to high-level agritech problems or areas of analysis that should be addressed and supported by the proposed system. Indeed, the data platform must collect and integrate data, and support the analytic workloads of the six partners of the Agritech Spoke 3.
Contact: Prof. Matteo Golfarelli, Dr. Matteo Francia

[NEW] NoSQL Database Refactoring
Master - Research thesis
Field: Big Data
Status: Open
Abstract: La modellazione dei dati nei database NoSQL segue la filosofia aggregate-oriented, che prevede di strutturare le collezioni dei dati in funzione del workload - in aperta contrapposizione alla modellazione relazione, che è invece domain-oriented e quasi completamente agnostica rispetto alle query che si vorranno implementare. In tale contesto, una variazione nel workload del database NoSQL può avere un impatto significativo e ribaltare l’ottimalità delle scelte progettuali iniziali rispetto agli obiettivi preposti in termini di performance, occupazione di spazio, costo monetario, ecc. Diventa quindi importante individuare una modellazione alternativa dei dati che, oltre a permettere il ripristinare dell’ottimalità rispetto agli obiettivi iniziali, imponga un’attività di migrazione dei dati che sia fattibile e non eccessivamente costosa. L’obiettivo della tesi è quello di implementare un algoritmo che permetta di esplorare lo spazio di ricerca delle possibili modellazioni alternative per individuare un set di soluzioni ottimali. In particolare, verranno affrontati i temi della modellazione di schemi attraverso ipergrafi e l’utilizzo di algoritmi genetici per l’esplorazione dello spazio di ricerca.
Contact: Dr. Enrico Gallinucci

Stream Data Profiling
Master - Research thesis
Field: Big Data
Status: Open
Abstract: La tesi si inserisce in un contesto di analisi di dati eterogenei in streaming. L’obiettivo è quello di profilare i dati in arrivo in tempo reale utilizzando una tecnica di classificazione che si basi sulle caratteristiche peculiari degli schemi dei dati. Ad esempio, immaginando di ricevere dati in stream da una palestra, il profilo deve individuare che in base al tipo di esercizio (tapis roulant, cyclette, ecc.) le informazioni a disposizione sono diverse (passi al minuto, cadenza della pedalata, ecc.). Il focus della tesi sarà sulla progettazione, implementazione e valutazione di un algoritmo di classificazione dati in streaming, precedute dalla necessaria attività di analisi dello state dell’arte sulle tecniche più recenti nell’ambito indicato.
Contact: Dr. Enrico Gallinucci

Dynamic Visualization of a Streaming Data Profile
Master - Research thesis
Field: Big Data
Status: Open
Abstract: La tesi si inserisce in un contesto di analisi di dati eterogenei in streaming. Un profilo consiste in un ragguppamento (clustering) dei dati ricevuto nello stream sulla base delle caratteristiche peculiari degli schemi dei dati stessi (vedi proposta di tesi “Stream Data Profiling”). L’obiettivo è quello di fornire una metafora visuale per mostrare il profilo all’utente, che sia in grado di gestire la riduzione di dimensionalità (necessaria per fornire una visuale 2D o 3D) mantenendo una continuità incrementalmente (in funzione della continua evoluzione del profilo). Il focus della tesi sarà quindi sulla progettazione, implementazione e valutazione di una tecnica di visualizzazione dinamica di cluster di dati allo stato dell’arte.
Contact: Dr. Enrico Gallinucci

AutoML for cluster analysis
Master - Research thesis
Field: Data Mining
Status: Open
Abstract: The context of this research thesis is Automated Machine Learning (AutoML). This thesis focuses on (automated) cluster analysis and its goal is to study how natural clusters preserve in different feature spaces. For instance, in the IRIS dataset, the same natural clusters exist when the petal length feature is considered as well as when two features petal length and petal width are considered. The student is asked to study existing approaches and implement such analysis using well known frameworks for AutoML written in Python.
Contact: Prof. Matteo Golfarelli, Dr. Matteo Francia

Multi-model data warehouse
Master - Research thesis
Field: Business Intelligence
Status: Open
Abstract: Con la diffusione di DBMS che supportano molteplici modelli dati, i data warehouse possono essere spinti oltre la tradizionale implementazione sul modello relazionale. L’obiettivo della tesi è quello di partire da un precedente lavoro di ricerca in questo ambito per studiare implementazioni che sfruttino efficientemente molteplici modelli. In particolare, il focus sarà sulla progettazione, implementazione e test di un data warehouse che si appoggi su PostgreSQL (modello relazionale e documentale) e Neo4J (modello a grafo).
Contact: Dr. Enrico Gallinucci

Progettazione di un linguaggio visuale per la creazione di questionari
Master - Project thesis
Field: Information Systems
Status: Open
Abstract: Obiettivo della tesi è quello di progettare e realizzare un linguaggio visuale per la generazione di questionari dinamici, in maniera più evoluta rispetto alla gestione fornita dagli strumenti gratuiti disponibili (ad esempio, Google Form). Nell’ambito di vari progetti di ricerca raccogliamo informazioni da utenti tramite questionari sottoposti mediante dispositivi mobili. Per semplificare la realizzazione dei questionari si vuole creare uno strumento che permetta di realizzarli senza competenze di programmazione e con elevata espressività, similmente ad un flow chart (ad esempio, gestione if-then-else e cicli).
Contact: Prof. Matteo Golfarelli

Open thesis within companies

Proposte di tesi presso Iconsulting
Master - Project thesis
Field: Big Data
Status: Open
Abstract: L’azienda Iconsulting cerca tesisti/tirocinanti da coinvolgere su progetti cliente su tecnologie e paradigmi di frontiera. AMBITO 1: conduzione di un’analisi dettagliata su prestazioni, scalabilità ed efficienza di Spark Streaming e Kafka Streaming integrati con Azure Event Hub entrambe le tecnologie, con l’obiettivo di fornire una guida pratica e esaustiva per la selezione dell’architettura più idonea a soddisfare le esigenze specifiche e i diversi scenari di utilizzo all’interno dell’azienda. AMBITO 2: sviluppo di un’architettura avanzata su Databricks per l’ingestion e l’elaborazione di dati provenienti da sensori IoT implementando una robusta pipeline di elaborazione ed analisi dati in tempo reale, conducendo inoltre un’analisi dettagliata su prestazioni e affidabilità della soluzione proposta su casi d’uso reali e concreti.
Contact: Prof. Matteo Golfarelli, Dr. Enrico Gallinucci, Dr. Matteo Francia

Analista/Progettistista/sviluppatore di soluzioni IT presso Romagna Tech
Master - Project thesis
Field: Business Intelligence
Status: Open
Abstract: L’azienda Romagna Tech cerca tesisti/tirocinanti da coinvolgere su progetti di analisi, progettazione e sviluppo di progetti di data science, con obiettivi di medio/lungo periodo e finalità di assunzione. AMBITO 1: progettazione e realizzazione (e integrazione nei sistemi web aziendali) di sistemi di intelligenza artificiale nella generazione automatica di proposte di soluzioni di Upcycling AMBITO 2: progettazione e realizzazione di sistemi di intelligenza artificiale per il monitoraggio ambientale AMBITO 3: messa a fuoco dei bisogni informativi sullo “stato di salute” di una linea di produzione ed ideazioni di nuovi servizi basati sulla possibilità conoscitive derivanti dall’introduzione dell’IIoT AMBITO 4: progettazione di un sistema basato su intelligenza artificiale per l’estrazione automatica di informazioni caratteristiche delle tracce musicali.
Contact: Prof. Matteo Golfarelli

Proposte di tesi presso Soilmec-Trevi
Master - Project thesis
Field: Business Intelligence
Status: Open
Abstract: L’azienda Soilmec Spa cerca tesisti/tirocinanti da coinvolgere su diversi progetti, tra cui la progettazione di sistemi di business intelligence, la creazione di modelli finalizzati all’ottimizzazione degli impianti di sensoristica, lo sviluppo di applicazioni e funzionalità software avanzate per attività di controllo macchine, monitoraggio e analisi dati. In particolare: 1) Creazione di reportistica su PowerBI / Office365 dei dati macchina disponibili sul portale cloud DMS-Manager, al fine di fornire ai clienti una serie di modelli di reportistica che siano di ausilio al monitoraggio dei dati macchina - valutando inoltre l’integrazione con Microsoft Teams. 2) Ottimizzazione degli impianti di sensoristica per ridurre il numero di sensori presenti sulla macchina modellandone virtualmente alcuni sulla base delle informazioni disponibili o/e in seguito a test di caratterizzazione sperimentale e creazione di modelli di lavoro dedicati.
Contact: Prof. Matteo Golfarelli

Business Intelligence presso l’Istituto Nazionale di Fisica Nucleare
Master - Project thesis
Field: Business Intelligence
Status: Open
Abstract: L’INFN cerca laureandi con possibilita’ di borsa di studio per lo sviluppo/evoluzione della propria infrastruttura di Business Intelligence. Le tecnologie coinvolte sono molteplici: Jasper, Tibco. Le tematiche vanno dallo sviluppo di reportistica, alla reportistica in tempo reale, all’utilizzo di sistemi NoSQL. 1) Progettazione e sviluppo di modelli dati multidimensionali orientati all’analisi visiva (dashboard e report dinamici) da produrre con strumenti di Business Analytics avanzati basati su un servizio cloud Microsoft Power BI riservato per INFN. 2) Progettazione e sviluppo su infrastruttura microservice-oriented (Spring based) di librerie e componenti java dedicati all’ampliamento dell’attuale architettura di ETL (Extract Transform and Load). L’obiettivo é intercettare, filtrare ed elaborare dati provenienti da sorgenti NoSQL( MongoDB) implementate secondo il modello microservizi. 3) Progettazione e realizzazione di modelli dati orientati all’analisi statistica con scopo predittivo, basati su dati di settore amministrativo dell’INFN (Gare e acquisti). Un possibile obiettivo é identificare le categorie di acquisto (prodotti e servizi) che nel tempo abbiano subito o meno maggiori fluttuazioni di mercato ed il loro impatto compleassivo sul budget dell’ente.
Contact: Prof. Matteo Golfarelli, Prof. Alessandra Lumini

Completed thesis

Progettazione di una soluzione di Business Intelligence a supporto dei processi decisionali presso Agrintesa, Alex Baiardi, 2024
Supervisor: Dott. Enrico Gallinucci

Journey Automation - Digital Transformation in the Wellness Industry, Chiara Bertocchi, 2024
Supervisor: Dott. Enrico Gallinucci

Engineering Data Pipelines and Analytics with DataOps, Veronika Folin, 2024
Supervisor: Dott. Enrico Gallinucci

Implementazione di un Progetto Analitico nel settore Multiutility, Michele Mongardi, 2024
Supervisor: Dott. Enrico Gallinucci

Benchmarking Materialized Views of SQL-based Stream Processing Systems, Angelo Parrinello, 2024
Supervisor: Dott. Enrico Gallinucci

Design and Development of a Data Mart for the HR Department at Amadori, Federica Dell’Orletta, 2023
Supervisor: Dott. Enrico Gallinucci

Progettazione di una piattaforma Cloud per analisi predittive in ambito industria 4.0, Vlad Mattiussi, 2023
Supervisor: Dott. Enrico Gallinucci

Social Network Analysis: Architettura Streaming Big Data di Raccolta e Analisi Dati da Twitter, Andrea Giannini, 2022
Supervisor: Dott. Enrico Gallinucci

Pairs Trading - Progettazione, sviluppo e ottimizzazione di un modello di investimento basato sul Machine Learning, Riccardo Maldini, 2021
Supervisor: Dott. Enrico Gallinucci

MLOps - Standardizing the Machine Learning Workflow, Enrico Salvucci, 2021
Supervisor: Dott. Enrico Gallinucci

A text mining approach to materiality assessment, Marta Luffarelli, 2021
Supervisor: Dott. Enrico Gallinucci

Analisi delle strategie di modellazione dei dati su database NoSQL, Riccardo Salvatori, 2021
Supervisor: Dott. Enrico Gallinucci

Riconoscimento di frodi attraverso la modellazione del comportamento degli utenti, Alex Ravaglia, 2021
Supervisor: Dott. Enrico Gallinucci

Compressione e Vocalizzazione di Risultati Multidimensionali nel Paradigma OLAP, Tommaso Bombardi, 2021
Supervisor: Dott. Enrico Gallinucci
Co-supervisors: Dott. Matteo Francia

Pubblicazione di dati di traiettoria preservando il principio di non informatività, Maria Maddalena Mascellaro, 2021
Supervisor: Dott. Enrico Gallinucci
Co-supervisors: Dott. Matteo Francia

Un framework per l’analisi di Big Data con elevata eterogeneità all’interno di Multistore, Chiara Forresi, 2020
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Enrico Gallinucci

Anonimizzazione incrementale di dati di traiettoria, Luca Semprini, 2020
Supervisor: Dott. Enrico Gallinucci

GEAR: una piattaforma Big Data per l’elaborazione di stream di dati attraverso Machine Learning e Business Rules, Eugenio Cavina, 2020
Supervisor: Dott. Enrico Gallinucci
Co-supervisors: Alessandro Proscia

Progettazione e prototipazione di un sistema di Conversational BI, Rrok Gjinaj, 2020
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia, Dott. Enrico Gallinucci

Progettazione e implementazione di un sistema di recommendation per video digitali, Davide Borficchia, 2020
Supervisor: Prof. Matteo Golfarelli

AutoML: A new methodology to automate data pre-processing pipelines, Joseph Giovanelli, 2020
Supervisor: Prof. Matteo Golfarelli

Manutenzione predittiva di attrezzature sportive: dall’analisi delle potenzialità alla prototipazione, Giulia Lucchi, 2020
Supervisor: Prof. Matteo Golfarelli

Clustering di traiettorie in ambito big data, Federico Naldini, 2020
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia

Progettazione e prototipazione di un data mart per l’analisi della fluttuazione di performance, Sofia Rossi, 2020
Supervisor: Prof. Matteo Golfarelli

Clustering di traiettorie su piattaforma big data, Mattia Oriani, 2019
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia

Progettazione e prototipazione di un framework per Conversational OLAP, Sara Sintoni, 2019
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia

Map-Matching su Piattaforma Big Data, Federico Vitali, 2019
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia

Gestione di un data lake strutturato attraverso il riconoscimento semantico dei dati acquisiti, Anna Giulia Leoni, 2019
Supervisor: Dott. Enrico Gallinucci

Utilizzo di dati social per la deanonimizzazione di tracce GPS, Nicola Santolini, 2019
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia, Dott. Enrico Gallinucci