Thesis

The BIG research group offers many thesis opportunities, usually aimed at Master students and related to research projects and/or collaborations with companies.

Check below the open proposals or contact us if you are looking for a thesis on Information Systems, Big Data, or Data Mining.

[NEW] Prompting and fine-tuning of LLMs
Master - Research thesis
Field: Data Mining
Status: Open
Abstract: The advancements in data-intensive applications and data platforms ask for technological solutions that can hardly be managed by users without a background in computer science. In this direction, LLMs bridge such technological and cultural gap by enabling human-machine interaction through natural language. In this research thesis, the student is asked to study the fundamentals of LLMs, the prompting and fine-tuning techniques, and to apply them to a system for smart irrigation, allowing the student to practice with cutting-edge technologies applied to a real-world case study.
Contact: Prof. Matteo Golfarelli, Dr. Matteo Francia

[NEW] “Data Platforms for Agritech”
Master - Research thesis
Field: Data Mining
Status: Open
Abstract: Digital transformation is one of the most disruptive trends of recent years, and the synergy of information and communications technologies and precision agriculture is fostering new potential in the agritech domain. Indeed, data-driven decision support systems are now taking on a major role due to the spread of the internet of (robotic) things devices coupled with artificial intelligence and machine learning, which make it possible to precisely act in every aspect of the life cycle of agricultural assets. In this context, data platforms answer the issues related to data collection, processing, exploitation, and management. The goal of the project is to engineer a domain-level data platform to collect, integrate, and manage every data relevant to the Agritech Spoke 3. Domain level refers to high-level agritech problems or areas of analysis that should be addressed and supported by the proposed system. Indeed, the data platform must collect and integrate data, and support the analytic workloads of the six partners of the Agritech Spoke 3.
Contact: Prof. Matteo Golfarelli, Dr. Matteo Francia

[NEW] NoSQL Database Refactoring
Master - Research thesis
Field: Big Data
Status: Open
Abstract: La modellazione dei dati nei database NoSQL segue la filosofia aggregate-oriented, che prevede di strutturare le collezioni dei dati in funzione del workload - in aperta contrapposizione alla modellazione relazione, che è invece domain-oriented e quasi completamente agnostica rispetto alle query che si vorranno implementare. In tale contesto, una variazione nel workload del database NoSQL può avere un impatto significativo e ribaltare l’ottimalità delle scelte progettuali iniziali rispetto agli obiettivi preposti in termini di performance, occupazione di spazio, costo monetario, ecc. Diventa quindi importante individuare una modellazione alternativa dei dati che, oltre a permettere il ripristinare dell’ottimalità rispetto agli obiettivi iniziali, imponga un’attività di migrazione dei dati che sia fattibile e non eccessivamente costosa. L’obiettivo della tesi è quello di implementare un algoritmo che permetta di esplorare lo spazio di ricerca delle possibili modellazioni alternative per individuare un set di soluzioni ottimali. In particolare, verranno affrontati i temi della modellazione di schemi attraverso ipergrafi e l’utilizzo di algoritmi genetici per l’esplorazione dello spazio di ricerca.
Contact: Dr. Enrico Gallinucci

[NEW] Stream Data Profiling
Master - Research thesis
Field: Big Data
Status: Open
Abstract: La tesi si inserisce in un contesto di analisi di dati eterogenei in streaming. L’obiettivo è quello di profilare i dati in arrivo in tempo reale utilizzando una tecnica di classificazione che si basi sulle caratteristiche peculiari degli schemi dei dati. Ad esempio, immaginando di ricevere dati in stream da una palestra, il profilo deve individuare che in base al tipo di esercizio (tapis roulant, cyclette, ecc.) le informazioni a disposizione sono diverse (passi al minuto, cadenza della pedalata, ecc.). Il focus della tesi sarà sulla progettazione, implementazione e valutazione di un algoritmo di classificazione dati in streaming, precedute dalla necessaria attività di analisi dello state dell’arte sulle tecniche più recenti nell’ambito indicato.
Contact: Dr. Enrico Gallinucci

[NEW] Dynamic Visualization of a Streaming Data Profile
Master - Research thesis
Field: Big Data
Status: Open
Abstract: La tesi si inserisce in un contesto di analisi di dati eterogenei in streaming. Un profilo consiste in un ragguppamento (clustering) dei dati ricevuto nello stream sulla base delle caratteristiche peculiari degli schemi dei dati stessi (vedi proposta di tesi “Stream Data Profiling”). L’obiettivo è quello di fornire una metafora visuale per mostrare il profilo all’utente, che sia in grado di gestire la riduzione di dimensionalità (necessaria per fornire una visuale 2D o 3D) mantenendo una continuità incrementalmente (in funzione della continua evoluzione del profilo). Il focus della tesi sarà quindi sulla progettazione, implementazione e valutazione di una tecnica di visualizzazione dinamica di cluster di dati allo stato dell’arte.
Contact: Dr. Enrico Gallinucci

AutoML for cluster analysis
Master - Research thesis
Field: Data Mining
Status: Open
Abstract: The context of this research thesis is Automated Machine Learning (AutoML). This thesis focuses on (automated) cluster analysis and its goal is to study how natural clusters preserve in different feature spaces. For instance, in the IRIS dataset, the same natural clusters exist when the petal length feature is considered as well as when two features petal length and petal width are considered. The student is asked to study existing approaches and implement such analysis using well known frameworks for AutoML written in Python.
Contact: Prof. Matteo Golfarelli, Dr. Matteo Francia

Multi-model data warehouse
Master - Research thesis
Field: Business Intelligence
Status: Open
Abstract: Con la diffusione di DBMS che supportano molteplici modelli dati, i data warehouse possono essere spinti oltre la tradizionale implementazione sul modello relazionale. L’obiettivo della tesi è quello di partire da un precedente lavoro di ricerca in questo ambito per studiare implementazioni che sfruttino efficientemente molteplici modelli. In particolare, il focus sarà sulla progettazione, implementazione e test di un data warehouse che si appoggi su PostgreSQL (modello relazionale e documentale) e Neo4J (modello a grafo).
Contact: Dr. Enrico Gallinucci

Business Intelligence presso l’Istituto Nazionale di Fisica Nucleare
Master - Project thesis
Field: Business Intelligence
Status: Open
Abstract: L’INFN cerca laureandi con possibilita’ di borsa di studio per lo sviluppo/evoluzione della propria infrastruttura di Business Intelligence. Le tecnologie coinvolte sono molteplici: Jasper, Tibco. Le tematiche vanno dallo sviluppo di reportistica, alla reportistica in tempo reale, all’utilizzo di sistemi NoSQL.
Contact: Prof. Alessandra Lumini

Progettazione di un linguaggio visuale per la creazione di questionari
Master - Project thesis
Field: Information Systems
Status: Open
Abstract: Obiettivo della tesi è quello di progettare e realizzare un linguaggio visuale per la generazione di questionari dinamici, in maniera più evoluta rispetto alla gestione fornita dagli strumenti gratuiti disponibili (ad esempio, Google Form). Nell’ambito di vari progetti di ricerca raccogliamo informazioni da utenti tramite questionari sottoposti mediante dispositivi mobili. Per semplificare la realizzazione dei questionari si vuole creare uno strumento che permetta di realizzarli senza competenze di programmazione e con elevata espressività, similmente ad un flow chart (ad esempio, gestione if-then-else e cicli).
Contact: Prof. Matteo Golfarelli

[NEW] Big Data Analytics presso Easy Market
Master - Project thesis
Field: Big Data
Status: Taken
Abstract: La società Easy Market con sede a Rimini si occupa della vendita on line di Voli e hotel. Le ricerche on line generano giornalmente fino 1 miliardo di transazioni. Easy market sta realizzando un sistema di Big Data Analytics con tecnologia Google per estrarre valore da questi dati. Il tesista sarà coinvolto nella progettazione e realizzazione di tale sistema che ci si aspetta realizzi sia analisi batch (DW), sia analisi in tempo reale per ottimizzare i processi operativi. Easy Market è alla ricerca di giovani talenti per ampliare la propria divisione di Business Intelligence e Data Science. La tesi rappresenta quindi un primo passo verso l’assunzione.
Contact: Prof. Matteo Golfarelli, Dr. Enrico Gallinucci

Completed thesis

Pairs Trading - Progettazione, sviluppo e ottimizzazione di un modello di investimento basato sul Machine Learning, Riccardo Maldini, 2021
Supervisor: Dott. Enrico Gallinucci

MLOps - Standardizing the Machine Learning Workflow, Enrico Salvucci, 2021
Supervisor: Dott. Enrico Gallinucci

A text mining approach to materiality assessment, Marta Luffarelli, 2021
Supervisor: Dott. Enrico Gallinucci

Analisi delle strategie di modellazione dei dati su database NoSQL, Riccardo Salvatori, 2021
Supervisor: Dott. Enrico Gallinucci

Riconoscimento di frodi attraverso la modellazione del comportamento degli utenti, Alex Ravaglia, 2021
Supervisor: Dott. Enrico Gallinucci

Compressione e Vocalizzazione di Risultati Multidimensionali nel Paradigma OLAP, Tommaso Bombardi, 2021
Supervisor: Dott. Enrico Gallinucci
Co-supervisors: Dott. Matteo Francia

Pubblicazione di dati di traiettoria preservando il principio di non informatività, Maria Maddalena Mascellaro, 2021
Supervisor: Dott. Enrico Gallinucci
Co-supervisors: Dott. Matteo Francia

Un framework per l’analisi di Big Data con elevata eterogeneità all’interno di Multistore, Chiara Forresi, 2020
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Enrico Gallinucci

Anonimizzazione incrementale di dati di traiettoria, Luca Semprini, 2020
Supervisor: Dott. Enrico Gallinucci

GEAR: una piattaforma Big Data per l’elaborazione di stream di dati attraverso Machine Learning e Business Rules, Eugenio Cavina, 2020
Supervisor: Dott. Enrico Gallinucci
Co-supervisors: Alessandro Proscia

Progettazione e prototipazione di un sistema di Conversational BI, Rrok Gjinaj, 2020
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia, Dott. Enrico Gallinucci

Progettazione e implementazione di un sistema di recommendation per video digitali, Davide Borficchia, 2020
Supervisor: Prof. Matteo Golfarelli

AutoML: A new methodology to automate data pre-processing pipelines, Joseph Giovanelli, 2020
Supervisor: Prof. Matteo Golfarelli

Manutenzione predittiva di attrezzature sportive: dall’analisi delle potenzialità alla prototipazione, Giulia Lucchi, 2020
Supervisor: Prof. Matteo Golfarelli

Clustering di traiettorie in ambito big data, Federico Naldini, 2020
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia

Progettazione e prototipazione di un data mart per l’analisi della fluttuazione di performance, Sofia Rossi, 2020
Supervisor: Prof. Matteo Golfarelli

Clustering di traiettorie su piattaforma big data, Mattia Oriani, 2019
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia

Progettazione e prototipazione di un framework per Conversational OLAP, Sara Sintoni, 2019
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia

Map-Matching su Piattaforma Big Data, Federico Vitali, 2019
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia

Gestione di un data lake strutturato attraverso il riconoscimento semantico dei dati acquisiti, Anna Giulia Leoni, 2019
Supervisor: Dott. Enrico Gallinucci

Utilizzo di dati social per la deanonimizzazione di tracce GPS, Nicola Santolini, 2019
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia, Dott. Enrico Gallinucci