The BIG research group offers many thesis opportunities, usually (but not exclusively) aimed at Master students in Computer Science and Engineering and related to research projects and/or collaborations with companies.
Our open opportunities are shown below. If you are looking for a thesis with internship in a company, click here to jump to the related opportunities.
If the open opportunities don’t suite you but you still wished to pursue a thesis on Information Systems, Big Data, or Data Mining, don’t hesitate to contact us.
[NEW] Prompting and fine-tuning of LLMs
Master - Research thesis
Field: Data Mining
Status: Open
Abstract: The advancements in data-intensive applications and data platforms ask for technological solutions that can hardly be managed by users without a background in computer science.
In this direction, LLMs bridge such technological and cultural gap by enabling human-machine interaction through natural language.
In this research thesis, the student is asked to study the fundamentals of LLMs, the prompting and fine-tuning techniques, and to apply them to a system for smart irrigation, allowing the student to practice with cutting-edge technologies applied to a real-world case study.
Contact: Prof. Matteo Golfarelli, Dr. Matteo Francia
[NEW] Data Platforms for Agritech
Master - Research thesis
Field: Data Mining
Status: Open
Abstract: Digital transformation is one of the most disruptive trends of recent years, and
the synergy of information and communications technologies and precision agriculture is fostering new potential in the agritech domain. Indeed, data-driven
decision support systems are now taking on a major role due to the spread of
the internet of (robotic) things devices coupled with artificial intelligence and
machine learning, which make it possible to precisely act in every aspect of the
life cycle of agricultural assets. In this context, data platforms answer the issues
related to data collection, processing, exploitation, and management.
The goal of the project is to engineer a domain-level data platform to collect,
integrate, and manage every data relevant to the Agritech Spoke 3. Domain
level refers to high-level agritech problems or areas of analysis that should be
addressed and supported by the proposed system. Indeed, the data platform
must collect and integrate data, and support the analytic workloads of the six
partners of the Agritech Spoke 3.
Contact: Prof. Matteo Golfarelli, Dr. Matteo Francia
[NEW] NoSQL Database Refactoring
Master - Research thesis
Field: Big Data
Status: Open
Abstract: La modellazione dei dati nei database NoSQL segue la filosofia aggregate-oriented, che prevede di strutturare le collezioni dei dati in funzione del workload - in aperta contrapposizione alla modellazione relazione, che è invece domain-oriented e quasi completamente agnostica rispetto alle query che si vorranno implementare.
In tale contesto, una variazione nel workload del database NoSQL può avere un impatto significativo e ribaltare l’ottimalità delle scelte progettuali iniziali rispetto agli obiettivi preposti in termini di performance, occupazione di spazio, costo monetario, ecc. Diventa quindi importante individuare una modellazione alternativa dei dati che, oltre a permettere il ripristinare dell’ottimalità rispetto agli obiettivi iniziali, imponga un’attività di migrazione dei dati che sia fattibile e non eccessivamente costosa.
L’obiettivo della tesi è quello di implementare un algoritmo che permetta di esplorare lo spazio di ricerca delle possibili modellazioni alternative per individuare un set di soluzioni ottimali. In particolare, verranno affrontati i temi della modellazione di schemi attraverso ipergrafi e l’utilizzo di algoritmi genetici per l’esplorazione dello spazio di ricerca.
Contact: Dr. Enrico Gallinucci
Stream Data Profiling
Master - Research thesis
Field: Big Data
Status: Open
Abstract: La tesi si inserisce in un contesto di analisi di dati eterogenei in streaming.
L’obiettivo è quello di profilare i dati in arrivo in tempo reale utilizzando una tecnica di classificazione che si basi sulle caratteristiche peculiari degli schemi dei dati.
Ad esempio, immaginando di ricevere dati in stream da una palestra, il profilo deve individuare che in base al tipo di esercizio (tapis roulant, cyclette, ecc.) le informazioni a disposizione sono diverse (passi al minuto, cadenza della pedalata, ecc.).
Il focus della tesi sarà sulla progettazione, implementazione e valutazione di un algoritmo di classificazione dati in streaming, precedute dalla necessaria attività di analisi dello state dell’arte sulle tecniche più recenti nell’ambito indicato.
Contact: Dr. Enrico Gallinucci
Dynamic Visualization of a Streaming Data Profile
Master - Research thesis
Field: Big Data
Status: Open
Abstract: La tesi si inserisce in un contesto di analisi di dati eterogenei in streaming.
Un profilo consiste in un ragguppamento (clustering) dei dati ricevuto nello stream sulla base delle caratteristiche peculiari degli schemi dei dati stessi (vedi proposta di tesi “Stream Data Profiling”).
L’obiettivo è quello di fornire una metafora visuale per mostrare il profilo all’utente, che sia in grado di gestire la riduzione di dimensionalità (necessaria per fornire una visuale 2D o 3D) mantenendo una continuità incrementalmente (in funzione della continua evoluzione del profilo).
Il focus della tesi sarà quindi sulla progettazione, implementazione e valutazione di una tecnica di visualizzazione dinamica di cluster di dati allo stato dell’arte.
Contact: Dr. Enrico Gallinucci
AutoML for cluster analysis
Master - Research thesis
Field: Data Mining
Status: Open
Abstract: The context of this research thesis is Automated Machine Learning (AutoML).
This thesis focuses on (automated) cluster analysis and its goal is to study how natural clusters preserve in different feature spaces.
For instance, in the IRIS dataset, the same natural clusters exist when the petal length
feature is considered as well as when two features petal length
and petal width
are considered.
The student is asked to study existing approaches and implement such analysis using well known frameworks for AutoML written in Python.
Contact: Prof. Matteo Golfarelli, Dr. Matteo Francia
Multi-model data warehouse
Master - Research thesis
Field: Business Intelligence
Status: Open
Abstract: Con la diffusione di DBMS che supportano molteplici modelli dati, i data warehouse possono essere spinti oltre la tradizionale implementazione sul modello relazionale.
L’obiettivo della tesi è quello di partire da un precedente lavoro di ricerca in questo ambito per studiare implementazioni che sfruttino efficientemente molteplici modelli.
In particolare, il focus sarà sulla progettazione, implementazione e test di un data warehouse che si appoggi su PostgreSQL (modello relazionale e documentale) e Neo4J (modello a grafo).
Contact: Dr. Enrico Gallinucci
Progettazione di un linguaggio visuale per la creazione di questionari
Master - Project thesis
Field: Information Systems
Status: Open
Abstract: Obiettivo della tesi è quello di progettare e realizzare un linguaggio visuale per la generazione di questionari dinamici, in maniera più evoluta rispetto alla gestione fornita dagli strumenti gratuiti disponibili (ad esempio, Google Form). Nell’ambito di vari progetti di ricerca raccogliamo informazioni da utenti tramite questionari sottoposti mediante dispositivi mobili. Per semplificare la realizzazione dei questionari si vuole creare uno strumento che permetta di realizzarli senza competenze di programmazione e con elevata espressività, similmente ad un flow chart (ad esempio, gestione if-then-else e cicli).
Contact: Prof. Matteo Golfarelli
[NEW] Data Engineering Internship at Technogym
Master - Project thesis
Field: Big Data, Data Mining
Status: Open
Abstract: Technogym is looking for Junior Data Engineers, who will be part of a team working on data infrastructure and data pipelines to support the analysis and modeling of both internal data and customer data, across all products of the Technogym Ecosystem.
In this role, interns will work with a team of Data Scientists and Data Analysts and collaborate cross-functionally with Marketing, Product Marketing, and other departments working on Technogym Products - ultimately ensuring that the data infrastructure is robust, scalable, and efficient, enabling the delivery of actionable insights.
Click here for more information.
Contact: Prof. Matteo Golfarelli
Proposte di tesi presso Iconsulting
Master - Project thesis
Field: Big Data
Status: Open
Abstract: L’azienda Iconsulting cerca tesisti/tirocinanti da coinvolgere su progetti cliente su tecnologie e paradigmi di frontiera.
AMBITO 1: conduzione di un’analisi dettagliata su prestazioni, scalabilità ed efficienza di Spark Streaming e Kafka Streaming integrati con Azure Event Hub entrambe le tecnologie, con l’obiettivo di fornire una guida pratica e esaustiva per la selezione dell’architettura più idonea a soddisfare le esigenze specifiche e i diversi scenari di utilizzo all’interno dell’azienda.
AMBITO 2: sviluppo di un’architettura avanzata su Databricks per l’ingestion e l’elaborazione di dati provenienti da sensori IoT implementando una robusta pipeline di elaborazione ed analisi dati in tempo reale, conducendo inoltre un’analisi dettagliata su prestazioni e affidabilità della soluzione proposta su casi d’uso reali e concreti.
AMBITO 3 (NEW): partecipazione attiva allo sviluppo di un progetto di data integration/reporting per un cliente leader, che potrà includere: sessioni di analisi con utenti esperti del dominio di business; modellazione attraverso standard di mercato (es. DFM, E/R); implemenetazione di attività di data integration di back-end per la movimentazione/preparazione dei dati, e/o attività di sviluppo del reporting front-end; affiancamento ad un tutor e a colleghi del team progetto, con possibilità di contribuire nelle diverse attività progettuali, partecipare a SAL di avanzamento, e fare esperienza della metodologia progettuale.
Contact: Prof. Matteo Golfarelli, Dr. Enrico Gallinucci, Dr. Matteo Francia
Analista/Progettistista/sviluppatore di soluzioni IT presso Romagna Tech
Master - Project thesis
Field: Business Intelligence
Status: Open
Abstract: L’azienda Romagna Tech cerca tesisti/tirocinanti da coinvolgere su progetti di analisi, progettazione e sviluppo di progetti di data science, con obiettivi di medio/lungo periodo e finalità di assunzione.
AMBITO 1: progettazione e realizzazione (e integrazione nei sistemi web aziendali) di sistemi di intelligenza artificiale nella generazione automatica di proposte di soluzioni di Upcycling
AMBITO 2: progettazione e realizzazione di sistemi di intelligenza artificiale per il monitoraggio ambientale
AMBITO 3: messa a fuoco dei bisogni informativi sullo “stato di salute” di una linea di produzione ed ideazioni di nuovi servizi basati sulla possibilità conoscitive derivanti dall’introduzione dell’IIoT
AMBITO 4: progettazione di un sistema basato su intelligenza artificiale per l’estrazione automatica di informazioni caratteristiche delle tracce musicali.
Contact: Prof. Matteo Golfarelli
Proposte di tesi presso Soilmec-Trevi
Master - Project thesis
Field: Business Intelligence
Status: Open
Abstract: L’azienda Soilmec Spa cerca tesisti/tirocinanti da coinvolgere su diversi progetti,
tra cui la progettazione di sistemi di business intelligence,
la creazione di modelli finalizzati all’ottimizzazione degli impianti di sensoristica,
lo sviluppo di applicazioni e funzionalità software avanzate per attività di controllo macchine, monitoraggio e analisi dati. In particolare:
1) Creazione di reportistica su PowerBI / Office365 dei dati macchina disponibili sul portale cloud DMS-Manager, al fine di fornire ai clienti una serie di modelli di reportistica che siano di ausilio al monitoraggio dei dati macchina - valutando inoltre l’integrazione con Microsoft Teams.
2) Ottimizzazione degli impianti di sensoristica per ridurre il numero di sensori presenti sulla macchina modellandone virtualmente alcuni sulla base delle informazioni disponibili o/e in seguito a test di caratterizzazione sperimentale e creazione di modelli di lavoro dedicati.
Contact: Prof. Matteo Golfarelli
Business Intelligence presso l’Istituto Nazionale di Fisica Nucleare
Master - Project thesis
Field: Business Intelligence
Status: Open
Abstract: L’INFN cerca laureandi con possibilita’ di borsa di studio per lo sviluppo/evoluzione della propria infrastruttura di Business Intelligence. Le tecnologie coinvolte sono molteplici: Jasper, Tibco. Le tematiche vanno dallo sviluppo di reportistica, alla reportistica in tempo reale, all’utilizzo di sistemi NoSQL.
1) Progettazione e sviluppo di modelli dati multidimensionali orientati all’analisi visiva (dashboard e report dinamici) da produrre con strumenti di Business Analytics avanzati basati su un servizio cloud Microsoft Power BI riservato per INFN.
2) Progettazione e sviluppo su infrastruttura microservice-oriented (Spring based) di librerie e componenti java dedicati all’ampliamento dell’attuale architettura di ETL (Extract Transform and Load). L’obiettivo é intercettare, filtrare ed elaborare dati provenienti da sorgenti NoSQL( MongoDB) implementate secondo il modello microservizi.
3) Progettazione e realizzazione di modelli dati orientati all’analisi statistica con scopo predittivo, basati su dati di settore amministrativo dell’INFN (Gare e acquisti). Un possibile obiettivo é identificare le categorie di acquisto (prodotti e servizi) che nel tempo abbiano subito o meno maggiori fluttuazioni di mercato ed il loro impatto compleassivo sul budget dell’ente.
Contact: Prof. Matteo Golfarelli, Prof. Alessandra Lumini
Progettazione di una soluzione di Business Intelligence a supporto dei processi decisionali presso Agrintesa, Alex Baiardi, 2024
Supervisor: Dott. Enrico Gallinucci
Journey Automation - Digital Transformation in the Wellness Industry, Chiara Bertocchi, 2024
Supervisor: Dott. Enrico Gallinucci
Engineering Data Pipelines and Analytics with DataOps, Veronika Folin, 2024
Supervisor: Dott. Enrico Gallinucci
Implementazione di un Progetto Analitico nel settore Multiutility, Michele Mongardi, 2024
Supervisor: Dott. Enrico Gallinucci
Benchmarking Materialized Views of SQL-based Stream Processing Systems, Angelo Parrinello, 2024
Supervisor: Dott. Enrico Gallinucci
Design and Development of a Data Mart for the HR Department at Amadori, Federica Dell’Orletta, 2023
Supervisor: Dott. Enrico Gallinucci
Progettazione di una piattaforma Cloud per analisi predittive in ambito industria 4.0, Vlad Mattiussi, 2023
Supervisor: Dott. Enrico Gallinucci
Social Network Analysis: Architettura Streaming Big Data di Raccolta e Analisi Dati da Twitter, Andrea Giannini, 2022
Supervisor: Dott. Enrico Gallinucci
Pairs Trading - Progettazione, sviluppo e ottimizzazione di un modello di investimento basato sul Machine Learning, Riccardo Maldini, 2021
Supervisor: Dott. Enrico Gallinucci
MLOps - Standardizing the Machine Learning Workflow, Enrico Salvucci, 2021
Supervisor: Dott. Enrico Gallinucci
A text mining approach to materiality assessment, Marta Luffarelli, 2021
Supervisor: Dott. Enrico Gallinucci
Analisi delle strategie di modellazione dei dati su database NoSQL, Riccardo Salvatori, 2021
Supervisor: Dott. Enrico Gallinucci
Riconoscimento di frodi attraverso la modellazione del comportamento degli utenti, Alex Ravaglia, 2021
Supervisor: Dott. Enrico Gallinucci
Compressione e Vocalizzazione di Risultati Multidimensionali nel Paradigma OLAP, Tommaso Bombardi, 2021
Supervisor: Dott. Enrico Gallinucci
Co-supervisors: Dott. Matteo Francia
Pubblicazione di dati di traiettoria preservando il principio di non informatività, Maria Maddalena Mascellaro, 2021
Supervisor: Dott. Enrico Gallinucci
Co-supervisors: Dott. Matteo Francia
Un framework per l’analisi di Big Data con elevata eterogeneità all’interno di Multistore, Chiara Forresi, 2020
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Enrico Gallinucci
Anonimizzazione incrementale di dati di traiettoria, Luca Semprini, 2020
Supervisor: Dott. Enrico Gallinucci
GEAR: una piattaforma Big Data per l’elaborazione di stream di dati attraverso Machine Learning e Business Rules, Eugenio Cavina, 2020
Supervisor: Dott. Enrico Gallinucci
Co-supervisors: Alessandro Proscia
Progettazione e prototipazione di un sistema di Conversational BI, Rrok Gjinaj, 2020
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia, Dott. Enrico Gallinucci
Progettazione e implementazione di un sistema di recommendation per video digitali, Davide Borficchia, 2020
Supervisor: Prof. Matteo Golfarelli
AutoML: A new methodology to automate data pre-processing pipelines, Joseph Giovanelli, 2020
Supervisor: Prof. Matteo Golfarelli
Manutenzione predittiva di attrezzature sportive: dall’analisi delle potenzialità alla prototipazione, Giulia Lucchi, 2020
Supervisor: Prof. Matteo Golfarelli
Clustering di traiettorie in ambito big data, Federico Naldini, 2020
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia
Progettazione e prototipazione di un data mart per l’analisi della fluttuazione di performance, Sofia Rossi, 2020
Supervisor: Prof. Matteo Golfarelli
Clustering di traiettorie su piattaforma big data, Mattia Oriani, 2019
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia
Progettazione e prototipazione di un framework per Conversational OLAP, Sara Sintoni, 2019
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia
Map-Matching su Piattaforma Big Data, Federico Vitali, 2019
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia
Gestione di un data lake strutturato attraverso il riconoscimento semantico dei dati acquisiti, Anna Giulia Leoni, 2019
Supervisor: Dott. Enrico Gallinucci
Utilizzo di dati social per la deanonimizzazione di tracce GPS, Nicola Santolini, 2019
Supervisor: Prof. Matteo Golfarelli
Co-supervisors: Dott. Matteo Francia, Dott. Enrico Gallinucci