banner
Casa / Notizia / Come la Biblioteca nazionale svedese ha sfruttato l'intelligenza artificiale per sbloccare secoli di dati linguistici
Notizia

Come la Biblioteca nazionale svedese ha sfruttato l'intelligenza artificiale per sbloccare secoli di dati linguistici

May 10, 2023May 10, 2023

Dai manoscritti dell'era vichinga alle trasmissioni degli anni '70, l'intelligenza artificiale sta aiutando a digitalizzare più di 18 milioni di oggetti fondamentali per la storia della Svezia

La Biblioteca Nazionale di Svezia – Kungliga biblioteket – è responsabile della raccolta e della conservazione dei materiali storici stampati ed elettronici della nazione, oltre a renderli accessibili al pubblico e ai ricercatori.

Cosa si otterrebbe effettivamente sospendendo lo sviluppo dell’intelligenza artificiale?

Ospitando oltre 18 milioni di articoli, tra cui libri, giornali, riviste, mappe, fotografie e registrazioni audio, le sue collezioni risalgono a più di mille anni fa.

Per rendere queste collezioni più accessibili ai ricercatori e al pubblico, ha sfruttato il potente potenziale dell’intelligenza artificiale (AI), come parte di una più ampia strategia di modernizzazione.

Sebbene l’intelligenza artificiale sia spesso discussa in un quadro più lungimirante, molte organizzazioni la stanno utilizzando per ottenere informazioni sul nostro passato, inclusa la Biblioteca nazionale svedese. Le collezioni della biblioteca sono vaste e diversificate e in costante crescita. Una delle sfide più grandi è stata la gestione dell’enorme volume di materiale conservato.

"I manoscritti più antichi che abbiamo risalgono all'epoca vichinga", afferma Love Börjeson, direttore di KBLab, il laboratorio dati della Kungliga biblioteket. "Abbiamo anche collezioni islandesi molto grandi e collezioni latine molto grandi."

La biblioteca riceve milioni di nuovi articoli ogni anno ed era difficile tenere il passo. Un'altra sfida è stata quella di rendere le sue collezioni più facilmente individuabili dai ricercatori, con la profondità dei materiali mantenuti che ne rendevano difficile la perlustrazione.

Börjeson è alla guida di KBLab dal 2019 e dal 2021 è responsabile dei dati e dell'infrastruttura di AI Sweden per la tecnologia del linguaggio applicato. Lavora con modelli di intelligenza artificiale su larga scala in ambienti di calcolo ad alte prestazioni (HPC) e ha un background formativo in scienze sociali computazionali presso Stamford.

Una priorità era automatizzare le attività coinvolte nella gestione delle sue collezioni, come la catalogazione, l'accesso e la conservazione. La biblioteca sperava anche di migliorare la reperibilità di queste raccolte. Avendo abbracciato l’intelligenza artificiale, la biblioteca ha anche dovuto tenere il passo con le ultime ricerche e sviluppi nel settore e assicurarsi di utilizzare gli strumenti e le tecniche più recenti per rimanere al passo.

La biblioteca ha avviato un processo di modernizzazione che ha comportato l'implementazione di un'infrastruttura computazionale a più livelli. Ciò comprendeva nuovi laptop, workstation, server e supercomputer.

La Biblioteca Nazionale di Svezia ha digitalizzato i giornali dal XVII secolo in poi, così come le trasmissioni radiofoniche e televisive dal 1979 e i depositi legali elettronici dal 2005.

Ha anche lavorato alla digitalizzazione di secoli di dati linguistici, iniziando con un modello di trasformatore nel 2019, ma realizzando rapidamente che aveva bisogno di un sistema più pesante.

Hanno installato due sistemi Nvidia DGX, acquisiti dal fornitore svedese AddPro, per lo sviluppo di intelligenza artificiale in sede nel 2020 e nel 2021, che li preparerebbe per corse ancora più grandi su supercomputer basati su GPU nell'UE.

La libreria utilizza Nvidia NeMo Megatron, un framework PyTorch per l'addestramento di modelli linguistici di grandi dimensioni (LLM), nonché strumenti di intelligenza artificiale per trascrivere l'audio in testo. I ricercatori possono utilizzare queste piattaforme per cercare trasmissioni radiofoniche specifiche.

Storici, archeologi, musicisti e data scientist stanno utilizzando l’intelligenza artificiale per rivisitare i momenti storici. Come tante storie sull’evoluzione dell’informatica moderna, il successo con l’intelligenza artificiale si fonda sui valori di collaborazione, opportunità e sperimentazione.

Per saperne di più

Il team sta inoltre sviluppando modelli di generazione di testo e spera di utilizzare l’intelligenza artificiale per elaborare video e generare descrizioni automatiche. La biblioteca ha inoltre collaborato con l'Università di Göteborg per sviluppare app a valle per la ricerca linguistica utilizzando i modelli del laboratorio.

Uno dei risultati più significativi della biblioteca è un sistema basato sull'intelligenza artificiale chiamato Swedish Language Models (SweLL), che è stato implementato per affrontare la sfida di digitalizzare e sbloccare secoli di dati linguistici. SweLL utilizza algoritmi di apprendimento automatico per analizzare testi svedesi, apprendere modelli linguistici e sintassi e trascrivere documenti scritti a mano in testo digitale. Il sistema corregge inoltre gli errori di ortografia e tagga e classifica automaticamente i testi per argomento, periodo di tempo e autore.