N.2 2020 - La biblioteca nel mondo che verrà

Navigazione dei contenuti del fascicolo

Assistenti vocali e altoparlanti intelligenti: quali potenzialità per le biblioteche?

Alberto Salarelli

Dipartimento di Discipline umanistiche, sociali e delle imprese culturali, Università degli studi di Parma; alberto.salarelli@unipr.it

Per tutti i siti web l’ultima consultazione è stata effettuata il 21 settembre 2020.

Abstract

Secondo le statistiche di vendita gli assistenti vocali (Alexa, Siri, Cortana) e gli altoparlanti intelligenti (smart speaker) rappresentano soluzioni che incontrano un gradimento crescente nei confronti del pubblico. In considerazione del fatto che le loro funzionalità presentano notevoli possibilità in termini di usabilità e di personalizzazione, vale la pena riflettere in merito ai loro possibili utilizzi anche in ambito bibliotecario, sia per attività di promozione dei servizi che di consultazione delle risorse. L’articolo, dopo aver delineato le principali caratteristiche di questi dispositivi, si sofferma su alcuni esempi di skill pensate per le biblioteche e si conclude con alcuni rilievi in merito alle problematiche relative alla privacy e alla sicurezza dei dati.

 

English abstract

According to sales statistics, voice assistants (Alexa, Siri, Cortana) and smart speakers are solutions that are increasingly popular with the public. Given that their functionalities offer considerable possibilities in terms of usability and customisation, it is worth reflecting on their possible uses in the library, both for service promotion and resource consultation. The article, after outlining the main features of these devices, focuses on some examples of skills designed for libraries and concludes with some comments on privacy and data security issues.

 

Gli IPA: tra NLP e cloud computing

Se fino a qualche anno fa l’interazione con un computer attraverso la voce era un’idea brillantemente sviluppata in ambito fantascientifico come in Star Trek o in 2001 Odissea nello spazio, oggi è invece una realtà: gli IPA (intelligent personal assistants) come Alexa (Amazon), Siri (Apple), Cortana (Microsoft) e Google Assistant ci consentono di effettuare ricerche in rete, gestire agende, timer, liste della spesa e, ancora, diffondere musica, comandare elettrodomestici, termostati, allarmi o, più semplicemente, raccontare barzellette e favole della buonanotte.

Rispetto alle interfacce vocali che potremmo definire di prima generazione – per intenderci quelle in uso nei sistemi operativi dei PC degli anni Novanta, in grado di riconoscere una serie limitata di comandi – i moderni apparati (di cui Siri è il precursore avendo la Apple acquisito l’omonima azienda nel 2010 inserendo l’assistente vocale sull’iPhone 4S nell’ottobre 2011) si presentano con un approccio radicalmente diverso nei confronti del dialogo con l’utente in quanto, essendo permanentemente connessi a internet, possono sfruttare le potenzialità del cloud computing e dell’intelligenza artificiale. Gli IPA, infatti

use many artificial intelligence concepts to translate hands-free human interaction into a set of understandable computer commands. In this process, different approaches are employed: to convert user utterances into text (Speech Recognition), to classify the words and sentences in semantic structures (Natural Language Understanding), to interact and answer questions of the user (Dialog Management), and to convert back the generated text to voice (Speech Synthesis).

In altri termini non sarebbe pensabile il raggiungimento di un accettabile grado di interazione con un’assistente vocale se quest’ultimo potesse disporre solo e unicamente di un set di domande/risposte precedentemente memorizzato nel dispositivo utilizzato dall’utente: la scommessa sta invece nel provare a comprendere all’istante ciò che l’utente esprime in linguaggio naturale per poter rispondere in modo appropriato; si tratta del cosiddetto natural language processing (NLP): una prospettiva che presuppone un’adeguata potenza di calcolo, un ampio bacino di dati da cui attingere per poter riconoscere termini chiave e forme grammaticali e, ovviamente, un algoritmo in grado di sfruttare entrambi questi fattori in modo da ottenere un’efficace rappresentazione del linguaggio umano anche in relazione ai contesti sociali d’utilizzo. Alla luce di queste considerazioni, l’utilizzo della dimensione cloud, si rivela strategica per il miglioramento delle performance degli IPA, infatti uno degli elementi chiave per un efficace riconoscimento del parlato consiste nella creazione di un enorme database di tracce sonore che possano essere reciprocamente comparate allo scopo di mettere l’assistente nelle condizioni di imparare qualcosa di nuovo da ogni interazione: una vera e propria prospettiva di machine learning destinata a produrre frutti sempre più significativi al crescere della platea degli utenti di questi dispositivi. Più sfrutteremo l’altoparlante, più dati esso ricaverà di noi, dalle nostre preferenze e dalle nostre abitudini, dati che riuniti insieme a quelli di milioni di altri utilizzatori andranno a incrementare il numero dei neuroni del sistema intelligente.

Riassumendo: se l’uso degli assistenti vocali negli smartphone non ha incontrato fino ad oggi un particolare successo, con gli altoparlanti intelligenti la questione non si pone: essi non possono essere attivati in altro modo se non con la voce, in questo senso perciò sono destinati a cambiare lo scenario di utilizzo degli IPA facendo emergere in modo sempre più netto le loro molteplici potenzialità soprattutto in ambito domestico, ovvero nel contesto in cui (insieme all’abitacolo dell’automobile) già oggi questi apparati riscuotono il maggiore apprezzamento degli utenti.

Un mercato, quello degli smart speaker, che ha visto una crescita del 70% nel 2019 rispetto all’anno precedente con quasi 150 milioni di pezzi venduti e con previsioni di ulteriori incrementi per l’anno in corso, dovuti anche alle misure di distanziamento sociale imposte dalla lotta al Covid-19, con tutto ciò che ne consegue in relazione al gradimento rivolto a dispositivi attivabili in modalità hands-free ovvero senza tocco. Al momento, quindi, i timori per eventuali utilizzi non appropriati dei contenuti delle conversazioni da parte delle società leader di mercato – un problema, quello della sicurezza dei dati che transitano attraverso gli smart speaker, più volte evidenziato in letteratura – non sembra aver scalfito la fiducia dei consumatori, anche se evidentemente il rischio che tale fiducia possa crollare di colpo a seguito di un eventuale data breach si pone come una delle incognite più insidiose che le aziende produttrici devono affrontare, innanzitutto sul piano del miglioramento tecnologico e, in seconda battuta, su quello del marketing, delineando una comunicazione pubblicitaria in grado di rassicurare il cliente. Sui rischi specifici dell’utilizzo degli altoparlanti smart e della loro anima, l’assistente vocale, torneremo nella parte finale di questo contributo; ora vediamo, sinteticamente, una panoramica dei loro principali utilizzi.

«Alexa, dimmi la ricetta della torta margherita… anzi no: giochiamo a Trivial pursuit»

Un recente sondaggio ha rilevato come i principali utilizzi degli IPA siano la ricerca delle informazioni in internet e le previsioni del tempo. Di fatto entrambi questi impieghi potrebbero essere ricondotti allo stesso obiettivo e cioè – in senso lato – il soddisfacimento di un bisogno informativo, dal momento che potremmo considerare il meteo come una sottospecie caratteristica nel vasto ambito delle ricerche di natura fattuale. Tuttavia, se è vero che in entrambi i casi l’assistente vocale assume il ruolo di interfaccia semplificata per attivare le funzionalità di ricerca, differente è il servizio che viene attivato e cioè, per query generiche, un motore di ricerca a cui lo specifico dispositivo fa riferimento di default (Google per Google Assistant e Siri; Bing per Cortana e Alexa) oppure, per query formulate in relazione a un ambito di indagine più circoscritto, specifiche applicazioni in grado di fornire dati con un maggior profilo di pertinenza (per Alexa, ad esempio, le richieste di info sul meteo attivano Accuweather, mentre per le ricette l’app preselezionata è GialloZafferano).

In entrambi i casi bisognerebbe comunque riflettere sui limiti della ricerca vocale rispetto all’utilizzo della tastiera. Ecco cosa si afferma nel sito Library of the future dell’ALA:

In a conversation interface, users will not always have the option of sorting through multiple possible responses (as they would in a web search), of immediately knowing the source of the information provided, or of seeing some of the details that might alert them to problems with the information. Rather, the technology simply picks the programed source for news, reference, etc., and conveys it to the listener, with some options for customization of sources built into the app.

È evidente, in sostanza, come la possibilità di filtraggio dei risultati e di raffinamento della ricerca siano praticamente impossibili con gli IPA che, almeno con la tecnologia attuale, offrono come risposta all’utente un unico risultato: quello ritenuto migliore in base ai criteri di pertinenza del dispositivo utilizzato. Per questo motivo le ricerche fattuali, dove il margine di ambiguità è senz’altro più ridotto rispetto a query più complesse, si rivelano quelle più performanti in termini di correttezza della risposta, il che – ad ogni modo – non risolve il problema della scelta della fonte di default dei dati, una scelta che l’assistente effettua autonomamente rispetto all’utilizzatore, a meno che quest’ultimo non specifichi in modo esplicito, ad esempio, da quale testata ascoltare le ultime notizie.

Un altro insieme di funzionalità particolarmente apprezzato dagli utenti può essere individuato nel segmento entertainment: gli assistenti vocali infatti sono in grado di riprodurre brani musicali sulla base di richieste più o meno circostanziate dell’utente che può specificare il titolo o, invece, lasciare la scelta all’assistente indicando soltanto il genere oppure, al limite, la situazione contingente (festa, serata tra amici o romantica ecc.) e financo, addirittura, l’umore del momento. Naturalmente l’IPA può essere configurato in modo da attingere ai servizi di musica streaming a cui è iscritto l’utente, consentendo in tal caso la riproduzione delle sue playlist preferite. È interessante notare, sotto questo aspetto, come tra i diversi modelli di smart speaker presenti sul mercato non manchino quelli particolarmente performanti sotto il profilo della qualità in termini di resa sonora: da questo punto di vista le soluzioni migliori sembra non vadano cercate tra gli altoparlanti prodotti dalle aziende sviluppatrici degli assistenti vocali – che con i vari Echo, Google Home, HomePod puntano più a prodotti in grado di conciliare un prezzo vantaggioso con un’ampia versatilità d’uso – ma fra le offerte di marchi più attenti alla componentistica di qualità (con conseguente riflesso sul prezzo di vendita al pubblico).

Del resto la TV non è il solo apparato che può essere collegato, e quindi comandato, da un IPA: infatti uno dei settori in più rapido sviluppo nell’ambito dell’utilizzo degli assistenti vocali è quello della domotica. Nei cataloghi dei produttori di elettrodomestici (anzi, di apparecchi elettrici in genere) è sempre più frequente trovare dispositivi in grado di interagire, solitamente via wi-fi, con gli assistenti vocali che perciò possono accendere e spegnere le luci, regolare termostati, avviare lavatrici e macchine del caffè, alzare o abbassare le tapparelle. Alla peggio una semplice presa intelligente (smart plug) dal costo di pochi euro, interposta tra l’elettrodomestico e la presa a muro, sarà in grado di garantire le funzionalità minime di accensione e spegnimento.

Al di là di questi ambiti di utilizzo prevalente, la gamma di attività gestibili tramite gli IPA è assai più ampia, soprattutto se si vogliono prendere in esame quei compiti basilari che possono essere delegati a un’assistente, come ricordare un appuntamento, fungere da timer o inviare un messaggio vocale. Tuttavia c’è un settore di applicazioni che val la pena di prendere in considerazione per le peculiarità che legano in modo simbiotico l’assistente e la funzione: mi riferisco a tutte quelle pratiche che coinvolgono la voce dell’IPA come vettore della risposta, a un livello tale da mostrare l’anima stessa del processo di comunicazione, al punto da qualificare in modo più o meno soddisfacente l’esperienza di interazione con il dispositivo. Vediamo di chiarire: è ovvio che anche quando effettuiamo una ricerca basilare in internet e, ad esempio, chiediamo a un IPA in che anno è nato Raffaello o qual è il santo di domani, la risposta ci viene comunicata vocalmente. Di fatto però la qualità della sintesi vocale, per funzionalità di questo tipo, è del tutto secondaria. Al contrario essa assume un ruolo essenziale nel momento in cui l’assistente vocale è utilizzato per leggere un audiolibro oppure per giocare con l’utente, al limite per il solo piacere di provare a imbastire un dialogo con esso. Come ha osservato Giovanna Cosenza,

tutti gli esperimenti di intelligenza artificiale simulano al massimo grado la pariteticità del dialogo fra persone: l’intelligenza artificiale cerca infatti di costruire sistemi che non si limitano a rispondere all’utente, ma prendono iniziative, lo sorprendono con risposte inattese ma adeguate, risolvono i suoi problemi, fanno cose al posto suo in modi nuovi e migliori di come l’utente potrebbe fare.

Di fatto è perlomeno dagli anni Sessanta del secolo scorso che gli sviluppatori delle interfacce conversazionali hanno preso coscienza del fatto che la performatività dei dispositivi non è legata solo al quoziente intellettuale ma anche a quello emozionale: ciò a cui si è assistito in quest’ultimo decennio, anche a fronte degli enormi investimenti delle più importanti multinazionali dell’informatica, è la straordinaria accelerazione lungo questa traiettoria di sviluppo che ha reso gli assistenti vocali sempre più abili a nell’imbastire con gli utenti dialoghi ricchi di sfumature empatiche. Da questo punto di vista, la qualità della voce dell’assistente e, quindi, anche l’intelligenza del sistema che la gestisce facendole assumere appropriate intonazioni e sfumature, può decretare in maniera risolutiva il successo o la delusione di una siffatta esperienza comunicazionale. È su questo versante che Amazon ha deciso di giocare una scommessa importante puntando sullo sviluppo di specifiche funzionalità per bambini: infatti la versione Echo Dot Kids del più popolare smart speaker dell’azienda statunitense è specificamente pensata per enfatizzare le capacità della voce dell’IPA di saper intrattenere in modo convincente i bambini, per esempio leggendo loro storie interattive o proponendo indovinelli e giochi di abilità e di logica: in questi frangenti non si tratta di utilizzare l’assistente vocale per avviare la mera riproduzione di un audiolibro o di un podcast (operazione, di per sé, abbastanza banale, al pari del lancio di un brano musicale) ma di sfruttare la sintesi vocale dell’assistente – e l’intelligenza artificiale che lo comanda – per dialogare con il piccolo ascoltatore in maniera dinamica, in tempo reale. Indubbiamente siamo di fronte a una strategia commerciale ben definita che consiste nel conquistare una posizione dominante all’interno del mercato family puntando a coinvolgere il maggior numero di fasce di clienti, ivi inclusi i bambini, questione che ovviamente lascia aperti interrogativi non trascurabili che attingono molteplici piani, dalla pedagogia alla privacy: è pur vero che Amazon dichiara il rispetto dei limiti delle funzioni di controllo parentale impostate dai genitori nonché delle prescrizioni del Children’s online privacy protection act tuttavia, in situazioni come queste, si sa che il discrimine tra lecito e illecito risulta difficile da tracciare con un segno marcato. Fatte salve queste considerazioni, il punto che qui si vuole toccare consiste proprio nel fatto che se il problema della tutela degli utenti più indifesi come i bambini e gli anziani – altro pubblico che risulta particolarmente appetibile per le funzionalità degli assistenti vocali, considerando la loro maggiore usabilità rispetto ad altri dispositivi e gli scopi per cui essi potrebbero essere impiegati: dall’intrattenimento alla telemedicina – deve essere preso in seria considerazione, è perché il livello di interattività vocale ha oramai raggiunto performance tali da garantire una diffusa soddisfazione negli utenti, come del resto dimostrato dal successo commerciale degli altoparlanti intelligenti: «people may feel a sense of emotional closeness with IPAs and gain a sense of a social relationship with them. Human-computer interactions with software agents or avatars can lead to relationship development». Come sa chiunque abbia avuto modo di conversare con un’assistente vocale, la strada da percorrere per giungere a quel rapporto di intimità e di affetto prefigurato magistralmente nel film Lei è ancora molto lontana; tutto sommato, considerando l’epilogo drammatico di tale lungometraggio, non è male che le cose stiano così. Nondimeno la ricerca verso soluzioni in grado di migliorare sia l’apprendimento del linguaggio naturale sia il grado di interattività degli IPA è in continuo movimento. In questo contesto un ruolo molto importante deve essere individuato nel rapporto che le grandi aziende produttrici hanno stretto con soggetti partner esterni:

Collaboration with third-party companies or individual developers is essential in this field, as manufacturers are unable to independently develop applications that support the specific tasks of various industries. In fact, IPA makers such as Google, Amazon, and Microsoft recently provided third parties their Software Development Kit, and tried to enhance their products’ capabilities and spread their voice recognition technology. In the future, if a large ecosystem is created in which related companies cooperate, interoperability between IPAs will be achieved such that users could receive the same level of personalized services anytime and anywhere.

Un ambito di sviluppo tra i più significativi è rappresentato dalle cosiddette skill (o action per Google): si tratta di applicazioni che chiunque può ideare e implementare sfruttando le API presenti in quei kit richiamati nella citazione, esattamente come avviene per lo sviluppo delle app per i dispositivi mobili. In tal modo si offre alla clientela un notevole ampliamento delle competenze e delle abilità di base degli assistenti vocali, basti pensare che Alexa può contare su un numero di skill assolutamente strabiliante, oltre centomila, che coprono gli interessi più disparati: dalla domotica, ai giochi, ai viaggi, allo sport. È ovvio che il grado di sofisticatezza di ogni applicazione dipenderà dall’abilità dello sviluppatore: se chiunque (o quasi) sarà in grado di creare una app personalizzata per gestire, ad esempio, una routine di base (spegnere le luci, abbassare le tapparelle e inserire l’allarme), più competenze saranno necessarie per l’estrazione di un set di dati da un DBMS in risposta a una query dell’utente o per particolari funzionalità multimediali. Ma quel che è importante rimarcare è come l’aspetto centrale del discorso risieda nel fatto che gli ambienti di sviluppo messi a disposizione da Amazon, Google e Microsoft rappresentano un’opzione win-win: strategica per queste multinazionali che, grazie alle skill, vedono aumentare l’appeal dei loro prodotti, ma assai interessante anche per i creatori e i fornitori di contenuti che possono sviluppare modalità innovative nell’interazione con i loro utenti/clienti. Le biblioteche ci stanno pensando?

 

Smart speaker, smart library

La risposta è sì: anche il mondo delle biblioteche ha iniziato da qualche tempo, seppur con una certa cautela, a manifestare il proprio interesse nei confronti degli assistenti vocali e dei dispositivi a essi correlati. Più in generale, si può affermare che queste soluzioni rientrano tra gli ingredienti fondamentali di una smart library: ora, è vero che tale espressione risulta manchevole di una precisa definizione sul piano teorico che ne chiarisca obiettivi e funzioni, soprattutto se si considera che «smart library should be user-centric and adaptable to user needs» e che quindi qualsiasi biblioteca moderna, da Ranganathan in poi per intenderci, dovrebbe essere considerata smart tuttavia, sul terreno della pratica, essa può efficacemente indicare una traiettoria di ricerca volta a migliorare l’interattività tra utenti e servizi bibliotecari «by using a new generation of information technology; to improve the clarity, flexibility and responsiveness of the interaction, smart service and management». Quindi, se è opportuno concepire una smart library come una struttura complessa nella quale giocoforza vanno presi in considerazione aspetti di natura teoretica e sociale (perché il concetto di smartness implica che si debba valutare l’ambito di applicazione e le possibili ricadute sull’utenza), non vi è dubbio che la componente tecnologica risulti centrale non solo nell’implementazione, ma addirittura nell’elaborazione dell’idea stessa di una biblioteca intelligente:

the concept of a smart library is unattainable without the advancements in computer technology, the developing and the changing digital storage, the grandeur of the internet and finally the human-computer interaction. Each of the elements makes its equal and unprecedented contribution to the creation of smart libraries of the near future.

In questo contesto gli assistenti vocali rappresentano un caso particolarmente interessante poiché si pongono al crocevia di tante aree di indagine – l’interazione uomo-macchina, le tecnologie adattive, il cloud computing, l’intelligenza artificiale – che in essi trovano un punto di sintesi non più confinato, a livello prototipale, nel laboratorio di un qualche centro di ricerca, ma disponibile a poco prezzo sul mercato. Nel vasto insieme che va sotto il nome di IoT (internet of things) e che comprende «tutta una serie di dispositivi, apparecchiature, impianti e sistemi, materiali e prodotti, macchine e attrezzature, trasmettono e ricevono dati nel web», gli assistenti vocali sono tra quelli più vicini a noi: stanno in tutti i nostri tablet e cellulari, e gli altoparlanti sono un gadget tecnologico sempre più diffuso nelle abitazioni, anche degli italiani. Ebbene: come possono le biblioteche entrare in gioco in questo scenario?

Un primo ambito per il quale l’impiego di questi dispositivi può essere progettato con un impegno relativamente modesto, è quello della promozione al pubblico. Purtroppo, come si sa, le aspettative riguardanti le informazioni in merito a ciò che le biblioteche offrono in termini di risorse e di servizi per una determinata comunità sono spesso disattese: perciò, se possiamo concordare sul fatto che «the smart library should strengthen user education about library use», le opportunità offerte dagli assistenti vocali vanno prese in seria considerazione proprio per la loro intrinseca capacità di catturare l’attenzione dei loro utilizzatori. È questo uno dei motivi che hanno spinto un paio di anni fa la Delaware County District Library a sviluppare con Pellucent Technologies una skill per Alexa in grado di informare gli utenti sugli orari di apertura e sull’agenda degli eventi in programma nella settimana. Sullo stesso piano possiamo menzionare anche le personalizzazioni progettate dalle biblioteche della University of Illinois, della Pompton Lakes Library e delle Worthington Libraries, in quest’ultimo caso disponibili sia per Google sia per Alexa. È chiaro che il punto di partenza per poter gestire un tipo di comunicazione come questo consiste nel pubblicare online un’agenda degli eventi della biblioteca dalla quale l’assistente vocale possa trarre gli opportuni dati. Ed è altresì scontato come la varietà e completezza dei dati raccolti e diffusi dai sistemi informativi delle biblioteche rappresentino il presupposto per lo sviluppo di applicazioni sempre più ricche e diversificate sul piano delle prestazioni: il conteggio in tempo reale e la pubblicazione sul sito istituzionale degli accessi alle sale di lettura dell’Università Ca’ Foscari, ad esempio, ha consentito di ideare “Bparty” una delle poche skill italiane specificamente rivolte al mondo delle biblioteche, in grado di informare l’utente sulle sedute al momento disponibili nelle diverse sedi dell’ateneo.

Sempre rimanendo in quello spazio dell’interazione tra utente e biblioteca che, a livello di sistemi informativi, possiamo considerare pubblico, è ragionevole pensare come l’accesso all’OPAC tramite i comandi vocali possa rappresentare un notevole elemento di interesse per lo sviluppo di skill in grado di facilitare la ricerca di documenti presenti, ed eventualmente disponibili, all’interno delle collezioni. In linea generale infatti – come abbiamo già osservato nel paragrafo precedente – si può discutere se «recent early adoption of “smart speakers” like Amazon’s Echo and “intelligent personal assistants” like Microsoft’s Cortana may in time render typing search terms into a browser old fashioned, if not obsolete». Senza tema di smentita si può ribadire che, per ora, la ricerca in OPAC tramite i comandi vocali si colloca a un livello qualitativo estremamente scarso rispetto alla qualità dei risultati di un’interrogazione condotta tramite le interfacce testuali: infatti se queste ultime consentono di poter vagliare liste di risultati anche di notevole lunghezza per poi eventualmente procedere a un raffinamento della ricerca stessa, le risposte che si ottengono dagli IPA sono limitate e telegrafiche, con tutto quello che ne consegue in termini di depauperamento delle potenzialità del catalogo sia sul piano della descrizione bibliografica (e, quindi, della possibilità offerta all’utente di scegliere con oculatezza i documenti più appropriati per le proprie necessità), sia su quello euristico dovuto dalla perdita dell’effetto di serendipità che, come noto, ci consente di individuare documenti sconosciuti in partenza ma comunque interessanti ai fini della ricerca.

Preso atto di queste non lievi limitazioni resta il fatto che, per determinate fasce deboli di utenza (gli ipovedenti, gli anziani), la possibilità di effettuare ricerche in OPAC pronunciando il titolo di un libro o il nome di un autore può risultare un’operazione decisamente più immediata rispetto all’utilizzo della tastiera. Esempi in tal senso sono quelli della Brooklyn Public Library e della University of Southern California ma anche di “Trovalibro Roma” tramite la quale è possibile conoscere in quali biblioteche di Roma e provincia è presente un particolare volume. Si noti come questa applicazione, al pari di quella di Ca’ Foscari, è stata sviluppata da un privato cittadino per proprio comodo e poi resa disponibile al pubblico: si tratta di casi non isolati (si vedano le skill della Houston Library e della Toronto Library) a dimostrazione di come il campo della personalizzazione nell’uso degli assistenti vocali sia veramente aperto quando, come nel caso dei dati presenti in OPAC, non si pongano particolari problemi sul piano della riservatezza. Preso atto di questo caveat, il logico passo avanti nella interazione tra l’utente e il gestionale della biblioteca consiste nel consentire all’IPA, dopo debita autenticazione, l’accesso a quella parte di dati riservata che pertiene al profilo di ogni singolo lettore per la verifica della situazione prestiti (con eventuale opzione di proroga) e per la prenotazione di documenti. Al momento l’unica biblioteca dotata di un’applicazione in grado di garantire queste funzionalità sembra essere la Granville Public Library (Ohio).

Tornando alle skill sviluppate per la ricerca in OPAC, è opportuno sottolineare come applicazioni di questo tipo possano essere pensate anche per individuare documenti all’interno delle biblioteche digitali sia in senso generale, come quella sviluppata per la consultazione della Digital Public Library of America (DPLA), sia per particolari tipologie di materiali come quelli musicali: le applicazioni per Europeana e per Internet Archive, infatti, si rivelano particolarmente interessanti giacché sfruttano il dispositivo dell’utente non solo per la ricerca ma anche per la riproduzione dei brani selezionati. Questo ragionamento ci riporta al tema degli audiolibri, che meritano attenzione in primo luogo per il grande successo che questa tipologia documentaria sta riscuotendo sia a livello internazionale sia, in specifico, nel nostro Paese (come testimoniano i dati relativi al 2019, sono oltre quattro milioni i nostri connazionali che ascoltano audiolibri con una crescita, rispetto all’anno precedente, del 28,3%, e il 40% di loro, pari a 1,6 milioni, li sceglie solo o anche in lingua straniera); ma soprattutto, ai fini del tema di questo contributo, sono importanti le percentuali relative ai dispositivi di fruizione:

gli smartphone si confermano e rafforzano la loro posizione di primo device per l’ascolto: sono utilizzati dall’81% degli utenti. Seguono tablet e pc/notebook, entrambi al 53%, quindi lettori Mp3 (39%), lettori cd (34%) e a chiudere gli assistenti vocali, con il 31% (erano possibili più di una risposta). Significativa la performance degli assistenti vocali che, alla loro prima rilevazione, conquistano già quasi un ascoltatore su tre, percentuale destinata a crescere se si tiene conto che nel 2018 le famiglie dove erano presenti questi device erano l’11% del totale e, nel 2019, sono già cresciute al 15%.

Se si può senz’altro convenire con Giovanni Peresson quando afferma che «il problema principale legato alla crescita di questo settore nel nostro Paese è connesso alla disponibilità di cataloghi ampi e profondi di generi letterari narrativi e di intrattenimento, ma anche di manuali», è ragionevole ipotizzare che l’impennata del mercato degli smart speaker (perché a questi oggetti, verosimilmente, si fa riferimento nei dati esposti sopra relativi a quelli che, impropriamente, vengono definiti assistenti vocali) possa fungere da catalizzatore per un ulteriore incremento dell’offerta di audiolibri, offerta che, per inciso, ha già moltiplicato i titoli a disposizione con l’entrata in gioco di big player internazionali come Storytel e Audible. Da questo punto di vista un elemento che risulterà cruciale sarà la disponibilità di applicazioni in grado rendere il più possibile semplice ed efficace il collegamento tra gli assistenti vocali, gli altoparlanti e i cataloghi di audiobook: al momento Amazon ha sviluppato un servizio integrato tra Alexa e i prodotti Audible (non a caso azienda posseduta proprio dal gigante di Seattle) così come Google Assistant è in grado di leggere gli audiolibri acquistati su Google Play. Rimane tuttavia un enorme spazio da riempire con apposite skill che offrano agli utenti le condizioni migliori per sfruttare, tramite gli assistenti vocali, i titoli messi a disposizione direttamente dalle case editrici oppure da piattaforme di noleggio o prestito che risultano strategiche per la scoperta e la selezione dei titoli di interesse per il lettore, come evidenziato in una recente ricerca condotta negli Stati Uniti.

Oggi un utente di biblioteca con un account su MLOL, Rete indaco o Overdrive può utilizzare il proprio altoparlante come mero amplificatore collegandolo via bluetooth agli abituali strumenti di riproduzione: la vera scommessa consisterà nel rendere possibile la scelta e l’ascolto dei titoli individuati tramite i comandi vocali. Si tratta di un’ipotesi tecnicamente percorribile senza particolari ostacoli; semmai, ancora una volta, il problema principale sembra essere rappresentato dalla gestione dei dati personali dell’utente. Con quali rischi?

Questioni di privacy

Allo stato attuale gli assistenti vocali, come ha sostenuto Meredith Broussard non senza una punta di malizia, sono tutt’altro che intelligenti, essi infatti non capiscono il linguaggio ma «si limitano a lanciare sequenze computerizzate in risposta a sequenze di suoni, che gli umani chiamano comandi verbali». Un’affermazione sulla quale – senza entrare nel merito della discussione attorno al concetto di “comprensione” – potremmo anche concordare, tenendo però presente che: a) con la tecnologia già ora a disposizione i comandi verbali, ancorché semplici, producono effetti molto concreti e di notevole portata; b) presumibilmente l’abilità (se proprio non vogliamo definirla “intelligenza”) degli assistenti vocali nel comprendere le nostre intenzioni, allo scopo di offrirci risposte sempre più pertinenti per una gamma sempre più ampia di funzionalità, è destinata ad accrescersi in tempi molto rapidi, come fanno supporre sia le tendenze di vendita degli smart speaker sia le previsioni sul numero sempre più elevato di ricerche in rete che, nel prossimo futuro, non transiteranno più attraverso query testuali ma attraverso la voce umana.

Il quadro della situazione evidenzia come questi miglioramenti siano strettamente collegati alla personalizzazione dei servizi e, altresì, come tale personalizzazione sia destinata ad alimentarsi attraverso un’attività sempre più profonda di data mining: come i fidati maggiordomi inglesi descritti in millanta romanzi ottocenteschi, i moderni assistenti vocali, per servirci al meglio, necessitano di conoscerci a fondo, quindi di tenere traccia delle nostre richieste, delle nostre abitudini, dei servizi che attiviamo, della musica e dei libri che leggiamo. E, magari, anche delle conversazioni che si svolgono in casa: l’altoparlante intelligente, se non viene disattivato, è anche un orecchio sempre all’erta per captare quello che si dice intorno. Per qualcuno tutto ciò potrà apparire inquietante, invece per molti altri del tutto normale, considerando quali e quanti dati comunque già oggi condividiamo in modo più o meno consapevole attraverso i social. Non vi è dubbio, tuttavia, che i dispositivi domotici rappresentino un salto di livello in relazione ai rischi connessi al trattamento dei dati personali, come ben evidenziato nell’IFLA trend report del 2016:

In addition, the on-going spread of networked data gathering sensors in devices, appliances and infrastructure which will power the Internet of Things (and related developments like Smart Cities) is likely to amplify these existing challenges. There are also concerns that this environment has the potential to deliver unbalanced levels of market power to a small number of large companies with highly developed abilities to acquire and process data.

Teniamo presente che la normativa vigente in Italia – cioè il Codice della privacy e il Regolamento (UE/2016/679) in materia di protezione dei dati personali – prevede che i sistemi digitali, ivi inclusi i dispositivi IoT, siano costruiti in modo conforme ai principi della privacy by design e della privacy by default in modo da ridurre al minimo la raccolta e il trattamento dei dati che riguardano ciascun individuo: per questo si rivela necessario porre l’accento su quali sono le modalità più efficaci per garantire a chiunque il livello di libertà desiderato, offrendo agli utilizzatori degli IPA la possibilità di scegliere come e in che modo i propri dati vengono trattati. Su questo punto una maggior chiarezza da parte dei produttori è fuor di dubbio auspicabile, viste le polemiche che periodicamente si ingenerano a seguito della scoperta non solo di bachi nella sicurezza dei dispositivi, ma anche di funzioni attivate di default che presentano più di un aspetto di censurabilità sul piano della riservatezza, funzioni – come quella di “ascolto passivo” a cui abbiamo accennato qualche riga sopra – che dovrebbero essere rese operative solo a seguito di un esplicito consenso dell’utente (opt in) e non, come avviene ora, disattivate a seguito di una (spesso macchinosa) procedura di opt out.

Rispetto ai contenuti delle note legali scritte in giuridichese (e che, si sa, nessuno legge mai), l’adozione di informative sintetiche e lineari, magari redatte sul modello delle informazioni nutrizionali presenti sulle confezioni degli alimenti, potrebbe fornire qualche chance in più di attirare l’attenzione dell’utente in merito all’utilizzo dei propri dati allo scopo, innanzitutto, di superare una certa rassegnazione che sembra manifestarsi di fronte ai fornitori di servizi della società dell’informazione (come se la fornitura dei dati personali fosse un’inevitabile pedaggio da corrispondere per accedere a essi e non, invece, il frutto di una scelta attentamente ponderata) e anche, in secondo luogo, per scegliere effettivamente quali funzioni degli IPA rendere attive oppure no. Pertanto, in attesa che si possa effettivamente ridurre quel margine di incertezza o, per meglio dire, di ambiguità che tutt’ora circonda l’utilizzo degli assistenti in merito a come essi ci ascoltano e ci registrano, la cautela è d’obbligo, come del resto sottolinea il nostro Garante della privacy in uno specifico vademecum, a maggior ragione se lo smart speaker si trovi collocato in un luogo pubblico o aperto al pubblico, quindi con il rischio di captare conversazioni provenienti non solo dalla bocca del titolare del dispositivo stesso ma di terzi ai quali, in codeste situazioni, deve essere resa nota la presenza di un altoparlante attivo nei paraggi.

In ragione di queste considerazioni, l’utilizzo degli assistenti vocali nei locali della biblioteca – si pensi, ad esempio, a letture collettive o ad attività di gaming – è inevitabilmente legato alla definizione di un quadro complessivo un po’ più definito rispetto a quello attuale in merito alla sicurezza:

Strong security and privacy standards, conversational privacy dialogs, designing privacy information with resigned users in mind, and privacy-friendly defaults could provide a better foundation for people’s trust in smart speakers, as well as soften the feeling of resignation. Designing for multi-user scenarios, integrating context awareness, introducing an incognito mode, and introducing voice commands to mute microphones could further better align smart speakers’ privacy controls with users’ privacy needs.

L’impegno da parte degli attori che ruotano attorno al mondo delle biblioteche deve essere quello di tenere monitorata questa situazione in continuo divenire perché, come appare certo, le tecnologie di cui abbiamo parlato are here to stay e, di conseguenza, le potenzialità a esse collegate meritano un’accorta valutazione al fine di tradursi in servizi innovativi per un’offerta documentaria proiettata verso il futuro.