
Giustizia predittiva: quando l'algoritmo entra in Tribunale
a cura di Benedetta Ravera

Il dibattito circa il possibile impiego della tecnologia e della logica matematica nel contesto giuridico ha origine negli anni Quaranta del secolo scorso: l’utilizzo di strumenti in grado di prevedere l’esito del processo pareva essere coerente con l’idea di certezza del diritto, in quanto avrebbe diminuito l’arbitrio dei giudici, garantendo al tempo stesso la prevedibilità dei giudizi.
L’espressione “giustizia predittiva” indica sistemi algoritmici che utilizzano tecniche di intelligenza artificiale, come il machine learning, che elaborano grandi quantità di dati per identificare in modo automatizzato – tramite probabilità statistiche – le correlazioni presenti all’interno di gruppi di dati (dataset) e le applicano a casi futuri in modo da prevedere l’andamento di un fenomeno o le probabilità del suo verificarsi, come la commissione di reati o il rischio di recidiva.
Questi meccanismi utilizzano dati connessi con il mondo giudiziario, come sentenze ed altri documenti processuali (quali la natura dei reati commessi, le circostanze del reato, i soggetti coinvolti o le norme applicate dal giudice), e, per funzionare, richiedono una grande quantità di informazioni provenienti da documenti digitalizzati, che sono poi codificati e trasferiti in modelli strutturali, accessibili ad un sistema informatico, che restituiscono dati su categorie predefinite di elementi.
Come funziona l’algoritmo
Il percorso seguito da questi modelli non differisce dal procedimento di sussunzione utilizzato nel ragionamento giuridico (se A, allora B) per stabilire, sulla base delle circostanze concrete, a quale fattispecie astratta queste possano essere ricondotte e comprendere così quali effetti giuridici ne possano derivare. Quindi, più il fattore A si ripete, e più è probabile che si ottenga il fattore B quale risultato.
Per lo sviluppo di questi strumenti sono solitamente impiegate tecniche di apprendimento automatiche basate sull’intelligenza artificiale cd. debole, ossia modelli che riproducono parti di processi cognitivi più ampi al fine di raggiungere prestazioni qualitativamente equivalenti e quantitativamente superiori a quelle umane. In particolare, queste tecniche sono distinte in: trattamento automatico del linguaggio naturale (natural language processing), usato per estrarre informazioni computabili da precedenti provvedimenti giudiziari; e trattamento automatico in senso stretto (machine learning), ossia algoritmi di classificazione che identificano le correlazioni tra dati presenti all’interno di un gruppo di precedenti e permettono di prevedere il risultato di nuovi casi tramite formule statistiche e che, al tempo stesso, sono in grado di migliorare le proprie capacità e prestazioni nel tempo attraverso l’esperienza.
La tecnica maggiormente utilizzata per selezionare i dati è la seconda, che gode di ampia autonomia, tanto da adottare decisioni indipendentemente dal controllo umano. In questo caso, si utilizza una sottocategoria del machine learning chiamata deep learning, che è in grado di classificare autonomamente i dati e strutturarli gerarchicamente, simulando il procedimento di apprendimento del cervello umano.
Successivamente, il modello opera per individuare delle correlazioni (pattern) tra dati in base a modelli statistici in grado di far risaltare caratteristiche comuni tra i casi forniti ed il loro esito: l’obiettivo è quello di mettere in collegamento tra loro elementi presenti nel dataset di partenza, costituito dai precedenti giudiziari, e quello di arrivo, ossia l’esito di quei giudizi, per comprendere se, all’aumentare degli elementi del primo dataset, aumenta anche la probabilità di ottenere come risultato un elemento del secondo.
A tal fine, si possono utilizzare tecniche di apprendimento supervisionato o non supervisionato. Con riferimento alle prime, il data scientist istruisce il programma in merito ai risultati da produrre al ricorrere di date circostanze, in modo da definire la struttura di rappresentazione dei dati e rendere così possibili le operazioni di classificazione: questo metodo consente di controllare – quantomeno parzialmente – il processo tramite cui il modello apprende dati e formula previsioni. Con riferimento ai modelli di apprendimento non supervisionati, invece, l’algoritmo impara ad identificare schemi complessi senza alcun supporto preventivo da parte dell’uomo, il quale inserisce semplicemente un insieme di dati, lasciando libero il modello di trovare delle relazioni tra di essi, e, per questo motivo, non è possibile conoscere anticipatamente il risultato che verrà restituito.
Il caso COMPAS
Negli Stati Uniti il ricorso a questi strumenti è sempre più frequente: essi sono utilizzati dalla polizia per pianificare come e dove allocare le proprie risorse, ad esempio, indicando i luoghi con più alto tasso di criminalità, e dai giudici per assumere decisioni riguardo la carcerazione preventiva, la commisurazione della pena, la possibilità di concedere la libertà vigilata o il rischio di recidiva. In quest’ultimo caso, il giudice è impegnato nel compimento di operazioni prognostiche sul rischio che un soggetto commetta nuovamente un reato e, per questo motivo, gli strumenti della predictive justice sono il modello che può meglio garantire un elevato grado di obiettività nel definire la probabilità di recidiva.
Tra i software utilizzati, il più diffuso è sicuramente COMPAS, un programma di risk assessment che si occupa di valutare la probabilità di commissione di un nuovo reato da parte dell’individuo producendo un risultato su una scala da 1 a 10. I risultati sono generati elaborando i dati provenienti dal fascicolo istruttorio(tra cui anche le condizioni socioeconomiche e le precedenti condanne) e dalle risposte fornite dall’imputato durante il colloquio. I punteggi di rischio non si riferiscono alla recidiva individuale del soggetto, ma ad una previsione che viene effettuata comparando le informazioni provenienti dal fascicolo con quelle relative ad un gruppo di individui con caratteristiche simili a quelle dell’imputato.
Nel 2013, Eric L. Loomis venne arrestato per non aver ottemperato all’ordine di fermarsi all’alt della polizia nel Winsconsin, mentre era alla guida di un’auto non di sua proprietà che era stata utilizzata in precedenza inuna sparatoria. Gli vennero contestati cinque capi di accusa, tutti in recidiva, tra cui guida di un veicolo senza consenso del proprietario, possesso di un’arma da fuoco da parte di un pregiudicato e tentativo di elusione di un ufficiale del traffico.
Loomis patteggiò le accuse meno severe, ma per quelle più gravi la Corte lo condannò a sei anni di reclusione dopo aver ordinato un Presence Investigation Report (PSI), ossia una relazione dei risultati delle investigazioni condotte sulla storia dell’imputato, che teneva conto anche dei risultati del software COMPAS, che attestava un alto rischio di recidiva per tutti i capi di accusa non patteggiati. Per questo motivo, il tribunale decise di non concedere a Loomis la libertà vigilata. La difesa, quindi, chiese di essere autorizzata ad accedere al codice sorgente del programma per verificare le modalità di decisione di COMPAS e, quindi, contestarle. Tuttavia, l’autorizzazione venne negata in quanto le informazioni erano coperte da diritti di proprietà industriale: per queste ragioni, la difesa depose un’istanza di revisione della pena per aver violato il diritto dell’imputato ad un equo processo. Il tribunale rigettò la richiestaaffermando che la pena inflitta sarebbe stata la stessa indipendentemente dai risultati forniti dall’algoritmo.
Il caso arrivò fino alla Corte Suprema del Winsconsin, dove il ricorso venne rigettato perché COMPAS non violava il diritto di Loomis ad un giusto processo: la decisione di primo grado era stata assunta con l’ausilio della valutazione fatta dal software, ma questa era stata supportata anche da altri fattori, che avevano fatto sì che il risultato fornito dalla macchina non fosse determinante nel processo decisionale della Corte. Ciononostante, la Corte Suprema riconobbe la possibilità per la difesa di contestare i risultati di calcolobasandosi però solo sulle informazioni contenute nel manuale di funzionamento del programma, poiché esso era pubblico.
La vicenda fece emergere numerose criticità nell’utilizzo di programmi di giustizia predittiva basati su algoritmi, prima tra tutte la mancanza di trasparenza riguardo al funzionamento e all’elaborazione dei dati, in quanto non solo i processi di funzionamento restano segreti, ma spesso questi programmi finiscono con il produrre risultati discriminatori nella popolazione di riferimento – in particolare, COMPAS riconosceva una maggiore probabilità di recidiva nei soggetti neri rispetto ai bianchi (come in questo caso, in cui Loomis era afroamericano).
Profili critici
Il Regolamento Europeo sull’Intelligenza Artificiale (AI Act) ha introdotto un metodo di classificazione dei rischi dei sistemi algoritmici, includendo tra quelli ad alto rischio i programmi che incidono su diritti fondamentali, quali quelli di giustizia predittiva. Infatti, questi meccanismi presentano numerose criticità,prima tra tutte il fatto che, in questo modo, il diritto finisce con il ridursi in un fatto e che qualsiasi insieme di questi elementi, raggruppati tramite correlazioni statistiche, possa diventare rilevante sul piano normativo.
La giurisprudenza che si produce nelle corti, infatti, è il risultato di una tripla dimensione: ermeneutica, sociale ed istituzionale. Questa è incentrata su un processo di elaborazione basato sul ragionamento dei giudici, sulle norme dei codici, su contratti, soft law, e sui principi generali, nonché, in un sistema di common law come quello americano, sui precedenti. La giustizia predittiva, invece, riduce tutto ciò ad una correlazione del tipo “se A, allora B”, facendo venire meno l’elemento creativo proprio dell’argomentazione giuridica che, invece di procedere per somiglianze e statistiche, emerge dalla ricerca di una ratio legis come momento intuitivo e valutativo che l’intelligenza artificiale non è in grado di replicare.
La conseguenza è inoltre quella di un’eccessiva semplificazione dei fenomeni che vengono rappresentati a partire dalla realtà: la traduzione di questi in dati comporta quindi una scarsa rappresentazione della realtà ed un processo di selezione dei dati che possono essere oggetto di automatizzazione.
In secondo luogo, problematica è anche l’operazione di correlazione con cui un caso viene confrontato con altri precedenti: la giustizia predittiva, infatti, è basata sull’idea per cui, se in passato in un certo numero X di casi è stata osservata una correlazione tra due dataset (quello di partenza a quello di arrivo, si veda sopra), allora anche nel caso X+1 è altamente probabile che si ripeta la medesima correlazione. Certamente, questo è valido in campo scientifico-matematico, ma lo stesso non si può dire anche con riferimento all’ambito giuridico, dove il verificarsi di un evento futuro è il risultato di una moltitudine di fattori peculiari a quel caso concreto ed in cui la dimensione argomentativa del giudizio riveste un’ampia importanza.
La principale differenza tra il ragionamento umano e quello di una macchina consiste nel fatto che il giudice ragiona per casi, ossia per giustificare la propria decisione egli prende in considerazione casi analoghi accaduti in precedenza al fine di trovare una motivazione per la soluzione a cui è giunto, ma in questa attività egli tiene conto anche del fatto concreto ricostruito tramite la narrazione dell’accadimento fatta dalle parti nel corso del processo. Invece, l’intelligenza artificiale ragiona per esempi, cioè compara due stati di cose in base ad una somiglianza ed attiva vincoli specifici in funzione dello scopo da raggiungere.
Non appare altresì di immediata comprensibilità il percorso logico che questi sistemi utilizzano per arrivare ad un risultato: si parla a tal proposito di opacità algoritmica, ossia quando il modello utilizzato risulta eccessivamente complesso per essere interpretato da una persona comune, oppure quando il codice di funzionamento non viene rivelato al pubblico (come nel caso di COMPAS, in cui era coperto da segreto industriale). In questi casi, il giudice potrebbe, infatti, essere incapace di verificare il percorso che ha portato l’algoritmo a produrre un determinato risultato. La non controllabilità del processo decisorio finisce quindicon il mettere in discussione il principio della trasparenza dell’attività processuale o condurre a risultati che deviano dal principio di uguaglianza.
Inoltre, le previsioni statistiche presentano alti profili di incertezza in quanto il risultato può essere influenzato non solo dalla qualità e quantità dei dati inseriti, ma anche da biases che finiscono per incidere sul modo con cui la macchina seleziona ed utilizza i dati. I meccanismi di apprendimento automatico, infatti, sono basati su dati storici, che tendono a riflettere le disuguaglianze sociali pregresse, riproducendo ed amplificando le disparità. Ad esempio, nel caso sopra menzionato, l’algoritmo aveva rielaborato dati riguardanti la comunità afroamericana, la quale era maggiormente soggetta a sanzioni penali ed interventi da parte della polizia e questo, inevitabilmente, aveva portato a condizionare il risultato reso. Perciò, utilizzando questi meccanismi, si rischierebbe di perpetuare ed estendere le discriminazioni già esistenti nel sistema penale e sociale: parte della dottrina, infatti, ha sottolineato come gli strumenti di machine learning non solo riflettano biases preesistenti, ma contribuiscano anche a ridefinire i criteri di razionalità delle decisioni giudiziarie in base ad elementi statistico-probabilistici. Il pregiudizio non dipende solamente da chi progetta o fa uso del sistema, ma anche dal modo in cui la realtà viene da essi selezionata, tradotta in dati e utilizzata dal software. Si è quindi in presenza di distorsioni della realtà che interferiscono con i processi cognitivi, arrivando ad una rappresentazione mediata e non neutrale dei fenomeni reali.