3.3 - La regressione logistica¶
Nella lezione precedente abbiamo introdotto l'algoritmo di regressione lineare, il cui comito è quello di "tracciare" la relazione intercorrente tra una serie di variabili indipendenti (le feature) ed una variabile dipendente che, come abbiamo visto, è continua e di tipo numerico. La regressione logistica, invece, ed a discapito del nome, è il più semplice dei classificatori, e viene usata quando abbiamo a che fare con variabili di tipo categorico.
A scopo di esempio, supponiamo di creare un modello che predica la probabilità che una mail ricevuta da un mittente a noi sconosciuto rappresenti uno spam. Indicheremo questa probabilità come
In pratica, se il modello afferma che
Questo è un esempio di utilizzo della probabilità as is. In molti casi, tuttavia, mapperemo l'output della soluzione su un problema di classificazione binario, nel quale l'obiettivo è predire correttamente uno di due possibili label (in questo caso, spam o non spam).
La funzione sigmoidale¶
Ci si potrebbe chiedere come un modello per la regressione logistica sia in grado di asicurarsi che l'uscita ricada sempre nell'intervallo tra
la cui formulazione grafica è la seguente:
Nell'espressione precedente, notiamo che:
è l'uscita della regressione logistica; è pari, per un generico modello lineare, a .
Funzione di costo¶
La funzione di costo per la funzione logistica è chiamata log loss, ed è espressa come:
dove:
sono le coppie date da feature e label nel dataset ; è la label vera per un dato insieme di feature; è il valore predetto.
Soglia di decisione¶
La regressione logistica restituisce quindi una probabilità, la quale dovrà essere in qualche modo "convertita" in un valore relativo ad una classe.
Tornando al nostro esempio, un modello che restituisce una probabilità
Essendo il nostro modello deterministico, è necessario passare da un valore puramente numerico (ovvero, la probabilità) ad una classe che, nel caso specifico, può essere positiva (messaggio di spam, con