t-sne sklearn

t-sne sklearn

“Una tecnica statistica chiamata vicina stocastica distribuita a T inserisce ogni punto dati su una mappa bidimensionale per visualizzare dati ad alta dimensione. Questa operazione viene eseguita in modo simile dai metodi di analisi dei componenti principali (PCA), che vengono anche utilizzati per proiettare a dimensioni più basse da alta dimensione. Questo articolo discuterà T-SNE, come differisce da PCA e come funziona in Sklearn."

Cos'è la riduzione della dimensionalità?

La riduzione della dimensionalità codifica i dati multidimensionali (dimensioni N) con caratteristiche abbondanti in 2 o 3 dimensioni. Molte funzionalità di entità che devono essere classificate sono utilizzate nei problemi di classificazione dell'apprendimento automatico. La formazione di visualizzazione dei dati sarebbe più complessa e i requisiti di archiviazione aumenterebbero man mano che venivano utilizzate più funzionalità. Queste caratteristiche sono spesso collegate. Di conseguenza, il numero di funzionalità può essere ridimensionato. Il numero di funzionalità può essere ridotto se si scopre che le tre funzionalità utilizzate sono collegate. Se è necessaria una sola funzione, i dati diffusi nello spazio 3D possono essere proiettati in una linea per produrre dati 1D o su un piano 2D se sono necessarie due funzionalità.

Cos'è T-SNE?

I dati ad alta dimensione sono proiettati in dimensioni inferiori utilizzando l'approccio di apprendimento automatico non supervisionato noto come Incorporamento stocastico distribuito a T (T-SNE), creato nel 2008 da Laurens van der Maaten e Geoffery Hinton. È principalmente utilizzato per l'esplorazione dei dati e la visualizzazione dei dati ad alta dimensione. T-SNE ti aiuta a comprendere l'organizzazione dei dati in uno spazio ad alta dimensione.

Come funziona T-SNE?

La distribuzione di probabilità dei vicini che circondano ogni punto è modellata usando l'algoritmo T-SNE. Il gruppo di punti più vicini a ciascun punto in questo contesto è indicato come i vicini. Il modello per questo nello spazio originale ad alta dimensione è una distribuzione gaussiana.

Una distribuzione T viene utilizzata per simularlo nello spazio di uscita bidimensionale. Lo scopo di questa tecnica è trovare una mappatura sullo spazio 2-D che riduce al minimo le disparità tra queste due distribuzioni. Il fattore primario che influenza l'adattamento è noto come confusione. Il numero di vicini più vicini considerati mentre abbinano le distribuzioni originali e adattate per ciascun punto è generalmente equivalente alla complessità.

In che modo PCA è diverso da T-SNE

PCA T-SNE
È una tecnica lineare per la riduzione della dimensione. È una tecnica non lineare per la riduzione della dimensione.
Fa uno sforzo per mantenere la struttura generale dei dati. Fa uno sforzo per mantenere la struttura locale dei dati
Non sono coinvolti iperparametri Ciò coinvolge iperparametri come perplessità, tasso di apprendimento e il numero di passaggi.
Non gestisce bene i valori anomali Può gestire i valori anomali.

Implementazione di T-SNE in Sklearn

# Importazione di librerie
Importa Numpy come NP
da Sklearn.TSNE di importazione molteplici
# Creazione del set di dati
X = np.array ([[0, 0, 0, 1], [0, 1, 1, 1], [1, 0, 1, 0], [1, 1, 1, 0]])
# Proiettando i dati a dimensioni inferiori
X_projected = tsne (n_components = 2, learning_rate = 'auto', init = 'casual', perplessità = 3).fit_transform (x)
Stampa ("Nuova forma dei dati è", x_project.forma)


Produzione

La nuova forma dei dati è (4, 2)

Conclusione

Abbiamo appreso dell'algoritmo T-SNE, che viene utilizzato per convertire i dati ad alta dimensione in inferiore e alla fine visualizzarli facilmente. Abbiamo anche visto perché abbiamo bisogno di algoritmi di riduzione della dimensionalità e come T-SNE sia diverso dai suoi algoritmi alternativi: PCA. Abbiamo anche implementato T-SNE in Sklearn usando il modulo "molteplici" e proiettato dati 4-dimensionali in 2 dimensioni.