Utilizzo di algoritmi ad apprendimento automatico per una maggiore comprensione della composizione dei subset cellulari

Obiettivo

Produrre dati da un pannello di 20 marcatori acquisito sul citometro a flusso CytoFLEX LX. Verrà approfondita la visualizzazione dei dati utilizzando viSNE, FlowSOM e SPADE sulla piattaforma Cytobank. Verrà mostrata una strategia di gating manuale utilizzando Kaluza Analysis e verranno mostrati e confrontati i subset identificati dal clustering non supervisionato ottenuti con FlowSOM sulla piattaforma Cytobank.1,2 Le caratteristiche degli algoritmi non supervisionati sono la riduzione delle distorsioni che possono essere introdotte dal gating manuale di sottopopolazioni note e la possibilità per il ricercatore di identificare fenotipi inattesi. La riduzione del tempo necessario per ottenere un'analisi esaustiva di un set di dati con alto numero di parametri utilizzando algoritmi di apprendimento automatico rispetto al gating manuale rappresenta un ulteriore vantaggio.

 

Per generare i dati utilizzati in questa nota applicativa, i campioni di sangue sono stati marcati con un cocktail di anticorpi a 20 colori descritto di seguito (Tabella 1) prima della lisi dei globuli rossi fatta utilizzando Versalyse secondo la procedura standard (codice IM3648). I campioni marcati sono stati acquisiti su un CytoFLEX LX flow cytometer. La configurazione dei filtri descritta di seguito è stata applicata per garantire il rilevamento ottimale di ogni fluorocromo.

 

Tabella 1. Composizione del pannello per l'immunofenotipizzazione con 20 marcatori acquisito utilizzando il citometro a flusso CytoFLEX LX.

Panel composition for 20 marker immunophenotyping using CytoFLEX LX flow cytometer

La compensazione e la trasformazione dei dati è stata eseguita con le funzioni compensation e logicle scaling del Kaluza Analysis software i dati trasformati sono stati esportati sulla Cytobank platform utilizzando il Kaluza Cytobank Plugin. Kaluza Analysis è stato utilizzato anche per il gating biassiale e l'identificazione manuale delle popolazioni.

In preparazione all'analisi dei dati con algoritmi ad apprendimento automatico, vengono rimossi i detriti, i doppietti e spesso anche le cellule morte o altri eventi indesiderati. Questi eventi non aggiungono informazioni all'analisi, potrebbero invece avere un impatto negativo sulla visualizzazione dei dati e confondere i risultati statistici se non venissero identificati ed esclusi in modo appropriato. A seconda della visualizzazione desiderata dei dati e dei quesiti della ricerca, può essere utile utilizzare un pre-gate sulla popolazione di interesse per ulteriori analisi (Figura 1).

Use Kaluza to prepare data for ML-assisted analysis

Figura 1. Pulizia dei dati su Kaluza analysis.I doppietti sono stati esclusi utilizzando i segnali di Forward Scatter area verso altezza, seguiti dal gating sui globuli bianchi in base alle caratteristiche di Forward e Side scatter. Le cellule negative per il ViaKrome 808 (codice C36628) sono state identificate come vitali e ulteriormente classificate come leucociti sulla base dell'espressione CD45. I dati sono stati analizzati utilizzando il software Kaluza analysis. I grafici sono solo a scopo illustrativo.

 
Per l'identificazione manuale dei subset cellulari nei campioni di sangue periferico umano è stata stabilita una strategia di gating basata su conoscenze precedentemente pubblicate di espressione dei marcatori utilizzando il software di analisi Kaluza Analysis.3

 

Example of knowledge driven population identificationFigura 2. Identificazione dei principali subset leucocitari noti. Dati analizzati con il software Kaluza Analysis. I grafici sono solo a scopo illustrativo.



Con l'ausilio di strumenti di apprendimento automatico è possibile identificare i subset cellulari senza distorsioni e indipendentemente dalle conoscenze pregresse. Algoritmi di riduzione delle dimensionalità come viSNE sono in grado di visualizzare le informazioni contenute in un set di dati a molte dimensioni in un singolo grafico 2D1. Algoritmi di clustering come FlowSOM sono in grado di identificare automaticamente e raggruppare gruppi di cellule simili in base alle similitudini di espressione di specifici marcatori cellulari.2

Per un'ulteriore analisi dei dati, viSNE è stato utilizzato per la riduzione della dimensionalità per tutti i marcatori utilizzati nelle fasi di gating manuale descritte in Figura 2. Ciò consente la visualizzazione delle informazioni contenute in questi 11 marcatori (CD45, CRTH2, CD123, CD15, CD14, CD16, CD56, CD3, CD3, CD4, CD8, CD19) in un unico grafico 2D. viSNE è un metodo per ridurre dati con un elevato numero di dimensioni a due dimensioni e quindi consentire una rapida analisi esplorativa dei dati e la visualizzazione di risultati complessi. Per i dati citometrici, questo può aiutare nella categorizzazione di eventi/cellule in popolazioni biologiche. Le cellule che sono fenotipicamente simili saranno vicine l'una all'altra e formeranno un'isola. Un diagramma risultante contour plot viSNE è mostrato nella Figura 3A.

A seguito della riduzione delle dimensionalità, è stata eseguita un'analisi FlowSOM per raggruppare automaticamente le cellule in 12 cosiddetti “metacluster”. Utilizzare FlowSOM sui marcatori di popolazioni e visualizzare i cluster sovrapposti sulla mappa viSNE può facilitare la valutazione della qualità del clustering. Se, per ottimizzare i risultati, si rendessero necessari ulteriori aggiustamenti iterativi nelle impostazioni di esecuzione dell'algoritmo, questa visualizzazione potrebbe aiutare a confrontare diverse esecuzioni e fornire un punto di partenza per l'analisi dei dati di clustering.

Nel set di dati qui analizzato si può osservare una buona correlazione fra le isole viSNE e i metacluster FlowSOM (Figura 3 B). Per identificare rapidamente il fenotipo di ogni metacluster può essere utile costruire una visualizzazione heatmap dei metacluster di FlowSOM (Figura 3C)

Subset identification using viSNE, FlowSOM and a heatmap displayFigura 3. Identificazione del subset utilizzando viSNE, FlowSOM e visualizzazione Heatmap.A) Contour plot della mappa viSNE B) mappa viSNE con metacluster FlowSOM come dimensioni della figura sovrapposte C) Visualizzazione Heatmap dell'espressione del marcatore tramite metacluster FlowSOM. I dati sono stati compensati e trasformati con la funzione logicle utilizzando il software Kaluza analisi e caricati sulla piattaforma Cytobank attraverso il Kaluza Cytobank Plugin. viSNE è stato eseguito su 11 marcatori che definiscono la popolazione di 3 campioni con 3000 iterazioni, 30 perplessità e 0,5 theta. Le impostazioni di FlowSOM sono 12 metacluster e 121 cluster con cluster di consenso gerarchico. I Plot sono solo a scopo illustrativo.

La funzione in cui i dot plot sono colorati per canale, colora di ogni evento nella mappa viSNE in base alla sua intensità su un canale all'interno del dataset; questa funzione può essere utilizzata per mostrare perché i punti nella mappa sono vicini l'uno all'altro o quali pattern di marker di espressione sono simili fra gli eventi all'interno di un'isola viSNE. La Figura 4 illustra l'espressione del marcatore per CD19, CD4 e CD8 sulla mappa viSNE e in confronto al metaclustering FlowSOM.

Expression levels of sub-population markers on viSNE map
Figura 4. Livelli di espressione delle sottopopolazioni sulla mappa viSNE. A) espressione CD19 B) espressione CD4 C) espressione CD8 D) mappa viSNE con metacluster FlowSOM come dimensioni delle figure sovrapposte. I dati sono stati compensati e trasformati con la funzione logicle utilizzando il software Kaluza analisi e caricati sulla piattaforma Cytobank attraverso il Kaluza Cytobank Plugin. viSNE è stato eseguito su 11 marcatori che definiscono la popolazione di 3 campioni con 3000 iterazioni, 30 perplessità e 0,5 theta. Le impostazioni di FlowSOM sono 12 metacluster e 121 cluster con cluster di consenso gerarchico. I Plot sono solo a scopo illustrativo.Comparison of 3 samples using ML-assisted analysis

Figura 5. Confronto di 3 campioni. A) Clustering FlowSOM sovrapposto sulla mappa viSNE, le frecce indicano il metacluster 1, l'asterisco indica i 12 metacluster B) espressione CD16 C) espressione CD56. I dati sono stati compensati e trasformati con la funzione logicle utilizzando il software Kaluza analisi e caricati sulla piattaforma Cytobank attraverso il Kaluza Cytobank Plugin. viSNE è stato eseguito con Cytobank su 11 marcatori che definiscono la popolazione leucocitaria CD45+ di 3 campioni con 3000 iterazioni, 30 perplessità e 0,5 theta. Le impostazioni di FlowSOM sono 12 metacluster e 121 cluster clusterizzati con un consenso gerarchico. I dati sono stati compensati e trasformati con la funzione logicle utilizzando il software Kaluza analisi e caricati sulla piattaforma Cytobank attraverso il Kaluza Cytobank Plugin. Ulteriori analisi dei dati sono state effettuate sulla piattaforma Cytobank. I grafici sono solo a scopo illustrativo.

La combinazione di viSNE e FlowSOM permette confronti qualitativi tra campioni che possono essere migliorati visualizzando l'espressione di marcatori specifici sulla mappa viSNE (Figura 5). Il confronto mostra che la popolazione CD16+ identificata come metacluster 1 (Figura 5 A, blu, freccia) è prominente nel campione G ma virtualmente assente nei campioni B e F. Mostra anche un'abbondanza di cellule CD56 bright nel metacluster 12 per il campione F (Figura 5 A, rosso; asterisco).

Un altro algoritmo non supervisionato che può essere utilizzato per l'identificazione di gruppi di cellule simili è SPADE. SPADE è l'acronimo di "Spanning-tree Progression Analysis of Density-normalized Events" (Analisi di progressione ad albero per scansione degli eventi normalizzati in base alla densità). 4. SPADE raggruppa (“clusterizza”) i gruppi fenotipicamente simili in una gerarchia che consente l'analisi multidimensionale ad alta produttività di campioni eterogenei (Figura 6). Le bolle possono essere aggiunte per assegnare soglie di popolazione definite dall'utente alle varie popolazioni computazionali (cluster) trovate da SPADE.

 

SPADE trees colored by CD16 expression

Figura 6. Confronto di 2 Campioni, Alberi SPADE Colorati da epressione del CD16. . I dati sono stati compensati e trasformati con la funzione logicle utilizzando il software Kaluza analisi e caricati sulla piattaforma Cytobank attraverso il Kaluza Cytobank Plugin. SPADE è stato eseguito su 11 popolazioni definite con down-sampling al 10% e 50 nodi. I plot sono solo a scopo illustrativo.

Un profilo immunologico più dettagliato delle rispettive popolazioni leucocitarie può essere ottenuto estendendo la strategia di gating manuale. Anche in questo caso, ciò si basa generalmente sulla conoscenza preliminare dei modelli di espressione. Un esempio per il subset delle cellule T CD4+ è fornito nella Figura 7.

Knowledge-driven identification of regulatory T-cells and their subsets

Figura 7. Identificazione tramite fenotipi noti delle cellule T regolatorie e dei loro subset. (A) subset CD4 cellule T memory gated sul CD4+, escludendo i subset Tregs (B) e cellule T memory CD8+. Dati analizzati con il software Kaluza analisi. I grafici sono solo a scopo illustrativo.

I confronti tra i campioni possono essere effettuati confrontando i grafici o i risultati statistici e utilizzando le funzionalità di sovrapposizione o il grafico di confronto Kaluza (Figura 8). Questo approccio è anche il più delle volte guidato da ipotesi su probabili differenze.

Comparison of Treg subsets across samples
Figura 8. Confronto dei subset di Treg tra campioni. A) Singoli dot plot per campione. B) Scheda informativa con i risultati statistici per campione e subset. C) Sovrapposizione di dot plot di due campioni. D) Grafico di confronto che visualizza la % di subset in Gate per campione. I dati sono stati analizzati utilizzando il software di analisi Kaluza analisi. I grafici sono solo a scopo illustrativo.



Per l'identificazione non supervisionata dei subset di cellule T, è stata eseguita un'analisi viSNE utilizzando le cellule T CD3+ come popolazione di partenza. La Figura 9 A mostra l'espressione di CD4 e CD8 sulla mappa viSNE. Seguendo lo stesso approccio manuale di gating di prima (vedi Figura 7), sono stati identificati diversi pattern di espressione CD45RA e CD62L utilizzando un gate a quadrante sulle cellule pan T e visualizzati sulla mappa viSNE (Figura 9 B). Infine, il clustering di consenso gerarchico è stato eseguito utilizzando FlowSOM per identificare 10 metacluster (Figura 9 C). Sia il gating manuale che il clustering non supervisionato portano all'identificazione di popolazioni simili.

 

Unsupervised analysis of T cell subsets
Figura 9. Analisi non supervisionata dei subset delle cellule T. (A) l’analisi viSNE è stata eseguita sulla piattaforma Cytobank con 2000 iterazioni e una perplessità di 50 l’espressione CD4 (a sinistra) e CD8 (a destra) sono visualizzate sul risultante grafico viSNE (B) I pattern di espressione CD62L e CD45RA (a sinistra) così come per le cellule T regolatorie (al centro) sono stati identificati utilizzando gating manuali e le popolazioni sovrapposte sulla mappa viSNE. (C) Il clustering FlowSOM è stato eseguito utilizzando il clustering gerarchico su dati normalizzati per rilevare 100 cluster e 10 metacluster. I metacluster sono mostrati sulla mappa viSNE. I dati sono stati compensati e trasformati con la funzione logic del software Kaluza analisi e caricati sulla piattaforma Cytobank attraverso il Plugin Cytobank Kaluza. Ulteriori analisi dei dati sono state effettuate sulla piattaforma Cytobank. I grafici sono solo a scopo illustrativo.

La Figura 10 mostra il confronto tra l'identificazione dei subset CD8+ memory utilizzando il gating manuale e il clustering non supervisionato eseguito con FlowSoM.

Comparison of CD8+ T cell memory subsets by manual gating versus FlowSOM

Figura 10. Confronto tra subset di cellule CD8+ T memory identificati con Gating manuale. (A) e FlowSOM (B). I dati sono stati compensati e trasformati con la funzione logic del software Kaluza Analysis e caricati sulla piattaforma Cytobank attraverso il Plugin Kaluza Cytobank. Ulteriori analisi dei dati sono state effettuate sulla piattaforma Cytobank. I grafici sono solo a scopo illustrativo.

Riepilogo

I dati ottenuti da tre donatori utilizzando un pannello di 20 marker acquisiti su un CytoFLEX LX sono stati utilizzati per mostrare una strategia di gating manuale per identificare i subset leucocitari, nonché un'analisi più approfondita dei subset di cellule T. È stato mostrato l'uso di viSNE per visualizzare dati a molte dimensioni utilizzando una mappa viSNE 2D ed è stato discusso l'uso di viSNE e SPADE per confrontare i campioni. Infine, i risultati dell'identificazione automatica dei cluster fatta utilizzando FlowSOM è stata confrontata con il gating manuale. Gli algoritmi di apprendimento automatico come viSNE, FlowSOM e SPADE possono essere utili nella visualizzazione di parametri con elevato numero di dati e nell'identificazione imparziale di subset cellulari.

 

Suggerimenti

Per istruzioni dettagliate sull'uso del software di analisi Kaluza Analysis fare riferimento a Kaluza IFU C10986 , istruzioni dettagliate sull'uso della piattaforma Cytobank sono disponibili su support.cytobank.org. Questo documento non sostituisce le Istruzioni per l'uso.

Una discussione più approfondita delle analisi qui eseguite è fornita nelle note tecniche “Use Machine Learning Algorithms to Explore the Potential of Your High Dimensional Flow Cytometry Data Example of a 20-color Panel on CytoFLEX LX” e “Leveraging the Combined Power of Kaluza and the Cytobank Platform”.


References

  1. Amir ED, Davis KL, Tadmor MD, et al. viSNE enables visualization of high dimensional single-cell data and reveals phenotypic heterogeneity of leukemia. Nature Biotechnology. 2013;31(6):545-552. doi:10.1038/nbt.2594.

  2. Van Gassen S, Callebaut B, Van Helden MJ, et al. FlowSOM: Using self-organizing maps for visualization and interpretation of cytometry data: FlowSOM. Cytometry. 2015;87(7):636-645. doi:10.1002/cyto.a.22625.

  3. Ortolani C. Antigens. In: Flow Cytometry of Hematological Malignancies. John Wiley & Sons, Ltd; 2011:1-157. doi:10.1002/9781444398069.ch1.

  4. Qiu P, Simonds EF, Bendall SC, et al. Extracting a cellular hierarchy from high-dimensional cytometry data with SPADE. Nature Biotechnology. 2011;29(10):886-891. doi:10.1038/nbt.1991.

 

For Research Use Only. Not for use in diagnostic procedures.