Utilizzo di algoritmi di apprendimento automatico per informazioni approfondite sulla composizione dei sottogruppi cellulari

Obiettivo

Introduce un pannello di 20 marcatori adatto all’acquisizione sul citometro a flusso CytoFLEX LX. Sulla piattaforma Cytobank verrà esaminata la visualizzazione dei dati utilizzando viSNE, FlowSOM e SPADE. Verrà mostrata e confrontata una strategia di gating manuale utilizzando il software di analisi Kaluza con i sottogruppi identificati mediante clustering non supervisionato con FlowSOM sulla piattaforma Cytobank.1,2 La natura non supervisionata di molti di questi algoritmi riduce gli errori di base che possono essere introdotti mediante gating manuale di sottogruppi noti e consente al ricercatore di identificare fenotipi inattesi. La riduzione del tempo di preparazione manuale necessaria per ottenere un’analisi esaustiva di set di dati dimensionali elevati utilizzando algoritmi di apprendimento automatico rispetto al gating manuale rappresenta un ulteriore vantaggio.

Per generare i dati utilizzati in questa Nota applicativa, i campioni di sangue sono stati marcati con il cocktail di anticorpi a 20 colori descritto di seguito (Tabella 1) prima della lisi degli eritrociti usando Versalyse in conformità con la procedura standard (numero di parte IM3648). I campioni colorati sono stati acquisiti su un citometro a flusso CytoFLEX LX a 6 laser. La configurazione del filtro descritta di seguito è stata applicata per garantire un rilevamento ottimale di ciascun colorante.

 

Tabella 1. Composizione del pannello per immunofenotipizzazione con 20 marcatori utilizzando il citometro a flusso CytoFLEX LX.

Composizione del pannello per immunofenotipizzazione a 20 marcatori con citometro a flusso CytoFLEX LX

La compensazione e la trasformazione dei dati usando il ridimensionamento logico sono state eseguite usando il software Kaluza Analysis e i dati compensati trasformati da logicle sono stati esportati alla piattaforma Cytobank usando il plugin Kaluza Cytobank. Kaluza Analysis è stato utilizzato anche per il gating biassiale e l’identificazione manuale della popolazione.

In preparazione per l’analisi dei dati assistita da apprendimento automatico, vengono rimossi detriti, doppietti e spesso anche cellule morte o altri eventi indesiderati. Questi eventi non aggiungono informazioni all’analisi a valle, potrebbero avere un impatto negativo sulla visualizzazione dei dati e confondere i risultati statistici se non vengono identificati ed esclusi in modo appropriato. A seconda della visualizzazione dei dati desiderata e delle domande di ricerca, potrebbe essere utile eseguire un pre-gating sulla popolazione di interesse per ulteriori analisi (Figura 1).

Utilizzare Kaluza per preparare i dati per l’analisi assistita da ML

Figura 1. Pulizia dei dati in Kaluza Analysis. I doppietti sono stati esclusi in base all’area del segnale di scatter frontale rispetto all’altezza, seguito dal gating sui leucociti in base alle caratteristiche di scatter frontale e laterale. Le cellule negative per ViaKrome 808 (numero di parte C36628) sono state identificate come vitali e ulteriormente classificate come leucociti in base all’espressione CD45. Dati analizzati utilizzando il software Kaluza Analysis. I diagrammi sono a solo scopo illustrativo.


Per l’identificazione manuale dei sottogruppi cellulari nei campioni di sangue periferico umano è stata stabilita una strategia di gating basata su precedenti conoscenze pubblicate sui modelli di espressione dei marcatori utilizzando il software Kaluza Analysis.3

 

Esempio di identificazione della popolazione guidata dalle conoscenzeFigura 2. Identificazione basata sulla conoscenza dei principali sottogruppi di leucociti. Dati analizzati utilizzando il software Kaluza Analysis. I diagrammi sono a solo scopo illustrativo.



Utilizzando strumenti di apprendimento automatico è possibile identificare sottogruppi cellulari senza bias e indipendentemente dalle conoscenze precedenti. Gli algoritmi di riduzione dimensionale come viSNE sono in grado di visualizzare le informazioni contenute in un set di dati a elevata dimensione in un singolo diagramma 2D 1. Gli algoritmi di clustering come FlowSOM sono in grado di identificare e raggruppare automaticamente cellule simili in base alle somiglianze nell’espressione dei marcatori.2

Per ulteriori analisi dei set di dati, viSNE è stato utilizzato per la riduzione dimensionale per tutti i marcatori di gating utilizzati anche nelle fasi di gating manuale descritte nella Figura 2. Ciò consente la visualizzazione delle informazioni contenute in questi 11 marcatori (CD45, CRTH2, CD123, CD15, CD14, CD16, CD56, CD3, CD4, CD8, CD19) in un singolo diagramma 2D. viSNE è un metodo per ridurre i dati a elevata dimensione a due dimensioni e quindi consentire una rapida analisi esplorativa dei dati e la visualizzazione di risultati complessi. Per i dati citometrici, ciò può contribuire alla categorizzazione di eventi/cellule in popolazioni biologiche. Le cellule fenotipicamente simili saranno vicine tra loro e formeranno un’isola. Un diagramma di contorno della mappa viSNE risultante è mostrato nella Figura 3 A.

Dopo la riduzione dimensionale, è stata eseguita un’analisi FlowSOM per raggruppare automaticamente le cellule in 12 cosiddetti metacluster. L’esecuzione di FlowSOM sui marcatori che definiscono la popolazione e la visualizzazione dei dati di raggruppamento risultanti sovrapposti sulla mappa viSNE possono facilitare la valutazione della qualità. Se sono necessarie ulteriori regolazioni iterative delle impostazioni di esecuzione dell’algoritmo per ottimizzare i risultati, questa visualizzazione può aiutare a confrontare diverse sessioni e fornire un punto di partenza per l’analisi dei dati di raggruppamento.

Nel set di dati qui analizzato è possibile osservare una buona correlazione tra le isole viSNE e i metacluster FlowSOM (Figura 3 B). Per identificare rapidamente il fenotipo di ciascun metacluster, può essere utile creare una visualizzazione della mappa termica dei metacluster FlowSOM mediante il raggruppamento (Figura 3 C).

Identificazione dei sottogruppi con viSNE, FlowSOM e un display della mappa termicaFigura 3. Identificazione dei sottogruppi con viSNE, FlowSOM e un display della mappa termica. A) Diagramma di contorno della mappa viSNE B) Mappa viSNE con i metacluster FlowSOM come dimensioni della figura sovrapposta C) Visualizzazione della mappa di calore dell’espressione dei marcatori da parte del metacluster FlowSOM. I dati sono stati compensati e il logicle è stato trasformato utilizzando il software Kaluza Analysis e caricato sulla piattaforma Cytobank attraverso il plugin Kaluza Cytobank. viSNE è stato eseguito su 11 marcatori di definizione della popolazione di 3 campioni con 3000 iterazioni, 30 perplessità e 0,5 theta. Le impostazioni FlowSOM sono 12 metacluster e 121 cluster con raggruppamento di consenso gerarchico. I diagrammi sono a solo scopo illustrativo.


I diagrammi a punti colorati a seconda della funzione del canale, che colora ogni evento nella mappa viSNE in base alla sua intensità su un canale all’interno del set di dati, possono essere utilizzati per mostrare perché i punti nella mappa sono vicini l’uno all’altro o quali modelli di espressione dei marcatori sono simili tra gli eventi all’interno di un’isola viSNE. La Figura 4 illustra l’espressione dei marcatori per CD19, CD4 e CD8 sulla mappa viSNE e rispetto al metacluster FlowSOM.

Livelli di espressione dei marcatori dei sottogruppi sulla mappa viSNE
Figura 4. Livelli di espressione dei marcatori di sottogruppi sulla mappa viSNE. A) Espressione CD19 B) Espressione di CD4 C) Espressione di CD8 D) Mappa viSNE con metacluster FlowSOM come dimensioni della figura sovrapposta. I dati sono stati compensati e il logicle è stato trasformato utilizzando il software Kaluza Analysis e caricato sulla piattaforma Cytobank attraverso il plugin Kaluza Cytobank. viSNE è stato eseguito sul plugin Cytobank su 11 marcatori di definizione della popolazione di 3 campioni con 3000 iterazioni, 30 perplessità e 0,5 theta. Le impostazioni FlowSOM sono 12 metacluster e 121 cluster con raggruppamento di consenso gerarchico. I diagrammi sono a solo scopo illustrativo.

Confronto di 3 campioni mediante analisi assistita da ML

Figura 5. Confronto di 3 campioni. A) Raggruppamento FlowSOM sovrapposto alla mappa viSNE, le frecce indicano metacluster 1, l’asterisco indica il metacluster 12 B) Espressione CD16 C) Espressione CD56. I dati sono stati compensati e il logicle è stato trasformato utilizzando il software Kaluza Analysis e caricato sulla piattaforma Cytobank attraverso il plugin Kaluza Cytobank. viSNE è stato eseguito su Cytobank su 11 marcatori di definizione della popolazione. viSNE è stato eseguito su tutti i leucociti CD45+ di 3 campioni con 3000 iterazioni, 30 perplessità e 0,5 theta. Le impostazioni FlowSOM sono 12 metacluster e 121 cluster con raggruppamento di consenso gerarchico. I dati sono stati compensati e il logicle è stato trasformato utilizzando il software Kaluza Analysis e caricato sulla piattaforma Cytobank tramite il plugin Kaluza Cytobank. Sono state eseguite ulteriori analisi dei dati sulla piattaforma Cytobank. I diagrammi sono a solo scopo illustrativo.

La combinazione di viSNE e FlowSOM consente confronti qualitativi tra campioni che possono essere migliorati visualizzando l’espressione di marcatori specifici sulla mappa viSNE (Figura 5). Il confronto mostra che la popolazione CD16+ identificata come metacluster 1 (Figura 5 A, blu, freccia) è prominente nel campione G ma praticamente assente nei campioni B e F. Mostra anche un’abbondanza di cellule a elevata brillantezza CD56 nel metacluster 12 per il campione F (Figura 5 A, rosso; asterisco).

Un altro algoritmo non supervisionato che può essere utilizzato per l’identificazione di gruppi di cellule simili è SPADE. SPADE sta per “Spanning-tree Progression Analysis of Density-normalized Events” 4. I cluster SPADE sono cellule fenotipicamente simili in una gerarchia che consente un’analisi multidimensionale ad alta capacità produttiva di campioni eterogenei (Figura 6). È possibile aggiungere bolle per assegnare soglie di popolazione definite dall’utilizzatore alle varie popolazioni di calcolo (gruppi) trovate da SPADE.

 

Alberi SPADE colorati per espressione CD16

Figura 6. Confronto di 2 campioni, alberi SPADE colorati da espressione CD16. I dati sono stati compensati e il logicle è stato trasformato utilizzando il software Kaluza Analysis e caricato sulla piattaforma Cytobank tramite il plugin Kaluza Cytobank. SPADE è stato eseguito su 11 popolazioni definite con un campionamento decrescente fino al 10% e 50 linfonodi. I diagrammi sono a solo scopo illustrativo.

È possibile ottenere un profilo immunologico più profondo delle rispettive popolazioni leucocitarie estendendo la strategia di gating manuale. Anche in questo caso, si basa generalmente sulla conoscenza precedente dei modelli di espressione. Un esempio per il sottogruppo di cellule T CD4+ è illustrato nella Figura 7.

Identificazione basata sulla conoscenza delle cellule T regolatorie e dei loro sottogruppi

Figura 7. Identificazione basata sulla conoscenza delle cellule T regolatorie e dei loro sottogruppi. (A) Sottogruppi di memoria delle cellule T CD4+ con gating sulle cellule T CD4+, esclusi i sottogruppi di memoria delle cellule T Treg (B) e CD8+. Dati analizzati utilizzando il software Kaluza Analysis. I diagrammi sono a solo scopo illustrativo.

I confronti tra campioni possono essere eseguiti confrontando diagrammi o risultati statistici e utilizzando funzionalità di sovrapposizione o il diagramma di confronto Kaluza (Figura 8). Questo approccio è inoltre spesso guidato da ipotesi su probabili differenze.

Confronto dei sottogruppi Treg tra i campioni
Figura 8. Confronto dei sottogruppi Treg tra i campioniA) Diagrammi a punti singoli per campione. B) Foglio informativo con risultati statistici per campione e sottogruppo. C) Sovrapposizione diagramma a punti di due campioni. D) Grafico di confronto che visualizza la percentuale con gating per sottogruppo e campione. I dati sono stati analizzati utilizzando il software Kaluza Analysis. I diagrammi sono a solo scopo illustrativo.



Per l’identificazione non supervisionata dei sottogruppi di cellule T, è stata eseguita un’analisi viSNE utilizzando cellule T CD3+ come popolazione di input. La Figura 9 A mostra l’espressione di CD4 e CD8 sulla mappa viSNE. Seguendo lo stesso approccio di gating manuale utilizzato in precedenza (vedere la Figura 7), diversi modelli di espressione di CD45RA e CD62L sono stati identificati utilizzando un gate quadrante sulle cellule pan-T e visualizzati sulla mappa viSNE (Figura 9 B). Infine, il raggruppamento di consenso gerarchico è stato eseguito utilizzando FlowSOM per identificare 10 metacluster (Figura 9 C). Sia il gating manuale che il raggruppamento non supervisionato comportano l’identificazione di popolazioni simili.

 

Analisi non supervisionata dei sottogruppi di cellule T
Figura 9. Analisi non supervisionata dei sottogruppi di cellule T. (A) viSNE è stato eseguito sulla piattaforma Cytobank con 2000 iterazioni e una perplessità di 50 e le espressioni CD4 (sinistra) e CD8 (destra) sono visualizzate sul grafico viSNE risultante (B) I modelli di espressione CD62L e CD45RA (sinistra) nonché le cellule T regolatorie (al centro) sono stati identificati utilizzando il gating manuale e le popolazioni sovrapposte sulla mappa viSNE. (C) Il raggruppamento FlowSOM è stato eseguito usando il raggruppamento gerarchico su dati normalizzati per rilevare 100 cluster e 10 metacluster. I metacluster sono mostrati sulla mappa viSNE. I dati sono stati compensati e il logicle è stato trasformato utilizzando il software Kaluza Analysis e caricato sulla piattaforma Cytobank tramite il plugin Kaluza Cytobank. Sono state eseguite ulteriori analisi dei dati sulla piattaforma Cytobank. I diagrammi sono a solo scopo illustrativo.

La Figura 10 mostra il confronto tra l’identificazione dei sottogruppi di memoria CD8+ mediante gating manuale e raggruppamento non supervisionato con FlowSoM.

Confronto dei sottogruppi di memoria delle cellule T CD8+ mediante gating manuale rispetto a FlowSOM

Figura 10. Confronto dei sottogruppi di memoria delle cellule T CD8+ identificate mediante gating manuale. (A) e FlowSOM (B). I dati sono stati compensati e il logicle è stato trasformato utilizzando il software Kaluza Analysis e caricato sulla piattaforma Cytobank tramite il plugin Kaluza Cytobank. Sono state eseguite ulteriori analisi dei dati sulla piattaforma Cytobank. I diagrammi sono a solo scopo illustrativo.

Riepilogo

Sono stati utilizzati I dati di tre donatori ottenuti utilizzando un pannello di 20 marcatori acquisito su un CytoFLEX LX per mostrare una strategia di gating manuale per identificare i sottogruppi di leucociti e un’analisi più approfondita dei sottogruppi di cellule T. È stato mostrato l’uso di viSNE per visualizzare dati a elevata dimensione in una mappa viSNE 2D ed è stato discusso l’uso di viSNE e SPADE per confrontare i campioni. Infine, l’identificazione automatica del cluster mediante FlowSOM è stata confrontata con i risultati del gating manuale. Strumenti di apprendimento automatico come viSNE, FlowSOM e SPADE possono essere utili per visualizzare dati ad alto parametro e per identificare senza errori i sottogruppi cellulari.

 

Suggerimenti per il successo

Per istruzioni dettagliate sull’utilizzo del software Kaluza Analysis, fare riferimento alle istruzioni per l’uso di Kaluza C10986; per istruzioni dettagliate sull’utilizzo della piattaforma Cytobank, consultare il sito support.cytobank.org. Questo documento non sostituisce le istruzioni per l’uso.

Una discussione più approfondita delle analisi eseguite qui è fornita nelle note tecniche “Leveraging the Combined Power of Kaluza and the Cytobank Platform”.


Bibliografia

  1. Amir ED, Davis KL, Tadmor MD, et al. viSNE enables visualization of high dimensional single-cell data and reveals phenotypic heterogeneity of leukemia. Nature Biotechnology. 2013;31(6):545-552. doi:10.1038/nbt.2594.

  2. Van Gassen S, Callebaut B, Van Helden MJ, et al. FlowSOM: Using self-organizing maps for visualization and interpretation of cytometry data: FlowSOM. Cytometry. 2015;87(7):636-645. doi:10.1002/cyto.a.22625.

  3. Ortolani C. Antigens. In: Flow Cytometry of Hematological Malignancies. John Wiley & Sons, Ltd; 2011:1-157. doi:10.1002/9781444398069.ch1.

  4. Qiu P, Simonds EF, Bendall SC, et al. Extracting a cellular hierarchy from high-dimensional cytometry data with SPADE. Nature Biotechnology. 2011;29(10):886-891. doi:10.1038/nbt.1991.

 

Esclusivamente a fini di ricerca. Non utilizzare nelle procedure diagnostiche.