Il legame CTCF cancro-specifico facilita la disregolazione trascrizionale oncogena

Procedimento sperimentale

Strapianto su paziente e coltura cellulare

Le linee cellulari T-ALL umane includono CUTLL1 (dono di Adolfo Ferrando, Columbia University) e JURKAT (American Type Culture Collection (ATCC), Manassas, VA, #CCL-119). Le cellule sono state coltivate in RPMI1640 medium con l-glutamina e 25 mM HEPES (Corning) integrato con 10% di siero fetale bovino inattivato al calore (Sigma-Aldrich), 10 U/mL di penicillina-streptomicina (Gibco), e 1× glutaMAX (Gibco) in un incubatore umidificato a 37 °C e 5% CO2. Le cellule sono periodicamente testate per la presenza di micoplasma usando il kit di rilevamento MycoAlert Mycoplasma di Lonza Walkersville (ultimo test nel gennaio 2020). Le linee cellulari sono mantenute in coltura per un massimo di 20 passaggi e sono autenticate usando il profiling delle ripetizioni a corto tandem (JURKAT) o usando la PCR per rilevare la traslocazione TCRb-NOTCH1 (TCRBJ2S4CUTLL1F:5′-GGACCCGGCTCAGTGCT-3′, NOTCH1CUTTL1R:5′-TCCCGCCCTCCAAAATAAGG-3′). L’ultima autenticazione delle cellule è stata eseguita nel febbraio 2020. Le cellule T CD4+ umane sono state acquistate da AllCells. I campioni umani primari sono stati raccolti con il consenso informato e analizzati sotto la supervisione dell’Institutional Review Board dell’Università di Padova, l’Associazone Italiana di Ematologia e Oncologia Pediatrica, e il Berlin-Frankfurt-Münster (AIEOP-BFM) ALL 2000/2006 studi clinici pediatrici. Il consenso informato all’uso di materiale di scarto per scopi di ricerca è stato ottenuto da tutti i pazienti al momento dell’ingresso nello studio in conformità con la Dichiarazione di Helsinki.

Anticorpi e reagenti

I blot occidentali sono stati eseguiti utilizzando i seguenti anticorpi: Actina e CTCF da Millipore Sigma (clone C4; 07-729) e NOTCH1 scisso (Val1744) da Cell Signaling Technology (4147). ChIP-seq sono stati eseguiti utilizzando i seguenti anticorpi: CTCF da Millipore Sigma (07-729), H3K27Ac (8173S), e H3K27me3 (9733S) da Cell Signaling Technology, e H3K4me1 (07-473) da Millipore.

In situ Hi-C

In situ Hi-C è stato eseguito su cellule T CD4+, Jurkat, CUTLL1, e xenotrapianti paziente come precedentemente descritto. In breve, le cellule sono state reticolate con 1% di formaldeide per 10 minuti a temperatura ambiente. Per ogni reazione Hi-C, 5 milioni di cellule sono state lisate e i nuclei sono stati permeabilizzati. Il DNA è stato digerito con MboI da New England Biolabs (R0147M). Frammenti digeriti sono stati etichettati con biotinilato d-ATP da Jena Bioscience (NU-835-BIO14-S) e legato. Dopo il trattamento RNase e il trattamento Proteinase K per invertire i legami incrociati, i nuclei sono stati sonicati utilizzando un Covaris E220 per produrre una lunghezza media del frammento di 400 bp. Perline streptavidina da Thermo Fisher Scientific (65001) sono stati utilizzati per tirare giù frammenti biotina-etichettati. Dopo la purificazione e l’isolamento del DNA, le librerie finali sono state preparate utilizzando il NEBNext® Ultra™ II DNA Library Prep Kit per Illumina® e sequenziate tramite paired end sequencing ad una lunghezza di lettura di 150 bp su un Illumina HiSeq 2500 per produrre in media 400 milioni di letture per campione.

Profilo ChIP-seq

Le cellule T CD4+, Jurkat, CUTLL1, e gli xenotrapianti dei pazienti sono stati reticolati con 1% di formaldeide e 1% di siero bovino fetale in PBS per 10 minuti a temperatura ambiente. La reazione è stata spenta con glicina 0,2 M a temperatura ambiente per 5 minuti. Le cellule sono state poi lavate con PBS e pellet.

Per CTCF ChIPs, immunoprecipitazione è stata eseguita sulla base di un protocollo descritto in precedenza. Un pellet contenente 50 milioni di cellule è stato lisato con 5 mL di tampone di lisi (50 mM HEPES-KOH, pH 7,5, 140 mM NaCl, 1 mM EDTA, 10% glicerolo, 0,5% NP-40, 0,25% Triton X-100) per 10 minuti a 4 °C. I nuclei sono stati pellettati a 1350×g per 7 min e risospesi in 10 mM Tris pH 8, 1 mM EDTA, e 0,1% SDS. La cromatina è stata tosata con un sistema Covaris E220 ad una lunghezza media del frammento di 400 bp e centrifugato a 15.000 rpm per 10 minuti per rimuovere la cromatina insolubile e detriti. Il surnatante è stato incubato con 20 μL di Dynabeads Protein G per 30 minuti prima di scartare le perline. L’uno per cento del volume totale è stato salvato come input e il resto è stato incubato con anticorpo anti-CTCF durante la notte. In totale, sono stati aggiunti 100 μL di Dynabeads Protein G per 2 h. I frammenti legati sono stati lavati due volte con 1 mL di tampone a basso contenuto salino (20 mM Tris-HCl pH 8.0, 150 mM NaCl, 2 mM EDTA, 1% w/v Triton X-100, e 0.1% w/v SDS), una volta con tampone ad alto contenuto salino (20 mM Tris-HCl pH 8.0, 500 mM NaCl, 2 mM EDTA, 1% w/v Triton X-100, e 0,1% w/v SDS), una volta con tampone al cloruro di litio (10 mM Tris-HCl pH 8.0, 250 mM LiCl, 1 mM EDTA, 1% w/v NP-40, e 1% w/v acido desossicolico), e due volte con TE (10 mM Tris pH 8, 1 mM EDTA).

Per gli istoni ChIP, le cellule sono state lisate in 375 μL di tampone di incubazione dei nuclei (15 mM Tris pH 7.5, 60 mM KCl, 150 mM NaCl, 15 mM MgCl2, 1 mM CaCl2, 250 mM saccarosio, 0,3% NP-40, 1 mM NaV, 1 mM NaF, e 1 compressa di inibitore di proteasi senza EDTA (Roche)/10 mL in H2O) per 10 minuti in ghiaccio. I nuclei sono stati lavati una volta con tampone digerire (10 mM NaCl, 10 mM Tris pH 7,5, 3 mM MgCl2, 1 mM CaCl2, 1 mM NaV, 1 mM NaF, e 1 EDTA-free proteasi inibitore compressa (Roche)/10 mL in H2O) e risospeso in 57-μL Digest Buffer contenente 4,5 unità MNase (USB) per 1 h a 37 ° C. Attività MNase è stato spento per 10 minuti sul ghiaccio con l’aggiunta di EDTA ad una concentrazione finale di 20 mM. I nuclei sono stati pellettati e risospesi in 300-μL Nuclei Lysis Buffer (50 mM Tris-HCl pH 8.0, 10 mM EDTA pH 8.0, 1% SDS, 1 mM NaV, 1 mM NaF, e 1 EDTA-free proteasi inibitore tablet (Roche)/10 mL in H2O) prima di sonicazione con un Bioruptor Pico (Diagenode) per 5 min (30 s on, 30 s off). Il lisato è stato centrifugato alla massima velocità per 5 minuti per rimuovere i detriti. Nove volumi di tampone di diluizione IP (0,01% SDS, 1,1% Triton X-100, 1,2 mM EDTA pH 8.0, 16,7 mM Tris-HCl pH 8.0, 167 mM NaCl, 1 mM NaV, 1 mM NaF, e 1 EDTA-free proteasi inibitore compressa (Roche) / 10 mL in H2O) sono stati aggiunti al surnatante. In totale, sono stati aggiunti 50 μL di Dynabeads Protein G e il campione è stato incubato a 4 °C per 30 minuti, ruotando. L’1% del campione è stato tenuto come input, e il campione rimanente è stato diviso in 3 provette. In totale, 50 μL di Dynabeads Protein G coniugati a 15 μL dell’anticorpo appropriato sono stati aggiunti a ciascuna provetta prima dell’incubazione notturna a 4 °C, in rotazione. Bead-bound complessi sono stati lavati per 5 min ciascuno in 1 mL di tampone a basso contenuto di sale, tampone ad alto contenuto di sale, tampone LiCl, e due volte con TE.

Per eluire bead-bound complessi, perline sono stati risospesi in 50 μL di tampone di eluizione (100 mM NaHCO3, 1% p/v SDS) e incubato a 65 ° C per 15 minuti, agitando a 1000 RPM su un termomiscelatore (Thermo Scientific). L’eluizione è stata ripetuta una seconda volta, e poi 100 μL di tampone RNase (12 μL di 5 M NaCl, 0,2 μL 30 mg / mL RNase, e 88 μL TE) è stato aggiunto a ogni ChIP e campione di ingresso. I campioni sono stati incubati a 37 ° C per 20 min, seguita dall’aggiunta di 100 microlitri di tampone proteinasi K (2,5 microlitri 20 mg / mL proteinasi K, 5 microlitri 20% SDS, e 92,5 microlitri TE) durante la notte a 65 ° C. Un volume uguale di fenolo: soluzione cloroformio è stato aggiunto e mescolato accuratamente. La miscela è stata trasferita in tubi ad alta densità MaXtract (Qiagen) e centrifugato per 8 min a 15.000 rpm. La fase superiore è stata trasferita in nuovi tubi e mescolata con 1,5 μL di glicogeno 20 mg/mL, 30 μL di acetato di sodio 3M e 800 μL di etanolo. I campioni sono stati incubati a – 80 °C fino al congelamento e poi centrifugati a 15.000 rpm per 30 minuti a 4 °C. Il surnatante è stato rimosso e il pellet è stato lavato in 800 μL 70% di etanolo ghiacciato e centrifugato per 10 min a 4 ° C a 15.000 rpm. Dopo la rimozione accurata di etanolo, pellet sono stati asciugati all’aria e risospesi in 30 microlitri di 10 mM Tris a pH 8.

IP e DNA in ingresso sono stati poi quantificati utilizzando un fluorimetro Qubit 3.0. Le librerie sono state preparate utilizzando il KAPA HyperPrep Kit (KK8505) e sequenziate con un Illumina NextSeq 500 ad una profondità media di 28 milioni di letture per campione.

RNA-seq profiling

RNA è stato isolato da 3 milioni di cellule per campione utilizzando il Bio-Rad Aurum™ Total RNA Mini Kit e quantificato con l’Agilent RNA 6000 Nano Kit con Agilent Bioanalyzer. Le biblioteche sono state preparate dalla deplezione dell’rRNA utilizzando l’Illumina TruSeq® Stranded mRNA Library Prep Kit per una bassa concentrazione di campione di partenza e sequenziate con il sequenziamento single end su un Illumina NextSeq 500 ad una profondità media di 18 milioni di letture per campione.

Profilo di metilazione del DNA

Il DNA genomico è stato isolato utilizzando il kit AllPrep DNA/RNA Micro (Qiagen). Per valutare lo stato di metilazione del DNA a livello genomico, abbiamo eseguito la mRRBS. Dopo la quantificazione fluorometrica utilizzando uno strumento Qubit 3.0, abbiamo digerito il DNA genomico con l’enzima di restrizione MspI (New England Biolabs) e selezionato per frammenti di circa 100-250 coppie di basi di lunghezza utilizzando perline di immobilizzazione reversibile in fase solida (SPRI) (MagBio Genomics). Il DNA risultante è stato sottoposto a conversione del bisolfito utilizzando il kit EZ DNA Methylation-Lightning (Zymo Research). Abbiamo creato librerie da bisolfito convertito a singolo filamento di DNA utilizzando il Pico Methyl-Seq Library Prep Kit (Zymo Research), che sono stati poi raggruppati per il sequenziamento su un Illumina NextSeq 500 strumento utilizzando il NextSeq 500/550 V2 High Output kit reagente (1 × 75 cicli) per una profondità minima di lettura di 50 milioni di letture per campione.

Sequenziazione del genoma intero

Tre milioni di cellule provenienti da linee cellulari o campioni di pazienti sono stati pellettati e risospesi in 1 mL di soluzione di lisi cellulare (Qiagen) mescolato con 500 μg di RNasi A. La reazione di lisi è stata effettuata a 37 °C per 15 min. In totale, 333 μL di soluzione di precipitazione delle proteine (Qiagen) è stato aggiunto a ciascun campione che è stato poi vortexato e poi centrifugato a 2000×g per 10 min. Il surnatante è stato mescolato con 1 mL di isopropanolo fino a quando i filamenti di DNA precipitato dalla soluzione. Dopo aver scartato il surnatante, il pellet di DNA è stato lavato con 1 mL di etanolo al 70% e centrifugato a 2000×g per 1 min. L’etanolo è stato poi versato e il pellet è stato asciugato all’aria per 15 minuti prima di risospensione in 50 a 100 μL di soluzione di idratazione del DNA (Qiagen). Il DNA è stato sequenziato con paired-end Illumina sequenziamento a 30 × copertura.

Immunoprecipitazione

Un totale di 100 milioni di cellule per ogni reazione di immunoprecipitazione sono stati pellettati e incubati in Buffer A (10 mM HEPES pH 8.0, 1,5 mM MgCl2, 10 mM KCl, 0,5 mM DTT) per 10 minuti in ghiaccio. Le cellule sono state poi lisate su 12 colpi con un macinatore tessuto pestello sciolto 7-mL (Wheaton, 357542) e centrifugato a 2000 rpm per 7 min. Pellet nucleare sono stati risospesi in 5 volumi di tampone TENT (50 mM Tris pH 7,5, 5 mM EDTA, 150 mM NaCl, 1% Triton X-100, 5 mM MgCl2) e trattati con benzonasi per 30 min prima di 5 passaggi attraverso una siringa 25 g × 5/8 in. La frazione insolubile è stata rimossa dopo la centrifugazione a 2000 rpm per 7 min e incubata durante la notte con Dynabeads Protein G ibridato con anticorpo. Un totale di 2 milioni di cellule sono state rimosse per l’input. I lisati di perline e nuclei sono stati lavati 6 volte con il tampone TENT e poi eluiti in glicina 0,1 M pH 2,5 con 100 mM Tris pH 8,0 prima. NuPAGE LDS tampone campione è stato aggiunto a eluati e ingressi, che sono stati poi incubati a 70 ° C per 15 minuti prima dell’analisi da western blot.

Raccolta di dati pubblici

I dati pubblici CTCF ChIP-seq sono stati raccolti da Cistrome Data Browser (per i file di picco) e NCBI GEO (per i file fastq, file aggiuntivo 2: Tabella S1). Dati ChIP-seq modifica dell’istone sono stati raccolti da NCBI GEO e ENCODE (per i file bam). I dati pubblici di RNA-seq in più tipi di cellule sono stati raccolti da ENCODE (per i file fastq). I dati di profilazione del DNA sono stati raccolti da ENCODE (per i file bedMethyl) e da NCBI GEO. I dati Hi-C sono stati raccolti da NCBI GEO e ENCODE (per i file fastq). I dati ATAC-seq sono stati raccolti da NCBI GEO (per i file fastq). I dati di sequenziamento del genoma intero per i campioni BRCA, COAD, LUAD e PRAD sono stati raccolti dall’International Cancer Genome Consortium (ICGC) Data Portal. Informazioni dettagliate tra cui ID di adesione di tutti i set di dati pubblici raccolti in questo lavoro può essere trovato nel file aggiuntivo 6: Tabella S5.

L’elaborazione dei dati

Analisi dei dati ChIP-seq

L’allineamento delle sequenze per i dati ChIP-seq in file fastq è stato eseguito utilizzando la stessa pipeline di analisi standard come utilizzato in Cistrome DB , per coerenza e riproducibilità. Tutti i dati di sequenza allineamento genomico sono stati eseguiti utilizzando la pipeline Chilin con parametri predefiniti ($ chilin simple -p narrow -s hg38 –threads 8 -t IN.fq -i PRENAME -o OUTDIR). In breve, le letture di sequenza sono state allineate al genoma umano di riferimento (GRCH38/hg38) utilizzando BWA ($ bwa aln -q 5 -l 32 -k 2 -t 8 INDEX IN.fq > PRENAME.sai $ bwa {samse | sampe} INDEX PRENAME.sai IN.fq > PRENAME.sam). I file Sam sono stati poi convertiti in file bam usando samtools ($ samtools view -bS -q 1 -@ 8 PRENAME.sam > PRENAME.bam). Per CTCF ChIP-seq dataset, MACS2 è stato utilizzato per chiamare i picchi sotto la soglia FDR di 0,01 ($ macs2 callpeak –SPMR -B -q 0,01 –keep-dup 1 -g hs -t PRENAME.bam -n PRENAME –outidr OUTDIR). I picchi con arricchimento delle pieghe di almeno 4 sono stati mantenuti. I file Bigwiggle sono stati generati utilizzando BEDTools e UCSC strumenti ($ bedtools slop -i PRENAME.bdg -g CHROMSIZE -b 0|bedClip stdin CHROMSIZE PRENAME.bdg.clip $ LC_COLLATE=C sort -k1,1 -k2,2n PRENAME.bdg.clip > PRENAME.bdg.sort.clip $ bedGraphToBigWig PRENAME.bdg.sort.clip CHROMSIZE PRENAME.bw). Infine, solo i campioni CTCF ChIP-seq che hanno almeno 2000 picchi sono stati inclusi nell’analisi integrativa a valle.

Analisi dei dati ATAC-seq

Trim Galore è stato utilizzato per tagliare le letture di sequenziamento grezze ($ trim_galore –nextera –phred33 –fastqc –paired R1.fq R2.fq -o OUTDIR). Le letture sono state allineate al genoma umano di riferimento (GRCH38/hg38) usando Bowtie2 ($ bowtie2 -p 10 -X 2000 -x INDEX -1 R1.fq -2 R2.fq -S PRENAME.sam). I file Sam sono stati poi convertiti in file bam utilizzando samtools ($ samtools view -bS -q 1 -@ 8 PRENAME.sam > PRENAME.bam). Bedtools è stato utilizzato per convertire i file bam in formato letto ($ bamToBed -i PRENAME.bam -bedpe > PRENAME_PE.bed). Le letture mappate sul DNA mitocondriale sono state scartate dall’analisi a valle.

Analisi dei dati RNA-seq

I dataset RNA-seq sono stati elaborati utilizzando Salmon ($ salmon quant –gcBias -i INDEX -l A -p 8 {-1 R1.fq -2 R2.fq| -r IN.fq} -o OUTDIR). L’indice del trascrittoma è stato costruito sul genoma umano di riferimento (GRCH38/hg38). Le stime di abbondanza a livello di trascrizione sono state riassunte a livello di gene usando il pacchetto “tximport” per l’analisi dell’espressione differenziale. DESeq2 è stato utilizzato per identificare i geni differenzialmente espressi, e le diverse soglie utilizzate nelle diverse analisi sono state elencate in modo corrispondente nel manoscritto.

Analisi dei dati Hi-C

I dati Hi-C sono stati elaborati utilizzando HiC-Pro ($ HiC-Pro -i INDIR -o OUTDIR -c CONFIG -p). Le mappe di contatto sono state generate ad una risoluzione di 5 kb. I dati della matrice grezza sono stati normalizzati utilizzando l’approccio descritto in Normalizzazione delle interazioni della cromatina.

Analisi dei dati di metilazione del DNA

I dati di metilazione del DNA (per linee cellulari T-ALL e pazienti T-ALL) sono stati demultiplexati con bcl2fastq seguito da un trimming di 10 coppie di basi dall’estremità 5′ per rimuovere sequenze di primer e adattatori utilizzando TrimGalore . Allineamento delle sequenze al genoma di riferimento GRCh38/hg38 e chiamate di metilazione sono stati eseguiti con Bismark ($ bismark –multicore 8 –bowtie2 -q -N 1 INDEX INFILE.fq). I file di copertura (conteggi) per le citosine nel contesto CpG sono stati generati utilizzando Bismark ($ bismark_methylation_extractor –multicore 8 –comprehensive –bedGraph INFILE_bismark_bt2.bam).

Analisi dei dati di sequenziamento del genoma intero

Le mutazioni sono state identificate per due linee cellulari T-ALL (Jurkat e CUTLL1) e due campioni di pazienti T-ALL dai dati di sequenziamento del genoma intero. Abbiamo allineato le sequenze Illumina short-read al genoma umano di riferimento (GRCH38/hg38) usando BWA mem. Abbiamo usato SAMBlaster per identificare le coppie discordanti, dividere le letture e segnalare i duplicati PCR putativi. Abbiamo usato SAMBAMBA per convertire il SAM allineato nel formato BAM, e samtools è stato utilizzato per ordinare quelli allineati per creare un file BAM corrispondente ad ogni campione.

Abbiamo usato VarDict per identificare le varianti che si sovrapponevano ai siti di legame CTCF di unione. Abbiamo usato tutti i parametri predefiniti tranne “-f 0.1” che è stato utilizzato per identificare le varianti che erano supportate da più del 10% delle letture in quella posizione. Abbiamo annotato le varianti utilizzando Variant Effect Predictor (VEP) e abbiamo usato script personalizzati per identificare le varianti che influenzano il legame TF.

Abbiamo usato nuovamente VarDict per identificare le varianti nei geni CTCF e NOTCH1 per i quattro campioni. Abbiamo usato tutti i parametri di default tranne “-f 0.1” che è stato utilizzato per identificare le varianti che erano supportate da più del 10% delle letture in quella posizione. Abbiamo annotato le varianti utilizzando Variant Effect Predictor (VEP), e poi filtrato per identificare le mutazioni che erano (a) non visto in più di 1% di qualsiasi popolazione umana normale, o (b) aveva un punteggio CADD di deleterietà > 20, o (c) era presente nel database COSMIC.

Modellazione integrativa e analisi statistica

Identificazione del repertorio vincolante di CTCF nel genoma umano

Per CTCF ChIP-seq, abbiamo raccolto un totale di 793 dataset, compresi 787 dataset pubblici e 6 dataset da noi generati (file aggiuntivo 2: tabella S1). In totale, 771 CTCF ChIP-seq set di dati con picchi più di 2000 sono stati utilizzati in questo studio. Ogni set di dati può produrre MACS2-identificato picchi CTCF nell’intervallo tra 2050 e 198.021, con una mediana di 46.451 e un totale di 36.873.077 picchi (Additional file 1: Fig. S1a). La distribuzione delle lunghezze degli intervalli tra i picchi adiacenti CTCF di tutti i 36.873.077 picchi dai 771 set di dati ha un punto di flesso a ~ 150 bp (file aggiuntivo 1: Fig. S1c) che indica il confine tra lo stesso sito di legame e diversi siti di legame. Pertanto, abbiamo usato 150 bps come il cutoff per unire i picchi CTCF. In pratica, abbiamo esteso ± 75 bps da ogni vertice del picco per generare una regione di 150 bp centrata sul vertice per rappresentare ogni picco e fuso tutte le regioni di picco sovrapposte per generare un set di unione dei siti di legame CTCF, che contiene 688.429 siti non sovrapposti. Ad ogni sito di legame è stato assegnato un punteggio di occupazione CTCF, definito come il conteggio dei set di dati ChIP-seq che mostrano un picco all’interno del sito. Di conseguenza, abbiamo definito la frequenza di occupazione come il rapporto del punteggio di occupazione sul numero totale di dati ChIP-seq CTCF. Per garantire ulteriormente la robustezza dei siti di legame CTCF identificati, abbiamo selezionato 285.467 siti ad alta confidenza con punteggio di occupazione ≥ 3 per le analisi a valle. Motivi CTCF all’interno dei siti di legame di unione sono stati cercati da FIMO con matrice Jaspar (ID: MA0139.1), con una soglia di valore p di 1e-4. Un motivo con il più piccolo valore p è stato mantenuto per ogni sito di legame CTCF.

Identificazione dei siti di legame CTCF costitutivi

La distribuzione dei punteggi di occupazione di tutti i 285.467 siti di legame CTCF (Additional file 1: Fig. S1d, curva blu) mostra che la maggior parte dei siti di legame CTCF si verifica solo in pochi set di dati, e il numero di siti di legame diminuisce con l’aumentare del punteggio di occupazione quando il punteggio di occupazione è piccolo. Tuttavia, ci sono siti di legame CTCF che sono altamente conservati in quasi tutti i set di dati (ad esempio, siti di legame con punteggio di occupazione maggiore di 600). Usiamo una funzione di legge di potenza per adattare la curva di distribuzione (blu) mostrato nel file aggiuntivo 1: Fig. S1d per determinare il cutoff per i siti CTCF costitutivi. Denotiamo Oi come il numero di siti di legame CTCF osservati con punteggio di occupazione pari a i, e Ei come il numero di siti CTCF attesi con punteggio di occupazione pari a i. Il raccordo legge di potenza ai dati Oi può essere descritto come (Additional file 1: Fig. S1d, verde):

$$ {E}_i=85767\ast {\left(i-1.37\right)}^{-1.25} $$

Definiremo il cutoff A per i siti di legame costitutivi di CTCF come:

$$ A:= \min \left{i|frac{\sum_i^{771}\left({O}_i-{E}_i\right)}{sum_i^{771}{E}_i}>5\right\} $$

In altre parole, il totale dei siti CTCF osservati con punteggio di occupazione maggiore di A dovrebbe essere 6 volte maggiore del previsto. Abbiamo quindi determinato A = 615, e usato un cutoff di frequenza di occupazione dell’80% per definire 22.097 siti di legame CTCF costitutivi, che corrisponde al punteggio di occupazione ≥ 616 in tutti i 771 dataset CTCF ChIP-seq.

Identificazione dei siti di legame CTCF guadagnati/persi specifici per il cancro

Abbiamo usato i seguenti 2 criteri per identificare i siti di legame CTCF persi specifici per il cancro: (1) Il sito di legame CTCF dovrebbe avere una frequenza di occupazione inferiore per i set di dati di quel tipo di cancro rispetto alla frequenza di occupazione per tutti i set di dati e (2) il livello di legame CTCF (quantificato come conteggi di lettura ChIP-seq normalizzati) al sito è inferiore nei set di dati sul cancro rispetto agli altri set di dati. Per i siti CTCF guadagnati, abbiamo usato la serie di criteri viceversa. In breve, per ogni sito di legame CTCF in ogni tipo di cancro, il punteggio di occupazione nei set di dati sul cancro è stato calcolato insieme al suo punteggio di occupazione in tutti i 771 set di dati. I livelli di legame CTCF sono stati ottenuti da una matrice di conteggio normalizzata in cui i conteggi di lettura ChIP-seq (RPKM) sono stati prima calcolati per i siti di legame CTCF dell’unione in tutti i set di dati e poi seguiti dalla normalizzazione quantile. Abbiamo usato il test t di Student a due code non accoppiato per quantificare la differenza dei livelli di legame tra diversi gruppi di set di dati, e il valore p è stato poi aggiustato utilizzando la procedura Benjamini-Hochberg. Inoltre, i punteggi di occupazione del legame e i livelli di legame sono stati confrontati tra i set di dati del cancro e i set di dati dal tessuto normale abbinato o tipi di cellule, al fine di prendere in considerazione il potenziale fattore di confondimento della specificità del tessuto piuttosto che la specificità del cancro. I criteri dettagliati per identificare i siti di legame CTCF specifici per il cancro sono descritti di seguito:

  • Siti di legame CTCF persi specifici per il cancro: (1) frequenza di occupazione ≤ 0,2 nei dataset del cancro; (2) frequenza di occupazione ≥ 0,7 in 771 dataset; (3) frequenza di occupazione ≥ 0.5 (con punteggio di occupazione ≥ 2) in set di dati normali abbinati; (4) i livelli di CTCF sono più bassi nel cancro rispetto a tutti gli altri set di dati (punteggio statistico < 0), (5) i livelli di CTCF sono più bassi nel cancro rispetto ai set di dati normali abbinati (punteggio statistico < 0), (6) segnali medi di legame CTCF (RPKM) < 5 nei set di dati del cancro.

  • Siti di legame CTCF guadagnati specifici per il cancro: (1) frequenza di occupazione ≥ 0,5 (con punteggio di occupazione ≥ 2) in set di dati sul cancro, (2) frequenza di occupazione ≤ 0,2 in 771 set di dati, (3) punteggio di occupazione = 0 in set di dati di tessuti normali abbinati, (4) i livelli CTCF sono significativamente più alti nel cancro rispetto a tutti gli altri set di dati (FDR ≤ 0.01), (5) i livelli di legame di CTCF sono significativamente più alti nel cancro rispetto ai set di dati abbinati del tessuto normale (FDR ≤ 0.01), (6) i segnali medi di legame di CTCF (RPKM) > 2 nei set di dati del cancro.

I siti di legame CTCF specifici guadagnati e persi per ogni tipo di cancro sono mostrati nel file aggiuntivo 4: Tabella S3.

Quantificazione dell’accessibilità differenziale della cromatina

Abbiamo usato i dati elaborati da Ref. che includono una matrice di conteggi di inserzioni ATAC-seq normalizzati all’interno del set di picchi TCGA pan-cancer per valutare l’accessibilità differenziale della cromatina intorno ai siti di legame CTCF. Per ogni tipo di cancro tra BRCA, CRC, LUAD, e PRAD, il pan-cancro ATAC-seq picchi che si sovrappongono con identificati cancro-tipo-specifico perso o guadagnato siti di legame CTCF sono stati utilizzati per le analisi a valle. Il punteggio differenziale ATAC-seq per ogni picco è stato quantificato come il cambiamento di piega della media dei conteggi di inserzione ATAC-seq normalizzati da campioni di pazienti nel tipo di cancro corrispondente rispetto a quelli di pazienti in altri tipi di cancro, e il punteggio differenziale ATAC-seq è stato quindi assegnato al sito di legame CTCF sovrapposto al picco.

Per coerenza, abbiamo applicato lo stesso approccio utilizzato per i dati ATAC-seq TCGA per analizzare i dati ATAC-seq raccolti dalla linea cellulare T-ALL Jurkat e dalle cellule T CD4+ normali. Una matrice di dati è stata generata utilizzando i conteggi di letture grezze ATAC-seq sui siti di legame CTCF per tutti i dataset di cellule Jurkat e T. Quantile normalizzazione è stata applicata sulla matrice log2 scalato (pseudo conteggio = 5). Il punteggio differenziale ATAC-seq è stato misurato come il cambiamento di fold della media normalizzata ATAC-seq conteggi tra i set di dati di Jurkat contro CD4 + cella T in ogni sito di legame CTCF.

Normalizzazione delle interazioni della cromatina

Data una mappa di contatto Hi-C A = {aij}, il punteggio aij riflette le letture mappate tra due regioni genomiche i e j. Supponiamo che la dimensione del bin sia 5 kb, le regioni i e j avranno una distanza genomica di ∣i – j ∣ × 5kb. Poiché la probabilità di contatto tra due bin diminuisce con l’aumentare della distanza genomica, abbiamo normalizzato la mappa dei contatti come segue: per ogni data distanza genomica dk = k × 5kb, quantifichiamo un fattore di normalizzazione \( {\overline{S}}_{d_k} \) come media delle interazioni tra tutte le coppie bin con la stessa distanza genomica dk in uno stesso cromosoma, ad es, \( {\overline{S}}_{d_k}=\left({\sum}_{j-i=k}{a}_{ij}\right)/n \), dove n è il numero totale di coppie di bin con distanza dk. Il punteggio di interazione aij tra due bin con distanza dk è stato poi normalizzato da \overline{S}}_{d_k} \) come \a}_{ij}^{primo }={a}_{ij}/{overline{S}}_{d_k} \). Usando questo approccio, abbiamo normalizzato la matrice A in \( A^{{prime }={a}{a}_{ij}^{prime} right} \) all’interno di ogni cromosoma.

Rilevamento delle interazioni differenziali della cromatina

Abbiamo denotato le mappe di contatto Hi-C normalizzate nel dataset del cancro e nel dataset normale come C = {cij} e N = {nij}, rispettivamente. Per un dato sito di legame CTCF x (con coordinate xc) e una distanza genomica predefinita L, le interazioni della cromatina tra x e i suoi vicini non sovrapposti 5-kb bins con distanza genomica fino a L sono raccolti da C e N rispettivamente. In particolare, i punteggi di interazione tra x e i suoi bins 5-kb vicini in C sono raccolti come IC = {cij} , mentre i o j è uguale a ⌊xc/5kb⌋, e 0 < (j – i) × 5kb ≤ L. Allo stesso modo, i punteggi di interazione tra x e i suoi vicini 5-kb bins in N sono stati raccolti come IN = {nij}. Un test t di Student a due code accoppiate è stato poi applicato su IC e IN per quantificare l’interazione differenziale tra il cancro e le cellule normali che circondano il sito di legame CTCF x.

Associazione del legame di CTCF con l’espressione genica

In totale, sono stati selezionati 54 tipi di cellule per le quali sono disponibili pubblicamente sia dati ChIP-seq di CTCF che dati RNA-seq (file aggiuntivo 6: tabella S5) per studiare l’associazione tra il legame di CTCF e l’espressione genica per ogni coppia CTCF-gene nello stesso cromosoma. Per ottenere il livello di legame CTCF, una matrice di conteggio lettura è stato generato utilizzando legge per kilobase per milione (RPKM) su siti di legame CTCF unione dai dati ChIP-seq. La matrice di conteggio lettura è stato scalato con radice quadrata di RPKM seguita da normalizzazione quantile. Livello di espressione genica è stato misurato per ogni gene utilizzando la radice quadrata di trascrizioni per milione (TPM) da RNA-seq dati. Per ogni coppia CTCF-gene, abbiamo quantificato l’associazione tra il sito CTCF e il gene in tutti i 54 tipi di cellule utilizzando il coefficiente di correlazione R tra il livello di legame CTCF normalizzato e l’espressione genica (Fig. 3a). Le coppie CTCF-gene sono state considerate “altamente correlate” con R2 maggiore di 0,25, ad es, coefficiente di correlazione maggiore di 0,5 o inferiore a – 0,5, e le coppie CTCF-gene altamente correlate contribuiscono all’1,3% di tutte le coppie CTCF-gene (Additional file 1: Fig. S8a).

Identificazione dei domini di cromatina costitutivi legati a CTCF

Per ogni sito di legame CTCF, abbiamo definito il suo dominio di cromatina associato come la regione genomica che (1) include questo specifico sito di legame CTCF, (2) è delimitata da una coppia di siti di legame CTCF costitutivi con motivi di orientamento opposto, e (3) occupa un minimo di 100 kb e un massimo di 1 MB di regione su ciascun lato del sito di legame CTCF. La figura 3b contiene uno schema di come sono stati definiti i domini di cromatina costituiti da CTCF.

Rilevamento dei cambiamenti di metilazione del DNA che circondano i siti di legame CTCF

I cambiamenti di metilazione del DNA sono stati rilevati all’interno di una regione di 300 bp centrata su ogni sito di legame CTCF. Le regioni con almeno 3 CpGs coperte da almeno 5 letture (≥ 5×) in entrambe le linee cellulari del cancro e nei corrispondenti tessuti normali sono state conservate. Una regione di 300 bp è stata rilevata come differenzialmente metilata se i livelli medi di metilazione differenziale di tutte le CpG (≥ 5×) all’interno di questa regione erano maggiori del 20%.

Rilevamento del tasso di mutazione e del punteggio differenziale del motivo

Per ogni sito di legame CTCF, il conteggio grezzo delle mutazioni è stato calcolato come il verificarsi di eventi di mutazione in tutti i campioni/pazienti in ogni singola coppia di basi all’interno di una regione di 400 bp centrata sul sito di legame CTCF. Il tasso di mutazione per un gruppo di siti di legame CTCF è stato calcolato come il conteggio medio delle mutazioni sul numero di siti di legame CTCF per ogni coppia di basi all’interno della regione di 400 bp.

Il punteggio del motivo è stato misurato assegnando un punteggio alla matrice di peso della posizione CTCF (Jaspar, ID matrice: MA0139.1) a una sequenza di 19 bp di DNA centrata sul motivo CTCF o sul sito di legame CTCF utilizzando i rapporti di verosimiglianza log (con la frequenza del nucleotide di fondo per A,C,G,T). Il punteggio differenziale del motivo è stato calcolato confrontando i punteggi del motivo per le sequenze di riferimento e quelle mutate.

L’analisi del motivo della sequenza di DNA

L’analisi dell’arricchimento del motivo della sequenza di DNA è stata eseguita utilizzando MDSeqPos (versione 1.0.0) su Cistrome con parametri predefiniti (-cisoma -Homo Sapien o Mus musculus). Le analisi dei motivi de novo sono state eseguite utilizzando HOMER (versione 4.10) con il modulo findmotifs.pl e MEME (versione 5.1.1) con i seguenti parametri: meme -dna -mod zoops -maxw 20 -evt -0.01.

Identificazione delle regioni ad interazione differenziata intradominio di CTCF

Per un dato set di siti di legame di CTCF, sono stati raccolti i cambiamenti di interazione della cromatina tra un sito CTCF e ciascuno dei suoi bins intradominio non sovrapposti, misurati dalle mappe di contatto Hi-C normalizzate nelle cellule tumorali rispetto alle cellule normali corrispondenti (file aggiuntivo 1: Fig. S14b). Le regioni con interazioni diminuite (log2 FC < -1, media log2 interazione > 0) con il cancro-specifico perso siti di legame CTCF, e le regioni con interazioni aumentate (log2 FC > 1, media log2 interazione > 0) con il cancro-specifico guadagnato siti di legame CTCF sono stati utilizzati per downstream fattore di trascrizione (TF) analisi di arricchimento.

Analisi di arricchimento dei fattori di trascrizione

Una versione rivista dell’algoritmo BART è stata usata per l’analisi di arricchimento dei TF. In breve, una collezione di siti ipersensibili alla DNasi I (UDHS) è stata precedentemente curata come repertorio di tutti i candidati elementi cis-regolatori nel genoma umano, e 7032 set di dati ChIP-seq sono stati raccolti per 883 TF, con ogni TF che ha uno o più set di dati ChIP-seq da più tipi di cellule o condizioni. Un profilo binario è stato generato per ogni TF su UDHS indicando se la TF ha almeno un picco da uno qualsiasi dei suoi set di dati ChIP-seq individuare all’interno di ciascuno dei UDHS. Binding analisi di arricchimento è stato applicato per ogni TF confrontando il legame TF su un sottoinsieme di UDHS sovrapposizione delle regioni genomiche selezionate rispetto al legame TF su UDHS. valore p è stato ottenuto utilizzando test esatto di Fisher a due code.

Lascia un commento