Legătura CTCF specifică cancerului facilitează dereglarea transcripțională oncogenă

Procedură experimentală

Xenogrefele la pacienți și cultura celulară

Liniile de celule T-ALL umane includ CUTLL1 (cadou de la Adolfo Ferrando, Columbia University) și JURKAT (American Type Culture Collection (ATCC), Manassas, VA, #CCL-119) . Celulele au fost cultivate în mediu RPMI1640 cu l-glutamină și 25 mM HEPES (Corning) suplimentat cu 10% ser fetal bovin inactivat termic (Sigma-Aldrich), 10 U/mL de penicilină-streptomicină (Gibco) și 1× glutaMAX (Gibco) într-un incubator umidificat la 37 °C și 5% CO2. Celulele sunt testate periodic pentru detectarea prezenței micoplasmei cu ajutorul kitului Lonza Walkersville MycoAlert Mycoplasma Detection Kit (ultimul test în ianuarie 2020). Liniile celulare sunt păstrate în cultură pentru maximum 20 de treceri și sunt autentificate cu ajutorul profilului de repetări în tandem scurt (JURKAT) sau cu ajutorul PCR pentru a detecta translocația TCRb-NOTCH1 (TCRBJ2S4CUTLL1F:5′-GGACCCGGCTCTCAGTGCT-3′, NOTCH1CUTTL1R:5′-TCCCGCCCCCTCCAAAATAAGG-3′). Ultima autentificare celulară a fost efectuată în februarie 2020. Celulele T CD4+ umane au fost achiziționate de la AllCells. Probele umane primare au fost colectate cu consimțământul informat și analizate sub supravegherea Comitetului de evaluare instituțională al Universității din Padova, a Associazone Italiana di Ematologia e Oncologia Pediatrica și a studiilor clinice pediatrice ALL 2000/2006 din Berlin-Frankfurt-Münster (AIEOP-BFM). Consimțământul în cunoștință de cauză pentru utilizarea materialului rămas în scopuri de cercetare a fost obținut de la toți pacienții la intrarea în studiu, în conformitate cu Declarația de la Helsinki.

Anticorpi și reactivi

Western blots au fost efectuate folosind următorii anticorpi: Actin și CTCF de la Millipore Sigma (clona C4; 07-729) și NOTCH1 scindat (Val1744) de la Cell Signaling Technology (4147). ChIP-seq au fost efectuate utilizând următorii anticorpi: ChIP-seq: CTCF de la Millipore Sigma (07-729), H3K27Ac (8173S) și H3K27me3 (9733S) de la Cell Signaling Technology și H3K4me1 (07-473) de la Millipore.

Hi-C in situ

Hi-C in situ a fost efectuat pe celule T CD4+, Jurkat, CUTLL1 și xenogrefe de pacienți, așa cum a fost descris anterior. Pe scurt, celulele au fost reticulate cu formaldehidă 1% timp de 10 minute la temperatura camerei. Pentru fiecare reacție Hi-C, 5 milioane de celule au fost lizate și nucleele au fost permeabilizate. ADN-ul a fost digerat cu MboI de la New England Biolabs (R0147M). Fragmentele digerate au fost marcate cu d-ATP biotinilat de la Jena Bioscience (NU-835-BIO14-S) și ligaturate. După tratamentul cu RNază și tratamentul cu Proteinază K pentru a inversa legăturile încrucișate, nucleele au fost sonicate cu ajutorul unui Covaris E220 pentru a produce o lungime medie a fragmentului de 400 pb. Sferele de streptavidină de la Thermo Fisher Scientific (65001) au fost utilizate pentru a trage în jos fragmentele marcate cu biotină. După purificarea și izolarea ADN-ului, bibliotecile finale au fost pregătite cu ajutorul kitului NEBNext® Ultra™ II DNA Library Prep Kit for Illumina® și secvențiate prin secvențiere de tip paired end la o lungime de citire de 150 bp pe un Illumina HiSeq 2500 pentru a produce în medie 400 de milioane de citiri pe eșantion.

ChIP-seq profiling

Celulele T CD4+, Jurkat, CUTLL1 și xenogrefele pacienților au fost reticulate cu 1% formaldehidă și 1% ser fetal bovin în PBS timp de 10 minute la temperatura camerei. Reacția a fost stinsă cu glicină 0,2 M la temperatura camerei timp de 5 minute. Celulele au fost apoi spălate cu PBS și peletizate.

Pentru CTCF ChIPs, imunoprecipitarea a fost realizată pe baza unui protocol descris anterior . Un pelet conținând 50 de milioane de celule a fost lizat cu 5 ml de tampon de liză (50 mM HEPES-KOH, pH 7,5, 140 mM NaCl, 1 mM EDTA, 10% glicerol, 0,5% NP-40, 0,25% Triton X-100) timp de 10 min la 4 °C. Nucleii au fost peletizați la 1350×g timp de 7 minute și resuspendați în 10 mM Tris pH 8, 1 mM EDTA și 0,1% SDS. Cromatina a fost forfecată cu un sistem Covaris E220 până la o lungime medie a fragmentului de 400 bp și a fost centrifugată la 15 000 rpm timp de 10 minute pentru a elimina cromatina insolubilă și resturile. Supernatantul a fost incubat cu 20 μL de Dynabeads Protein G timp de 30 de minute înainte de a arunca bilele. Un procent din volumul total a fost păstrat ca intrare, iar restul a fost incubat cu anticorp anti-CTCF peste noapte. În total, s-au adăugat 100 μL de Dynabeads Protein G timp de 2 h. Fragmentele legate au fost spălate de două ori cu 1 ml de tampon cu conținut scăzut de sare (20 mM Tris-HCl pH 8,0, 150 mM NaCl, 2 mM EDTA, 1% p/v Triton X-100 și 0.1% p/v SDS), o dată cu tampon cu conținut ridicat de sare (20 mM Tris-HCl pH 8.0, 500 mM NaCl, 2 mM EDTA, 1% p/v Triton X-100 și 0,1% p/v SDS), o dată cu tampon de clorură de litiu (10 mM Tris-HCl pH 8.0, 250 mM LiCl, 250 mM LiCl, 1 mM EDTA, 1% p/v NP-40 și 1% p/v acid deoxicolic) și de două ori cu TE (10 mM Tris pH 8, 1 mM EDTA).

Pentru ChIP-urile cu histone, celulele au fost lizate în 375 μL de tampon de incubare a nucleilor (15 mM Tris pH 7.5, 60 mM KCl, 60 mM KCl, 150 mM NaCl, 15 mM MgCl2, 1 mM CaCl2, 250 mM zaharoză, 0,3% NP-40, 1 mM NaV, 1 mM NaF și 1 tabletă de inhibitor de protează fără EDTA (Roche)/10 mL în H2O) timp de 10 min la gheață. Nucleii au fost spălați o dată cu tampon de digestie (10 mM NaCl, 10 mM Tris pH 7,5, 3 mM MgCl2, 1 mM CaCl2, 1 mM NaV, 1 mM NaF și 1 tabletă de inhibitor de protează fără EDTA (Roche)/10 ml în H2O) și resuspendați în 57 μL de tampon de digestie care conține 4,5 unități de MNază (USB) timp de 1 h la 37 °C. Activitatea MNază a fost stinsă timp de 10 min la gheață prin adăugarea de EDTA la o concentrație finală de 20 mM. Nucleii au fost peletizați și resuspendați în 300 μL de tampon de liză pentru nuclei (50 mM Tris-HCl pH 8,0, 10 mM EDTA pH 8,0, 1% SDS, 1 mM NaV, 1 mM NaF și 1 comprimat de inhibitor de protează fără EDTA (Roche)/10 ml în H2O) înainte de sonicare cu un Bioruptor Pico (Diagenode) timp de 5 min (30 s on, 30 s off). Lisatul a fost centrifugat la viteză maximă timp de 5 min pentru a elimina resturile. Nouă volume de tampon de diluție IP (0,01% SDS, 1,1% Triton X-100, 1,2 mM EDTA pH 8,0, 16,7 mM Tris-HCl pH 8,0, 167 mM NaCl, 1 mM NaV, 1 mM NaF și 1 comprimat de inhibitor de protează fără EDTA (Roche)/10 ml în H2O) au fost adăugate la supranatural. În total, s-au adăugat 50 μL de Dynabeads Protein G și proba a fost incubată la 4 °C timp de 30 de minute, prin rotație. Un procent din eșantion a fost păstrat ca intrare, iar eșantionul rămas a fost împărțit în 3 tuburi. În total, în fiecare tub s-au adăugat 50 μL de Dynabeads Protein G conjugat cu 15 μL de anticorp corespunzător, înainte de incubarea peste noapte la 4 °C, prin rotație. Complecșii legați de microsfere au fost spălați timp de 5 minute fiecare în câte 1 ml de tampon cu conținut scăzut de sare, tampon cu conținut ridicat de sare, tampon LiCl și de două ori cu TE.

Pentru a elua complexele legate de microsfere, microsferele au fost resuspendate în 50 μL de tampon de eluție (100 mM NaHCO3, 1% p/v SDS) și incubate la 65 °C timp de 15 minute, agitându-se la 1000 RPM pe un termomixer (Thermo Scientific). Eluția a fost repetată a doua oară, iar apoi 100 μL de tampon RNază (12 μL de NaCl 5 M, 0,2 μL de 30 mg/mL RNază și 88 μL de TE) au fost adăugate la fiecare probă ChIP și probă de intrare. Probele au fost incubate la 37 °C timp de 20 de minute, urmate de adăugarea a 100 μL de tampon de proteinază K (2,5 μL 20 mg/mL proteinază K, 5 μL 20 % SDS și 92,5 μL TE) peste noapte la 65 °C. S-a adăugat un volum egal de soluție de fenol:cloroform și s-a amestecat bine. Amestecul a fost transferat în tuburi MaXtract High Density (Qiagen) și centrifugat timp de 8 min la 15.000 rpm. Faza superioară a fost transferată în tuburi noi și amestecată cu 1,5 μL de glicogen 20 mg/mL, 30 μL de acetat de sodiu 3M și 800 μL de etanol. Probele au fost incubate la – 80 °C până la congelare și apoi au fost centrifugate la 15 000 rpm timp de 30 de minute la 4 °C. Supernatantul a fost îndepărtat, iar peleții au fost spălați în 800 μl de etanol 70% rece ca gheața și au fost filați timp de 10 minute la 4 °C la 15 000 rpm. După îndepărtarea atentă a etanolului, pelete au fost uscate la aer și resuspendate în 30 μL de Tris 10 mM la pH 8.

IP și ADN-ul de intrare au fost apoi cuantificate cu ajutorul unui fluorimetru Qubit 3.0. Bibliotecile au fost pregătite cu ajutorul kitului KAPA HyperPrep (KK8505) și secvențiate cu un Illumina NextSeq 500 până la o adâncime medie de 28 de milioane de citiri per eșantion.

Profilarea ARN-seq

ARN a fost izolat din 3 milioane de celule per eșantion cu ajutorul Bio-Rad Aurum™ Total RNA Mini Kit și cuantificat cu Agilent RNA 6000 Nano Kit cu Bioanalizatorul Agilent. Bibliotecile au fost pregătite prin epuizarea ARNr utilizând Illumina TruSeq® Stranded mRNA Library Prep Kit pentru o concentrație scăzută de eșantion de pornire și secvențiate prin secvențiere la un singur capăt pe un Illumina NextSeq 500 până la o adâncime medie de 18 milioane de citiri pe eșantion.

Profilarea metilației ADN

ADN genomic a fost izolat utilizând AllPrep DNA/RNA Micro Kit (Qiagen). Pentru a evalua starea de metilare a ADN-ului la nivelul întregului genom, am efectuat mRRBS . În urma cuantificării fluorometrice cu ajutorul unui instrument Qubit 3.0, am digerat ADN genomic cu enzima de restricție MspI (New England Biolabs) și am selectat dimensiunea fragmentelor cu o lungime de aproximativ 100-250 de perechi de baze folosind perle de imobilizare reversibilă în fază solidă (SPRI) (MagBio Genomics). ADN-ul rezultat a fost supus conversiei cu bisulfit cu ajutorul kitului EZ DNA Methylation-Lightning Kit (Zymo Research). Am creat biblioteci din ADN monocatenar convertit cu bisulfit folosind Pico Methyl-Seq Library Prep Kit (Zymo Research), care au fost apoi grupate pentru secvențiere pe un instrument Illumina NextSeq 500 folosind kitul de reactivi NextSeq 500/550 V2 High Output (1 × 75 de cicluri) la o adâncime minimă de citire de 50 de milioane de citiri pe eșantion.

Secvențierea întregului genom

Trei milioane de celule din liniile celulare sau din probele de pacienți au fost peletizate și resuspendate în 1 ml de soluție de liză celulară (Qiagen) amestecată cu 500 μg de RNază A. Reacția de liză a fost efectuată la 37 °C timp de 15 min. În total, 333 μL de soluție de precipitare a proteinelor (Qiagen) au fost adăugate la fiecare probă, care a fost apoi vortexată și apoi centrifugată la 2000×g timp de 10 min. Supernatantul a fost amestecat cu 1 ml de izopropanol până când șuvițele de ADN au precipitat din soluție. După ce s-a aruncat supernatantul, peletul de ADN s-a spălat cu 1 ml de etanol 70% și s-a centrifugat la 2000×g timp de 1 min. Etanolul a fost apoi turnat, iar peletul a fost uscat la aer timp de 15 min înainte de resuspensia în 50 până la 100 μL de soluție de hidratare a ADN (Qiagen). ADN-ul a fost secvențiat cu secvențiere Illumina de tip paired-end cu o acoperire de 30×.

Imunoprecipitare

Un total de 100 de milioane de celule pentru fiecare reacție de imunoprecipitare au fost aglomerate și incubate în tamponul A (10 mM HEPES pH 8,0, 1,5 mM MgCl2, 10 mM KCl, 0,5 mM DTT) timp de 10 minute la gheață. Celulele au fost apoi lizate la 12 lovituri cu un tocător de țesut cu pistil liber de 7 ml (Wheaton, 357542) și centrifugate la 2000 rpm timp de 7 min. Peletele nucleare au fost resuspendate în 5 volume de tampon TENT (50 mM Tris pH 7,5, 5 mM EDTA, 150 mM NaCl, 1% Triton X-100, 5 mM MgCl2) și tratate cu benzonază timp de 30 min înainte de 5 treceri printr-o seringă de 25 g × 5/8 in. Fracțiunea insolubilă a fost îndepărtată în urma centrifugării la 2000 rpm timp de 7 min și a fost incubată peste noapte cu Dynabeads Protein G hibridizată cu anticorp. Un total de 2 milioane de celule au fost îndepărtate pentru intrare. Sferele și lizații de nuclee au fost spălate de 6 ori cu tampon TENT și apoi eluate în glicină 0,1 M pH 2,5 cu 100 mM Tris pH 8,0 înainte. Tamponul de eșantionare NuPAGE LDS a fost adăugat la eluați și intrări, care au fost apoi incubate la 70 °C timp de 15 min înainte de analiza prin Western blot.

Colectarea datelor publice

Datele publice CTCF ChIP-seq au fost colectate din Cistrome Data Browser (pentru fișiere de vârf) și NCBI GEO (pentru fișiere fastq, Fișier suplimentar 2: Tabelul S1). Datele ChIP-seq de modificare a histonilor au fost colectate de la NCBI GEO și ENCODE (pentru fișiere bam). Datele publice RNA-seq în mai multe tipuri de celule au fost colectate de la ENCODE (pentru fișiere fastq). Datele de profilare a metilării ADN au fost colectate de la ENCODE (pentru fișierele bedMethyl) și NCBI GEO. Datele Hi-C au fost colectate de la NCBI GEO și ENCODE (pentru fișiere fastq). Datele ATAC-seq au fost colectate de la NCBI GEO (pentru fișiere fastq). Datele de secvențiere a întregului genom pentru probele BRCA, COAD, LUAD și PRAD au fost colectate de la portalul de date al International Cancer Genome Consortium (ICGC) . Informații detaliate, inclusiv ID-urile de accesare ale tuturor seturilor de date publice colectate în această lucrare, pot fi găsite în Fișierul suplimentar 6: Tabelul S5.

Procesarea datelor

Analiza datelor ChIP-seq

Alinierea secvențelor pentru datele ChIP-seq în fișiere fastq a fost realizată utilizând aceeași conductă de analiză standard utilizată în Cistrome DB , pentru consistență și reproductibilitate. Toate alinierile genomice ale datelor de secvență au fost efectuate utilizând conducta Chilin cu parametrii impliciți ($ chilin simple -p narrow -s hg38 –threads 8 -t IN.fq -i PRENAME -o OUTDIR). Pe scurt, secvențele citite au fost aliniate la genomul uman de referință (GRCH38/hg38) utilizând BWA ($ bwa aln -q 5 -l 32 -k 2 -t 8 INDEX IN.fq > PRENAME.sai $ bwa {samse | sampe} INDEX PRENAME.sai IN.fq > PRENAME.sam). Fișierele sam au fost apoi convertite în fișiere bam utilizând samtools ($ samtools view -bS -q 1 -@ 8 PRENAME.sam > PRENAME.bam). Pentru seturile de date CTCF ChIP-seq, MACS2 a fost utilizat pentru a apela vârfurile sub pragul FDR de 0,01 ($ macs2 callpeak –SPMR -B -q 0,01 –keep-dup 1 -g hs -t PRENAME.bam -n PRENAME –outidr OUTDIR). Au fost reținute vârfurile cu o îmbogățire fold de cel puțin 4. Fișierele Bigwiggle au fost generate cu ajutorul instrumentelor BEDTools și UCSC ($ bedtools slop -i PRENAME.bdg -g CHROMSIZE -b 0|bedClip stdin CHROMSIZE PRENAME.bdg.clip $ LC_COLLATE=C sort -k1,1 -k2,2n PRENAME.bdg.clip > PRENAME.bdg.sort.clip $ bedGraphToBigWig PRENAME.bdg.sort.clip CHROMSIZE PRENAME.bw). În cele din urmă, numai probele CTCF ChIP-seq care au cel puțin 2000 de vârfuri au fost incluse în analiza integrativă din aval.

Analiza datelor ATAC-seq

Trim Galore a fost utilizat pentru a tăia citirile de secvențiere brute ($ trim_galore –nextera –phred33 –fastqc –paired R1.fq R2.fq -o OUTDIR). Citirile au fost aliniate la genomul de referință uman (GRCH38/hg38) utilizând Bowtie2 ($ bowtie2 -p 10 -X 2000 -x INDEX -1 R1.fq -2 R2.fq -S PRENAME.sam). Fișierele Sam au fost apoi convertite în fișiere bam utilizând samtools ($ samtools view -bS -q 1 -@ 8 PRENAME.sam > PRENAME.bam). Bedtools a fost utilizat pentru a converti fișierele bam în format bed ($ bamToBed -i PRENAME.bam -bedpe > PRENAME_PE.bed). Lecturile cartografiate la ADN mitocondrial au fost eliminate din analiza în aval.

Analiza datelor ARN-seq

Seturile de date ARN-seq au fost procesate utilizând Salmon ($ salmon quant –gcBias -i INDEX -l A -p 8 {-1 R1.fq -2 R2.fq| -r IN.fq} -o OUTDIR). Indicele transcriptomului a fost construit pe genomul de referință uman (GRCH38/hg38). Estimările abundenței la nivel de transcripție au fost rezumate la nivel de genă cu ajutorul pachetului „tximport” pentru analiza expresiei diferențiale. DESeq2 a fost utilizat pentru a identifica genele exprimate diferențiat, iar diferitele praguri utilizate în diferite analize au fost enumerate în mod corespunzător în manuscris.

Analiza datelor Hi-C

Datele Hi-C au fost procesate utilizând HiC-Pro ($ HiC-Pro -i INDIR -o OUTDIR -c CONFIG -p). Hărțile de contact au fost generate la o rezoluție de 5 kb. Datele matriciale brute au fost normalizate folosind abordarea descrisă în Normalization of Chromatin Interactions.

Analiza datelor de metilare a ADN-ului

Datele de metilare a ADN-ului (pentru liniile celulare T-ALL și pacienții T-ALL) au fost demultiplexate cu bcl2fastq, urmate de tăierea a 10 perechi de baze de la capătul 5′ pentru a elimina secvențele de primer și adaptor folosind TrimGalore . Alinierea secvențelor la genomul de referință GRCh38/hg38 și apelurile de metilare au fost efectuate cu Bismark ($ bismark –multicore 8 –bowtie2 -q -N 1 INDEX INFILE.fq). Fișierele de acoperire (număr) pentru citosine în context CpG au fost generate cu Bismark ($ bismark_methylation_extractor –multicore 8 –comprehensive –bedGraph INFILE_bismark_bt2.bam).

Analiza datelor de secvențiere a întregului genom

Au fost identificate mutații pentru două linii celulare T-ALL (Jurkat și CUTLL1) și două probe de pacienți T-ALL din datele de secvențiere a întregului genom. Am aliniat secvențele Illumina short-read la genomul uman de referință (GRCH38/hg38) folosind BWA mem. Am utilizat SAMBlaster pentru a identifica perechile discordante, pentru a diviza citirile și pentru a marca duplicatele PCR presupuse. Am folosit SAMBAMBA pentru a converti SAM-ul aliniat în format BAM, iar samtools a fost folosit pentru a sorta cele aliniate pentru a crea un fișier BAM corespunzător fiecărei probe.

Am folosit VarDict pentru a identifica variantele care s-au suprapus peste situsurile de legare CTCF ale uniunii. Am utilizat toți parametrii impliciți, cu excepția lui „-f 0,1”, care a fost utilizat pentru a identifica variantele care au fost susținute de mai mult de 10 % din citirile din acea locație. Am adnotat variantele folosind Variant Effect Predictor (VEP) și am folosit scripturi personalizate pentru a identifica variantele care influențează legarea TF.

Am folosit din nou VarDict pentru a identifica variantele din genele CTCF și NOTCH1 pentru cele patru probe. Am utilizat toți parametrii impliciți, cu excepția „-f 0,1”, care a fost utilizat pentru a identifica variantele care au fost susținute de mai mult de 10 % din citirile din acea locație. Am adnotat variantele cu ajutorul Variant Effect Predictor (VEP) , iar apoi am filtrat-o pentru a identifica mutațiile care fie (a) nu au fost observate în mai mult de 1 % din nicio populație umană normală, fie (b) au avut un scor CADD de deleteritate > 20, fie (c) au fost prezente în baza de date COSMIC.

Modelare integrată și analiză statistică

Identificarea repertoriului de legare CTCF în genomul uman

Pentru CTCF ChIP-seq, am colectat un total de 793 de seturi de date, inclusiv 787 de seturi de date publice și 6 seturi de date generate de noi (Fișierul suplimentar 2: Tabelul S1). În total, 771 de seturi de date CTCF ChIP-seq cu vârfuri mai mari de 2000 au fost utilizate în acest studiu. Fiecare set de date poate produce vârfuri CTCF identificate de MACS2 în intervalul dintre 2050 și 198 021, cu o mediană de 46 451 și un total de 36 873 077 de vârfuri (Fișier suplimentar 1: Fig. S1a). Distribuția lungimilor intervalului dintre vârfurile adiacente ale vârfurilor CTCF ale tuturor celor 36 873 077 de vârfuri din cele 771 de seturi de date are un punct de inflexiune la ~ 150 pb (Fișier suplimentar 1: Fig. S1c), indicând granița dintre același site de legare și site-uri de legare diferite . Prin urmare, am folosit 150 bps ca limită pentru a fuziona vârfurile CTCF. În practică, am extins ± 75 bps de la fiecare vârf de vârf pentru a genera o regiune de 150 bp centrată pe vârf pentru a reprezenta fiecare vârf și am fuzionat toate regiunile de vârf care se suprapun pentru a genera un set de uniune de situri de legare CTCF, care conține 688 429 de situri care nu se suprapun. Fiecărui sit de legare i s-a atribuit un scor de ocupare CTCF, definit ca număr de seturi de date ChIP-seq care prezintă un vârf în cadrul sitului. În consecință, am definit frecvența de ocupare ca fiind raportul dintre scorul de ocupare și numărul total de seturi de date CTCF ChIP-seq. Pentru a asigura în continuare robustețea siturilor de legare CTCF identificate, am selectat 285 467 de situri de mare încredere cu scor de ocupare ≥ 3 pentru analize în aval. Motivele CTCF din cadrul siturilor de legare a uniunii au fost căutate prin FIMO cu matricea Jaspar (ID: MA0139.1), cu un prag al valorii p de 1e-4. Un motiv cu cea mai mică valoare p a fost reținut pentru fiecare sit de unire CTCF.

Identificarea siturilor de unire constitutive CTCF

Distribuția scorurilor de ocupare a tuturor celor 285 467 de situri de unire CTCF (Fișier suplimentar 1: Fig. S1d, curba albastră) arată că majoritatea siturilor de unire CTCF apar doar în câteva seturi de date, iar numărul de situri de unire scade odată cu creșterea scorului de ocupare atunci când acesta este mic. Cu toate acestea, există situri de legare CTCF care sunt foarte conservate în aproape toate seturile de date (de exemplu, situri de legare cu scor de ocupare mai mare de 600). Utilizăm o funcție de lege a puterii pentru a ajusta curba de distribuție (albastru) prezentată în fișierul suplimentar 1: Fig. S1d pentru a determina pragul de tăiere pentru site-urile CTCF constitutive. Notăm Oi ca fiind numărul de situri de legare CTCF observate cu scorul de ocupare egal cu i, iar Ei ca fiind numărul de situri CTCF așteptate cu scorul de ocupare egal cu i. Ajustarea legii puterii la datele Oi poate fi descrisă astfel (Fișier suplimentar 1: Fig. S1d, verde):

$$ {E}_i=85767\ast {\left(i-1.37\right)}^{-1.25} $$

Definim cutoff-ul A pentru situsurile de legare constitutivă a CTCF ca fiind:

$$$ A:= \min\ \left\{i|\frac{\sum_i^{771}\left({O}_i-{E}_i\right)}{\sum_i^{771}{E}_i}>5\right\} $$

Cu alte cuvinte, numărul total de situri CTCF observate cu un scor de ocupare mai mare decât A ar trebui să fie de 6 ori mai mare decât cel așteptat. Am determinat apoi A = 615 și am folosit un cutoff de frecvență de ocupare de 80% pentru a defini 22.097 de situri de legare CTCF constitutive, ceea ce corespunde scorului de ocupare ≥ 616 în toate cele 771 de seturi de date CTCF ChIP-seq.

Identificarea siturilor de legare CTCF câștigate/pierdute specifice cancerului

Am folosit următoarele 2 criterii pentru a identifica siturile de legare CTCF pierdute specifice cancerului: (1) situl de legare CTCF ar trebui să aibă o frecvență de ocupare mai mică pentru seturile de date ale acelui tip de cancer în comparație cu frecvența de ocupare pentru toate seturile de date și (2) nivelul de legare CTCF (cuantificat ca număr de citiri ChIP-seq normalizate) la situl respectiv este mai mic în seturile de date ale cancerului decât în alte seturi de date. Pentru site-urile CTCF câștigate, am utilizat setul de criterii invers. Pe scurt, pentru fiecare sit de legare CTCF din fiecare tip de cancer, s-a calculat scorul de ocupare în seturile de date privind cancerul împreună cu scorul său de ocupare în toate cele 771 de seturi de date. Nivelurile de legare CTCF au fost obținute dintr-o matrice normalizată a numărului de citiri în care numărul de citiri ChIP-seq (RPKM) a fost mai întâi calculat pentru site-urile de legare CTCF ale uniunii în toate seturile de date și apoi a fost urmat de o normalizare prin cuantile. Am utilizat testul t al lui Student cu două cozi neperecheat pentru a cuantifica diferența nivelurilor de legare între diferite grupuri de seturi de date, iar valoarea p a fost apoi ajustată cu ajutorul procedurii Benjamini-Hochberg . În plus, scorurile de ocupare a legăturilor și nivelurile de legare au fost comparate între seturile de date privind cancerul și seturile de date din țesuturi sau tipuri de celule normale corespondente, pentru a lua în considerare potențialul factor de confuzie al specificității țesuturilor, mai degrabă decât al specificității cancerului. Criteriile detaliate pentru identificarea situsurilor de legare CTCF specifice cancerului sunt descrise mai jos:

  • Situații de legare CTCF pierdute specifice cancerului: (1) frecvență de ocupare ≤ 0,2 în seturile de date despre cancer; (2) frecvență de ocupare ≥ 0,7 în 771 seturi de date; (3) frecvență de ocupare ≥ 0.5 (cu scor de ocupare ≥ 2) în seturile de date de țesut normal potrivite; (4) nivelurile CTCF sunt mai scăzute în cancer în comparație cu toate celelalte seturi de date (scor statistic < 0), (5) nivelurile CTCF sunt mai scăzute în cancer în comparație cu seturile de date de țesut normal potrivite (scor statistic < 0), (6) media semnalelor de legare CTCF (RPKM) < 5 în seturile de date de cancer.

  • Situri de legare CTCF câștigate specifice cancerului: (1) frecvența de ocupare ≥ 0,5 (cu scorul de ocupare ≥ 2) în seturile de date privind cancerul, (2) frecvența de ocupare ≤ 0,2 în 771 seturi de date, (3) scorul de ocupare = 0 în seturile de date privind țesutul normal asortat, (4) nivelurile CTCF sunt semnificativ mai mari în cancer comparativ cu toate celelalte seturi de date (FDR ≤ 0.01), (5) nivelurile de legare a CTCF sunt semnificativ mai mari în cancer comparativ cu seturile de date de țesut normal potrivite (FDR ≤ 0,01), (6) media semnalelor de legare a CTCF (RPKM) > 2 în seturile de date de cancer.

Situațiile specifice de legare CTCF câștigate și pierdute pentru fiecare tip de cancer sunt prezentate în Fișierul suplimentar 4: Tabelul S3.

Cuantificarea accesibilității diferențiale a cromatinei

Am folosit datele procesate din Ref. care includ o matrice de numere de inserții ATAC-seq normalizate în cadrul setului de vârfuri pan-cancer TCGA pentru a evalua accesibilitatea diferențială a cromatinei în jurul siturilor de legare CTCF. Pentru fiecare tip de cancer dintre BRCA, CRC, LUAD și PRAD, vârfurile ATAC-seq pan-cancer care se suprapun cu site-urile de legare CTCF pierdute sau câștigate specifice tipului de cancer identificate au fost utilizate pentru analizele în aval. Scorul diferențial ATAC-seq pentru fiecare vârf a fost cuantificat ca fiind schimbarea de ori a mediei numărului de inserții ATAC-seq normalizate de la eșantioane de pacienți din tipul de cancer corespunzător față de cele de la pacienți din alte tipuri de cancer, iar scorul diferențial ATAC-seq a fost apoi atribuit vârfului care s-a suprapus peste site-ul de legare CTCF.

Pentru consecvență, am aplicat aceeași abordare utilizată pentru datele ATAC-seq TCGA pentru a analiza datele ATAC-seq colectate din linia celulară T-ALL Jurkat și celulele T CD4+ normale. A fost generată o matrice de date folosind numărul de citiri brute ATAC-seq pe situsurile de legare CTCF de uniune pentru toate seturile de date Jurkat și celule T. S-a aplicat normalizarea cuantică asupra matricei la scară log2 (număr pseudo = 5). Scorul diferențial ATAC-seq a fost măsurat ca variație fold a numărului mediu normalizat ATAC-seq între seturile de date Jurkat versus celule T CD4+ la fiecare sit de legare CTCF.

Normalizarea interacțiunilor de cromatină

Dată o hartă de contact Hi-C A = {aij}, scorul aij reflectă citirile cartografiate între două regiuni genomice i și j. Să presupunem că dimensiunea bin este de 5 kb, regiunile i și j vor avea o distanță genomică de ∣i – j ∣ × 5kb. Deoarece probabilitatea de contact între două bin-uri scade odată cu creșterea distanței genomice , am normalizat harta de contact după cum urmează: pentru orice distanță genomică dată dk = k × 5kb, cuantificăm un factor de normalizare \( {\overline{S}}}_{d_k} \) ca fiind media interacțiunilor dintre toate perechile de bin-uri cu aceeași distanță genomică dk într-un același cromozom, de ex, \( {\overline{S{S}}_{d_k}=\left({\sum}_{j-i=k}{a}_{ij}\right)/n \), unde n este numărul total de perechi de binomuri cu distanța dk. Punctajul de interacțiune aij între două bins cu distanța dk a fost apoi normalizat prin \( {\overline{S}}{d_k} \) ca \( {a}_{ij}^{\prime }={a}_{ij}/{\overline{S}}}{d_k} \). Folosind această abordare, am normalizat matricea A în \( A^{\prime }=\left\{{a}_{ij}^{\prime}\right\} \) în cadrul fiecărui cromozom.

Detecția interacțiunilor cromatinare diferențiale

Am notat hărțile de contact Hi-C normalizate în setul de date privind cancerul și în setul de date normale ca fiind C = {cij} și, respectiv, N = {nij}. Pentru un anumit sit de legare CTCF x (cu coordonata xc) și o distanță genomică predefinită L, interacțiunile cromatinare dintre x și bini de 5 kb apropiați care nu se suprapun cu distanța genomică până la L sunt colectate din C și, respectiv, N. Mai exact, scorurile de interacțiune dintre x și bini de 5-kb apropiați din C sunt colectate sub forma IC = {cij}. în timp ce i sau j este egal cu ⌊xc/5kb⌋, iar 0 < (j – i) × 5kb ≤ L. În mod similar, scorurile de interacțiune dintre x și binarele sale apropiate de 5-kb din N au fost colectate ca IN = {nij}. S-a aplicat apoi un test t Student cu două cozi cu perechi pe IC și IN pentru a cuantifica interacțiunea diferențială dintre celulele canceroase și cele normale din jurul situsului de legare CTCF x.

Asocierea legării CTCF cu expresia genelor

În total, au fost selectate 54 de tipuri de celule pentru care atât datele CTCF ChIP-seq, cât și datele RNA-seq sunt disponibile în mod public (Fișierul suplimentar 6: Tabelul S5) pentru investigarea asocierii dintre legarea CTCF și expresia genelor pentru fiecare pereche CTCF-gena din același cromozom. Pentru a obține nivelul de legare a CTCF, a fost generată o matrice de citire a numărului de citiri folosind citiri pe kilobază pe milion (RPKM) pe situsurile de legare a CTCF de uniune din datele ChIP-seq. Matricea de numărare a citirilor a fost scalată cu rădăcina pătrată a RPKM, urmată de o normalizare prin cuantile. Nivelul de expresie a genelor a fost măsurat pentru fiecare genă folosind rădăcina pătrată a transcripțiilor pe milion (TPM) din datele RNA-seq. Pentru fiecare pereche CTCF-gena, am cuantificat asocierea dintre site-ul CTCF și gena în toate cele 54 de tipuri de celule utilizând coeficientul de corelație R între nivelul normalizat de legare CTCF și expresia genei (Fig. 3a). Perechile CTCF-gene au fost considerate „foarte corelate” cu R2 mai mare de 0,25, de ex, coeficient de corelație mai mare de 0,5 sau mai mic de – 0,5, iar perechile CTCF-gene foarte corelate contribuie la 1,3 % din toate perechile CTCF-gene (Fișier suplimentar 1: Fig. S8a).

Identificarea domeniilor de cromatină constitutive delimitate de CTCF

Pentru fiecare sit de legare CTCF, am definit domeniul de cromatină asociat acestuia ca fiind regiunea genomică care (1) include acest sit de legare CTCF specific, (2) este delimitată de o pereche de situri de legare CTCF constitutive cu motive de orientări opuse și (3) ocupă o regiune de minimum 100 kb și maximum 1 MB de fiecare parte a sitului de legare CTCF. Figura 3b conține o schemă a modului în care au fost definite domeniile de cromatină delimitate de CTCF constitutive.

Detecția modificărilor de metilare a ADN-ului în jurul situsurilor de legare CTCF

Modificările de metilare a ADN-ului au fost detectate într-o regiune de 300-bp centrată pe fiecare sit de legare CTCF. Au fost reținute regiunile cu cel puțin 3 CpGs acoperite de cel puțin 5 citiri (≥ 5×) atât în liniile celulare canceroase, cât și în țesuturile normale corespunzătoare. O regiune de 300-bp a fost detectată ca fiind diferențiat metilică dacă media nivelurilor de metilare diferențială a tuturor CpG-urilor (≥ 5×) din această regiune a fost mai mare de 20 %.

Detecția ratei de mutație și a scorului diferențial al motivelor

Pentru fiecare sit de legare CTCF, numărul brut de mutații a fost calculat ca fiind apariția evenimentelor de mutație în toate probele/pacienții la fiecare pereche de baze unice în cadrul unei regiuni de 400-bp centrate pe situl de legare CTCF. Rata de mutație pentru un grup de situsuri de legare CTCF a fost calculată ca fiind media numărului de mutații pe numărul de situsuri de legare CTCF pentru fiecare pereche de baze din cadrul regiunii de 400 de pb.

Scopul motivului a fost măsurat prin evaluarea matricei de ponderare a poziției CTCF (Jaspar , Matrix ID: MA0139.1) la o secvență de ADN de 19 pb centrată pe motivul CTCF sau pe situsul de legare CTCF, utilizând rapoarte de verosimilitate logaritmice (cu frecvența nucleotidelor de fond ca pentru A,C,G,T). Scorul diferențial al motivelor a fost calculat prin compararea scorurilor motivelor pentru secvențele de referință și secvențele mutante.

Analiza motivelor secvențelor de ADN

Analiza îmbogățirii motivelor secvențelor de ADN a fost efectuată cu ajutorul MDSeqPos (versiunea 1.0.0) pe Cistrome cu parametrii impliciți (-cisrom -Homo Sapien sau Mus musculus). Analizele de novo ale motivelor au fost efectuate utilizând HOMER (versiunea 4.10) cu modulul findmotifs.pl și MEME (versiunea 5.1.1) cu următorii parametri: meme -dna -mod zoops -maxw 20 -evt -0.01.

Identificarea regiunilor cu interacțiune diferențiată intradomeniu CTCF

Pentru un anumit set de situri de legare CTCF, au fost colectate pentru fiecare dintre siturile de legare CTCF modificările de interacțiune cromatină între un sit CTCF și fiecare dintre biniile sale intradomeniu care nu se suprapun, măsurate din hărțile de contact Hi-C normalizate în celulele canceroase față de celulele normale corespondente, pentru fiecare dintre siturile de legare CTCF (Fișier suplimentar 1: Fig. S14b). Regiunile cu interacțiuni reduse (log2 FC < -1, interacțiune log2 medie > 0) cu situri de legare CTCF pierdute specifice cancerului și regiunile cu interacțiuni crescute (log2 FC > 1, interacțiune log2 medie > 0) cu situri de legare CTCF câștigate specifice cancerului au fost utilizate pentru analiza de îmbogățire a factorilor de transcripție (TF) în aval.

Analiza de îmbogățire a factorilor de transcripție

O versiune revizuită a algoritmului BART a fost utilizată pentru analiza de îmbogățire a TF. Pe scurt, o colecție de situsuri hipersensibile la DNază I de uniune (UDHS) a fost curatoriată anterior ca repertoriu al tuturor elementelor cis-regulatoare candidate din genomul uman, iar 7032 seturi de date ChIP-seq au fost colectate pentru 883 TF , fiecare TF având unul sau mai multe seturi de date ChIP-seq din mai multe tipuri de celule sau condiții. A fost generat un profil binar pentru fiecare TF pe UDHS, indicând dacă TF-ul are cel puțin un vârf din oricare dintre seturile sale de date ChIP-seq localizat în cadrul fiecăruia dintre UDHS. Analiza de îmbogățire a legăturii a fost aplicată pentru fiecare TF prin compararea legăturii TF pe un subset de UDHS care se suprapune peste regiunile genomice selectate față de legătura TF pe UDHS. valoarea p a fost obținută cu ajutorul testului exact Fisher cu două cozi.

.

Lasă un comentariu