がん特異的なCTCFの結合が発がん性の転写調節異常を促進する

実験手順

患者の異種移植と細胞培養

ヒトT-ALLの細胞株にはCUTLL1(Adolfo Ferrandoから贈与)を使用した. コロンビア大学)、JURKAT(American Type Culture Collection (ATCC), Manassas, VA, #CCL-119)である。 細胞は,10%熱不活性化ウシ胎児血清(シグマ・アルドリッチ),10 U/mL のペニシリン-ストレプトマイシン(ギブコ),1×glutaMAX(ギブコ)を添加したl-グルタミンと25 mM HEPES(コーニング)入りRPMI1640培地で加湿インキュベーター中37℃,5 %で培養されました。 細胞は、Lonza Walkersville MycoAlert Mycoplasma Detection Kitを使用して、定期的にマイコプラズマの存在を検査する(最終検査は2020年1月)。 細胞株は最大20回継代培養し、ショートタンデムリピートプロファイリング(JURKAT)を用いて認証するか、PCRを用いてTCRb-NOTCH1トランスロケーション(TCRBJ2S4CUTLL1F:5-GGACCCGCTCAGTGCT-3′, NOTCH1CUTTL1R:5-TCCCGCCCCAAAATAAGG-3′) を検出する。 最後の細胞認証は2020年2月に実施した。 ヒトCD4+ T細胞はAllCells社から購入した。 ヒトの一次サンプルは、インフォームドコンセントを得て収集し、パドバ大学の施設審査委員会、Associazone Italiana di Ematologia e Oncologia Pediatrica、ベルリン-フランクフルト-ミュンスター(AIEOP-BFM)のALL 2000/2006小児臨床試験の監視下で分析した。

Antibodies and reagents

Western blotsは以下の抗体を用いて実施した。 アクチンおよびCTCFはMillipore Sigma (clone C4; 07-729)から、切断型NOTCH1 (Val1744) はCell Signaling Technology (4147) から入手した。 ChIP-seqは、以下の抗体を用いて行った。 Millipore SigmaのCTCF(07-729)、Cell Signaling TechnologyのH3K27Ac(8173S)およびH3K27me3(9733S)、およびMilliporeのH3K4me1(07-473)。

In situ Hi-C

In situ H-Cを、以前に記述したように、CD4+ T細胞、Jurkat、CUTLL1および患者異種移植片に対して実施した 。 簡単に言うと、細胞は1%ホルムアルデヒドで室温で10分間架橋された。 Hi-C反応ごとに、500万個の細胞を溶解し、核を透過処理した。 DNAはNew England Biolabs (R0147M)のMboIで消化した。 消化された断片は、Jena Bioscience (NU-835-BIO14-S)のビオチン化d-ATPで標識され、ライゲーションが行われた。 RNase処理とProteinase K処理で架橋を逆転させた後、Covaris E220で核を超音波処理し、平均400 bpの断片長にした。 Thermo Fisher Scientific (65001)のStreptavidin beadsを使用して、ビオチン標識断片をプルダウンした。 DNAの精製と分離後、NEBNext® Ultra™ II DNA Library Prep Kit for Illumina®を用いて最終的なライブラリを作成し、Illumina HiSeq 2500で150bpのリード長でペアエンドシーケンスを行い、サンプルあたり平均4億リードを生成した。

ChIP-seq プロファイリング

CD4+ T細胞、Jurkat、CUTLL1、および患者の異種移植片をPBS中1%ホルムアルデヒドおよび1%牛胎児血清で10分間、室温で架橋した。 この反応を0.2 Mグリシンで5分間室温でクエンチした。 その後、細胞をPBSで洗浄し、ペレット化した。

CTCFのChIPについては、以前に記載したプロトコルに基づき、免疫沈降を行った。 5000万個の細胞を含むペレットを5mLの溶解バッファ(50mM HEPES-KOH, pH7.5, 140mM NaCl, 1mM EDTA, 10% glycerol, 0.5% NP-40, 0.25% Triton X-100)で4℃、10分間溶解させた。 核を1350×gで7分間ペレット化し、10 mM Tris pH 8, 1 mM EDTA, 0.1% SDSに再懸濁した。 クロマチンはCovaris E220システムで平均400bpの断片長にせん断し、15,000rpmで10分間スピンして不溶性のクロマチンと残骸を除去した。 上清を20μLのDynabeads Protein Gと30分間インキュベートした後、ビーズを廃棄した。 全容量の1%をインプットとして保存し、残りは抗CTCF抗体と一晩インキュベートした。 合計で100μLのDynabeads Protein Gを2時間加えた。結合した断片を1mLの低塩緩衝液(20mM Tris-HCl pH8.0, 150mM NaCl, 2mM EDTA, 1% w/v Triton X-100, and 0.で2回洗った。1%w/vSDS)、高塩分バッファー(20 mM Tris-HCl pH 8.0, 500 mM NaCl, 2 mM EDTA, 1% w/v Triton X-100, and 0.1% w/v SDS)、塩化リチウムバッファー(10 mM Tris-HCl pH 8.0)で1度ずつ。0、250mM LiCl、1mM EDTA、1% w/v NP-40、1% w/v デオキシコール酸)、TE(10mM Tris pH 8、1mM EDTA)で2回。

ヒストンChIPでは、細胞を375μLのnuclei incubation buffer(15mM Tris pH 7.5、60 mM KCl、150 mM NaCl、15 mM MgCl2、1 mM CaCl2、250 mM sucrose、0.3% NP-40、1 mM NaV、1 mM NaF、1 EDTA-free protease inhibitor tablet (Roche)/10 mL in H2O)上で10分間氷上に置いた。 核をダイジェストバッファー(10 mM NaCl, 10 mM Tris pH 7.5, 3 mM MgCl2, 1 mM CaCl2, 1 mM NaV, 1 mM NaF, および1 EDTA-freeプロテアーゼインヒビター錠(Roche)/H2O中10 mL)で一度洗浄し, 4.5 ユニットMNase(USB)含有57-μLダイジェストバッファー中に37℃、1時間再懸濁させた. MNase活性は、最終濃度20 mMのEDTAの添加により、氷上で10分間クエンチされた。 核をペレット化し、300-μL Nuclei Lysis Buffer(50 mM Tris-HCl pH 8.0, 10 mM EDTA pH 8.0, 1% SDS, 1 mM NaV, 1 mM NaF, 1 EDTA-free protease inhibitor tablet (Roche)/10 mL in H2O)中に再懸濁した後にBioruptor Pico (Diagenode) で5分間超音波処理(30 s on, 30 s off)した。 ライセートを最大速度で5分間遠心分離し、残渣を除去した。 上清に9容量のIP Dilution Buffer(0.01% SDS, 1.1% Triton X-100, 1.2 mM EDTA pH 8.0, 16.7 mM Tris-HCl pH 8.0, 167 mM NaCl, 1 mM NaV, 1 mM NaF, 1 EDTA-free protease inhibitor tablet (Roche)/10 mL in H2O)を添加した。 合計50μLのDynabeads Protein Gを添加し、4℃で30分間回転させながらインキュベートした。 サンプルの1%はインプットとして残し、残りのサンプルは3本のチューブに分けた。 合計50μLのDynabeads Protein Gと15μLの適切な抗体を各チューブに加え、4℃で一晩回転させながらインキュベートした。 ビーズ結合複合体を1mLの低塩緩衝液、高塩緩衝液、LiCl緩衝液で5分間ずつ洗浄し、TEで2回洗浄した。

ビーズ結合複合体を溶出するために、ビーズは50μLの溶出緩衝液(100 mM NaHCO3, 1% w/v SDS)に再懸濁し、65℃で15分間、1000 RPMで振りながらサーモミキサー上でインキュベートした(Thermo Scientific)。 溶出を2回繰り返し、100 μL RNase Buffer (12 μL of 5 M NaCl, 0.2 μL 30 mg/mL RNase, 88 μL TE) を各ChIPサンプルおよび入力サンプルに添加した。 サンプルを37℃で20分間インキュベートし、その後、100μLのプロテイナーゼKバッファ(2.5μL 20mg/mL proteinase K、5μL 20SDS, 92.5μL TE)を65℃にて一晩加えた。 等量のフェノール:クロロホルム溶液を加え、十分に混合した。 この混合物を MaXtract High Density チューブ (Qiagen) に移し、15,000 rpm で 8 分間遠心分離を行った。 上相を新しいチューブに移し、1.5 μL 20 mg/mL グリコーゲン、30 μL 3M 酢酸ナトリウム、および 800 μL エタノールと混合した。 サンプルは-80℃で凍結するまでインキュベートした後、15,000 rpm、4℃で30分間遠心分離を行った。 上清を除去し、ペレットを800 μL 70%氷冷エタノールで洗浄し、4 ℃、15,000 rpmで10分間回転させた。 エタノールを注意深く除去した後、ペレットを風乾し、30μLの10mM Tris(pH8)に再懸濁した。

IPと入力DNAは、Qubit 3.0 fluorometerを用いて定量された。 ライブラリーは、KAPA HyperPrep Kit (KK8505) を使用して調製し、Illumina NextSeq 500 でサンプルあたり平均 2800 万リードの深さで配列決定しました。

RNA-seq profiling

RNA を Bio-Rad Aurum™ Total RNA Mini Kit でサンプルあたり 3 百万細胞から分離し、 Agilent RNA 6000 Nano Kit で Agilent Bioanalyzer とともに定量化しました。 ライブラリーは、低濃度の出発サンプルに対してIllumina TruSeq® Stranded mRNA Library Prep Kitを使用してrRNA枯渇により調製し、Illumina NextSeq 500のシングルエンドシーケンスにより、サンプルあたり平均1800万リードの深さでシーケンスしました。

DNA methylation profiling

Genomic DNAはAllPrep DNA/RNA Micro Kit (Qiagen) により分離されました。 ゲノム全体のDNAメチル化状態を評価するために、mRRBSを実施した。 Qubit 3.0装置による蛍光定量後、ゲノムDNAを制限酵素MspI (New England Biolabs) で消化し、固相可逆固定化 (SPRI) ビーズ (MagBio Genomics) で約100-250塩基長の断片をサイズ選択した。 得られたDNAは、EZ DNA Methylation-Lightning Kit (Zymo Research)を用いて重亜硫酸塩に変換された。 Pico Methyl-Seq Library Prep Kit(Zymo Research)を用いて、ビスルファイト変換した一本鎖DNAからライブラリを作成し、これをプールして、NextSeq 500/550 V2 High Output reagent kit(1×75 cycles)を用いてIllumina NextSeq 500装置でサンプルあたり最低5000万リードのリード深度でシーケンシングを実施した。

全ゲノムシーケンス

細胞株または患者サンプルからの300万個の細胞をペレット化し、500μgのRNase Aを混合した1mLのCell Lysis Solution(Qiagen)に再懸濁し、溶解反応を37℃で15分間実施した。 合計333μLのProtein Precipitation Solution(Qiagen)を各サンプルに添加し、これをボルテックスした後、2000×gで10分間遠心分離を行った。 上清を1mLのイソプロパノールと混合し、DNA鎖が溶液から析出するまで混合した。 上清を捨てた後、DNAペレットを1mLの70%エタノールで洗浄し、2000×gで1分間遠心した。 その後、エタノールを流し、ペレットを15分間風乾した後、50~100μLのDNA Hydration Solution(Qiagen)に再懸濁した。 DNAは、30×カバレッジでペアエンドイルミナシーケンスで配列決定した。

免疫沈降

各免疫沈降反応について合計1億個の細胞をペレット化し、バッファA(10 mM HEPES pH 8.0, 1.5 mM MgCl2, 10 mM KCl, 0.5 mM DTT)で10分間氷上に置いてインキュベートした。 次に、細胞を7mLの緩い乳棒の組織粉砕機(Wheaton、357542)を用いて12回のストロークで溶解し、2000rpmで7分間遠心分離を行った。 核ペレットを5容量のTENT緩衝液(50 mM Tris pH 7.5, 5 mM EDTA, 150 mM NaCl, 1% Triton X-100, 5 mM MgCl2)に再懸濁し、25 g × 5/8 in. シリンジの5回通過前にベンゾナーゼで30分処理した。 不溶性画分を2000rpmで7分間の遠心分離後に除去し、抗体とハイブリダイズしたDynabeads Protein Gと一晩インキュベートした。 合計200万個の細胞をインプットのために除去した。 ビーズと核溶解液をTENTバッファで6回洗浄し、100 mM Tris pH 8.0を含む0.1 M glycine pH 2.5で溶出させた後、ビーズと核溶解液を除去した。 NuPAGE LDSサンプルバッファーを溶出液とインプットに加え、70℃で15分間インキュベートしてからウェスタンブロットで解析した。

公開データ収集

公開CTCF ChIP-seqデータはCistrome Data Browser(ピークファイル用)およびNCBI GEO(ファストクファイル用、追加ファイル2:表S1)から収集した。 ヒストン修飾ChIP-seqデータは、NCBI GEOおよびENCODE(bamファイル用)から収集した。 複数の細胞種におけるパブリックRNA-seqデータをENCODEから収集した(fastqファイル用)。 DNAメチル化プロファイリングデータはENCODE (bed bedMethyl file用) とNCBI GEOから収集した。 Hi-C データは NCBI GEO および ENCODE (for fastq files)から収集した。 ATAC-seqデータはNCBI GEOから収集した(fastqファイル用)。 BRCA、COAD、LUAD、PRADサンプルの全ゲノムシーケンスデータは、International Cancer Genome Consortium (ICGC) Data Portalから収集した。

Data processing

ChIP-seq data analysis

ChIP-seq data in fastq filesの配列アライメントは、一貫性と再現性のためにCistrome DBで使用したものと同じ標準解析パイプラインで実施した。 配列データのゲノムアライメントは、すべてChilinパイプラインを用い、デフォルトのパラメータで実施した($ chilin simple -p narrow -s hg38 –threads 8 -t IN.fq -i PRENAME -o OUTDIR)。 BWAを用いて、ヒト基準ゲノム(GRCH38/hg38)にアライメントした($ bwa aln -q 5 -l 32 -k 2 -t 8 INDEX IN.fq > PRENAME.sai $ bwa {samse | sampe} )。 INDEX PRENAME.sai IN.fq > PRENAME.sam)。 Samファイルはsamtoolsを用いてbamファイルに変換した($ samtools view -bS -q 1 -@ 8 PRENAME.sam > PRENAME.bam). CTCF ChIP-seqデータセットについては、MACS2を用いてFDR閾値0.01以下のピークをコールした($ macs2 callpeak –SPMR -B -q 0.01 –keep-dup 1 -g hs -t PRENAME.bam -n PRENAME –outidr OUTDIR)。 4倍以上の濃縮度を持つピークを保持した。 BigwiggleファイルはBEDToolsとUCSCのツールを用いて作成した($ bedtools slop -i PRENAME.bdg -g CHROMSIZE -b 0|bedClip stdin CHROMSIZE PRENAME.bdg.Bigwiggle.BEDTools slop -i PRENAME.bdg -g CHROMSIZE -b 0|bedClip stdin CHROMSIZE PRENAME.bdg.clip $ LC_COLLATE=C sort -k1,1 -k2,2n PRENAME.bdg.clip > PRENAME.bdg.sort.clip $ bedGraphToBigWig PRENAME.bdg.sort.clip CHROMSIZE PRENAME.bw) とする。 最後に、2000ピーク以上のCTCF ChIP-seqサンプルのみを下流の統合解析に含めた。

ATAC-seq データ解析

Trim Galoreを用いて生シーケンスリードをトリミングした($ trim_galore –nextera –phred33 –fastqc –paired R1.fq R2.fq -o OUTDIR)。 Bowtie2 ($ bowtie2 -p 10 -X 2000 -x INDEX -1 R1.fq -2 R2.fq -S PRENAME.sam) を用いてヒト参照ゲノムにアライメントを行った。 Samファイルはsamtoolsを用いてbamファイルに変換した($ samtools view -bS -q 1 -@ 8 PRENAME.sam > PRENAME.bam). bamファイルのbed形式への変換にはbedtoolsを用いた($ bamToBed -i PRENAME.bam -bedpe > PRENAME_PE.bed). ミトコンドリアDNAにマッピングされたリードは下流の解析から除外した。

RNA-seqデータ解析

RNA-seqデータセットはSalmonを用いて処理した($ salmon quant –gcBias -i INDEX -l A -p 8 {-1 R1.fq -2 R2.fq| -r IN.fq} )。 -o OUTDIR). Transcriptome index は、ヒトリファレンスゲノム(GRCH38/hg38)をもとに構築されました。 トランスクリプトレベルのアバンダンス推定値は、差分発現解析のための “tximport” パッケージを使用して遺伝子レベルにまとめました。 DESeq2を用いて発現量の異なる遺伝子を同定し、解析ごとに異なる閾値を原稿に記載した。

Hi-C データ解析

HiCデータはHiC-Pro($ HiC-Pro -i INDIR -o OUTDIR -c CONFIG -p)により処理された。 コンタクトマップは5kbの解像度で作成された。

DNA methylation data analysis

DNA methylation data (for T-ALL cell lines and T-ALL patients) is demultiplexed with bcl2fastq followed by trimming 10 base pairs from 5′ end to remove primer and adaptor sequences using TrimGalore .生行列データは Normalization of Chromatin Interactions で述べた方法で正規化されました。 GRCh38/hg38参照ゲノムとの配列アライメントとメチル化コールは、Bismark ($ bismark –multicore 8 –bowtie2 -q -N 1 INDEX INFILE.fq) で実施した。 CpGコンテキストのシトシンのカバレッジ(カウント)ファイルはBismarkを用いて作成した($ bismark_methylation_extractor –multicore 8 –comprehensive –bedGraph INFILE_bismark_bt2.bam)

Whole genome sequencing data analysis

Mutations identified for 2 T-ALL cell line (Jurkat and CUTLL1) and 2 T-ALL patient samples from the whole genome sequencing data. イルミナのショートリード配列をBWA memを用いてヒト参照ゲノム(GRCH38/hg38)にアライメントした。 SAMBlasterを使用して不一致ペアを特定し、リードを分割し、PCR重複と思われるものにフラグを立てました。 SAMBAMBAでSAMをBAM形式に変換し、samtoolsで整列したものをソートして各サンプルに対応するBAMファイルを作成した。

VarDictで結合CTCF結合部位と重複するバリアントを同定した。 その位置で10%以上のリードでサポートされているバリアントを特定するために使用される “-f 0.1” 以外のすべてのデフォルトパラメータを使用しました。 Variant Effect Predictor (VEP) を用いてバリアントをアノテーションし、カスタムスクリプトを用いてTF結合に影響を与えるバリアントを同定した

再びVarDictを用いて、4サンプルのCTCFおよびNOTCH1遺伝子のバリアントを同定した。 その位置で10%以上のリードでサポートされているバリアントを特定するために使用した”-f 0.1 “以外は、デフォルトのパラメータを使用しました。 Variant Effect Predictor (VEP) を用いて変異を注釈し、(a) 正常なヒト集団の1%以上には見られない、(b) 枯渇性 > 20 の CADD スコアを持つ、または (c) COSMIC データベースに存在する変異を特定するためにフィルタリングを行った。

統合モデリングと統計解析

ヒトゲノムにおけるCTCF結合レパートリーの同定

CTCFチップseqについては、公開データセット787と我々が作成したデータセット6を含む合計793データセットを集めた(追加ファイル2:表S1参照)。 本研究では、ピークが2000以上のCTCF ChIP-seqデータセットを合計771個使用した。 各データセットは、2050から198,021の範囲のMACS2同定CTCFピークを得ることができ、中央値は46,451、総ピーク数は36,873,077でした(追加ファイル1: 図S1a)。 771データセット36,873,077ピークの隣接するCTCFピーク頂上間の間隔長さの分布は、〜150 bpで変曲点を持ち(Additional file 1: Fig.S1c) 同じ結合部位と異なる結合部位との境界を示す。 そこで、CTCFのピークをマージする際のカットオフ値として150bpsを使用しました。 実際には、各ピークの頂上から±75bpsを延長し、頂上を中心とした150bpの領域を生成して各ピークを表現し、重複するピーク領域をすべてマージしてCTCF結合部位の連合セットを生成し、その中には重複しない688,429個の部位が含まれている。 各結合部位にはCTCF占有スコアを割り当て、部位内にピークを示すChIP-seqデータセットの集計値として定義した。 したがって、占有頻度をCTCF ChIP-seqデータセットの総数に対する占有スコアの比率として定義しました。 同定されたCTCF結合部位の頑健性をさらに確保するために、占有スコア≧3の高信頼性部位285,467個を下流解析に選んだ。 結合部位内のCTCFモチーフをJaspar matrix (ID: MA0139.1) を用いてFIMOで検索し、p値の閾値を1e-4とした。 p値が最も小さい1つのモチーフを各CTCF結合部位について保持した。

Identification of constitutive CTCF binding sites

全28万5467個のCTCF結合部位の占有スコア分布(追加ファイル1:図S1d、青い曲線)は、大部分のCTCF結合部位が少数のデータセットでしか発生せず、占有のスコアが小さいと結合部位数が増加するほど減少していることを示している。 しかし、ほぼ全てのデータセットで高度に保存されているCTCF結合部位が存在する(例えば、占有スコアが600以上の結合部位)。 そこで、Additional file 1.に示した分布曲線(青色)に、べき乗関数を用いてフィットさせる。 Fig. S1dに示す分布曲線(青色)にフィットさせ、構成的CTCF部位のカットオフを決定した。 Oiを占有スコアがiに等しい観測されたCTCF結合サイトの数、Eiを占有スコアがiに等しい予想されるCTCFサイトの数とする。データOiへのべき乗則フィットは以下のように記述できる(Additional file 1: Figure S1d, green):

$ {E}_i=85767Θ {left(i-1.37right)}^{-1.25} $$

構成的CTCF結合部位のカットオフAを次のように定義する:

$ A:A: = \{i|frac{sum_i^{771}}left({O}_i-{E}_i}right)}{sum_i^{771}{E}_i}5}right } $$

言い換えれば、Aより大きい占有スコアの観測CTCFサイトが予想より6倍になればよいということだ。

がん特異的な獲得/喪失CTCF結合部位の同定

がん特異的な喪失CTCF結合部位の同定には、以下の2つの基準を使用した。 (1)そのCTCF結合部位は、全データセットの占有頻度と比較して、そのがん種のデータセットで占有頻度が低いこと、(2)その部位でのCTCF結合レベル(正規化ChIP-seqリードカウントとして定量化)が、他のデータセットよりもがんのデータセットで低いこと。 得られたCTCF部位については、逆の基準セットを使用しました。 簡単に言うと、各がん種の各CTCF結合部位について、がんデータセットにおける占有スコアを、全771データセットにおけるその占有スコアとともに算出した。 CTCF結合レベルは、ChIP-seqリードカウント(RPKM)が最初に全データセットの組合わせCTCF結合部位について計算され、次に分位正規化が行われる正規化リードカウント行列から得られた。 データセットの異なるグループ間の結合レベルの差を定量化するために、対応のない両側スチューデントのt検定を使用し、p値はその後Benjamini-Hochberg手順を使用して調整されました 。 さらに、癌の特異性よりも組織の特異性という潜在的な交絡因子を考慮し、結合占有スコアと結合レベルを癌データセットとマッチした正常組織または細胞型のデータセット間で比較した。 がん特異的なCTCF結合部位を特定するための詳細な基準は、以下に記載されている:

  • がん特異的に失われたCTCF結合部位。 (1)がんデータセットにおける占有頻度≦0.2、(2)771データセットにおける占有頻度≧0.7、(3)占有頻度≧0.1。5(占有スコア≧2)、マッチした正常組織データセットにおいて;(4)他のすべてのデータセットと比較して、がんにおいてCTCFレベルが低い(統計スコア<2803> 0)、(5)マッチした正常組織データセットと比較して、がんにおいてCTCFレベルが低い(統計スコア<2803> 0)、(6)平均CTCF結合シグナル(RPKM)<2803> がんデータセットにおいて5であった。

  • がん特異的に獲得したCTCF結合部位。 (1)がんデータセットでは占有頻度≧0.5(占有スコア≧2)、(2)771データセットでは占有頻度≦0.2、(3) 一致した正常組織データセットでは占有スコア=0、(4)他のすべてのデータセットと比較してがんではCTCFレベルが著しく高い(FDR ≦ 0.01)、(5)CTCF結合レベルはマッチした正常組織データセットと比較して癌で有意に高い(FDR≦0.01)、(6)平均CTCF結合シグナル(RPKM)>癌データセットでは2。

各がん種の特定の獲得および喪失CTCF結合部位は、追加ファイル4:表S3に示す。

Quantification of differential chromatin accessibility

我々は、CTCF結合部位周辺の差異クロマチンアクセス性を評価するためにTCGAパンがんピークセット内に正規化ATAC-seq挿入数の行列を含む文献からの処理データを使用しました。 BRCA、CRC、LUAD、PRADの各がん種について、がん種特異的なCTCF結合部位の消失または獲得と重複する汎がんATAC-seqピークを下流解析に使用した。 各ピークのATAC-seq差分スコアを、対応するがん種の患者サンプル対他のがん種の患者からの正規化ATAC-seq挿入カウントの平均の倍率変化として定量化し、ATAC-seq差分スコアをピークに重なったCTCF結合部位に割り当てた

一貫性のために、TCGA ATAC-seq データに使用した同じ方法を適用して、T-ALL 細胞株 Jurkat および正常 CD4+T細胞の収集 ATAC-seq データの解析も実施した。 すべてのJurkatおよびT細胞データセットについて、組合わせCTCF結合部位上のATAC-seq生リードカウントを用いてデータマトリックスを作成した。 log2スケール行列に分位正規化を適用した(擬似カウント=5)。 ATAC-seq差分スコアは、各CTCF結合部位におけるJurkat対CD4+ T細胞のデータセット間の平均化正規化ATAC-seqカウントの倍数変化として測定された。

クロマチン相互作用の正規化

Hi-C接触マップA = {aij}が与えられたとき、スコアaijは2つのゲノム領域iとj間のマッピングされたリードを反映する。ビンのサイズが5kbであるとすると、領域iとjはゲノム距離が∣i – j ∣×5kb となる。 2つのbin間の接触確率はゲノム距離の増加とともに減少するため、以下のように正規化した:任意のゲノム距離dk = k × 5kbに対して、正規化係数 \( {overline{S}}_{d_k} )を、同じ染色体のゲノム距離dkのbinペアすべての平均的な相互作用として定量化した、例:, また、距離dkの2ビン間の相互作用スコアaijは、aij/aij}で正規化され、aij/aij}となった。

Detection of differential chromatin interactions

がんデータセットと正常データセットにおける正規化Hi-C contact mapsをそれぞれC = {cij}、N = {nij}と表記した。 与えられたCTCF結合部位x(座標xc)とあらかじめ定義されたゲノム距離Lに対して、xとその近傍のゲノム距離Lまでの非重複5kbビンとの間のクロマチン相互作用をCとNからそれぞれ収集する。 具体的には、Cにおけるxとその近傍の5kbビンとの間の相互作用スコアをIC = {cij}として収集する。 同様に、Nのxとその近傍の5kbビンとの間の相互作用スコアをIN={nij}として収集した。 次に、対の両側スチューデントのt検定をICとINに適用し、CTCF結合部位xを取り巻く癌細胞と正常細胞との間の相互作用の差を定量化した。

CTCF結合と遺伝子発現との関連

同一染色体のCTCF-遺伝子ペアごとにCTCF結合と遺伝子発現との関連を調べるために、CTCF ChIP-seq データと RNA-seq データの両方が公開されている54種類の細胞型を選んだ(追加ファイル 6: 表S5)。 CTCF結合レベルを得るために、ChIP-seqデータから組合せたCTCF結合部位上の100万分の1キロベースあたりの読み取り数(RPKM)を用いて読み取り数行列を作成した。 リードカウントマトリックスは、RPKMの平方根でスケーリングし、その後、分位数正規化を行った。 遺伝子発現レベルは、RNA-seqデータからのtranscripts per million (TPM)の平方根を使用して、各遺伝子について測定された。 各CTCF-遺伝子ペアについて、正規化されたCTCF結合レベルと遺伝子発現との相関係数Rを用いて、54種類の細胞型すべてにおいてCTCF部位と遺伝子との関連を定量化した(図3a)。 CTCF-遺伝子ペアは、R2が0.25より大きい場合、「高相関」とみなされた、例えば。 相関係数が0.5以上または-0.5以下であるものを「高相関」とし、高相関のCTCF-遺伝子ペアは全CTCF-遺伝子ペアの1.3%に寄与した(追加ファイル1:図 S8a)。

構成的CTCF結合クロマチンドメインの同定

各CTCF結合部位について、その関連クロマチンドメインを、(1)この特定のCTCF結合部位を含み、(2)反対の方向のモチーフを持つ構成的CTCF結合部位のペアで囲まれ、(3)最小100kb、最大1MB領域をCTCF結合部位それぞれの側で占めるゲノム領域として、定義した。 図3bは、構成的CTCF結合クロマチンドメインがどのように定義されたかを示す模式図である。

Detection of DNA methylation changes surrounding CTCF binding sites

DNA methylation changes were detected within a 300-bp region centered at each CTCF binding site.DIA (CTCF結合部位を中心とした300bpの領域でDNAメチル化変化を検出). がん細胞株と対応する正常組織の両方において、少なくとも5リード(≧5×)でカバーされた少なくとも3つのCpGが存在する領域を保持した。 300bpの領域は、その領域内のすべてのCpGの平均差分メチル化レベル(≧5×)が20%以上であれば、差分メチル化として検出した。

Detection of mutation rate and differential motif score

それぞれのCTCF結合部位に対して、CTCF結合部位を中心に400bp領域の各1塩基対ですべてのサンプル/患者における変異イベントの発生として生変異数を算出した。

モチーフスコアは、CTCFモチーフまたはCTCF結合部位を中心とした19bpのDNA配列に対してCTCF位置重み行列(Jaspar , Matrix ID: MA0139.1)を対数尤度比(バックグラウンド核酸頻度はA、C、G、Tとして)でスコア化することにより測定された。 モチーフスコアの差は参照配列と変異配列のモチーフスコアを比較して算出した。

DNA sequence motif analysis

DNA sequence motif enrichment analysisはCistrome上でMDSeqPos (version 1.0.0) を用いてデフォルトパラメータ (-cisrome -Homo Sapien or Mus musculus) で実施した。 デノボ・モチーフ解析は、HOMER (version 4.10) with findmotifs.pl moduleとMEME (version 5.1.1)を次のパラメータで行った:meme -dna -mod zoops -maxw 20 -evt -0.01.

Identification of CTCF intra-domain differentially interacted regions

与えられたCTCF結合部位のセットについて、マッチした正常細胞よりも癌細胞における正規化Hi-Cコンタクトマップから測定したCTCF部位とそのドメイン内非重複ビンそれぞれの間のクロマチン相互作用変化を集めた(追加ファイル1:図 S14b)。 がん特異的な失われたCTCF結合部位との相互作用が減少した領域(log2 FC < -1、平均log2相互作用 > 0)、およびがん特異的に得られたCTCF結合部位との相互作用が増加した領域(log2 FC > 1、平均log2相互作用 > 0)を下流の転写因子(TF)濃縮分析に使用した。

Transcription factor enrichment analysis

BARTアルゴリズムの改訂版がTF enrichment analysisに使用された。 簡単に言うと、union DNase I hypersensitive sites (UDHS) のコレクションは、ヒトゲノムのすべての候補シス制御要素のレパートリーとして以前にキュレーションされ、883 TFsについて7032 ChIP-seq データセットが収集され、各TFには複数の細胞型または条件からの1つ以上のChIP-seqデータセットがあった。 UDHS上の各TFについて、そのChIP-seqデータセットのいずれかから少なくとも1つのピークが各UDHS内に位置するかどうかを示すバイナリプロファイルが作成されました。 選択したゲノム領域に重なるUDHSのサブセット上のTFとUDHS上のTFの結合を比較することにより、各TFについて結合濃縮解析を適用した。p値は両側フィッシャーの正確検定を用いて求めた。

コメントする