ヒト1番染色体を網羅的に見る

RESULTS

根拠とCompViewの構築

かなりの量のゲノムデータがいくつかのデータベースに寄託されている。 1998)、多型マーカーのジェノタイピングデータ(CEPHdb)(Dausset et al.1990)、推定ユニーク転写産物を表すEST配列とクラスタデータ(UniGene)(Boguski and Schuler 1995)などがあります。 これらのデータセットは、私たちのCompView手順を用いた地図作成の基礎として使用された。 利用可能なマーカーの数が膨大であるため、計算ベースの地図作成法ではマーカーの数パーセント以上を高い信頼性で並べることができない。 そこで、マーカーの部分集合(フレームワーク)に対して信頼性の高い順序を決定し、残りのマーカーをこのフレームワークに相対的に配置することにしました。 CompViewは、確立されたフレームワークに順次マーカーを追加していく反復プロセス(ダイナミックフレーミング)を用いることで、フレームワークマーカーの数と地図全体の解像度を最大化することができます。

我々は、Genebridge4 (GB4) radiation hybrid (RH) panel (Gyapay et al. 1996) でスコアリングされたPCR-formated markersのセットをCompViewの出発点として選んだ。これは、公に利用できるヒトゲノムマーカーの最大の均質なデータセットである。 RHdbとUniGeneの生データは、このプロジェクトのために開発されたカスタマイズされたリレーショナルデータベースであるCompdbにインポートされた。 GB4パネルでスコアリングされ、1番染色体に割り当てられた全てのRHdbエントリ(5557マーカー)をプライマー配列の同一性を解析し、4442のユニークマーカーセットにアセンブルした。 このユニークなマーカーセットのRHデータを、自動RHマップ構築のためのエキスパートシステムであるMultiMapを用いて解析した(Matis et al. 1994)。

GB4パネルで慎重に採点された62個のGénéthonマイクロサテライトマーカーセットは構築中の初期スケルトンマップとして使用された。 骨格マーカーは≧1000:1のペアワイズオッズで並び、RH-と遺伝的連鎖で決定された順序は完全に一致した。 次に、各非骨格マーカーをMultiMapを用いて骨格地図に対して解析し、十分な統計的裏付け(≧1000:1)をもって骨格地図上の固有の位置に追加可能かどうかを判断した。 最終的に、1番染色体の263 Mbをカバーする289個のマーカーからなり、平均解像度910 kbを得た(図1)。 次に、残りのすべてのマーカーについて、フレームワークに対する1000:1の尤度間隔を計算した。 5306セットのプライマーからなる合計4220個のユニークなマーカーが地図上の位置に割り当てられた(表1)。

図1.

拡大表示:

  • 新しいウィンドウで
  • パワーポイントスライドとしてダウンロード

図1.

クロモゾーム1 RHフレームワーク。 フレームワークマーカーは1p末端から左上から右下へ水平に並んでいる。 マーカーはcentiRayの位置に比例して間隔をあけている。 細胞位置は各行の最初に示されている。 右下にはおおよその物理的なスケールが表示されている。

この表を見る:

  • このウインドウで
  • 新しいウインドウで
表1.

Chromosome 1 Mapping Summary

Data Integration

RH framework上の289マーカーのうち、111マーカーは多型でCentre d’Etude du Polymorphisme Humain (CEPH) reference pedigree (Dausset et al. 1990) で遺伝子型決定されていたものだった。 RHフレームワークの構築と同様のプロセスで、これらの111個のマーカーを骨格地図として使用し、遺伝的連鎖(GL)フレームワークを構築した。 多型マーカーデータセットとしてCEPHdb v8.1遺伝子型データベースから1番染色体に割り当てられたすべての多型を使用した。 その結果、GLフレームワークは160のマーカーが≥1000:1のオッズで並び、2.0 cMと1.6 Mbの解像度を得た(表1)。 さらに、全ゲノムマップから除外されることの多い一般的な4塩基多型や遺伝子内多型を含む628個の多型マーカーを、フレームワークに対して1000:1の尤度間隔で配置した。 また、GB4(Wang et al. 1998)でスコア化された239の第1染色体特異的一塩基多型(SNPs)を含めた。 GL層とRH層の合計で5008個のユニークなマーカーが配置され、平均マーカー密度は52kbであった(表1)。

次に、転写配列を表すマーカーが多いRH層を、UniGene EST配列クラスタ(Boguski and Schuler 1995)と統合した。 同一のEST配列を共有するクラスターとマッピングされたRHマーカーは一緒に関連づけられた。 全体として、4220個のRHマーカーのうち3543個(84%)が転写産物を表し、これらの転写産物の2795個(79%)が合計1830個のESTクラスターと関連づけられた(表1)。

物理的マッピングデータは、陽性のPAC、BAC、またはYACクローンが同定されているマーカーを特定することで統合された。 マッピングされた各マーカーが、サンガーセンター(Gregory et al. 1998)による第1染色体配列決定のために同定された1つ以上のBACまたはPACクローンに含まれているかどうかを判断し、第1染色体1199マーカーを表す6167 BAC/PAC クローンが統合された(表1)。 マッピングされたマーカーの多くを含むYACクローンは、ホワイトヘッド研究所ゲノム研究センター(WICGR)により単離された(Hudsonら、1995)。 合計1930の1番染色体YACが追加され、合わせて地図上の2275のマーカーを表している。 RH、GL、物理層の間に存在し、重複しているマーカーの数は、図2のベン図で示されている。

図2.

拡大表示:

  • このウィンドウで
  • 新しいウィンドウで
  • パワーポイントスライドとしてダウンロード

図2.

Marker subtypeのベン図。 この図は、RH、GL、および物理層の間、および物理層間でのマーカーの分布を示す。 RHとGLのマーカーセットは、それぞれCompViewでマップポジションを割り当てられたすべてのRHとGLマーカー(n = 4220とn = 788)で定義される。 物理マーカーセットは、WICGR YACおよび/またはSanger PAC/BACに関連するユニークなマーカーの数(n = 2480)、そのうちのサブセット(n = 1742)がCompViewでローカライズされていることで定義されている。

細胞遺伝学的位置情報を含めるために、ゲノムデータベース(GDB)(Letovskyら、1998)を使用して、特定の第1染色体バンドに細胞遺伝的に局在していた110個のRH tierマーカーのセットを同定した。 これらの局在を細胞遺伝学的な枠組みとして使い、残りのすべてのGLおよびRHマーカーについて推定細胞位置を計算した。 54% (2686)のマーカーは1つの染色体バンドに局在しており、残りのマーカーは細胞遺伝学的バンド範囲に割り当てられていた。

より大きなゲノム構造を表現するには、冗長な要素や部分的に冗長な要素を識別するメカニズムが必要である。 RHに基づく地図上の位置は短いDNAセグメントの増幅によって決定されるため、それらは明確なゲノム点として表現することができる。 しかし、機能的なゲノム要素は、より主観的に定義されることが多い。 したがって、1つの遺伝子が、広いゲノム領域に分布する複数のマーカーで表され、それぞれのマーカーが明確な地図上の位置に対応することもある。 また、マーカーの命名法も複雑で、同じゲノムエレメントに複数の名前がつけられていることもある。 そこで、各マーカーの正確な位置と、相互に関連するマーカー群(bundleと呼ぶ)のコンセンサス位置の両方を計算し、わかりやすくしました。

データベース識別子(ID)の累積リストは、Compdbのすべてのマーカーからコンパイルされました。 IDを共有するマーカーは、転写物または他の機能的なゲノム要素を表すと推定されるバンドルにグループ化されました。 各バンドルマップ位置は、そのバンドルを構成する個々のマーカーのマップ位置から定義された。 例えば、バンドルXはフレームワークマーカー1-4、2-5、3-6にまたがる間隔位置を持つ3つのマーカーをそれぞれ含んでいると仮定する。 この場合、バンドルXは最大位置が1-6、最小位置が3-4となる。 あるバンドルには、地図上の位置が重ならないマーカーがあり、RHスコアリング、ESTクラスタ構築、識別子のラベル付けに誤りがあった可能性を示しています。 このような場合、バンドルは地図上の位置が重複しているマーカーのサブセットに分割された。 マーカーの43% (1796)は719のバンドルに組み入れることができ、最小マップポジションは89%のバンドルで定義された。 最小マップ間隔が定義されたバンドルでは、最小間隔の平均サイズは1.4 Mbであったのに対し、平均最大間隔は5.2 Mbに及んでいた。 このことは、bundlingの手順により、同等のマーカーの地図上の位置を関連付けることで、多くの転写産物の最も可能性の高い位置を大幅に絞り込むことができることを示している。 残りの76バンドル(11%)は地図上の位置が重複しないマーカーを含んでおり、この割合はRHdbとUniGeneデータセット内の累積エラー率を大きく示している。 これらの非重複バンドルは現在、地図上の位置が矛盾している原因や理由について評価中である。

データプレゼンテーション

データプレゼンテーションのために、我々はグラフィカルとテキストベースのインターフェースを提供するCompViewインターネットサイト(http://genome.chop.edu)を開発した。 染色体全体(あるいはマーカー名や細胞遺伝学的バンドで定義された部分)をインタラクティブなJavaアプレットMapview (Fig.3) を用いてグラフィカルに表示し、カスタマイズできる(Letovsky et al.1998)。 個々のマーカーの情報には、プライマー配列とRHスコア、データベースID、ESTクラスターの割り当て、推定される細胞遺伝学的位置、関連するラージインサートクローンなどが含まれる(Fig.4)。 CompViewで表示されるゲノムデータを補完するために、外部データベースへのハイパーテキストリンクも提供されている。 現在、28のインターネット上のデータベースへの直接リンクがあり、19のデータベースで特定のマーカー情報を利用することができます(表2)。 dbSTS, dbEST, GenBank, UniGene, RHdb, GDBなどのマーカーや配列のリポジトリへのリンク、個々の研究所やゲノムセンターのマーカーデータベースへのリンク、大規模インサートクローンのスクリーニングプロジェクトのリアルタイムクエリー、BLASTによる配列相同性検索、OMIM, BioHunt, GeneCardsによるサーチエンジンクエリーなどがある(図4)。 このように、CompViewに掲載されている個々のマーカー記録は、他のサイトで利用可能なゲノム、配列、機能データのより広範な配列へのデータポータルとして機能する。

図3.

拡大表示:

  • このウィンドウで
  • 新しいウィンドウで
  • パワーポイントスライドとしてダウンロード
図 3.GeneCards (図 4)

図 3.

CompView Webインターフェースの例。 (A)染色体の領域を検索するための入力画面。 領域は2つの近傍マーカー(左)、染色体イデオグラムから細胞遺伝学的バンドをクリックする(右)、または細胞遺伝学的バンドを1つまたは範囲選択する(図示せず)ことにより定義できる。 D1S468とD1S214の間の領域に対するクエリー入力が表示される。 (B)AからD1S468からD1S214のクエリに対する表形式での返送。 マーカータイプ、転写状態、RH間隔、RHマップ位置、細胞位置が各マーカーについて表示され、各マーカーについてより完全な情報へのハイパーリンクが提供されています。 また、それぞれのマーカーの総数が表示されている。 右上の “map of region “ボタンをクリックすると、C. (C) クエリD1S468からD1S214をMapviewで表示した場合のグラフ表示。 この例では、RHの骨組み(左)とRHマーカーの段の一部(右)だけが見えている。 フレームワークの右側には1pterからの距離(CentiRay)が表示されている。 間隔を置いたRHマーカーの前には、RHフレームワークに対する1000:1の尤度の位置を示す縦線が引かれている。 照会に使用したマーカーはフレームワーク上でハイライトされており、GNB1のRHマーカーも同様である。GNB1をクリックすると、図4に示すマーカーレコードが得られる。

図4.

拡大表示:

  • このウィンドウで
  • 新しいウィンドウで
  • パワーポイントとしてダウンロード

図4.GNB1のマーカーレコード。

Marker レコードの例。 geneGNB1の個別レコードを示す。 下線はハイパーテキストリンクを示す。 この例では、このマーカーのdbEST(略称は表2の凡例参照)、GDB、Sanger、GenBank、UniGene、RHdbのエントリへの外部データベースリンク、GenBankの非冗長(GenBank)、EST(EST)、ハイスループット・ゲノム配列(HTGS)コレクションに対するBLAST検索が存在する。 GeneCards, OMIM, BioHuntで “GNB1 “を検索する;Sanger Centreの第1染色体マッピングデータベースAcedb1でGNB1プライマー配列を持つBACやPACを検索することができます。 MAP OF GNB1” および “GNB1 REGION” と表示されたボタンは、それぞれ図 3 Cand のような GNB1 周辺領域のグラフィック描写と、図 3 B のようなこの領域にマッピングされた全マーカーの表形式要約を提供します。 左記のデータカテゴリー名(”Expression status “など)は、そのカテゴリーを説明するヘルプページにハイパーリンクされています。

この表を見る:

  • このウインドウで
  • 新しいウインドウで
表2.

CompView Webサイト内の外部データベースへのリンク

多くのマーカーは複数の名前を持っており、ある遺伝子座に対して冗長な命名法を整理することはしばしば面倒である。 適切なマーカー名を選択するために、各マーカーに関連するデータベースIDのプールから、あらかじめ決められた名前付け元の階層に従って、最も適切なマーカー名を選択するアルゴリズムを作成しました。 バンドルは、各バンドル内のマーカー名のプールから選択することにより、同様の方法で命名されました。

Data Integrity

予測されたマーカーの順序の検証は、地図構築の重要なステップである。 RH層と連鎖層の構築に使用された計算方法は、正確なマーカー順序の信頼性が証明されている標準マッピングアルゴリズムに基づいている(Matiseら1994年、Dibら1996年、Langstonら1999年)。 また、マッピング手順の完全性を評価するために、多くの内部比較と外部比較を行った。 内部比較では、まず骨格地図を注意深く分析し、RHで定義されたマーカーの順序が遺伝的連鎖解析で予測された順序と良好に比較されているかどうかを判断した。 また、RHの枠組みでは、各マーカーを個別に削除してから再マッピングし、十分な統計的信頼性を持って局在を確認した。 さらに、連鎖層とRH層の両方に配置されたすべてのマーカーの位置を比較した。 すべての内部比較において、ほぼすべてのマーカーの位置が一致した。 外部からの検証として、過去に発表された1番染色体地図の結果と比較した。 289個のRHフレームワークマーカーの順番をGeneMap96 RH (Schuler et al. 1996), GeneMap98 RH (Deloukas et al. 1998), Généthon version 3 GL map (Dib et al. 1996)の対応位置と比較した。 GDBから得られた細胞遺伝学的枠組みの精度は、配列決定の準備のためにSanger Centreによって細胞遺伝学的にマッピングされた212の第1染色体ラージインサートクローンのセットと比較することによって決定された。 各比較では、>90%のマーカーについて一致したマーカーオーダーが得られた。 ほぼすべての不一致は孤立したものであり、我々の予測したマーカーの位置は通常他の地図の位置と隣接しており、通常、配置に対する統計的裏付けが弱いマーカーが含まれていることが判明した。 最後に、1p35-36 (Jensen et al. 1997) と1q41-43 (Weith et al. 1995) の既刊地図で予測されたマーカーの位置と我々のマーカーの位置とを比較した。 共通にマッピングされたマーカーの一致率は、1p遠位部地図では94%、1q遠位部地図では100%であった。 これらの比較から、CompViewの手法は健全であり、マーカー位置の孤立した変動は、地図の作成というよりも、データの生成または入力のエラーによる可能性が高いことが強く示唆された。

第1染色体の解析

第1染色体の結果について、いくつかの点をさらに解析した。 289のRHフレームワークのうち、182(63%)が短腕に決定的に割り当てられた。 これはRHdbの1p特異的RHマーカーの数が多いためと思われ、さらにSanger Centreが1番染色体の配列決定において1pをSTS生成のために選択的にターゲットにしたためである (Gregory et al. 1998)。 RHの距離はcmRayで測定され、これは一般に物理的距離に比例すると考えられている(Cox et al. 1990)。 しかし、セントロメアと隣接する1qヘテロクロマティック領域ではRHマップの距離が大きくなっており(RH framework positionsD1S2696-D1S3356; avg. distance 27.5 cR vs. whole framework 12.7 cR; P < 0.001 )、セントロマティック領域に関する以前の観察(Benham et al.1989; Cox et al.1990; Walter et al.1994) と矛盾しないことが確認された。 さらにいくつかのフレームワークマーカー/centiRay距離の低い領域が観察され、特に1p35と1q43で顕著であった(Fig. 1)。 これらの領域は、両者とも暗色の細胞遺伝学的バンドと重なっていることから、マーカーのカバー率が低いか、放射線抵抗性が増大した局所的な領域であると考えられる(下記参照)。 1pのテロメア特異的STSはまだ利用できないが、最近同定された1q特異的マーカー(TEL1q-10)(Hudsonら1995;Dibら1996)は我々のRH層中に存在し、そのマップ間隔は1qテロメアを含んでいる。 今後、テロメアマーカーが利用可能になれば、RHマップを固定化することが重要であろう。

ギムザ染色の軽い細胞遺伝学的バンドは、一般に転写物に富むと考えられている(Bernardi 1989)。 この原則が1番染色体にも当てはまるかどうかを判断するために、細胞遺伝学的な層の明るいバンドと暗いバンドに特異的に割り当てられた転写産物の数を計算した。 1つのバンドにマッピングされた1883の転写産物のうち、1663(88.3%)が明るいバンドに割り当てられた(表3)。 分数長測定(Francke and Oliver 1978)によって決定された各バンドの相対的なサイズを考慮すると、明るいバンドは同等のサイズの暗いバンドよりも平均して1.7倍転写物を含む可能性が高く、明るいバンド1q21が最も転写物に富むことが判明しました。 しかし、暗黒バンド1p31の転写密度が高く、明バンド1p32、1p22、1q23、1q31、1q42の密度が低いなど、一般的な傾向に対するいくつかの顕著な例外があった。

この表を見る:

  • In this window
  • In a new window
Table 3.

細胞遺伝学的バンド/マーカの比較

コメントする