A Comprehensive View of Human Chromosome 1

RESULTS

Rationale and CompView Construction

O cantitate substanțială de date genomice a fost depozitată în mai multe baze de date, inclusiv date de cartografiere bazate pe hibrizi de radiație (RHdb) (Lijnzaad et al. 1998), date de genotipare a markerilor polimorfi (CEPHdb) (Dausset et al. 1990), precum și date de secvență EST și date de grupare reprezentând transcripte unice putative (UniGene) (Boguski și Schuler 1995). Aceste seturi de date au fost folosite ca bază pentru asamblarea hărții noastre, folosind procedura CompView. Numărul însemnat de markeri disponibili depășește cu mult capacitatea metodelor de construire a hărților bazate pe calcul de a ordona mai mult decât un procent mic de markeri cu un grad ridicat de încredere. Prin urmare, am determinat ordinea cu grad ridicat de încredere a unui subset (cadru) de markeri și am poziționat restul markerilor în raport cu acest cadru. CompView utilizează un proces iterativ (încadrare dinamică) pentru a adăuga în mod secvențial markeri la un cadru stabilit, maximizând astfel numărul de markeri din cadru și rezoluția generală a hărții.

Am ales setul de markeri formatați prin PCR care au fost punctați pe panoul de hibrizi de radiație (RH) Genebridge4 (GB4) (Gyapay et al. 1996) ca punct de plecare pentru CompView, deoarece acesta este cel mai mare set de date omogene de markeri genomici umani disponibil public. Datele brute din RHdb și UniGene au fost importate în Compdb, o bază de date relațională personalizată dezvoltată pentru acest proiect. Toate intrările RHdb punctate pe panoul GB4 și atribuite la cromozomul 1 (5557 de markeri) au fost analizate pentru identitatea secvenței de amorsare și asamblate în 4442 de seturi unice de markeri. Datele RH pentru setul de markeri unici au fost apoi analizate cu MultiMap, un sistem expert pentru construirea automată a hărții RH (Matise et al. 1994).

Un set de 62 de markeri microsateliți Généthon care au fost atent punctați în panoul GB4 a servit ca o hartă inițială de schelet în timpul construcției. Markerii scheletici au fost ordonați cu cote ≥1000:1 pe perechi, iar ordinele determinate de RH și de legăturile genetice au fost în deplină concordanță. Fiecare marker nonscheletal a fost apoi analizat în raport cu harta scheletului folosind MultiMap pentru a determina dacă poate fi adăugat la o poziție unică pe harta scheletului cu un suport statistic suficient (≥1000:1). Cadrul final a constat din 289 de markeri care acoperă cei 263 Mb ai cromozomului 1, rezultând o rezoluție medie de 910 kb (Fig. 1). S-au calculat apoi intervalele de verosimilitate 1000:1 ale tuturor markerilor rămași, în raport cu cadrul. Un total de 4220 de markeri unici, reprezentând 5306 seturi de primeri, au fost atribuite poziții pe hartă (tabelul 1).

Figura 1.

Vezi o versiune mai mare:

  • În această fereastră
  • Într-o fereastră nouă
  • Download as PowerPoint Slide

Figura 1.

Cadrul cromosomului 1 RH. Markerii cadrului sunt enumerați orizontal de sus, de la stânga la dreapta, începând de la extremitatea 1p. Markerii sunt spațiați proporțional cu pozițiile lor centiRay. Citolocațiile sunt indicate la începutul fiecărui rând. O scară fizică aproximativă este reprezentată în dreapta jos.

Vezi acest tabel:

  • În această fereastră
  • Într-o fereastră nouă

Tabelul 1.

Rezumat al cartografierii cromozomului 1

Integrarea datelor

Dintre cei 289 de markeri din cadrul RH, 111 erau polimorfici și fuseseră genotipați în pedigree-urile de referință ale Centre d’Etude du Polymorphisme Humain (CEPH) (Dausset et al. 1990). Într-un proces analog construcției cadrului RH, acești 111 markeri au fost utilizați ca o hartă scheletică pentru a construi un cadru de legătură genetică (GL). Toate polimorfismele atribuite cromozomului 1 din baza de date de genotipuri CEPHdb v8.1 au fost utilizate ca set de date pentru markerii polimorfici. Cadrul GL rezultat a cuprins 160 de markeri ordonați cu o probabilitate ≥1000:1, obținând rezoluții de 2,0 cM și 1,6 Mb (tabelul 1). Un număr suplimentar de 628 de markeri polimorfici, inclusiv polimorfisme tetranucleotidice și intragenice utilizate în mod obișnuit, care sunt adesea excluse din hărțile întregului genom, au fost apoi plasate în intervale de probabilitate 1000:1 în raport cu cadrul. Am inclus, de asemenea, 239 de polimorfisme nucleotidice unice (SNP) specifice cromozomului 1 care au fost marcate în GB4 (Wang et al. 1998). În total, nivelurile GL și RH au totalizat 5008 plasări unice de markeri, cu o densitate medie a markerilor de 52 kb (tabelul 1).

Apoi, am integrat nivelul RH, care este compus în mare parte din markeri reprezentând secvențe transcrise, cu grupurile de secvențe EST UniGene (Boguski și Schuler 1995). Clusterele și markerii RH cartografiați care împărtășesc o secvență EST identică au fost asociați împreună. În total, 3543 din cei 4220 de markeri RH (84%) reprezentau transcripte, iar 2795 (79%) dintre aceste transcripte au fost asociate cu un total de 1830 de clustere EST (tabelul 1).

Datele de cartografiere fizică au fost integrate prin identificarea markerilor pentru care au fost identificate clone PAC, BAC sau YAC pozitive. Am determinat dacă fiecare marker cartografiat a fost conținut în una sau mai multe clone BAC sau PAC identificate pentru secvențierea cromozomului 1 de către Centrul Sanger (Gregory et al. 1998) și au fost integrate 6167 clone BAC/PAC reprezentând 1199 de markeri ai cromozomului 1 (Tabelul 1). Clonele YAC care conțin mulți dintre markerii cartografiați au fost izolate de Whitehead Institute Center for Genome Research (WICGR) (Hudson et al. 1995). În total, au fost adăugate 1930 de YAC-uri ale cromozomului 1, reprezentând împreună 2275 de markeri pe hartă. Numărul de markeri prezenți și de suprapuneri între nivelurile RH, GL și fizic este demonstrat de diagrama Venn din figura 2.

Figura 2.

Vizualizați o versiune mai mare:

  • În această fereastră
  • Într-o fereastră nouă
  • Download as PowerPoint Slide

Figura 2.

Diagrama Venn a subtipurilor de markeri. Diagrama arată distribuția markerilor între și între nivelurile RH, GL și fizic. Seturile de markeri RH și GL sunt definite de toți markerii RH și GL cărora li s-au atribuit poziții pe hartă în CompView (n = 4220 și, respectiv, n = 788). Setul de markeri fizici este definit de numărul de markeri unici cu YAC-uri WICGR și/sau PAC/BAC-uri Sanger asociate (n = 2480), din care un subset (n = 1742) este localizat în CompView.

Pentru a include informații de poziționare citogenetică, am folosit Genome Database (GDB) (Letovsky et al. 1998) pentru a identifica un set de 110 markeri de nivel RH care au fost localizați citogenetic la o bandă specifică a cromozomului 1. Folosind aceste localizări ca un cadru citogenetic, s-au calculat apoi citolocalizările deduse pentru toți markerii GL și RH rămași. O singură bandă cromozomială a putut fi atribuită pentru 54% (2686) dintre markerii citolocalizați; pentru restul markerilor a fost atribuit un interval de benzi citogenetice.

Reprezentarea structurilor genomice mai mari necesită un mecanism de identificare a elementelor redundante și parțial redundante. Deoarece pozițiile hărților bazate pe RH sunt determinate de amplificarea unor segmente scurte de ADN, acestea pot fi reprezentate ca puncte genomice distincte. Cu toate acestea, elementele genomice funcționale sunt adesea definite mai subiectiv. Astfel, o singură genă poate fi reprezentată de mai mulți markeri distribuiți pe o regiune genomică mare, fiecare marker corespunzând unei poziții distincte pe hartă. Integrarea este, de asemenea, complicată de nomenclatura markerilor, astfel încât mai multe nume sunt adesea atribuite aceluiași element genomic. Pentru mai multă claritate, am calculat atât localizarea precisă a fiecărui marker distinct, cât și poziția consensuală a unui grup de markeri interrelaționați, denumit pachet.

A fost întocmită o listă cumulativă a identificatorilor bazei de date (ID-uri) din toți markerii din Compdb. Markerii despre care s-a constatat că au ID-uri comune (în esență, împărtășind un nume, o secvență sau un grup EST identic) au fost grupați în pachete care se presupune că reprezentau transcripte sau alte elemente genomice funcționale. Fiecare poziție de hartă a pachetului a fost definită din pozițiile de hartă ale markerilor individuali care compun pachetul. De exemplu, să presupunem că pachetul X conține trei markeri cu poziții intervalate care acoperă markerii-cadru 1-4, 2-5 și, respectiv, 3-6. Pachetul X ar fi atunci reprezentat cu o poziție maximă de 1-6 și o poziție minimă, cea mai probabilă, de 3-4. Anumite pachete conțineau markeri cu poziții cartografice care nu se suprapun, ceea ce indică posibile erori de scorare RH, de construire a grupurilor EST sau de etichetare a identificatorilor. În aceste cazuri, pachetele au fost împărțite în subansambluri de markeri cu poziții de hartă suprapuse. Patruzeci și trei la sută (1 796) dintre markeri au putut fi asamblați în 719 pachete, iar pozițiile minime ale hărților au fost definite pentru 89% dintre pachete. Pentru pachetele cu intervale de hartă minime definite, dimensiunea medie a intervalului minim a fost de 1,4 Mb, în timp ce media maximă s-a întins pe 5,2 Mb. Acest lucru indică faptul că procedura de grupare poate restrânge în mod substanțial locația cea mai probabilă a multor transcripte prin asocierea pozițiilor de hartă ale markerilor echivalenți. Cele 76 de pachete rămase (11 %) conțineau markeri cu poziții de hartă care nu se suprapun, iar acest procent indică în mare măsură rata de eroare cumulativă în cadrul seturilor de date RHdb și UniGene. Aceste pachete care nu se suprapun sunt în prezent evaluate pentru a determina sursa și motivul pozițiilor conflictuale pe hartă.

Prezentarea datelor

Pentru prezentarea datelor, am dezvoltat un site de internet CompView (http://genome.chop.edu) care oferă interfețe grafice și bazate pe text. Întregul cromozom (sau subsecțiunile care sunt definite prin nume de markeri sau benzi citogenetice) poate fi vizualizat grafic și personalizat cu ajutorul applet-ului interactiv Java Mapview (Fig.3) (Letovsky et al. 1998). Informațiile pentru markerii individuali includ secvențe de amorsă și scoruri RH, ID-urile bazelor de date, atribuirea grupurilor EST, pozițiile citogenetice deduse și clonele de inserție mare asociate (Fig. 4). Pentru a completa datele genomice prezentate în CompView, sunt furnizate, de asemenea, linkuri hipertext către baze de date externe. În prezent, sunt incluse legături directe către 28 de baze de date bazate pe internet, cu informații specifice despre markeri disponibile pentru 19 baze de date (tabelul 2). Acestea includ linkuri către depozite de markeri sau de secvențe, cum ar fi dbSTS, dbEST, GenBank, UniGene, RHdb și GDB; linkuri către baze de date de markeri ale laboratoarelor individuale sau ale centrelor genomice; interogări în timp real ale proiectelor de screening de clone de inserție mare; căutări de homologie de secvențe utilizând BLAST; și interogări ale motoarelor de căutare utilizând OMIM, BioHunt și GeneCards (Fig. 4). Astfel, înregistrările markerilor individuali prezentate în CompView servesc drept portal de date către o gamă mai largă de date genomice, secvențiale și funcționale disponibile în alte site-uri.

Figura 3.

Vizualizați o versiune mai mare:

  • În această fereastră
  • Într-o fereastră nouă
  • Download as PowerPoint Slide

Figura 3.

Exemple de interfață web CompView. (A) Ecran de introducere a datelor pentru căutarea unei regiuni a cromozomului. Regiunile pot fi definite de doi markeri flancanți (stânga), făcând clic pe o bandă citogenetică dintr-o ideogramă a cromozomului (dreapta) sau prin selectarea uneia sau a unui interval de benzi citogenetice (nu se arată). Este afișată o intrare de interogare pentru regiunea cuprinsă între D1S468 și D1S214. (B) Revenire tabelară pentru interogarea D1S468 până la D1S214 dinA. Tipul de marker, statutul transcripțional, intervalul RH, poziția pe harta RH și citolocația sunt afișate pentru fiecare marker, cu un hyperlink către informații mai complete furnizate pentru fiecare marker. Attop este indicat numărul total al fiecărui tip de marker găsit. Dacă se face clic pe butonul „map of region” din dreapta sus, se obține C. (C) Revenire grafică a interogăriiD1S468 la D1S214 vizualizată cu Mapview. În acest exemplu, sunt vizibile doar cadrul RH (stânga) și o porțiune din nivelul markerilor RH (dreapta). Distanțele CentiRay de la 1pter sunt afișate în partea dreaptă a cadrului. Markerii RH intervalați sunt precedați de o linie verticală care indică pozițiile lor de probabilitate 1000:1 în raport cu cadrul RH. Markerii utilizați pentru interogare sunt evidențiați pe cadru, la fel ca și markerul RH pentruGNB1; făcând clic pe GNB1 se obține înregistrarea markerului prezentată în figura 4.

Figura 4.

Vezi o versiune mai mare:

  • În această fereastră
  • Într-o fereastră nouă
  • Download as PowerPoint Slide

Figura 4.

Exemplu de înregistrare a markerilor. Este prezentată înregistrarea individuală pentru genaGNB1. Textul subliniat indică o legătură hipertext. În acest exemplu sunt prezente linkuri externe de baze de date pentru dbEST (a se vedea legenda tabelului 2 pentru abrevieri), GDB, Sanger, GenBank, UniGene și RHdb pentru acest marker; pentru a efectua o căutare BLAST a colecțiilor de secvențe genomice neredundante (GenBank), EST (EST) și de secvențe genomice de mare capacitate (HTGS) din GenBank; pentru a căuta „GNB1” în GeneCards, OMIM și BioHunt; și pentru a căuta în baza de date de cartografiere a cromozomului 1 Acedb1 a Centrului Sanger pentru BAC-uri și PAC-uri cu secvențe de amorsă GNB1. Butoanele etichetate „MAP OF GNB1” și „GNB1 REGION” oferă o reprezentare grafică a regiunii care înconjoară GNB1, analogă cu cea din figura 3 Cand un rezumat tabelar al tuturor markerilor care corespund acestei regiuni, analog cu cel din figura 3 B, respectiv. Denumirile categoriilor de date enumerate în stânga (cum ar fi „Expression status”) sunt însoțite de hyperlink-uri către paginile de ajutor care descriu categoria respectivă.

Vizualizați acest tabel:

  • În această fereastră
  • Într-o fereastră nouă

Tabel 2.

Legături către baze de date externe în site-ul web CompView

Mulți markeri sunt asociați cu mai multe nume, iar sortarea prin nomenclatura redundantă pentru un anumit locus este adesea plictisitoare. Pentru a selecta nume de markeri adecvate, am creat un algoritm care selectează cel mai potrivit nume de marker din fondul de ID-uri de baze de date asociate fiecărui marker, în conformitate cu o ierarhie prestabilită a surselor de nume. Grupurile au fost denumite într-un mod similar prin selectarea din fondul de nume de markeri din cadrul fiecărui grup.

Integritatea datelor

Verificarea ordinii markerilor prezise este o etapă crucială în construirea hărții. Metodele de calcul utilizate pentru construirea nivelurilor RH și de legătură s-au bazat pe algoritmi standard de cartografiere care s-au dovedit a fi de încredere pentru ordonarea precisă a markerilor (Matise et al. 1994; Dib et al. 1996; Langston et al. 1999). Am utilizat, de asemenea, o serie de comparații interne și externe pentru a evalua integritatea procedurii noastre de cartografiere. Pentru comparația internă, am analizat mai întâi cu atenție harta scheletului pentru a determina dacă ordinea markerilor definită de RH s-a comparat în mod favorabil cu ordinea prezisă de analiza legăturii genetice. De asemenea, pentru cadrul RH, fiecare marker a fost eliminat individual și apoi refăcut pentru a confirma localizarea cu suficientă încredere statistică. Mai mult decât atât, am comparat pozițiile tuturor markerilor plasați atât în cadrul linkage, cât și în cadrul RH. Pentru toate comparațiile interne, aproape toate pozițiile markerilor au fost în concordanță. Pentru verificarea externă, am comparat rezultatele noastre cu cele ale hărților cromozomului 1 publicate anterior. Ordinea celor 289 de markeri din cadrul nostru RH a fost comparată cu pozițiile corespunzătoare de pe hărțile GeneMap96 RH (Schuler et al. 1996), GeneMap98 RH (Deloukas et al. 1998) și Généthon versiunea 3 GL (Dib et al. 1996). Acuratețea cadrului citogenetic derivat din GDB a fost determinată prin comparație cu un set de 212 clone de inserție mare a cromozomului 1 care au fost cartografiate citogenetic de către Centrul Sanger în vederea pregătirii pentru secvențiere. Fiecare comparație a arătat ordine concordante ale markerilor pentru >90% din markeri. Aproape toate discrepanțele s-au dovedit a fi izolate, pozițiile markerilor prezise de noi fiind, de obicei, adiacente celor din alte hărți și implicând, de obicei, markeri cu un sprijin statistic slab pentru plasare. În cele din urmă, am comparat ordinele markerilor noștri cu cele prezise de hărțile publicate anterior ale 1p35-36 (Jensen et al. 1997) și 1q41-43 (Weith et al. 1995). Ratele de concordanță pentru markerii cartografiați în comun au fost de 94% cu harta distală 1p și de 100% cu harta distală 1q. În general, aceste comparații sugerează cu tărie că metoda CompView este solidă și că variațiile izolate ale poziției markerilor se datorează cel mai probabil unor erori în generarea sau introducerea datelor, mai degrabă decât în construirea hărții.

Analiza cromozomului 1

Câteva aspecte ale rezultatelor cromozomului 1 au fost analizate în continuare. Dintre cele 289 de poziții ale cadrului RH, 182 (63%) au fost atribuite definitiv brațului scurt. Această suprareprezentare se datorează probabil numărului mai mare de markeri RH specifici 1p din RHdb, care, la rândul său, se datorează direcționării selective a 1p pentru generarea STS de către Centrul Sanger în cadrul eforturilor de secvențiere a cromozomului 1 (Gregory et al. 1998). Distanțele RH sunt măsurate în centiraze, care sunt în general considerate proporționale cu distanța fizică (Cox et al. 1990). Cu toate acestea, au fost observate distanțe de hartă RH umflate în cadrul regiunilor heterocromatice centromerice și adiacente 1q (pozițiile cadrului RHD1S2696-D1S3356; distanța medie 27,5 cR față de 12,7 cR pentru întregul cadru; P < 0,001), în concordanță cu observațiile anterioare pentru regiunile centromerice (Benham et al. 1989; Cox et al. 1990; Walter et al. 1994). Au fost observate mai multe regiuni suplimentare de distanță scăzută între markerul de cadru și CentiRay, mai ales în 1p35 și 1q43 (Fig. 1). Aceste regiuni pot reprezenta zone locale de slabă acoperire a markerilor sau de radiorezistență crescută, deoarece ambele regiuni se suprapun peste benzi citogenetice întunecate (a se vedea mai jos). Deși nu este încă disponibil un STS specific telomerului pentru 1p, un marker specific 1q identificat recent (TEL1q-10) (Hudson et al. 1995; Dib et al. 1996) este prezent în nivelul nostru RH, iar intervalul său de hartă include telomerul 1q. Va fi important să ancorăm viitoarele hărți RH cu markeri telomerici pe măsură ce aceștia devin disponibili.

Benzile citogenetice cu colorare Giemsa ușoară sunt în general considerate a fi bogate în transcripte (Bernardi 1989). Pentru a determina dacă acest principiu este valabil pentru cromozomul 1, am calculat numărul de transcripte care au fost atribuite în mod specific benzilor deschise și întunecate pe nivelul nostru citogenetic. Din 1883 de transcripte cartografiate la o singură bandă, 1663 (88,3 %) au fost atribuite benzilor luminoase (tabelul 3). După ce s-a ținut cont de dimensiunea relativă a fiecărei benzi, așa cum a fost determinată anterior prin măsurători ale lungimii fracționate (Francke și Oliver 1978), s-a constatat că, în medie, benzile ușoare au o probabilitate de 1,7 ori mai mare de a conține un transcript decât benzile întunecate de dimensiuni echivalente, banda ușoară 1q21 fiind cea mai bogată în transcripte. Cu toate acestea, au existat câteva excepții notabile de la tendința generală, inclusiv o densitate mare de transcripți pentru banda întunecată 1p31 și densități scăzute pentru benzile luminoase 1p32, 1p22, 1q23, 1q31 și 1q42.

Vezi acest tabel:

  • În această fereastră
  • Într-o fereastră nouă

Tabelul 3.

Compararea benzilor/markerilor citogenetici

.

Lasă un comentariu