Informácie

Ktoré zodpovedali normám, ktoré sa majú použiť pri výpočte CNA z exómových údajov s prístupom hĺbky čítania

Ktoré zodpovedali normám, ktoré sa majú použiť pri výpočte CNA z exómových údajov s prístupom hĺbky čítania


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Chcem použiť algoritmus hĺbky čítania na vyvolanie zmien počtu kópií (CNA) z údajov o sekvenovaní celého exómu (WES) konkrétneho nádoru.

Mám sadu vzoriek nádoru WES, z ktorých niektoré majú aj zodpovedajúcu normálnu vzorku. Moja otázka znie: bolo by efektívnejšie zavolať CNA pre každý nádor, celý súbor zhodných normálov alebo, ak sú k dispozícii, iba zodpovedajúcu zhodnú normálnu vzorku?

Myslel som si, že použitie iba jedného zodpovedajúceho normálu môže odhaliť iba somatické variácie, zatiaľ čo použitie celého súboru normálov by tiež zahrnovalo variácie zárodočných línií. Je to správne?

Akú najlepšiu stratégiu navrhujete?


Na detekciu zmien somatickej kópie nuber je najlepšie porovnať každú vzorku nádoru s jeho zodpovedajúcim normálom. Ak chcete zavolať CNV pre všetky svoje vzorky nádorov a niektoré nemajú zodpovedajúce normálne hodnoty, potom je zlúčenie všetkých normálnych BAM na vytvorenie referencie najlepším spôsobom, ako štandardizovať vaše telefonovanie.


Prístup krížiť-potom skombinovať: zlepšenie výkonu volania somatických variantov v celých exómových sekvenčných údajoch pomocou viacerých zarovnávačov a volajúcich

Bioinformatická analýza údajov o genomickom sekvenovaní na identifikáciu somatických mutácií vo vzorkách rakoviny zďaleka nedosahuje požadovanú robustnosť a štandardizáciu. V tejto štúdii sme vygenerovali celý súbor referenčných údajov o sekvenovaní exómov pomocou vzorky vzorky platinového genómu NA12878 a vyvinuli prístup kríženia-kombinovania (ITC) na zvýšenie presnosti volania jednonukleotidových variantov (SNV) a indelov v nádorovo normálnych pároch. Hodnotili sme vplyv zarovnania, rekalibrácie základnej kvality, vyvolávača mutácií a filtrovania na citlivosť a frekvenciu falošne pozitívnych výsledkov. Prístup ITC zvýšil citlivosť až na 17,1%bez zvýšenia miery falošne pozitívnych na megabázu (FPR/Mb) a jeho validita bola potvrdená v súbore klinických vzoriek.


Na tejto stránke sme uviedli výpočtové metódy súvisiace s detekciou CNV pomocou údajov o sekvenovaní celého genómu a celého exómu, aby používatelia mohli nájsť správne nástroje na volanie na CNV. Tieto CNV môžu byť vložené do nášho CNVannotatora na ďalšiu anotáciu.

Ako je zhrnuté na obrázku 1 nižšie, metódy detekcie CNV založené na NGS možno kategorizovať do piatich rôznych stratégií vrátane: (1) mapovania párového konca (PEM), (2) rozdeleného čítania (SR), (3) hĺbky čítania ( RD), (4) de novo zostavenie genómu (AS) a (5) kombinácia vyššie uvedených prístupov (CB).

Stratégia mapovania párového konca (PEM) detekuje CNV prostredníctvom nesúhlasne mapovaných čítaní. Nesúhlasné mapovanie sa vytvorí, ak je vzdialenosť medzi dvoma koncami čítacieho páru výrazne odlišná od priemernej veľkosti vložky. Metódy založené na rozdelenom čítaní (SR) naopak používajú na identifikáciu malých CNV neúplne mapované čítanie z každého páru čítania. Prístup založený na hĺbke čítania (RD) deteguje CNV počítaním počtu čítaní mapovaných do každej genómovej oblasti. Na obrázku sú čítania mapované do troch oblastí exómu. Prístup na báze zostavy (AS) detekuje CNV pomocou mapovania kontigov do referenčného genómu. Kombinatorický prístup často kombinuje výsledky z vyššie uvedených štyroch metód, tu uvádzame príklad na kombináciu informácií RD a PEM na detekciu CNV. Rôzne stratégie majú skutočne svoje výhody a obmedzenia. Aj keď v každej kategórii došlo k veľkému pokroku, žiadna z týchto metód nedokázala komplexne detegovať všetky typy CNV. Ako je zhrnuté v tabuľkách 1-4 nižšie, existuje 6 nástrojov založených na PEM, 4 nástroje založené na SR, 26 nástrojov založených na RD, 3 nástroje založené na AS a 9 nástrojov na kombinatorické prístupy.

Tabuľka 1 - Súhrn mapovania s párovaným koncom (PEM), rozdeleného čítania (SR) a de novo montážne (AS) nástroje na detekciu CNV pomocou údajov NGS

Predpovedanie inzercií, delécií, inverzií, inter- a intra-chromozomálnych translokácií

Použitie modelov chýb založených na simulácii na volanie SV

Detekcia vložení, vymazaní a inverzií

Zarovnanie viacerých vzoriek súčasne na získanie presných SV pomocou modelu maximálnej šetrnosti

Geometrický prístup pre klasifikáciu a porovnávanie štruktúrnych variantov

Použitie PEM na detekciu tandemových duplikácií

Algoritmus dynamického programovania využívajúci optimálne zarovnania s excíziou medzery na detekciu bodov prerušenia

Použitie prístupu vzorového rastu na identifikáciu hraničných bodov rôznych SV

Lokalizácia SV z cielených sekvenčných údajov

Kalibrácia volania SV pomocou realistických modelov chýb

Volanie CNV zo spoločne zostavených genómov a odhad počtu kópií pomocou modelu Poissonovej zmesi

Pomocou zarovnania de novo zostavený genóm na vytvorenie de Bruijnovho grafu na detekciu SV

Lokálne zostavenie SV pomocou algoritmu iteratívnej zostavy smerovania grafov (TIGRA).

a Špecifický vstupný formát pre VariationHunter vrátane čítaní s viacnásobným zarovnaním.

b Formát súboru z MAQ mapview.

c Súbor obsahujúci zistené variácie štruktúry pomocou iných nástrojov.

Tabuľka 2 - Nástroje založené na hĺbke čítania (RD) na detekciu CNV pomocou údajov o sekvenovaní celého genómu

Detekcia bodov prerušenia CNV pomocou masívne paralelných údajov o sekvencii

Identifikácia CNV pomocou rozdielu pozorovaných pomerov počtu kópií

Detekcia CNV pomocou eventuálneho testovacieho algoritmu na normalizovanú hĺbku čítania pokrytia

Použitie bayesovského informačného kritéria na detekciu CNV na základe jedinečne zmapovaných čítaní

Použitie variability medzi bunkami flow-cell-to-flowcell v rakovinových a kontrolných vzorkách na zníženie falošných poplachov

Modelovanie hĺbok čítania naprieč vzorkami v každej genómovej polohe pomocou zmiešaného Poissonovho modelu

Populačný prístup k detekcii bežných CNV pomocou údajov o hĺbke čítania

Použitie zarážok na zvýšenie rozlíšenia detekcie CNV z čítaní s nízkym pokrytím

Identifikácia CNV porovnaním zhodného nádoru a kontrolnej vzorky

Použitie prístupu so stredným posunom a vykonanie viacnásobného rozdelenia šírky pásma a korekcie GC

Identifikácia úrovne kontaminácie normálnymi bunkami

Zistenie CNV z viacerých vzoriek

Nástroj na detekciu veľkých segmentových duplikácií a vložení

Predpovedanie zlomových bodov CNV v rozlíšení párov báz

konsenzuálna sekvencia zo SAMtools

a Nástroje vyžadujú ako vstup zodpovedajúcu vzorku riadenia prípadov.

b Nástroje používajú ako vstup viacero vzoriek.

Tabuľka 3 - Súhrn bioinformatických nástrojov na detekciu CNV pomocou údajov o sekvenovaní exómov

Formáty SAM/BAM/pileup/ Eland, BED, SOAP, arachne, psi (BLAT) a Bowtie

Oprava počtu kópií pomocou zhodných vzoriek prípadov a kontrolných vzoriek alebo obsahu GC

Použitie rozkladu singulárnych hodnôt na normalizáciu počtu kópií a zabránenie predpojatosti dávok integráciou viacerých vzoriek

Využíva analýzu hlavných komponentov na normalizáciu počtu kópií a HMM na detekciu CNV

Použitie hĺbky čítania a frekvencií alel B z exómnych sekvenčných údajov na detekciu CNV a LOH

Porovnanie log-pomerov základnej úrovne vypočítaných z hĺbky čítania medzi vzorkami prípadu a kontrolnými vzorkami

Použitie HMM na identifikáciu CNV

Vyvolávanie variantov vrátane CNV z údajov o sekvenovaní exóm

Použitie hĺbky čítania vzorky prípadu ako lineárnej funkcie kontrolnej vzorky na detekciu CNV

Pomocou párového porovnania normalizovanej hĺbky čítania v každej polohe na odhad CNV

Identifikácia a genotypizácia bežných CNV spojených s komplexným ochorením

Použitie beta-binomického modelu na prispôsobenie hĺbky čítania údajov WES

Control-FREEC prijíma ako vstup buď zodpovedajúce vzorky prípadovej kontroly alebo jednu vzorku.

b Nástroje používajú ako vstup viacero vzoriek.

c Nástroje vyžadujú ako vstup zodpovedajúce vzorky prípadu a kontroly.

Tabuľka 4 - Kombinatorické bioinformatické nástroje na detekciu CNV pomocou údajov NGS

nesúhlasné mapovania so spárovaným koncom

a RD: prístup založený na hĺbke čítania PEM: prístup mapovania s párovaným koncom SR: prístup s deleným čítaním AS: de novo montážny prístup.

1. Chen K, Wallis JW, McLellan MD, Larson DE, Kalicki JM, Pohl CS, McGrath SD, Wendl MC, Zhang QY, Locke DP a ďalší: BreakDancer: algoritmus na mapovanie genómových štrukturálnych variácií s vysokým rozlíšením. Metódy Nat 2009, 6:677- 681.

2. Korbel JO, Abyzov A, Mu XJ, Carriero N, Cayting P, Zhang ZD, Snyder M, Gerstein MB: PEMer: výpočtový rámec s modelmi chýb založenými na simulácii na odvodzovanie variantov genómovej štruktúry z masívnych údajov o párovom sekvenovaní. Genome Biol 2009, 10:R23.

3. Hormozdiari F, Hajirasouliha I, Dao P, Hach F, Yorukoglu D, Alkan C, Eichler EE, Sahinalp SC: VariationHunter ďalšej generácie: kombinatorické algoritmy na objavovanie vkladania transpozónov. Bioinformatika 2010, 26:i350-357.

4. Hormozdiari F, Hajirasouliha I, McPherson A, Eichler EE, Sahinalp SC: Simultánne objavenie štrukturálnych variácií medzi viacerými sekvenovanými genómami s párovým koncom. Genome Res 2011, 21:2203-2212.

5. Sindi S, Helman E, Bashir A, Raphael BJ: Geometrický prístup pre klasifikáciu a porovnávanie štruktúrnych variantov. Bioinformatika 2009, 25:i222-230.

6. Mills RE, Walter K, Stewart C, Handsaker RE, Chen K, Alkan C, Abyzov A, Yoon SC, Ye K, Cheetham RK a kol. Mapovanie variácií počtu kópií pomocou sekvenovania genómu na úrovni populácie. Príroda 2011, 470:59-65.

7. Abyzov A, Gerstein M: VEK: definovanie hraničných bodov genómových štruktúrnych variantov v jednonukleotidovom rozlíšení prostredníctvom optimálnych zarovnaní s excíziou medzery. Bioinformatika 2011, 27:595-603.

8. Ye K, Schulz MH, Long Q, Apweiler R, Ning Z: Pindel: prístup k rastu vzorov na detekciu bodov zlomu veľkých delécií a stredne veľkých inzercií z krátkych čítaní so spárovaným koncom. Bioinformatika 2009, 25:2865-2871.

9. Abel HJ, Duncavage EJ, Becker N, Armstrong JR, Magrini VJ, Pfeifer JD: SLOPE: rýchla a presná metóda na lokalizáciu štrukturálnych variácií, ktoré nie sú SNP, z cielených údajov sekvencie ďalšej generácie. Bioinformatika 2010, 26:2684-2688.

10. Zhang ZD, Du J, Lam H, Abyzov A, Urban AE, Snyder M, Gerstein M: Identifikácia genómových indexov a štruktúrnych variácií pomocou rozdelených čítaní. BMC genomika 2011, 12:375.

11. Nijkamp JF, van den Broek MA, Geertman JM, Reinders MJ, Daran JM, de Ridder D: De novo detekcia variácií počtu kópií spoločnou montážou. Bioinformatika 2012.

12. Iqbal Z, Caccamo M, Turner I, Flicek P, McVean G: Zostavenie de novo a genotypizácia variantov pomocou farebných de Bruijnových grafov. Nat Genet 2012, 44:226-232.

13. Chiang DY, Getz G, Jaffe DB, O'Kelly MJ, Zhao X, Carter SL, Russ C, Nusbaum C, Meyerson M, Lander ES: Mapovanie zmien počtu kópií vo vysokom rozlíšení s masívne paralelným sekvenovaním. Natove metódy 2009, 6:99-103.

14. Xie C, Tammi MT: CNV-seq, nová metóda na detekciu variácií počtu kópií pomocou vysoko výkonného sekvenovania. Bioinformatika BMC 2009, 10:80.

15. Yoon S, Xuan Z, Makarov V, Ye K, Sebat J: Citlivá a presná detekcia variantov počtu kópií pomocou hĺbky čítania pokrytia. Genome Res 2009, 19:1586-1592.

16. Xi R, Hadjipanayis AG, Luquette LJ, Kim TM, Lee E, Zhang J, Johnson MD, Muzny DM, Wheeler DA, Gibbs RA a kol.: Detekcia variácií počtu kópií v dátach sekvenovania celého genómu pomocou bayesovského informačného kritéria. Proc Natl Acad Sci U S A 2011, 108:E1128-1136.

17. Ivakhno S, Royce T, Cox AJ, Evers DJ, Cheetham RK, Tavare S: CNAseg-nový rámec pre identifikáciu zmien počtu kópií pri rakovine z údajov o sekvenovaní druhej generácie. Bioinformatika 2010, 26:3051-3058.

18. Klambauer G, Schwarzbauer K, Mayr A, Clevert DA, Mitterecker A, Bodenhofer U, Hochreiter S: cn.MOPS: zmes Poissonsov na objavovanie variácií počtu kópií v sekvenčných údajoch novej generácie s nízkou mierou falošných objavov. Nucleic Acids Res 2012, 40:e69.

19. Magi A, Benelli M, Yoon S, Roviello F, Torricelli F: Detekcia bežných variantov počtu kópií vo vysoko výkonných sekvenčných údajoch pomocou algoritmu JointSLM. Nucleic Acids Res 2011, 39:e65.

20. Miller CA, Hampton O, Coarfa C, Milosavljevic A: ReadDepth: paralelný balík R na zisťovanie zmien počtu kópií pri čítaní krátkych sekvencií. PLoS One 2011, 6:e16327.

21. Kim TM, Luquette LJ, Xi R, Park PJ: rSW-seq: algoritmus na detekciu zmien počtu kópií v údajoch hlbokého sekvenovania. Bioinformatika BMC 2010, 11:432.

22. Abyzov A, Urban AE, Snyder M, Gerstein M: CNVnator: prístup k objavovaniu, genotypu a charakterizácii typických a atypických CNV zo sekvenovania genómu rodiny a populácie. Genome Res 2011, 21:974-984.

23. Gusnanto A, Wood HM, Pawitan Y, Rabbitts P, Berri S: Oprava veľkosti genómu rakoviny a obsahu nádorových buniek umožňuje lepší odhad zmien počtu kópií z údajov sekvencie ďalšej generácie. Bioinformatika 2012, 28:40-47.

24. Zhang Q, Ding L, Larson DE, Koboldt DC, McLellan MD, Chen K, Shi X, Kraja A, Mardis ER, Wilson RK a kol. CMDS: populačná metóda na identifikáciu opakujúcich sa aberácií počtu kópií DNA pri rakovine z údajov s vysokým rozlíšením. Bioinformatika 2010, 26:464-469.

25. Alkan C, Kidd JM, Marques-Bonet T, Aksay G, Antonacci F, Hormozdiari F, Kitzman JO, Baker C, Malig M, Mutlu O, et al: Personalizované mapy počtu kópií a segmentové duplikácie pomocou sekvenovania ďalšej generácie. Nat Genet 2009, 41:1061-1067.

26. Wang Z, Hormozdiari F, Yang W-Y, Halperin E, Eskin E: CNVeM: Detekcia variácií počtu kópií pomocou neistoty mapovania čítania. In Výskum v oblasti výpočtovej molekulárnej biológie. Objem 7262. Upravil Chor B: Springer Berlin / Heidelberg 2012: 326-340: Prednášky z informatiky].

27. Boeva ​​V, Zinovyev A, Bleakley K, Vert JP, Janoueix-Lerosey I, Delattre O, Barillot E: Bezkontrolné volanie zmien počtu kópií v údajoch s hlbokým sekvenovaním pomocou normalizácie obsahu GC. Bioinformatika 2011, 27:268-269.

28. Krumm N, Sudmant PH, Ko A, O'Roak BJ, Malig M, Coe BP, Quinlan AR, Nickerson DA, Eichler EE: Detekcia a genotypizácia variácií počtu kópií z údajov sekvencie exómu. Genome Res 2012, 22:1525-1532.

29. Fromer M, Moran JL, Chambert K, Banks E, Bergen SE, Ruderfer DM, Handsaker RE, McCarroll SA, O'Donovan MC, Owen MJ, et al: Zistenie a štatistická genotypizácia variácií počtu kópií z hĺbky sekvenovania celého Exome. Am J Hum Genet 2012, 91:597-607.

30. Sathirapongsasuti JF, Lee H, Horst BA, Brunner G, Cochran AJ, Binder S, Quackenbush J, Nelson SF: Variácia počtu kópií a strata detekcie heterozygotnosti založená na sekvenovaní Exome: ExomeCNV. Bioinformatika 2011, 27:2648-2654.

31. Li J, Lupat R, Amarasinghe KC, Thompson ER, Doyle MA, Ryland GL, Tothill RW, Halgamuge SK, Campbell IG, Gorringe KL: CONTRA: analýza počtu kópií pre cielené opätovné sekvenovanie. Bioinformatika 2012, 28:1307-1313.

32. Ramachandran A, Micsinai M, Pe'er I: CONDEX: Detekcia počtu kópií v sekvenciách exome. In Bioinformatics and Biomedicine Workshops (BIBMW), 2011 IEEE International Conference on 12. – 15. novembra 2011. 2011: 87-93.

33. Deng X: SeqGene: komplexné softvérové ​​riešenie na ťažbu údajov o sekvenovaní exómov a transkriptómov. Bioinformatika BMC 2011, 12:267.

34. Rigaill GJ, Cadot S, Kluin RJ, Xue Z, Bernards R, Majewski IJ, Wessels LF: Regresný model na odhad počtu kópií DNA použitý na zachytenie sekvenčných údajov. Bioinformatika 2012, 28:2357-2365.

35. Koboldt DC, Zhang Q, Larson DE, Shen D, McLellan MD, Lin L, Miller CA, Mardis ER, Ding L, Wilson RK: VarScan 2: objav somatickej mutácie a zmeny počtu kópií pri rakovine sekvenovaním exómu. Genome Res 2012, 22:568-576.

36. Coin LJ, Cao D, Ren J, Zuo X, Sun L, Yang S, Zhang X, Cui Y, Li Y, Jin X, Wang J: Sekvenčný reťazec exómu na identifikáciu a genotypizáciu bežných CNV spojených s ochorením s aplikáciou na psoriázu. Bioinformatika 2012, 28:i370-i374.

37. Plagnol V, Curtis J, Epstein M, Mok KY, Stebbings E, Grigoriadou S, Wood NW, Hambleton S, Burns SO, Thrasher AJ, et al: Robustný model pre čítané údaje o počte v experimentoch exomového sekvenovania a dôsledky pre volanie variantov počtu kópií. Bioinformatika 2012, 28:2747-2754.

38. Hajirasouliha I, Hormozdiari F, Alkan C, Kidd JM, Birol I, Eichler EE, Sahinalp SC: Detekcia a charakterizácia inzercií nových sekvencií pomocou párovaného sekvenovania ďalšej generácie. Bioinformatika 2010, 26:1277-1283.

39. Quinlan AR, Clark RA, Sokolova S, Leibowitz ML, Zhang Y, Hurles ME, Mell JC, Hall IM: Mapovanie v celom genóme a zostavovanie zlomových bodov štrukturálnych variantov v myšacom genóme. Genome Res 2010, 20:623-635.

40. Medvedev P, Fiume M, Dzamba M, Smith T, Brudno M: Detekcia variácií počtu kópií pomocou párovaných krátkych čítaní. Genome Res 2010, 20:1613-1622.

41. Sindi SS, Onal S, Peng LC, Wu HT, Raphael BJ: Integračný pravdepodobnostný model na identifikáciu štrukturálnych variácií v sekvenčných údajoch. Genome Biol 2012, 13:R22.

42. Handsaker RE, Korn JM, Nemesh J, McCarroll SA: Objav a genotypizácia štruktúrneho polymorfizmu genómu sekvenovaním v populačnom meradle. Nat Genet 2011, 43:269-276.

43. Zeitouni B, Boeva ​​V, Janoueix-Lerosey I, Loeillet S, Legoix-ne P, Nicolas A, Delattre O, Barillot E: SVDetect: nástroj na identifikáciu genomických štrukturálnych variácií z údajov o sekvenovaní so spárovaným koncom a párom. Bioinformatika 2010, 26:1895-1896.

44. Qi J, Zhao F: inGAP-sv: nová schéma na identifikáciu a vizualizáciu štrukturálnych variácií z údajov mapovania párovaných koncov. Nucleic Acids Res 2011, 39:W567-575.

45. Zhang J, Wu Y: SVseq: prístup na detekciu presných hraničných bodov delécií s údajmi sekvencie s nízkym pokrytím. Bioinformatika 2011, 27:3228-3234.

46. ​​Nord AS, Lee M, King MC, Walsh T: Presná a presná identifikácia CNV z cielených vysokovýkonných sekvenčných údajov. BMC genomika 2011, 12:184.

Všetky vyššie uvedené obsahy sú revidované z "Min Zhao, Qingguo Wang, Quan Wang, Peilin Jia, Zhongming Zhao: Výpočtové nástroje na detekciu variácií počtu kópií (CNV) pomocou sekvenčných údajov novej generácie: funkcie a perspektívy. BMC Bioinformatics. Akceptované".

Copyright & copy 2016 -Súčasnosť - Centrum zdravotníckych vied University of Texas v Houstone Práva vyhradené
Zásady stránok | Štát Texas


VÝSLEDKY

Počet prečítaní WES v oblastiach mimo cieľa

Na štúdium distribúcie údajov zarovnaných pozdĺž genómu sme použili súbor údajov prieskumu WES (pozri Materiály a metódy) vyrobený z 30 sekvenčných experimentov a rozdelili sme genóm do oblastí troch rôznych kategórií: In-Target, Off-Target alebo Ohraničujúce. Po Asanovi (39) sme považovali za Bokom úseky 200 bp susediace s každou z hraníc cieľových oblastí. 30 experimentov WES bolo vybraných na vyváženie troch súprav na obohatenie (10 SureSelect, 10 SeqCap a 10 TruSeq) a s diverzifikovanou priepustnosťou sekvenovania, aby mali všeobecný prehľad o distribúcii čítaní. Všetky čítania boli zarovnané s ľudským referenčným genómom (hg19). Číta prekrývajúce sa cieľové oblasti každej súpravy exome (V cieli), číta okolité obohatené oblasti (Bokom) a číta mapovanie mimo týchto oblastí (Mimo cieľa) sa počítali oddelene (ďalšie podrobnosti nájdete v doplnkovej časti 2.1). Napriek variabilite priepustnosti sekvenovania je celkové priemerné percento prečítaní, ktoré sa jednoznačne mapujú do mimo cieľových oblastí, takmer 30% pre všetky tri rôzne súpravy na obohatenie (pozri obrázok 1). Konkrétne 23–43 % prečítaní pre TruSeq, 20–50 % pre SeqCap a 21–35 % pre SureSelect (podrobnosti o vzorke nájdete v doplnkovom obrázku S1).

Štatistiky mapovania. Distribúcia mapovaných hodnôt do cieľových, susediacich a mimocieľových oblastí je znázornená pre 30 vzoriek WES patriacich do súboru údajov prieskumu. Sú rozdelené podľa súpravy na obohatenie.TS62M uvádza pre Illumina TruSeq Exome Enrichment 62 Mb, SS50M je Agilent SureSelect Human All Exon 50 Mb a SCV2 je NimbleGen SeqCap EZ Exome v2.0 44 Mb. Absolútny a relatívny priemer mapovaných čítaní sú uvedené vľavo a vpravo.

Štatistiky mapovania. Distribúcia mapovaných hodnôt do cieľových, susediacich a mimocieľových oblastí je znázornená pre 30 vzoriek WES patriacich do súboru údajov prieskumu. Sú rozdelené podľa súpravy na obohatenie. Štáty TS62M pre Illumina TruSeq Exome Obohatenie 62 Mb, SS50M je Agilent SureSelect Human All Exon 50 Mb a SCV2 je NimbleGen SeqCap EZ Exome v2.0 44 Mb. Absolútny a relatívny priemer mapovaných čítaní sú uvedené vľavo a vpravo.

Aby sme využili toto veľké množstvo extra-cieľových čítaní, študovali sme vlastnosti distribúcie RC v regiónoch mimo cieľa a ako je ovplyvnená klasickými zdrojmi skreslenia, ako je obsah GC a mapovateľnosť. Za týmto účelom sme vypočítali WMRC (pozri Materiály a metódy) pre rôzne veľkosti okien a zistili sme, že sú podobne ovplyvnené lokálnym obsahom nukleotidov a jedinečnosťou sekvencie v oblastiach mimo cieľa (pozri obrázok 2, panel A a C pre Cieľový a doplnkový obrázok S2 panel C a E pre In-Target), ako to už bolo preukázané pre cieľové regióny v našej predchádzajúcej štúdii (20). Stredný normalizačný prístup umožnil zmierniť skreslenie obsahu GC a jedinečnosti v oblastiach mimo cieľa (obrázok 2, panel B a D), ako aj v cieľových oblastiach (doplnkový obrázok S2 panel D a F).

Distribúcia WMRC pred a po normalizácii v regiónoch mimo cieľa. Vplyv mapovateľnosti a percenta obsahu GC na WMRC sú zobrazené v (A) a (C.) a porovnané s normalizovanými signálmi (B) a (D).

Distribúcia WMRC pred a po normalizácii v regiónoch mimo cieľa. Vplyv mapovateľnosti a percentuálneho obsahu GC na WMRC je uvedený v (A) a (C.) a porovnané s normalizovanými signálmi (B) a (D).

Rozlíšenie čísla kópie

Aby sme zmerali schopnosť našej metódy správne predpovedať absolútny počet kópií DNA každej genómovej oblasti, vypočítali sme normalizovanú WMRC pre oblasti In-Target a Off-Target z ôsmich údajov WES z projektu 1000 Genomes Project. Pomer normalizovaného WMRC medzi každým testom a kontrolou (NA10847) sa porovnal s pomerom počtu kópií v oblastiach odvodeným zo štúdií McCarroll a Conrad (35, 36). McCarroll identifikoval v priemere 112 amplifikácií (s veľkosťou približne 50 Kb v priemere) a 123 delécií (s veľkosťou približne 33 Kb v priemere) na vzorku (doplnková tabuľka S2), zatiaľ čo Conrad v týchto vzorkách rozpoznal 356 duplikácií a 441 delécií ( s veľkosťou v priemere okolo 10 Kb pre oba varianty).

Profily počtu kópií na základe WMRC sú vysoko korelované s McCarrollovou predikciou pre cieľové aj mimo cieľové oblasti (Pearson R = 0,9 a R = 0,86, v uvedenom poradí, pozri obrázok 3 panel B a C) a korelácia kombinovaných WMRC dosahuje R = 0,89 (obrázok 3, panel A). Je zaujímavé, že analýzy vykonané na súbore údajov Conrad demonštrujú, že použitie čítaní mimo cieľa môže zlepšiť predikčnú schopnosť údajov RC: korelácia medzi skutočným CN a WMRC pre regióny mimo cieľa je väčšia ako pre regióny v rámci cieľa (doplnkový obrázok S3 ). Na záver tieto výsledky jasne demonštrujú schopnosť WMRC presne predpovedať počty kópií z údajov WES v oblastiach mimo cieľa, ako aj v oblastiach v rámci cieľa.

Skopírujte číselnú koreláciu s hovormi McCarroll. Boxplots sumarizujú schopnosť údajov WMRC predpovedať presný počet kópií DNA oblasti CNV. Normalizovaný pomer WMRC bol vypočítaný pre osem vzoriek s použitím NA10847 ako kontroly a porovnaný s pomermi počtu kópií z McCarrollovej charakterizácie. R je Pearsonov korelačný koeficient. (A) všetky genómové oblasti, (B) Regióny v cieli a (C.) Regióny mimo cieľa.

Skopírujte koreláciu čísel s hovormi McCarroll. Boxplots sumarizujú schopnosť údajov WMRC predpovedať presný počet kópií DNA oblasti CNV. Normalizovaný pomer WMRC bol vypočítaný pre osem vzoriek s použitím NA10847 ako kontroly a porovnaný s pomermi počtu kópií z McCarrollovej charakterizácie. R je Pearsonov korelačný koeficient. (A) všetky genómové oblasti, (B) Regióny v cieli a (C.) Mimocieľové oblasti.

Analýza údajov 1 KG

Aby sa vyhodnotila schopnosť našej metódy identifikovať CNV v populačnej štúdii, analyzovali sme údaje WES kohorty 100 zdravých jedincov z katalógu projektu 1000 genómov. Analyzovali sme rovnaký súbor údajov aj pomocou ďalších štyroch rôznych nástrojov, medzi ktoré patrí XHMM (25), CoNIFER (23), nedávno publikovaný CODEX (21) a CopywriteR (27) pomocou kolekcií všetkých genómových CNV genotypizovaných HapMap alebo 1KG Pilot projekty pre kontrolovaných 100 osôb ako zlatý štandard (podrobnosti nájdete v doplnkových častiach 2.2 a 3).

Na porovnanie výkonnosti piatich metód pri identifikácii (i) všetkých genómových CNV a (ii) CNV v cieľových oblastiach sme vypočítali mieru presnosti (P) a vybavovania (R). Pre každý nástroj P zodpovedá časti volaní prekrývajúcich sa referenčný súbor (TP) a celkovému počtu volaní (TP + FP), zatiaľ čo R je zlomok volaní TP vzhľadom na celý referenčný súbor CNV (TP + FN ). Na porovnanie na genomickej úrovni pozostával zlatý štandard z celého súboru CNV identifikovaných pilotnými projektmi HapMap/1KG pre vybraných 100 jedincov, pričom na meranie výkonnosti v cielených exónoch bol zlatý štandard obmedzený na HapMap/1KG Pilot CNV prekrývajúce sa oblasti pokryté každou súpravou na obohatenie. Na klasifikáciu hovorov uskutočnených každým nástrojom sme použili prístup, ktorý predtým opísal Yoon a kol. (40) a Magi a kol. ( 29) pre klasifikáciu hovorov: zistený segment sa považuje za skutočne pozitívny (TP), ak sa aspoň 10 % prekrýva so zlatým štandardom CNV pre rovnakú vzorku identifikovanú pilotom HapMap/1KG a považuje sa za falošne pozitívny (FP ) ak nedochádza k prekrývaniu alebo je menšie ako 10 %. Keďže schopnosť detekcie oblastí so zmeneným počtom kópií je ovplyvnená dĺžkou segmentu, rozlíšili sme tri triedy udalostí: Malé (dĺžka ≤ 20 Kb), Stredné (dĺžka > 20 Kb a ≤ 100 Kb) a Veľké (dĺžka > 100 Kb). Obrázok 4 sumarizuje výsledky pomocou F-opatrenia (harmonický priemer presnosti a vybavenosti). Náš nástroj prevádzkujeme s 3 rôznymi veľkosťami okien pre mimocieľové oblasti (5 kB, 10 kB, 20 kB) a najlepšie výsledky sme získali s oknami s veľkosťou 20 kB. Celkovo EXCAVATOR2 prekonáva všetky ostatné nástroje s najvyšším meradlom F, pokiaľ ide o sady volacích programov HapMap a 1KG Pilot (obrázok 4, panel (A, C), respektíve (B, D)). EXCAVATOR2 má konkrétne najvyššiu mieru presnosti pri identifikácii genomických CNV (panel A pre HapMap, panel B pre 1KG pilot) a tiež pri identifikácii CNV, ktoré sa prekrývajú iba s cielenými exónovými oblasťami (panel C pre HapMap, panel D pre 1KG pilot). CopywriteR ukazuje vyššie stiahnutie ako EXCAVATOR2 iba pri veľkých a stredných genomických udalostiach v súbore údajov HapMap (panel A), zatiaľ čo miery vyvolania CODEX sú vyššie iba vzhľadom na CNV, ktoré prekrývajú cielené exóny pre všetky okrem veľkých udalostí (panel C a D). Úrovne presnosti XHMM a CONIFER sú podobné úrovniam kopírovania CopywriteR a CODEX, ale s výrazne nižšími mierami vybavovania. Ako sa očakávalo, najlepší absolútny výkon z hľadiska presnosti a stiahnutia z trhu zahŕňa veľké CNV. Je pozoruhodné, že obrázok 4 tiež ukazuje, že dva súbory dát zlatého štandardu použité v tomto porovnaní poskytujú rôzne výsledky z hľadiska výkonu algoritmu. Najmä takmer všetky nástroje získavajú nižšiu citlivosť pri rozpoznávaní stredných a malých CNV z HapMap ako z 1KG Pilot. Tieto rozdiely možno pripísať najmä odlišnej povahe udalostí CNV obsiahnutých v týchto dvoch súboroch. Súbor údajov HapMap bol vygenerovaný pomocou maticových platforiem Affimetrix 6.0 a Illumina 1M, zatiaľ čo súbor údajov 1KG Pilot obsahuje štruktúrne varianty identifikované s tromi rôznymi výpočtovými prístupmi (delené čítanie, spárovaný koniec a hĺbka pokrytia) z údajov o sekvenovaní celého genómu s nízkym pokrytím. .

CNV volá hodnotenie pre súbor údajov o populácii. Udalosti CNV identifikované v 100 vzorkách z katalógu 1000 Genomes Project pomocou kódov Codex, CONIFER, CopywriteR, EXCAVATOR2 a XHMM boli overené vzhľadom na (A a C.) HapMap Consortium a (B a D) 1KG pilotné genotypové volania. Výsledky sú uvedené z porovnania so všetkými (A a B) genómové CNV a obmedzené len na cieľové oblasti (C a D). Grafy presného vyvolania sú znázornené svetlošedými krivkami predstavujúcimi úrovne F-miery. Udalosti CNV sa rozlišujú na základe ich veľkosti (malé: < 20 kb, stredné > 20 kb a < 100 kb a veľké > 100 kb).

CNV požaduje vyhodnotenie súboru údajov o populácii. Udalosti CNV identifikované v 100 vzorkách z katalógu 1000 projektov Genomes pomocou Codex, CONIFER, CopywriteR, EXCAVATOR2 a XHMM boli validované vzhľadom na (A a C.) HapMap Consortium a (B a D) 1KG Pilotné genotypizačné hovory. Výsledky sú uvedené z porovnania so všetkými (A a B) genómových CNV a obmedzené iba na zacielené oblasti (C a D). Grafy presného vyvolania sú znázornené svetlošedými krivkami predstavujúcimi úrovne F-miery. Udalosti CNV sa rozlišujú na základe ich veľkosti (malé: < 20 kb, stredné > 20 kb a < 100 kb a veľké > 100 kb).

Somatické hovory

Aby sme zhodnotili, či naša metóda môže poskytnúť pohľad na genomické štúdie rakoviny, použili sme EXCAVATOR2 a CopywriteR na analýzu údajov WES z 28 vzoriek rakoviny uroteliálneho močového mechúra. Na meranie presnosti a rozlíšenia týchto dvoch metód pri objavovaní CNV boli rovnaké vzorky tiež genotypované F.X. Real a jeho skupina používajú pole SNP Illumina HumanOmniExpress s vysokým rozlíšením. Najprv sme zistili, že CopywriteR produkoval signál charakterizovaný vyšším rozptylom ako EXCAVATOR2 (pozri obrázok 5, panel B pre EXCAVATOR2 a C pre CopywriteR) v porovnaní so poľom SNP (obrázok 5, panel A). Na meranie hladiny hluku generovaného týmito dvoma prístupmi sme vypočítali hodnoty mediánu absolútnej odchýlky (MAD) ich segmentovaných signálov. Ako je znázornené na obrázku 5D, CopywriteR MAD (priemer = 0,43, rozsah = 0,02–0,98) bol vyšší ako v prípade EXCAVATOR2 (priemer = 0,26, rozsah = 0,13–0,65), zatiaľ čo priemerný MAD pre pole SNP bol menší na 0,09 (pozri Obrázok 5D). To možno pripísať najmä normalizačným prístupom prijatým týmito dvoma nástrojmi a schopnosti segmentačných algoritmov rozlišovať medzi skutočnými biologickými signálmi a experimentálnym šumom. Okrem toho sú vzorky nádorov charakterizované klonálnou heterogenitou a somatické CNV patriace k subklonom s rôznymi percentami produkujú signály, ktoré sa môžu zamieňať s experimentálnym šumom normálneho stavu kópie. P a R teda nie sú najvhodnejšou štatistikou na porovnanie somatických CNV so zlatým štandardom poľa SNP. Preto sme študovali koreláciu medzi profilmi segmentovanými v poli SNP a profilmi odvodenými pomocou EXCAVATOR2 a CopywriteR pozdĺž genómu. Za týmto účelom sme pre každý párovaný nádor/kontrolné vzorky postavili vedľa seba strednú hodnotu každej oblasti segmentovanej naším nástrojom a nástrojom CopywriteR (pozri doplnkové body 2.3 a 3) so strednými hodnotami pomeru log2 signálu poľa SNP a vypočítali sme globálne korelácie a korelácie veľkosti CNV. Tabuľka na obrázku 5E ukazuje, že segmentované profily odvodené pomocou EXCAVATOR2 dobre korelujú s profilmi z poľa SNP a prekonávajú CopywriteR bez ohľadu na veľkosť CNV. Okrem toho použitie kombinovaných signálov z In- a Off-Target umožňuje našej metóde lepšie detegovať CNV v oblastiach bohatých na exóny a byť presnejšia pri detekcii bodov zlomu vzhľadom na CopywriteR. Ako príklad sme uviedli 20 Kb deléciu zahŕňajúcu oblasť bohatú na exóny detegovanú poľom SNP (pozri panel F na obrázku 5), ktorá bola správne identifikovaná pomocou EXCAVATOR2 s podobnými hraničnými bodmi (panel G), ale CopywriteR (panel H) úplne vynechaná ). Ďalšie príklady sú zobrazené na doplnkovom obrázku S4.

Analýza súboru somatických údajov. Celkom 14 párov vzoriek tumoru/kontroly WES rakoviny uroteliálneho močového mechúra bolo analyzovaných pomocou EXCAVATOR2 a CopywriteR a výsledky boli porovnané s genotypizáciou poľa SNP. Profily počtu kópií pre chromozóm 5 pacienta 251 s hodnotami segmentácie vyznačenými červenou farbou sú uvedené pre (A) Pole SNP, (B) RÝPADLO2 a (C.) CopywriteR. Hodnoty MAD pre všetkých 14 párov vzoriek sú uvedené v (D). Stôl (E) ukazuje hodnoty Spearmanovho korelačného koeficientu pre rôzne veľkosti CNV medzi profilmi založenými na poli a profilmi vyplývajúcimi z EXCAVATOR2 a CopywriteR. Nakoniec sa „zväčšená“ oblasť obsahujúca potenciálnu deléciu v chromozóme 5 pacienta 64 zobrazuje s profilmi CN a hovormi od (F) Pole SNP, (G) EXCAVATOR2 a (H) CopywriteR.

Analýza súboru somatických údajov. Celkovo sa analyzovalo 14 párov vzoriek WES tumor/kontrola rakoviny urotelového močového mechúra pomocou EXCAVATOR2 a CopywriteR a výsledky sa porovnali s genotypizáciou SNP-array. Profily počtu kópií pre chromozóm 5 pacienta 251 s hodnotami segmentácie vyznačenými červenou farbou sú uvedené pre (A) Pole SNP, (B) RÝPADLO2 a (C.) CopywriteR. Hodnoty MAD pre všetkých 14 párov vzoriek sú uvedené v (D). Tabuľka (E) ukazuje hodnoty Spearmanovho korelačného koeficientu pre rôzne veľkosti CNV medzi profilmi založenými na poli a profilmi vyplývajúcimi z EXCAVATOR2 a CopywriteR. Nakoniec je zobrazená „zväčšená“ oblasť obsahujúca potenciálnu deléciu v chromozóme 5 pacienta 64 pomocou profilov CN a volaní z (F) Pole SNP, (G) EXCAVATOR2 a (H) CopywriteR.


DISKUSIA

Tu navrhujeme CODEX, metódu normalizácie a detekcie CNV pre údaje WES. CODEX obsahuje normalizačný model s neparametrickými funkčnými termínmi pre obsah GC a Poissonovými latentnými faktormi pre odchýlky, ktoré nie sú priamo kvantifikovateľné. Ukazujeme, že obe časti normalizačného modelu sú nevyhnutné pre údaje WES. CODEX segmentuje genóm pomocou Poissonovho modelu pravdepodobnosti založeného na pokrytí kontroly |$widehatlambda$| odhadnuté počas kroku normalizácie. CODEX je možné použiť na analýzu normálneho aj nádorového genómu.

Prostredníctvom niekoľkých súborov údajov ukazujeme, že normalizačný postup viacerých vzoriek CODEX ponúka vyššiu citlivosť a špecifickosť na detekciu a genotypizáciu bežných aj vzácnych CNV. Rozlišujúce znaky CODEX v porovnaní s existujúcimi metódami sú: (i) CODEX nevyžaduje porovnateľné normálne vzorky ako kontroly normalizácie (ii) Poissonov log-lineárny model lepšie vyhovuje údajom o počte WES ako prístupy SVD (iii) Závislosť na GC obsah je modelovaný flexibilnou neparametrickou funkciou v CODEX, ktorá umožňuje zachytiť nelineárne odchýlky (iv) CODEX implementuje kritérium BIC pre výber počtu skrytých premenných, ktoré poskytuje konzervatívnu normalizáciu na simulovaných a skutočných súboroch údajov (v) V porovnaní s postupmi segmentácie založenými na HMM je postup segmentácie v kódexe úplne bežný a nevyžaduje rozsiahly príslušný súbor školení (vi) CODEX odhaduje relatívny počet kópií, ktoré je možné previesť na genotypy prahovaním, a nie na široké kategorizácie. (neutrálne stavy vymazania, duplikácie a počtu kópií).

Vykonávame simulačné štúdie rozšírením signálov CNV do údajov hĺbky čítania WES z oblastí neutrálnych od počtu kópií. Ukazujeme, že CODEX má vyššiu silu v porovnaní s metódou založenou na SVD, po ktorej nasleduje HMM, hoci obe metódy trpia bežnými udalosťami CNV. Skúmame tiež povahu exónových a vzorkových termínov a Poissonových faktorov v CODEX, PC extrahovaných SVD a iných priamo známych zaujatostí a artefaktov. Ukazujeme, že počítače zo SVD získané nekontrolovaným učením sú v korelácii s výrazmi špecificky modelovanými a kvantifikovanými pomocou CODEX a že obsah GC koreluje s jedným počítačom zo SVD s korelačným koeficientom -0,75, ktorý je opäť špecificky modelovaný pomocou CODEX. Budúcnosť, na ktorú sa treba zamerať, môže byť rozvoj robustnej metódy, ktorá dokáže detekovať bežné CNV na pozadí hluku s vysokou citlivosťou.

Porovnávame výkonnosť CODEXu s výsledkami priameho volania z iných existujúcich metód v dátovom súbore WES 1000 Genomes Project a ukazujeme, že CODEX je presnejší porovnaním hovorov CNV od WES s tromi zlatými štandardnými sadami hovorov CNV radu SNP. Keďže CoNIFER a EXCAVATOR detegujú významný podiel CNV s dĺžkami väčšími ako 200 kb, zatiaľ čo CODEX a XHMM vracajú oveľa kratšie CNV (obrázok 4), nevylučujeme žiadne volania CNV poliami SNP, aby sme získali „spoľahlivejšie“ zlaté štandardy. rovnako ako Fromer a kol. (28), napriek tomu, že metódy založené na poli, v porovnaní s NGS, nemajú také dobré rozlíšenie. To by mohlo vysvetľovať, prečo celková miera citlivosti/recall nie je väčšia ako 0,6 pre všetky metódy (obrázok 5, doplnková tabuľka S4). Ďalšie možné vysvetlenie spočíva v tom, že kvôli diskrétnej povahe údajov WES sa hĺbka čítania používa ako jediný záver na detekciu CNV, ktorý má iba rozlíšenie na úrovni exónu, a teda nižší výkon pri detekcii krátkych CNV v porovnaní s deleným čítaním a párovaním- metódy koncového mapovania vyvinuté pre WGS. Napriek obmedzeniam sa WES používa a stále používa ako preferovaná metóda voľby pre rozsiahle štúdie.

S klinicky relevantným príkladom detekcie zriedkavých somatických CNV v rámci ATRX spojené s neuroblastómom, CODEX sa ukázal ako použiteľný pre širokú škálu návrhov štúdií na detekciu CNV pomocou údajov WES. Konkrétne uvádzame, že CODEX nevyžaduje na normalizáciu zodpovedajúce normálne kontroly a je schopný detegovať predtým hlásené CNV vo vzorkách nádorov presnejšie v porovnaní s metódou založenou na SVD. Zodpovedajúce vzorky krvi, ak sú k dispozícii, možno použiť na odlíšenie somatických CNV od zárodočných. Normálne vzorky sú však vo väčšine prípadov často nedostupné, neúplné alebo bezkonkurenčné, čo spôsobuje potrebu normalizácie iba pomocou prípadov. Výsledky CNV v celom genóme založené na tomto súbore údajov sú k dispozícii a budú porovnané s inými metrikami (zodpovedajúce mikročipy, sekvenovanie celého genómu, sekvenovanie RNA atď.) A validované na skúšobnom zariadení. Výsledky komplexnej analýzy budú zverejnené inde.


Metódy

Analýza génov potenciálne spojených s rakovinou prsníka

Pre oba rozsiahle súbory genómových údajov sme identifikovali panel 49 potenciálne pôsobivých cieľov, v ktorých boli biomarkery prepojené s terapeutikami schválenými FDA alebo s výskumnými terapeutikami v štúdiách rakoviny prsníka uvedených na www.clinicaltrials.gov (tabuľka 2). Analyzovali sme súbory údajov TCGA 44 a GENIE 1 od pacientov s primárnymi invazívnymi lobulárnymi karcinómami (ILC) a invazívnymi duktálnymi karcinómami (IDC) pre 40 génov z nášho zoznamu, pretože 9 génov nebolo dostupných na cieľovom génovom paneli.Gény boli definované ako klinicky relevantné alebo použiteľné na základe terapeutických a/alebo diagnostických implikácií u pacientov s rakovinou 45. Náš génový panel nemá certifikáciu Clinical Laboratory Improvement Addments (CLIA)/College of American Pathologists (CAP), ale väčšina z týchto 49 akčných cieľov sa nachádza v génových paneloch certifikovaných CLIA, ako je napríklad profilovanie integrovanej mutácie funkčnej rakoviny Memorial Sloan Kettering Ciele (MSK-IMPACT) (410 génov), databáza OncoKB 46 (476 génov spojených s rakovinou zacielených liekmi schválenými FDA alebo štandardnými terapeutickými látkami) a Foundation Medicine (315 klinicky relevantných génov). Cieľom nášho génového panelu bolo zamerať sa na potenciálne pôsobivé gény súvisiace s rakovinou prsníka a udržiavať dostatočne zameraný zoznam, aby bolo možné podrobné porovnanie výsledkov TCGA a GENIE, pokiaľ ide o klinicky relevantné génové ciele.

Údaje TCGA a GENIE

Posúdili sme sekvenovanie DNA celého exómu a údaje zo súboru Affymetrix SNP 6.0 pre 127 ILC a 490 IDC z kohorty TCGA a porovnali sme ich s tretím uvoľnením údajov pre údaje o cielenom sekvenovaní GENIE pre 248 prípadov ILC a 1724 prípadov IDC. Mutácie a CNA generované z radu Affymetrix a technológií NGS boli získané z cBioportal 47,48. Na CNA sa analyzovali iba vzorky GENIE, ktoré boli skrínované pomocou zachytávacieho prístupu založeného na hybridizácii, na rozdiel od prístupu založeného na PCR. Veľkosť vzorky tejto podskupiny vzoriek GENIE analyzovaných na CNA je uvedená v doplnkovej tabuľke S7. Všetky vzorky pacientov boli identifikované a kódované kódmi vzoriek TCGA a GENIE. Porovnávali sme výsledky poľa a NGS z čerstvých zmrazených tkanív TCGA a tkanív GENIE FFPE, aby sme určili zhodu medzi každou platformou. Na validáciu oboch súborov údajov sme tiež porovnali údaje TCGA WES a SNP generované z čerstvých zmrazených tkanív pri kolorektálnom 27 a nemalobunkovom karcinóme pľúc (NSCLC) 28 so zodpovedajúcim typom rakoviny v údajoch panela Cielený panel 1 získanom z Tkanivá FFPE. Mutačné udalosti a udalosti CNA sme získali pomocou cBioPortal pre údaje z poľa z TCGA NSCLC (n = 1144) a údaje o sekvenovaní cieleného génového panelu z GENIE (n = 3694). Mutačné udalosti a udalosti CNA pre kolorektálny karcinóm boli tiež získané z cBioPortal pre údaje z poľa z TCGA kolorektálneho (n = 226) a údaje zo sekvenovania cieleného génového panelu z GENIE (n = 2574).

Porovnanie mutácií DNA z WES a cielených údajov o sekvenovaní panelov génov

Na identifikáciu predpokladaných hotspotov v klinicky použiteľných génoch sme stiahli údaje o mutačných hotspotoch pre kohorty TCGA a GENIE pomocou cBioportal zo sekvenovaných exómov pacientov s rakovinou prsníka (na základe vopred špecifikovaných klasifikácií alebo skupín). Fisherov presný test bol použitý na vyhodnotenie variability frekvencií mutácií pre 40 použiteľných génov medzi oboma súbormi údajov pre podtypy ILC a IDC. Na posúdenie toho, ktoré typy mutácií sú v oboch podtypoch rakoviny prsníka prevládajúce, bol použitý Kruskal-Wallisov test.

Porovnanie CNA z poľa na báze SNP a údajov o sekvenovaní panelov génového panela

Na určenie stavu počtu kópií jednotlivého génu u ktoréhokoľvek daného pacienta sme použili súbory údajov o počte kópií v rámci cBioportálu vygenerovaného pomocou algoritmov genómovej identifikácie významných cieľov pri rakovine (GISTIC)26. CNA bola charakterizovaná meraným počtom kópií (vyjadreným ako pomer log2) a rozsahom zmeny v genóme. Prahové hodnoty CNA boli určené podľa súboru volaní počtu diskrétnych kópií poskytovaných spoločnosťou GISTIC: hlboká strata/homozygotná delécia (-2), malá strata/hemizygotná delécia (-1), nízky zisk (1) a vysoká úroveň zosilnenie (2). Údaje o počte kópií neboli k dispozícii od pacientov analyzovaných metódou PCR v súbore údajov GENIE. Fisherov presný test bol použitý na určenie, či sú frekvencie CNA odlišné v použiteľných génoch medzi súbormi údajov TCGA a GENIE analyzovanými súborom a technológiami založenými na NGS. Identifikácia významne amplifikovaných a deletovaných oblastí medzi potenciálne pôsobivými génmi sa uskutočnila pomocou algoritmu GISTIC. Údaje boli zarovnané s budovaním genómu hg19. Algoritmus bol vykonaný v rámci infraštruktúry Broad Firehose. GISTICKÁ analýza bola vykonaná oddelene na podtypoch ILC a IDC v štúdii rakoviny prsníka TCGA a GENIE.

Štatistická analýza

Štatistická analýza na porovnanie mutácií a CNA bola vykonaná s použitím GraphPad Prism verzie 7. Najrozšírenejšie mutácie medzi missense, skrátenými a inframe mutáciami boli vypočítané pomocou Kruskal-Wallisovho testu. Na výpočet variability frekvencií hotspotov a CNA sa použil Fisherov presný test. Na korekciu hodnôt p pre viacnásobné testovanie sa použil dvojstupňový lineárny krokový postup Benjaminiho, Kreigera a Yekutieliho nastavením FDR (Q) na 5%.

Etické schválenie a súhlas s účasťou

Táto štúdia bola vykonaná v prísnom súlade s odporúčaniami smerníc pre prístup k údajom dátových súborov GENIE projektu TCGA a AACR. Dostali sme administratívne povolenie na stiahnutie údajov s obmedzeným prístupom pre pacientky s rakovinou prsníka od TCGA Data Access Committee (Projekt č. 10345).


Pozadie

Rakovina vzniká postupnou akumuláciou somatickej genomickej nestability a zmien, ktoré nakoniec vedú k karcinogenéze a progresii rakoviny [1, 2]. Zmeny počtu kópií (CNA), jedna forma zmien somatického genómu, sa týkajú somatických zmien v štruktúre chromozómov, ktoré vedú k ziskom alebo stratám kópií segmentov DNA. Detekcia CNA je dôležitá pre pochopenie vývoja rakoviny a identifikáciu kľúčových udalostí vodiča [3, 4]. Technológie mikročipov sa široko používajú pri detekcii CNA [5–7], vrátane mikročipov komparatívnej genómovej hybridizácie (array CGH) a jednonukleotidových polymorfizmov (SNP). V poli CGH sú referenčné a testované DNA fluorescenčne označené a hybridizované do polí, ktoré sú zložené z klonov bakteriálneho umelého chromozómu (BAC), klonov cDNA alebo oligonukleotidov. Pomer signálu sa používa ako odhad pomeru počtu kópií. Mikročipy SNP sú tiež založené na hybridizácii, ale na každom mikročipe sa spracováva jedna vzorka a pomery intenzity sa vytvárajú porovnaním intenzity skúmanej vzorky so súborom referenčných vzoriek alebo všetkých ostatných skúmaných vzoriek. V porovnaní s poľom CGH môžu mať polia SNP lepšie rozlíšenie a vytvárať frekvenciu alely B, takže je možné detegovať stratu heterozygotnosti (LOH) [7]. Rozlíšenie týchto polí je typicky väčšie ako 1 kb, v závislosti od hustoty, distribúcie a charakteristík odozvy ich sond. V poslednej dobe technológie sekvenovania novej generácie (NGS) ponúkajú rozlíšenie jedného nukleotidu a absolútny počet prečítaných čísel, a preto môžu poskytnúť citlivejšie a presnejšie výsledky CNA. Okrem toho priame sekvenovanie umožňuje podstatné zvýšenie objavov menších štrukturálnych variačných udalostí [8, 9]. Predpokladá sa, že pri neustále klesajúcich nákladoch NGS v konečnom dôsledku nahradí mikročipy v analýze počtu kópií [10].

V tomto príspevku vykonávame analýzy CNA pomocou publikovaných údajov NGS z [11], ktoré obsahujú 145 vzoriek adenokarcinómu pažeráka (EA), pretože v príspevku neboli uvedené žiadne analýzy CNA. Incidencia EA sa za posledných 30 - 40 rokov pozoruhodne zvýšila a je siedmou hlavnou príčinou úmrtí na rakovinu u mužov v USA [12]. Mnoho štúdií detekcie CNA v EA sa uskutočnilo pomocou mikročipov. Paulson a kol. detegovalo 19 najčastejších CNA u 15 pacientov s EA pomocou údajov poľa BAC [13]. Beroukhim a kol. vytvorili portál Tumorscape Copy Number Portal, kde pomocou polí Affymetrix 250K StyI (Affymetrix, Santa Clara, CA) zhromaždili viac ako 3000 profilov počtu kópií z 26 typov rakoviny [3]. Identifikovali 33 opakujúcich sa CNA (RCNA), ktoré sa objavujú v 44 vzorkách EA častejšie, ako sa náhodne očakávalo. Dulak a kol. detekoval 46 oblastí významných rekurentných udalostí zisku a straty v 186 vzorkách EA pomocou 250K polí StyI a polí SNP Array 6.0 (Affymetrix) [14]. Zack a kol. vytvorili portál TCGA počtu kópií a identifikovali RCNA vo viacerých typoch rakoviny. Detekciou 88 RCNAS v 184 vzorkách EA pomocou polí Affymetrix SNP6 [4, 15]. Frankel a kol. detegovali 52 RCNA v 54 vzorkách EA pomocou polí Illumina CytoSNP-12 [16]. Nebola však publikovaná žiadna štúdia detekcie CNA využívajúca technológie NGS. V tejto štúdii plánujeme vyplniť medzeru analýzou údajov NGS z [11] a porovnať výsledok so zisteniami vyššie uvedených prác.

Analýzy CNA na báze mikročipov sú stále bežným prístupom k detekcii CNA, pravdepodobne z nasledujúcich dôvodov: technológie microarray boli vyvíjané dlhšie a zodpovedajúce metódy detekcie CNA boli dobre zavedené a presná detekcia CNA v NGS môže byť náročná úloha vzhľadom na zložitosť sekvenčného spracovania údajov [17]. Podľa našich najlepších vedomostí bolo vykonaných len niekoľko štúdií CNA na porovnanie výkonu mikročipov a NGS vedľa seba. Koboldt a kol. detegovali CNA v kódujúcich oblastiach piatich ovariálnych nádorov pomocou poľa SNP a dvoch platforiem NGS – celý genóm (WGS) a sekvenovanie celého exómu (WES) [18]. Zistili, že väčšina udalostí CNA bola konzistentne detekovaná tromi platformami. Platforma WGS detekovala viac CNA ako CNA. V ďalšej štúdii autori detekovali variácie počtu kópií zárodočnej línie (CNV) v 16 bunkových líniách rakoviny prsníka s použitím polí CGH aj WES [19]. Porovnávali sa štyri metódy detekcie CNV na báze WES a oblasti detegované súborom sa použili na vytvorenie zlatého štandardu. Pomocou poľa detegovali väčší počet CNV s ohniskovou mierkou. Tieto štúdie sa uskutočnili na úrovni jednotlivých vzoriek. V tejto štúdii máme záujem detekovať a porovnať oblasti, ktoré sa často vyskytujú medzi viacerými vzorkami medzi údajmi NGS a predchádzajúcimi zisteniami získanými zo štúdií založených na mikročipoch. Zistené opakujúce sa oblasti môžu obsahovať skutočné udalosti vodiča, ktoré prispievajú k rozvoju rakoviny.

Okrem toho bolo 15 vzoriek (pacientov) podrobených WGS aj WES v [11], čo poskytuje skvelú príležitosť na porovnanie detekcie CNA pomocou WES a WGS. Na vyriešenie tejto otázky sa nevykonalo veľa práce. Koboldt a kol. zistili, že významnú časť (79,53 %) CNA s ohniskovou mierou zistených pomocou WES podporilo aj WGS, a odporučili použitie prístupu založeného na WES, pomocou ktorého sa pravdepodobne detegujú vynechané zmeny počtu kópií špecifických pre platformu pomocou WGS a microarray [18]. WES je vďaka svojej nákladovej účinnosti a okamžitej interpretácii mutácií v kódujúcich oblastiach stále obľúbenejšou platformou na štúdium genomiky nádorov. Ukázalo sa, že údaje WES je možné použiť na štúdium CNA [19]. Rovnomernosť pokrytia WES je však horšia ako u WGS, väčšinou kvôli zachytávaniu exómov a exóny nie sú rovnomerne umiestnené v genóme, takže je ťažké detegovať CNA v dlhej intergénnej oblasti pomocou WES. Na druhej strane, ak sú záujmom dlhé segmenty CNA pokrývajúce gény, nie je jasné, či CNA odvodené WES stratia podstatné množstvo informácií v porovnaní s WGS. Je celkom možné, že toto porovnanie môže závisieť od miesta rakoviny a dĺžky CNA, pretože dlhší segment by mal byť spoľahlivo detegovaný sekvenovaním exómu.

Na detekciu CNA pomocou údajov NGS bolo vyvinutých množstvo bioinformatických a štatistických metód [17, 20–22]. Tieto metódy je možné klasifikovať niekoľkými spôsobmi. Väčšina metód bola vyvinutá na detekciu CNA na úrovni individuálnej vzorky a zvyčajne detegujú CNA na základe pomerov čítania medzi vzorkou nádoru a jeho zhodnou normálnou vzorkou. Tieto metódy možno ďalej kategorizovať podľa dizajnu štúdie. Niektoré bežne používané sú nasledujúce. (a) CNVnator [23], RDXplorer [24] a ReadDepth [25] detegujú CNA na jednej vzorke nádoru. (b) CNAseg [26], Segseq [27], ExomeCNV [28], HMMcopy [29] a VarScan2 [18] identifikujú CNA na zodpovedajúcich vzorkách normálnych pre nádor. Control-FREEC [30, 31] je možné zaradiť do tried (a) a (b), pretože môže fungovať buď s nádorovo normálnymi pármi, alebo so vzorkami iba s nádorom. V závislosti od platforiem NGS funguje CNVnator, Segseq, RDXplorer, ReadDepth a HMMcopy pre údaje WGS ExomeCNV a VarScan pre údaje WES a Control-FREEC môžu fungovať pre oba typy sekvenčných údajov. Okrem vyššie uvedených spôsobov detekcie CNA v jednotlivých vzorkách boli vyvinuté ďalšie metódy na detekciu RCNA z viacerých vzoriek. Tieto metódy berú ako vstup segmenty zo všetkých jednotlivých vzoriek a identifikujú (zlúčené) segmenty, ktoré sa v populácii objavujú častejšie, ako sa náhodne očakáva. Pre údaje NGS bolo vyvinutých iba niekoľko metód RCNA, vrátane JointSLM [32] a cn.MOPS [33]. Vykonávajú analýzy počtu kópií založené na čítaných počtoch segmentov viacerých vzoriek nádorov a zvyčajne sa používajú na detekciu CNV. Na druhej strane mnohé metódy detekcie RCNA, ktoré boli pôvodne vyvinuté pre platformy microarray [34], môžu byť tiež prispôsobené na prácu s údajmi NGS. Tieto metódy zahŕňajú STAC [35], CMDS [36] a GISTIC2.0 [37].

V tejto štúdii je Control-FREEC vybraný na detekciu CNA na úrovni jednotlivých vzoriek pomocou údajov WGS a WES z [11] a výsledky sa porovnávajú medzi dvoma sekvenčnými platformami. Control-FREEC je flexibilný a výkonný nástroj v tom, že vykonáva viacero typov korekcií skreslenia s ohľadom na obsah GC, mapovateľnosť a spárovanú normálnu vzorku a patrí medzi najcitlivejšie nástroje na platformách WGS aj WES [22]. GISTIC2.0, pravdepodobne najpopulárnejšia metóda detekcie RCNA, je vybraná na detekciu RCNA pomocou údajov WGS aj WES. Identifikované RCNA sa potom porovnajú s tými, ktoré boli uvedené skôr, pomocou mikročipov. Naše výsledky porovnávame s výsledkami z piatich predchádzajúcich štúdií, pričom štyri z nich (všetky okrem [13]) použili GISTIC2.0. Dúfame, že zvolením GISTIC2.0 zmiernime obavy, že potenciálne rozdiely generované v dátach NGS sú dôsledkom uplatňovania odlišného softvéru a analytických metód.


Torres, L. a kol. Intratumorová genomická heterogenita pri rakovine prsníka s klonálnou divergenciou medzi primárnymi karcinómami a metastázami lymfatických uzlín. Breast Cancer Res. Zaobchádzať. 102, 143–155 (2007)

Navin, N. a kol. Odvodzovanie progresie nádoru z genómovej heterogenity. Genome Res. 20, 68–80 (2010)

Park, S. Y., Gonen, M., Kim, H. J., Michor, F. & amp Polyak, K. Bunková a genetická diverzita v progresii in situ karcinómy ľudských prsníkov na invazívny fenotyp. J. Clin. investovať. 120, 636–644 (2010)

Sørlie, T. a kol. Génové expresné vzorce karcinómov rozlišujú nádorové podtriedy s klinickými dôsledkami. Proc. Natl Acad. Sci. USA 98, 10869–10874 (2001)

Curtis, C. a kol. Genomická a transkriptomická architektúra 2 000 nádorov prsníka odhaľuje nové podskupiny. Príroda 486, 346–352 (2012)

Shah, S. P. a kol. Klonálne a mutačné evolučné spektrum primárnych trojnásobne negatívnych rakovín prsníka. Príroda 486, 395–399 (2012)

Sieť Atlas genómu Atlas Komplexné molekulárne portréty ľudských nádorov prsníka. Príroda 490, 61–70 (2012)

Nik-Zainal, S. a kol. Životná história 21 rakovín prsníka. Bunka 149, 994–1007 (2012)

Ellis, M. J. a kol. Analýza celého genómu informuje o reakcii rakoviny prsníka na inhibíciu aromatázy. Príroda 486, 353–360 (2012)

Schmitt, M. W. a kol. Detekcia ultra-vzácnych mutácií sekvenovaním novej generácie. Proc. Natl Acad. Sci. USA 109, 14508–14513 (2012)

Navin, N. a kol. Vývoj nádoru je odvodený z jednobunkového sekvenovania. Príroda 472, 90–94 (2011)

Woyke, T. a kol. Jedna bakteriálna bunka, jeden kompletný genóm. PLoS ONE 5, e10314 (2010)

Dichosa, A. E. a kol. Umelá polyploidia zlepšuje obnovu bakteriálneho jednobunkového genómu. PLoS ONE 7, e37387 (2012)

Hou, Y. a kol. Jednobunkové sekvenovanie exómu a monoklonálna evolúcia a JAK2-negatívny myeloproliferatívny novotvar. Bunka 148, 873–885 (2012)

Klein, C. A. a kol. Porovnávacia genómová hybridizácia, strata heterozygotnosti a sekvenčná analýza DNA jednotlivých buniek. Proc. Natl Acad. Sci. USA 96, 4494–4499 (1999)

Adey, A. a kol. Rýchla konštrukcia knižníc fragmentov brokovníc s nízkym vstupom a nízkou zaujatosťou s vysokou hustotou in vitro transpozícia. Genome Biol. 11, R119 (2010)

Kytola, S. a kol. Chromozomálne zmeny v 15 bunkových líniách rakoviny prsníka porovnávacou genomickou hybridizáciou a spektrálnym karyotypovaním. Gény rakoviny chromozómov 28, 308–317 (2000)

Baslan, T. a kol. Analýza počtu kópií jednotlivých buniek v celom genóme. Prírodné protokoly 7, 1024–1041 (2012)

Zong, C., Lu, S., Chapman, A. R. & amp Xie, X. S. Genómová detekcia jednonukleotidových a variácií počtu kópií jednej ľudskej bunky. Veda 338, 1622–1626 (2012)

Lorenz, M. O. Metódy merania koncentrácie bohatstva. J. Am. Stat. Doc. 9, 209–219 (1905)

Adzhubei, I. A. a kol. Metóda a server na predpovedanie škodlivých mutácií missense. Prírodné metódy 7, 248–249 (2010)

Ng, P. C. & amp Henikoff, S. SIFT: Predpovedanie zmien aminokyselín, ktoré ovplyvňujú funkciu proteínu. Nucleic Acids Res. 31, 3812–3814 (2003)

Kuroishi, T. a kol. Rýchlosť rastu nádoru a prognóza rakoviny prsníka detekovaná hlavne hromadným skríningom. Jpn. J. Cancer Res. 81, 454–462 (1990)

Peer, P. G., van Dijck, J. A., Hendriks, J. H., Holland, R. & amp Verbeek, A. L. Tempo rastu primárnej rakoviny prsníka závislé od veku. Rakovina 71, 3547–3551 (1993)

Michaelson, J. a kol. Odhady rýchlosti rastu rakoviny prsníka a času pobytu z informácií z databázy skríningu. J. Ženské zobrazovanie 5, 11–19 (2003)

Nachman, M. W. & amp Crowell, S. L. Odhad rýchlosti mutácie na nukleotid u ľudí. Genetika 156, 297–304 (2000)

Drake, J. W., Charlesworth, B., Charlesworth, D. & Crow, J. F. Miery spontánnej mutácie. Genetika 148, 1667–1686 (1998)

Preston, B. D., Albertson, T. M. & Herr, A. J. DNA replikácia a rakovina. Semin. Cancer Biol. 20, 281–293 (2010)

Baca, S. C. a kol. Prerušovaný vývoj genómov rakoviny prostaty. Bunka 153, 666–677 (2013)

Hicks, J. a kol. Nové vzorce preskupenia genómu a ich spojenie s prežitím pri rakovine prsníka. Genome Res. 16, 1465–1479 (2006)

Stephens, P. J. a kol. Masívne genómové preskupenie získané v jednej katastrofickej udalosti počas vývoja rakoviny. Bunka 144, 27–40 (2011)

Pellman, D. Biológia buniek: aneuploidia a rakovina. Príroda 446, 38–39 (2007)

McClintock, B. Stabilita zlomených koncov chromozómov v Zea mays. Genetika 26, 234–282 (1941)

Loeb, L. A. Ľudské rakoviny exprimujú fenotypy mutátora: pôvod, dôsledky a zacielenie. Nature Rev. Cancer 11, 450–457 (2011)

Merlo, L. M. F., Pepper, J. W., Reid, B. J. & amp Maley, C. C. Rakovina ako evolučný a ekologický proces. Nature Rev. Cancer 6, 924–935 (2006)

Greaves, M. & amp Maley, C. C. Klonálny vývoj v rakovine. Príroda 481, 306–313 (2012)

Luria, S. E. & amp Delbruck, M. Mutácie baktérií od citlivosti vírusu na odolnosť voči vírusu. Genetika 28, 491–511 (1943)

Bielas, J. H., Loeb, K. R., Rubin, B. P., True, L. D. & amp Loeb, L. A. Ľudské rakoviny exprimujú fenotyp mutátora. Proc. Natl Acad. Sci. USA 103, 18238–18242 (2006)

Lawrence, M. S. a kol. Mutačná heterogenita pri rakovine a hľadanie nových génov spojených s rakovinou. Príroda 499, 214–218 (2013)

Alexandrov, L. B. a kol. Podpisy mutačných procesov v ľudskej rakovine. Príroda 500, 415–421 (2013)

Kandoth, C. a kol. Mutačný obraz a význam v 12 hlavných typoch rakoviny. Príroda 502, 333–339 (2013)

Li, H. & amp Durbin, R. Rýchle a presné zarovnanie krátkeho čítania s transformáciou Burrows-Wheeler. Bioinformatika 25, 1754–1760 (2009)

Li, H. a kol.Formát Sequence Alignment/Map a SAMtools. Bioinformatika 25, 2078–2079 (2009)

McKenna, A. a kol. Sada nástrojov pre analýzu genómu: rámec MapReduce na analýzu údajov sekvenovania DNA novej generácie. Genome Res. 20, 1297–1303 (2010)

Wang, J. a kol. CREST mapuje somatické štrukturálne variácie v genómoch rakoviny s rozlíšením párov báz. Prírodné metódy 8, 652–654 (2011)

Futreal, P. A. a kol. Sčítanie ľudských rakovinových génov. Nature Rev. Cancer 4, 177–183 (2004)

Hsu, F. a kol. Známe gény UCSC. Bioinformatika 22, 1036–1046 (2006)

Grubor, V. a kol. Nové genómové zmeny a klonálny vývoj v chronickej lymfocytovej leukémii odhalené reprezentatívnou oligonukleotidovou mikroarray analýzou (ROMA). Krv 113, 1294–1303 (2009)

Wang, K., Li, M. & Hakonarson, H. ANNOVAR: funkčná anotácia genetických variantov z údajov o vysokovýkonnom sekvenovaní. Nucleic Acids Res. 38, e164 (2010)

Forbes, S. A. a kol. COSMIC: ťažba kompletných rakovinových genómov v katalógu somatických mutácií pri rakovine. Nucleic Acids Res. 39, D945 – D950 (2011)

Quinlan, A. R. & amp Hall, I. M. BEDTools: flexibilná sada nástrojov na porovnávanie genomických funkcií. Bioinformatika 26, 841–842 (2010)

Saitou, N. & amp Nei, M. Metóda spájania susedov: nová metóda na rekonštrukciu fylogenetických stromov. Mol. Biol. Evol. 4, 406–425 (1987)


3 VÝSLEDKY

3.1 ExomeCNV pre detekciu CNV a LOH

ExomeCNV používa prístup normalizovaného pomeru hĺbky pokrytia na identifikáciu CNV a LOH z informácií o sekvenovaní exómu párových vzoriek prípad/kontrola (napríklad spárovaný nádor/normálne) spôsobom, ktorý optimalizuje citlivosť a špecifickosť. Začneme predpokladom, že hoci existujú potenciálne odchýlky špecifické pre exón v dôsledku laboratórnych metód zachytávania a odchýlky špecifické pre sekvenciu, tieto sú nezávislé od vzorky, a preto sú takmer jednotné pre konkrétny exón vo vzorkách. Výsledkom je, že jednoduché posúdenie pomeru hĺbky pokrytia každého exónu znižuje túto predpojatosť (pozri doplnkové materiály).

3.1.1 Korelácia hĺbky pokrytia vo vzorkách sekvenovania exóm

Aby sa stanovila platnosť tohto základného predpokladu, porovnali sme hĺbku pokrytia exónov v piatich nezávislých vzorkách od piatich rôznych subjektov (vzorky 1–5 na obr. 2). Všetky vzorky boli zachytené pomocou rovnakej sady sond (Agilent SureSelect Human All Exon G3362) a sekvenované pri priemernom pokrytí základne 36–39 × v dôsledku dvoch (vzorky 1–4) alebo troch (vzorka 5) pruhov jednoduchých GAIIx sekvenovanie konca na vzorku (pozri časť 2). Ako je znázornené na obrázku 2, medzi piatimi vzorkami bola pozorovaná vysoká korelácia (Pearsonova korelácia 0,908–0,975, priemer = 0,947, SD = 0,027), argumentujúc za platnosť nášho predpokladu.

Rovnaká úroveň konzistencie sa nepozorovala, keď sa údaje na jednom konci porovnávali s údajmi na párovom konci (vzorka 6 Pearsonova korelácia 0,855–0,877, priemer = 0,871, SD = 0,009) z dôvodu nedostatočnej nezávislosti medzi pármi údajov v párových koncové údaje. Preto je potrebné dbať na to, aby bola zaistená konzistentnosť metódy prípravy knižnice a sekvenovania medzi vzorkami použitými na analýzu. Tu všetky naše analýzy použili údaje o sekvenovaní exómu z melanómu (vzorka 5) a zhodnej normálnej kože, spracované a sekvenované rovnakým spôsobom (pozri časť 2).

3.1.2 Výpočet analytického výkonu detekcie exónovej CNV a LOH

Zdá sa, že pre každý exón počet sekvenčných čítaní, ktoré sú v ňom zarovnané, nasleduje Poissonov priemer s priamo úmerným veľkosti exónu a číslom kópie (pozri doplnkové materiály), ale za predpokladu, že máme dostatočne hlboké pokrytie, môžeme sa priblížiť to normálnym rozdelením s priemerom rovným rozptylu. Aplikujeme Gearyho-Hinkleyho transformáciu (Geary, 1930, 1944 Hinkley, 1969), ktorá prevádza pomer dvoch normálne rozdelených premenných na štandardné normálne rozdelenie a CNV je identifikovaná významnou odchýlkou ​​transformovaného pomeru od nuly, štandardné normálne rozdelenie (pozri časť 2). Umožňujúc iba jeden falošne pozitívny na genóm, analyticky určujeme štatistickú silu tohto prístupu detekcie CNV pre rôznu hĺbku pokrytia a výsledky sú znázornené na obrázku 3a–b. Na detekciu vymazaní sa dosahuje 95% výkonu pre segmenty s veľkosťou 500 bp alebo viac (obr. 3a), zatiaľ čo detekcia duplikácie jednej kópie sa dosahuje s 95% výkonom pre segmenty s veľkosťou 1 000 bp alebo viac (obr. 3b) s priemerné pokrytie segmentovou základňou 35 ×. Poznamenávame, že sila metódy sa podstatne zlepšuje s vyššou hĺbkou pokrytia a stav delécie/duplikácie jednotlivých exónov by bol účinnejšie pozorovaný zahrnutím ďalšej lemujúcej intronickej sekvencie do konštrukcie záchytnej sondy. Genomická prímes DNA podľa očakávania znižuje silu, ale aj pri 35 -násobnom pokrytí daného exónu je v 95% prípadov pozorovaná dĺžka väčšia ako 1 000 bp. Exóny alebo segmenty zachytené s 500 bp v cieľovej sekvencii sú pozorované pri 95% výkone iba s pokrytím väčším ako 55 × báza. Dôkladnejšie posúdenie špecifickosti a ROC kriviek je uvedené v doplnkových materiáloch.

Príklady sily ExomeCNV na detekciu segmentálnej duplikácie, delécie a LOH na základe analytického výpočtu. Sila je vykreslená relatívne k priemernej hĺbke pokrytia v genomickom segmente, pričom je falošne pozitívna na 1 na genóm na základe analytického modelu detekčnej schopnosti celého genómu pri rôznych veľkostiach okien (vložené, a-d). Okná sú celková dĺžka danej sekvencie v danom exóne alebo súčet dĺžky exónov, ktoré navzájom susedia v genóme. Vplyv prímesí (miera 30 %) na schopnosť detegovať delécie a duplikácie jednej kópie je znázornený v (c) a (d), v tomto poradí. e) vykresľuje silu detekcie LOH voči hĺbke pokrytia individuálnej polymorfnej polohy (jeden pár báz) s variabilnými rýchlosťami prímesí (vložené). Periodicita výkonovej krivky je daná diskrétnou povahou binomického testu. 35-násobná hĺbka pokrytia je zvolená, pretože ide o typickú minimálnu priemernú hĺbku pokrytia pre sekvenovanie exómu, a teda ide o konzervatívny pohľad na silu v rámci typických súborov údajov o sekvenovaní exómu.

Príklady sily ExomeCNV na detekciu segmentálnej duplikácie, delécie a LOH na základe analytického výpočtu. Výkon je vynesený vo vzťahu k priemernej hĺbke pokrytia v genómovom segmente, pričom sa nastaví falošne pozitívny na 1 na genóm na základe analytického modelu sily detekcie celého genómu pri rôznych veľkostiach okien (vložka, a–d). Okná sú celková dĺžka danej sekvencie v danom exóne alebo súčet dĺžok exónov susediacich v genóme. Vplyv prímesí (miera 30 %) na schopnosť detegovať delécie a duplikácie jednej kópie je znázornený v (c) a (d), v tomto poradí. e) vykresľuje silu detekcie LOH voči hĺbke pokrytia individuálnej polymorfnej polohy (jeden pár báz) s variabilnými rýchlosťami prímesí (vložené). Periodicita výkonovej krivky je spôsobená diskrétnou povahou binomického testu. 35-násobná hĺbka pokrytia je zvolená, pretože ide o typickú minimálnu priemernú hĺbku pokrytia pre sekvenovanie exómu, a teda ide o konzervatívny pohľad na silu v rámci typických súborov údajov o sekvenovaní exómu.

Na odhad LOH sme sa zamerali na nereferenčnú alelu alebo BAF polymorfných polôh v sekvenovaných oblastiach. Pozorovaný počet alel B v polymorfnej polohe je možné modelovať pomocou binomickej distribúcie s hĺbkou pokrytia ako veľkosťou vzorky a pravdepodobnosťou pozorovania alely B proporcionálne k počtu kópií alely B, ktorá je ekvivalentná stav LOH. Pretože očakávaná hodnota BAF v normálnej (non-LOH) polymorfnej polohe je 0,5, významná odchýlka BAF od 0,5 identifikuje LOH. Pri dostatočnej hĺbke pokrytia možno LOH detegovať v jedinej polymorfnej polohe.

3.1.3 Účinok prímesi vzoriek

Špecifickosť a citlivosť tejto metódy detekcie CNV nezávisí len od hĺbky pokrytia, ale aj od rýchlosti primiešavania, pričom nemutované genómy kontaminujú mutované genómy vo vzorkovanom tkanive/bunkách. Pri absencii prímesi je priemerný pomer hĺbky pokrytia 0,5 pri delécii, 1,5 pri duplikácii jednej kópie a BAF v mieste LOH je buď 0 alebo 1, pri sekvenovaní biopsie rakoviny sa to však v praxi zriedka pozoruje. v dôsledku prímesi s normálnymi alebo nemutovanými nádorovými bunkami. Hodnotíme teda vplyv prímesi v rozmedzí od 10% do 70%, ktorý je často pozorovaný vo vzorkách nádorov (obr. 3e). S prímesou budú mať pomer hĺbky pokrytia a BAF tendenciu k nulovým hodnotám 1 a 0,5, čo sťažuje detekciu CNV a LOH. Obr. 3c a d ukazujú zníženie výkonu pri detekcii delécie (obr. 3c) a duplikácie jednej kópie (obr. 3d) v dôsledku 30% prímesi. Existuje približne dvojnásobný nárast veľkosti exónovej sekvencie detegovateľný v prítomnosti 30% nemutovanej genómovej DNA. Výkonová krivka (obr. 3e), zachytávajúca mieru falošne pozitívnych na 0,001 a za predpokladu 35-násobku priemernej hĺbky pokrytia, ukazuje citlivosť 0,95 na detekciu LOH v jednej polymorfnej polohe s prímesou až 30%.

3.1.4 Použitie kruhovej binárnej segmentácie na zlúčenie exonického CNV/LOH

Pretože CNV a LOH môžu, a zvyčajne to tak robia, preklenúť viacero exónov, rozšírili sme našu metódu vyššie tak, aby sme volali CNV/LOH na väčších segmentoch odvodených zo súčtu údajov sekvenčne rozmiestnených exónov v ľudskom genóme. Aplikujeme kruhovú binárnu segmentáciu (CBS) (Olshen a kol.(2004 Venkatraman a Olshen, 2007) rozdeliť genóm a potom skombinovať hĺbku pokrytia exónov a BAF polymorfných polôh v rámci každého segmentu, zloženého z ľubovoľného počtu jednotlivých exónov, na vyhľadávanie väčších CNV a LOH. V prípade CNV, keďže čítania sú na sebe nezávislé, súčet hĺbky pokrytia všetkých exónov v segmente tvorí hĺbku pokrytia segmentu a test CNV možno vykonať tak, ako je opísané vyššie. V prípade LOH, keďže B-alely nie sú vždy na rovnakom chromozóme, BAF nemožno kombinovať priamou sumáciou. Namiesto toho, pretože BAF sa odchyľuje od nulovej hodnoty 0,5 pod LOH, významné zvýšenie rozptylu BAF od kontroly (F-test pre rovnosť odchýlok) naznačuje LOH (zvažovalo sa aj niekoľko ďalších štatistík, pozri doplnkové materiály). Nakoniec sme zopakovali proces volania CBS a CNV/LOH v rozmedzí granularity segmentácie od najjemnejších po najhrubšie a spojili sme hovory CNV/LOH uprednostnením pozitívnych výziev jemnejších segmentov pred hrubšími (podrobnosti nájdete v časti 2). V prípade našej vzorky melanómu sme vykonali CBS/sekvenčné zlúčenie na piatich úrovniach granularity a pozorovali sme 165 130 udalostí zlúčenia v prvej iterácii, po ktorých nasledovalo 121, 79, 105 a 66 v následných iteráciách, celkovo 165 501 udalostí zlúčenia. .

3.2 Overenie

Na testovanie výkonu ExomeCNV sme analyzovali údaje o sekvenovaní exómu z melanómu a zhodnej normálnej kože (doplnkové materiály), priemerná hĺbka pokrytia údajov je 42,8 × pre nádor a 37,5 × pre normálnu vzorku, čo je dostatočné. na dosiahnutie aspoň 90 % citlivosti a špecifickosti na základe vyššie uvedeného výpočtu výkonu.

3.2.1 Overenie miery falošne pozitívnych a falošne negatívnych výsledkov

Najprv sme odhadli falošne pozitívnu mieru algoritmu volaním CNV na dvoch sekvenčných dráhach tej istej knižnice normálnych tkanív, pričom jedna sa považuje za prípad a druhá ako kontrola, každé volanie CNV z toho by bolo falošne pozitívne. Naša metóda správne nazvala väčšinu exónov ako non-CNV. Najmä nastavenie P-prahy hodnoty na zaistenie minimálnej špecificity 0,9, 0,99 a 0,999, pozorovali sme špecificitu 0,916, 0,995 a 1,0 (doplnkové materiály). Ďalej sme testovali citlivosť ExomeCNV analýzou počtu kópií pohlavných chromozómov v páre údajov o mužskom a ženskom exóme, ktoré boli dostupné interne (pozri časť 2). Použitím mužského exómu ako kontroly ExomeCNV správne identifikoval ženský chromozóm X ako „duplikovaný“ a chromozóm Y ako „deletovaný“ (doplnkové materiály) bez falošných negatívov.

3.2.2 Porovnanie s poli genotypizácie SNP

Potom sme použili ExomeCNV na predpovedanie CNV a LOH vo vzorkách melanómu a porovnali sme naše výsledky s výsledkami získanými z hodnotenia genotypového poľa rovnakých vzoriek Illumina Omni-1 Quad Beadchip (obr. 4 a doplnkové materiály). Veľkosti segmentov CNV od ExomeCNV sa pohybujú od jedného exónu (120 bp) po celý chromozóm (chr 10 a 18) (distribúcia veľkosti hovorov CNV je uvedená v doplnkových materiáloch). Pri štandardnom ošetrení hovorov z experimentu genotypového poľa mal ExomeCNV 97 % špecifickosť a 86 % citlivosť na detekciu delécií, 92 % špecifickosť a 88 % citlivosť na detekciu amplifikácií a 88 % špecifickosť a 68 % citlivosť na detekciu LOH, aj keď existuje značná variabilita v celom genóme. Vyššia hĺbka pokrytia zo sekvenčných údajov pre každý exóm by pravdepodobne ďalej zlepšila zhodu. Poznamenávame, že ide o dramatické zlepšenie ExomeCNV v porovnaní s nevhodnou aplikáciou ERDS (M.Zhu a kol.(pripravovaný rukopis) CNV volajúci, ktorý po aplikácii na tieto údaje dosahuje iba 16% citlivosť a 83% špecificitu pre deléciu a 50% citlivosť a 56% špecificitu pre amplifikáciu (pozri Circo graf znázorňujúci výsledky troch metód v doplnkových materiáloch ). Je to spôsobené skutočnosťou, že existuje značná variabilita účinnosti zachytenia exónov pri sekvenovaní exómu, ktorá sa v ERDS nezohľadňuje. V prípade segmentov CNV nazývaných ExomeCNV, ale nie pomocou genotypových polí, sme zistili, že väčšina leží v oblastiach, v ktorých je nízka hustota genotypových markerov, takže miery falošne pozitívnych (a súvisiaca špecificita) pre ExomeCNV tu môžu byť v skutočnosti nižšie.

40-násobné sekvenovanie exómu s exómom s oblasťou LOH zvýraznenou modrou (D) log pomerom tumoru a normálnou hĺbkou pokrytia so stredným segmentom v červenej čiare, oblasť zisku zvýraznená červenou farbou a oblasť strata zvýraznená zelenou farbou. LOH a CNV pre chromozóm X a Y neboli vyžiadané pre údaje o genotypizácii, pretože genoCN (algoritmus používaný na volanie CNV z Omni-1) nie je určený na analýzu chromozómov X a Y. Tabuľka v strede sumarizuje najlepšie dosiahnuteľnú špecificitu a citlivosť ExomeCNV pri detekcii CNV a LOH vo vzťahu k hovorom CNV /LOH z hodnotenia poľa Omni-1. " />

Analýza melanómu a spárovaných normálnych vzoriek. Interpretácia delécie, duplikácie a LOH z údajov exónovej sekvencie pomocou ExomeCNV a vynesená pomocou Circos. Najkrajnejší kruh zobrazuje ideogramy chromozómov v orientácii pter -qter v smere hodinových ručičiek so centromerami v červenej farbe. Zvnútra smerom von každá dátová stopa predstavuje (A) B-alelickú frekvenciu (BAF) z genotypizačného poľa Omni-1 s oblasťou LOH zvýraznenou modro pod stopou (B) Log R Ratio (LRR) z genotypového poľa s oblasť zisku zvýraznená červenou farbou a oblasť straty zvýraznená zelenou farbou (C) BAF z výstupu ExomeCNV z

40× sekvenovanie exómu hĺbky pokrytia s oblasťou LOH zvýraznenou modrou (D) logaritmickým pomerom nádoru a normálnou hĺbkou pokrytia s priemerom segmentu v červenej čiare, oblasťou zisku zvýraznenou červenou a oblasťou strata zvýraznená zelenou farbou. LOH a CNV pre chromozómy X a Y sa nevyžadovali pre údaje o genotypizácii, pretože genoCN (algoritmus používaný na volanie CNV z Omni-1) nie je navrhnutý na analýzu chromozómov X a Y. Tabuľka v strede sumarizuje najlepšiu dosiahnuteľnú špecifickosť a citlivosť ExomeCNV pri detekcii CNV a LOH vo vzťahu k hovorom CNV/LOH z hodnotenia Omni-1.

40-násobné sekvenovanie exómu s exómom s oblasťou LOH zvýraznenou modrou (D) log pomerom tumoru a normálnou hĺbkou pokrytia so stredným segmentom v červenej čiare, oblasť zisku zvýraznená červenou farbou a oblasť strata zvýraznená zelenou farbou. LOH a CNV pre chromozóm X a Y neboli vyžiadané pre údaje o genotypizácii, pretože genoCN (algoritmus používaný na volanie CNV z Omni-1) nie je určený na analýzu chromozómov X a Y. Tabuľka v strede sumarizuje najlepšie dosiahnuteľnú špecificitu a citlivosť ExomeCNV pri detekcii CNV a LOH vo vzťahu k volaniam CNV/LOH z hodnotenia poľa Omni-1." />

Analýza melanómu a spárovaných normálnych vzoriek. Interpretácia delécie, duplikácie a LOH z údajov exonickej sekvencie pomocou ExomeCNV a vynesená do grafu s Circos. Najkrajnejší kruh zobrazuje ideogramy chromozómov v orientácii pter -qter v smere hodinových ručičiek so centromerami v červenej farbe. Zvnútra smerom von každá dátová stopa predstavuje (A) B-alelickú frekvenciu (BAF) z genotypizačného poľa Omni-1 s oblasťou LOH zvýraznenou modro pod stopou (B) Log R Ratio (LRR) z genotypového poľa s oblasť zisku zvýraznená červenou farbou a oblasť straty zvýraznená zelenou farbou (C) BAF z výstupu ExomeCNV z

40-násobné sekvenovanie exómu s exómom s oblasťou LOH zvýraznenou modrou (D) log pomerom tumoru a normálnou hĺbkou pokrytia so stredným segmentom v červenej čiare, oblasť zisku zvýraznená červenou farbou a oblasť strata zvýraznená zelenou farbou. LOH a CNV pre chromozómy X a Y sa nevyžadovali pre údaje o genotypizácii, pretože genoCN (algoritmus používaný na volanie CNV z Omni-1) nie je navrhnutý na analýzu chromozómov X a Y. Tabuľka v strede sumarizuje najlepšiu dosiahnuteľnú špecifickosť a citlivosť ExomeCNV pri detekcii CNV a LOH vo vzťahu k hovorom CNV/LOH z hodnotenia Omni-1.


Poďakovanie

Ďakujeme všetkým psom a ich majiteľom za pomoc a podporu, konzorcium Pfizer Canine Comparative Oncology and Genomics Consortium (CCOGC) a Ohio State University College of Veterinary Medicine Biospecimen repositories for providing sample, the Broad Institute Genomics platform for sequencing, Uppmax for supplying výpočtové zdroje a Dr. Lina Hultin-Rosenberg z Univerzity v Uppsale za pomoc so štatistickými analýzami. Tiež by sme chceli poďakovať Leslie Gaffneyovej z Broad Institute za pomoc s grafikou.


Pozri si video: Chinese food in Czech style (Septembra 2022).


Komentáre:

  1. Tektilar

    You answered quickly ...

  2. Patricio

    I regret that I cannot participate in the discussion now. They do not have the required information. But the subject interests me very much.



Napíšte správu