Informácie

Interpretácia asociácií SNP-v-géne zo štúdií GWAS

Interpretácia asociácií SNP-v-géne zo štúdií GWAS


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Pre väčšinu SNP identifikovaných v štúdiách GWAS je základný predpoklad, že ak je skutočne spojený s fenotypom (a predpokladajme, že je spojený, pretože ovplyvňuje funkciu proteínu), nepotrebujete na to dve vyradené kópie tohto génu. preniesť riziko náchylnosti na jednotlivca?

Inými slovami, je môj predpoklad, že GWAS pravdepodobne odhaľuje alely, ktoré prinášajú riziko v jedinej kópii, správny?


Skrátka áno.

Ak štúdia gwas spája SNP s konkrétnym fenotypom, potom áno, ide o účinok jedinej kópie. Majte však na pamäti, že SNP nie je knockout alebo dokonca knockdown. to môcť byť, ale nie vždy to tak je. SNP môžu spôsobiť zmenu v proteínovej sekvencii alebo v regulácii produkcie tohto proteínu. Oba typy variácií môžu viesť k fenotypovej zmene.

V každom prípade sa informácie o SNP vždy týkajú jedinej alely, myslím si, že môžete nájsť prípady, keď je bunka homozygotná pre konkrétny SNP, ale nemusí to tak byť, alebo dokonca často, pokiaľ viem.


Populačná genetická interpretácia nálezov GWAS pre ľudské kvantitatívne znaky

Asociačné štúdie celého ľudského genómu (GWAS) odhaľujú genetickú architektúru antropomorfných a biomedicínskych znakov, t.j. frekvencie a veľkosti účinkov variantov, ktoré prispievajú k dedičnej variácii znaku. Na interpretáciu týchto zistení musíme pochopiť, ako genetickú architektúru formujú základné procesy populačnej genetiky – najmä mutácie, prirodzený výber a genetický drift. Pretože mnoho kvantitatívnych znakov podlieha stabilizačnej selekcii a pretože genetická variácia, ktorá ovplyvňuje jednu vlastnosť, často ovplyvňuje mnoho ďalších, modelujeme genetickú architektúru ohniskovej vlastnosti, ktorá vzniká pri stabilizácii selekcie vo viacrozmernom priestore znakov. Riešime model pre fenotypovú distribúciu a alelickú dynamiku v rovnovážnom stave a odvodzujeme robustné riešenia v uzavretej forme pre súhrnnú štatistiku genetickej architektúry. Naše výsledky poskytujú jednoduchú interpretáciu chýbajúcej dedičnosti a prečo sa líši medzi vlastnosťami. Predpovedajú, že distribúcia rozptylov, na ktorých sa podieľajú lokusy identifikované v GWAS, je dobre aproximovaná jednoduchou funkčnou formou, ktorá závisí od jediného parametra: očakávaný príspevok ku genetickej variácii silne vybraného miesta ovplyvňujúceho znak. Túto predpoveď testujeme na základe výsledkov GWAS pre výšku a index telesnej hmotnosti (BMI) a zistíme, že dobre zodpovedá údajom, čo nám umožňuje vyvodiť závery o stupni pleiotropie a veľkosti cieľovej mutácie pre tieto vlastnosti. Naše zistenia pomáhajú vysvetliť, prečo GWAS pre výšku vysvetľuje viac dedičného rozptylu ako GWAS podobnej veľkosti pre BMI a predpovedať zvýšenie vysvetlenej dedičnosti s veľkosťou vzorky štúdie. Vzhľadom na demografickú históriu európskych populácií, v ktorých sa tieto GWAS vykonávali, ďalej zisťujeme, že väčšina asociácií, ktoré identifikovali, pravdepodobne zahŕňa mutácie, ktoré vznikli krátko pred alebo počas úzkeho miesta mimo Afriky na miestach so selekčnými koeficientmi okolo s = 10 −3 .


Sľuby a výzvy v ľudskej genetike psychiatrických porúch

Psychiatrické poruchy sú vysoko polygénne a vykazujú nepretržitý rozsah variácií ovplyvnených environmentálnymi aj genetickými faktormi [1]. Hlavným cieľom psychiatrického genetického výskumu je lepšie pochopiť molekulárne mechanizmy, prostredníctvom ktorých genetické varianty ovplyvňujú zodpovednosť za tieto vlastnosti. Identifikácia nových genetických variantov poskytuje oporu v komplexnej genetickej architektúre, ktorá je základom psychiatrických vlastností. Modelové organizmy poskytujú cestu k pochopeniu biologických mechanizmov, ktoré sú ovplyvnené genetickou variáciou. V tomto prehľade načrtneme prístupy k veľkým údajom, ktoré efektívne spájajú obrovské množstvo konvergentných genómových údajov z iných druhov do ľudských genetických nálezov, aby sa zvýšila pravdepodobnosť odhalenia biologicky zmysluplných ciest pre ďalšie experimentálne sledovanie a terapeutické objavy.

Užitočnosť celogenómových asociačných štúdií (GWAS) v psychiatrii

GWAS psychiatrických čŕt priniesli výlev nedávnych objavov v identifikácii rizikových variantov a polygénnej predikcii. Z vysoko dedičných čŕt, ako je schizofrénia (pre ktorú bolo hlásených 𾄀 spoločných lokusov s N =�,064 [2]) na bežné, ale menej dedičné stavy, ako je problematické požívanie alkoholu (pre ktoré bolo hlásených 29 nezávislých lokusov s N =�,563 [3]) a závažná depresia (pre ktorú bolo zistených 102 spoločných lokusov s N =�,553 [4]), ako aj za zodpovednosť za psychiatrické poruchy (109 lokusov s N =�,126 [5]) pokrok je plný. Okrem toho, pre užívanie látok, nedávny veľký GWAS fajčenia tabaku (N na zaciatok fajcenia =𠂑,232,091) a typicke pitie (N pre nápoje/týždeň =�,280) identifikoval viac ako 400 lokusov [6]. Zvýšená sila nahromadená v štúdiách hlavných psychiatrických porúch vyplývajúca zo spoločného výskumu odhalila kľúče k novým mechanizmom náchylnosti na duševné choroby a poruchy užívania látok. Tieto rozsiahle GWAS tiež odhalili vzory genetických variácií spojených s viacerými poruchami, ako aj lokusy špecifické pre poruchu, napr. CADM2 bola spojená s viacerými látkami a bežnými návykovými mechanizmami (napr. kognícia podstupujúca riziko), zatiaľ čo gény alkoholdehydrogenázy zostávajú špecifické pre alkohol (napr. [7, 8]).

Výzvy a príležitosti v rámci GWAS pre psychiatrické genetické štúdie

Nedávne úspechy v psychiatrických genetických štúdiách načrtnutých vyššie zosilňujú potrebu riešiť niekoľko pretrvávajúcich problémov v rámci GWAS. Po prvé, na úrovni variantov väčšina GWAS “hits” spadá do nekódujúcich oblastí genómu. Hlavnou výhodou GWAS ako prostriedku na objavenie biologického základu psychiatrických porúch je nedostatok a priori, génovo centrické hypotézy umožňujú objavenie variantov regulácie vlastností v oblasti zosilňovača a promótora, lncRNA, mikroRNA a akejkoľvek inej molekulárnej entity, ktorá je súčasťou mechanizmu génovej regulácie. Na rozdiel od variantov v rámci kódujúcich génov je však oveľa ťažšie spojiť štatisticky významné genetické asociácie s génovými produktmi a biologickými mechanizmami, prostredníctvom ktorých pôsobia [9]. Interpretácie významných nálezov GWAS sú komplikované vzormi súvisiacej dedičnosti (napr. väzbová nerovnováha), takže najsilnejšie asociovaný genetický variant v lokuse nemusí byť ȁkauzálny”, ale mohol by “tag” skutočný kauzálny variant. To spolu s reguláciou genómu na veľké vzdialenosti predstavuje výzvu na odhalenie špecifických génov a variantov, ktoré sú základom ľudských vlastností prostredníctvom GWAS [10]. V tomto prehľade zdôrazňujeme, ako možno regulačné genetické varianty integrovať koherentne s kódovacími génmi v rámci druhov a medzi nimi pomocou zjednocujúcich dátových štruktúr.

Druhou výzvou v súvislosti s GWAS je, že analýzy sily odhaľujú, že masívna polygenita, ktorá je základom psychiatricky relevantných vlastností a chorôb, si vyžaduje väčšie veľkosti vzoriek na ďalšie objavy zo samotných údajov GWAS [11]. Podobne prediktívna sila skóre polygénneho rizika (PRS), index agregovanej genetickej náchylnosti k poruche, pre psychiatrické poruchy je tiež priamo spojená so súčasnou štatistickou silou objavu GWAS [12]. Identifikácia ďalších variantov spojených so znakmi však naďalej podstatne zvyšuje odhady dedičnosti SNP, najmä v prípade zriedkavých variantov, čo naznačuje, že v štúdiách GWAS a sekvenčných štúdiách sa dá nájsť viac signálov [13] za predpokladu, že väčšie veľkosti vzoriek naďalej dosahovať. V tomto prehľade zdôrazňujeme prístupy, ktoré využívajú doplnkové zdroje údajov z modelových organizmov, ktoré po umiestnení do integračného rámca s údajmi GWAS vykazujú určitý prísľub pri uprednostňovaní zistených variantov.

Po tretie, v súlade s indikáciami zo skorých rodinných štúdií a štúdií s dvojčatami existujú dôkazy o pleiotropii medzi psychiatrickými črtami v miere naznačujúcej základný rozmer genetickej zodpovednosti, ktorý je paralelný so všeobecným faktorovým modelom psychopatológie [5, 14]. Preto je dôležité zvážiť varianty v kontexte základných neurobiologických mechanizmov, v ktorých fungujú, a viacerých znakov, ktoré sú ovplyvnené touto variáciou, aby sa našli špecifické, ako aj prekrývajúce sa biologické mechanizmy, ktoré sú základom behaviorálnych znakov.

Významný príspevok k našej súčasnej schopnosti anotovať signály GWAS pochádza z FUMA [15], platformy pre funkčnú a regulačnú anotáciu variantov. Súhrnné štatistiky z GWAS možno ľahko zosúladiť s údajmi o expresii špecifických pre tkanivo a bunkový typ a s rôznymi regulačnými a chromatínovými podpismi bez výpočtovej záťaže pre používateľa, vďaka čomu je FUMA široko prístupná. Ako alternatívu k technikám mapovania založeným na génoch môžu softvérové ​​nástroje tiež mapovať varianty nekódujúceho transkriptómu (napr. LincSNP 3.0 [16]). Okrem mapovania variantov je možné využiť viaceré zdroje omických údajov v mnohorozmernom rámci na implikovanie ȁkauzálnych” génových súborov pre chorobný stav (napr. SMR [17], iRIGs [18], PAINTOR [19], FOCUS [ 20]). Prebiehajú aj snahy s rôznym stupňom úspechu ukázať, do akej miery by podobné regulačné obohatenie PRS mohlo zlepšiť predikciu (napr. AnnoPred [21], LDpred-funkt [22]). Väčšina z týchto prístupov sa však obmedzila na údaje z ľudskej genetiky a genomiky. V tomto prehľade zdôrazňujeme prístupy, ktoré spájajú šírku a hĺbku dobre kontrolovaných štúdií modelových organizmov, ktoré umiestňujú genetické a genómové nálezy do biobehaviorálneho kontextu, ktorý sa môže rozšíriť o tento alebo iný súbor interpretačných nástrojov.


Výsledky

Skóre funkčného účinku

Analyzovali sme kohortu odvodenú z UKBB. z

18K analyzované gény kódujúce proteín, 17 843 bolo ovplyvnených aspoň jedným nesynonymným variantom uvedeným v UKBB. V priemere bol každý z týchto génov ovplyvnený 35,9 takýmito variantmi (obr. 2a).

Predpokladané skóre genetického funkčného účinku v kohorte UKBB. a Rozdelenie počtu nesynonymných variantov na gén, ktoré ovplyvňujú jeho kódujúcu sekvenciu (CDS), podľa (imputovaných) genetických údajov UKBB. Prezentované v logaritmickej mierke. b Distribúcia

640 000 skóre variantného efektu. Každé skóre je číslo medzi 0 (úplná strata funkcie) a 1 (žiadne poškodenie proteínového produktu). c, d Agregované génové skóre podľa dominantného (c) a recesívne (d) dedičné modely. Horné panely: priemer (plná čiara) a štandardná odchýlka (šrafovaná oblasť) skóre účinku 18 053 ​​analyzovaných génov kódujúcich proteín v celej kohorte UKBB (zoradené podľa priemerného skóre). Spodný panel: z hodnoty skóre génového efektu v 10 náhodne vybraných vzorkách (z celého

500 000 vzoriek v UKBB). Každá z 10 vzoriek je zobrazená odlišnou farbou

Odvodenie matríc skóre génového efektu pozostáva z dvoch krokov. Po prvé, FIRM sa používa na predpovedanie skóre účinku pre každý variant ovplyvňujúci proteín (obr. 2b). Intuitívne možno tieto predpovedané skóre účinku interpretovať ako pravdepodobnosť, že proteín ovplyvnený variantom si zachová svoju funkciu. Skóre variantov sa potom integruje s genotypmi kohorty a agreguje sa, aby sa odvodili skóre dominantného a recesívneho účinku pre každú vzorku na úrovni génu (obr. 2c, d). Ako sa očakávalo, dominantné genetické účinky (zachytenie jednotlivých zásahov) prevládajú častejšie ako recesívne účinky (dvojitých zásahov). Odvodené génové skóre zachytáva genetickú variabilitu v populácii UKBB pozorovanú aj v rámci malého počtu vzoriek. Cieľom PWAS je otestovať, či táto funkčná genetická variabilita koreluje s fenotypmi.

Simulačná analýza

Aby sme preskúmali objaviteľský potenciál PWAS v porovnaní s GWAS a SKAT, vykonali sme simulačnú analýzu (obr. 3). Simulácia sa uskutočnila na skutočných genetických údajoch (z kohorty UKBB), pričom fenotypy sa simulovali zmiešaním genetického signálu a šumu. Aby sme otestovali citlivosť PWAS na nevyhnutné nepresnosti FIRM, skúmali sme vplyv parametra hluku (ϵ) ovplyvňujúce jeho predpovede. Konkrétne sme skreslili skóre variantného efektu predpovedané spoločnosťou FIRM (v rozsahu medzi 0 a 1) aditívnym Gaussovým šumom štandardnej odchýlky. ϵ. Zdá sa, že podľa modelových predpokladov simulácie nie je PWAS veľmi citlivý na obmedzené nepresnosti základného prediktora strojového učenia.

Simulačná analýza. Výsledky simulačnej analýzy porovnávajúcej GWAS, SKAT a PWAS. Štatistická sila každej metódy je znázornená ako funkcia veľkosti kohorty (1 000, 10 000, 50 000, 100 000 alebo všetkých 332 709 filtrovaných vzoriek UKBB, znázornených v logaritmickej stupnici). Odhadované hodnoty sú zobrazené ako plné čiary s lemujúcimi 95 % intervalmi spoľahlivosti ako pásy polopriehľadných oblastí. Každá iterácia simulácie považovala jeden gén kódujúci proteín ovplyvňujúci simulovaný kontinuálny fenotyp formy r = βx + σ, kde X je účinok génu na fenotyp (normalizovaný na priemer 0 a štandardnú odchýlku 1 v populácii UKBB), β ∈ <0,01,0,05>je veľkosť účinku génu a σ

N(0, 1) je náhodný Gaussov šum. Génový efekt X bola simulovaná podľa modelu PWAS buď s dominantnou, recesívnou alebo aditívnou dedičnosťou. Šumový parameter ϵ ∈ <0,0,25> bol zavedený do FIRM, základného modelu strojového učenia, ktorý odhaduje poškodenie variantov. Génové architektúry, údaje o genotypizácii a 173 zahrnutých kovariátov boli prevzaté z kohorty UKBB

Na základe výsledkov simulácie očakávame, že výhoda PWAS bude najpodstatnejšia pri riešení recesívnej dedičnosti. Zistili sme, že s malou veľkosťou účinku (β = 0,01), na získanie dostatočnej štatistickej sily je potrebných aspoň 100 000 vzoriek (vzhľadom na 173 kovariátov). Keď je veľkosť efektu vyššia (β = 0,05), kohorty s 10 000 vzorkami by mohli byť dostatočné.

Je dôležité uviesť, že fenotypy boli simulované z genetických údajov pomocou modelovacej schémy kompatibilnej s predpokladmi PWAS. Preto by sa tieto výsledky nemali považovať za dôkaz dominancie PWAS nad GWAS alebo SKAT v reálnom svete. Tieto simulácie skôr jednoducho skúmajú rozsah použiteľnosti metódy a hodnotia množstvo údajov potrebných na dostatočnú štatistickú silu v nastaveniach, pre ktoré bola navrhnutá. Okrem tejto proteínovo-centrickej modelovacej schémy sme skúmali aj fenotypy simulované podľa štandardného lineárneho modelu, ako aj binárne fenotypy (doplnkový súbor 1: obr. S1).

Prípadová štúdia: kolorektálny karcinóm

Aby sme preskúmali PWAS na skutočných fenotypoch, začneme prípadovou štúdiou kolorektálneho karcinómu. Kohorta 260 127 kontrol a 2 822 prípadov bola odvodená z UKBB na detekciu génov predispozície vedúcich k zvýšenému riziku kolorektálneho karcinómu prostredníctvom zárodočných variantov.

Aby sme ilustrovali, ako PWAS funguje, začneme demonštráciou analýzy špecifického génu –MUTYH (obr. 4a), známy predispozičný gén pre kolorektálny karcinóm [23]. V študovanej kohorte existuje 47 nesynonymných variantov ovplyvňujúcich proteínovú sekvenciu génu. Pri posudzovaní štandardným GWAS pre jednotlivé varianty najvýznamnejší z týchto variantov poskytuje a p hodnotu 1,2E−03. Aj keď sa vezme do úvahy celá priľahlá oblasť génu (až 500 000 bp z každej strany jeho otvoreného čítacieho rámca), najsilnejší získaný význam je stále len p = 6,3E−04, ďaleko od prahu významnosti celého exómu (5E−07). Pri analýze PWAS na druhej strane táto asociácia vykazuje ohromujúci význam (FDR q hodnota = 2,3E−06), ďaleko za bežne používaným prahom významnosti FDR (q < 0,05).

Prípadová štúdia kolorektálneho karcinómu. a Preukázanie špecifickej asociácie gén-fenotyp: MUTYH a kolorektálny karcinóm. Varianty, ktoré ovplyvňujú proteínovú sekvenciu, sú zobrazené na vrchu exónov génu. Ako sa očakávalo, varianty v rámci domén majú tendenciu byť škodlivejšie. Zatiaľ čo žiadny z variantov, ktoré ovplyvňujú proteín, nie je blízko prahu významnosti pre celý exóm (p < 5E-07), asociácia je veľmi významná podľa PWAS (FDR q hodnota = 2,3E−6). Úplné súhrnné štatistiky 47 variantov sú uvedené v doplnkovom súbore 2: Tabuľka S1. b PWAS QQ graf všetkých 18 053 ​​génov testovaných na asociáciu s kolorektálnym karcinómom

PWAS dokázala odhaliť asociáciu agregovaním signálu šíreného vo veľkom počte rôznych variantov, pričom 5 zo 47 variantov ovplyvňujúcich proteíny vykazovalo mierne asociácie (p < 0,05). Keďže týchto 5 variantov vykazuje konzistentnú smerovosť (všetky riziká sa zvyšujú) a keďže sa predpokladá, že väčšina z nich bude pravdepodobne škodlivá, boli účinne agregované do génových skóre, ktoré sa medzi prípadmi a kontrolami výrazne líšia. Konkrétne, MUTYH gén je výrazne viac poškodený v prípadoch ako v kontrolách podľa rámca PWAS. Asociácia je významná len podľa recesívneho modelu s odhadovanou veľkosťou účinku d = − 0,079 (štandardizovaný priemerný rozdiel v skóre génového efektu medzi prípadmi a kontrolami). Toto pozorovanie je v súlade s predchádzajúcimi správami o MUTYH, ktorý si nárokuje recesívny režim dedenia [23].

Aby sme získali všetky gény kódujúce proteíny spojené s kolorektálnym karcinómom podľa PWAS, analyzovali sme 18 053 ​​génov (obr. 4b), pričom sme objavili 6 významných asociácií (tabuľka 1). Z týchto 6 asociácií je 5 podporených dôkazmi z literatúry, z ktorých 3 s úrovňou dôkazov považujeme za silné. V 4 z 5 podporovaných asociácií sa smerovosť asociácie uvádzaná v literatúre (t. j. ochranný alebo rizikový gén) zhoduje s veľkosťou účinku (Cohenova d) detekovaný PWAS (iba v POU5F1B je to prevrátené). Len zo 6 génov POU5F1B je ovplyvnený variantom presahujúcim význam pre celý exóm (rs6998061, p = 1,4E-07). Ďalších 5 génov GWAS neobjaví, a to ani pri zohľadnení všetkých variantov v génovej oblasti (až 500 000 bp od génu). Je pozoruhodné, že zatiaľ čo GWAS určuje významnosť podľa Bonferroniho korigovanej hladiny významnosti (p < 5E-07 pre kódujúce oblasti), PWAS určuje významnosť pomocou FDR (q < 0,05), ako iné metódy založené na génoch.

Použiteľnosť PWAS na 49 rôznych fenotypov

Po prípadovej štúdii PWAS pre špecifický fenotyp sa obraciame na zváženie jeho použiteľnosti pre rôznorodý súbor 49 prominentných fenotypov (obr. 5a). Aplikovali sme štandardné GWAS aj PWAS naprieč 49 fenotypmi v rovnakej kohorte UKBB (

330K vzoriek), čím sa získa bohatá zbierka asociácií (obr. 5b, c). Celkovo PWAS objavil 12 444 génovo-fenotypových asociácií, z ktorých iba 5294 (43 %) obsahuje nesynonymný variant v kódujúcej oblasti génu významný GWAS (obr. 5b). Inými slovami, hoci PWAS zvažuje presne ten istý súbor variantov, v 57 % asociácií je schopný obnoviť agregovaný signál, ktorý GWAS prehliadne pri individuálnom zvažovaní každého z variantov. Aj keď vezmeme do úvahy všetky varianty v blízkosti génu, ktoré zodpovedajú za LD (až 500 000 bp na každú stranu kódujúcej oblasti), GWAS stále chýba 2 743 z 12 444 asociácií PWAS (22 %) (obr. 5c, obr. d).

PWAS obohacuje objavy GWAS naprieč fenotypmi. a Analyzovali sme 23 binárnych fenotypov, 25 spojitých fenotypov a 1 kategorický fenotyp (mužskej plešatosti) odvodený od

330 000 vzoriek biobanky Spojeného kráľovstva. V rámci binárnych fenotypov sa počet prípadov pohybuje rádovo (od iba 127 pri systémovej skleróze po 62 000 pri hypertenzii). b, c Rozdelenie významných génov kódujúcich proteín naprieč rôznymi fenotypmi, ktoré boli detegované pomocou GWAS, PWAS alebo oboch. Celkový počet významných génov je uvedený v zátvorkách. In bGWAS považoval gén za významný, ak nesynonymný variant v kódujúcej oblasti génu prekročil prah významnosti pre celý exóm (p < 5E-07). In c, bolo prijaté uvoľnené kritérium, berúc do úvahy všetky varianty v rámci 500 000 bp na každú stranu kódujúcej oblasti génu (tu ukazuje iba gény významné pre PWAS). d Počet významných génov na fenotyp nájdený samotným PWAS podľa uvoľneného kritéria GWAS, ako je definované v c (t. j. bez akéhokoľvek významného variantu v rámci 500 000 bp)

Úplný súhrn všetkých 49 testovaných fenotypov s kompletnou súhrnnou štatistikou pre jednotlivé gény je dostupný v dodatočnom súbore 3: Tabuľka S2 (pre všetky významné asociácie PWAS) a doplnkový súbor 4: Tabuľka S3 (so všetkými 18 053 ​​testovanými génmi kódujúcimi proteíny) . QQ grafy všetkých 49 fenotypov sú dostupné v doplnkovom súbore 1: Obr. S2.

Aby sme potvrdili dôležitosť predpovedaného skóre funkčného účinku priradeného variantom, testovali sme výkonnosť verzie PWAS, kde boli skóre účinku nesynonymných variantov premiešané pred ich agregáciou do génových skóre. Zistili sme, že pôvodná verzia PWAS (funkcia zachytávania génu) prekonáva premiešanú verziu (doplnkový súbor 1: obr. S3).

Porovnanie s SKAT

Po zistení objaviteľskej sily PWAS nad rámec štandardného GWAS ho tiež porovnávame s SKAT [18], najbežnejšie používanou metódou na detekciu genetických asociácií na úrovni génov. Dôležité je, že zatiaľ čo SKAT sa pokúša obnoviť všetky existujúce genetické asociácie, PWAS sa zameriava špecificky na gény kódujúce proteín, ktoré sú spojené s fenotypom prostredníctvom funkcie proteínu.

Zistili sme, že PWAS je lepší ako SKAT v počte objavených asociácií pre väčšinu fenotypov (obr. 6a). Skúmali sme tiež rozsah prekrývania medzi výsledkami uvádzanými každou z dvoch metód (pozri stĺpce „konsenzu“ na obr. 6a). Zdá sa, že PWAS a SKAT majú tendenciu obnoviť odlišné súbory génov, takže tieto dve metódy možno považovať za do značnej miery komplementárne.

PWAS a SKAT poskytujú komplementárne výsledky. a Počet významných génov zistených pomocou PWAS, SKAT a konsenzus oboch v rámci 49 testovaných fenotypov (v rovnakých kohortách odvodených z UKBB). Fenotypy sú zoradené podľa najvyššieho z troch čísel. b Dôkazové skóre asociácií gén-fenotyp (odvodené z platformy Open Targets Platform) je zobrazené naprieč fenotypmi ako jeho priemer v porovnaní s významnými génmi detekovanými PWAS, SKAT alebo konsenzom oboch. Počty významných génov (nad ktorými sa vykonáva spriemerovanie) sú zobrazené nad stĺpcami. c Porovnanie FDR q hodnoty získané pomocou PWAS a SKAT cez 4944 asociácií gén-fenotyp so silnou podporou platformy Open Targets Platform. d Podobné porovnanie s 202 asociáciami, ktoré OMIM uvádza, že má známy molekulárny základ. Pravý pozemok (označený červenými rámikmi) predstavuje priblíženie ľavého

Na posúdenie kvality objavov sa odvolávame na platformu Open Targets Platform (OTP) [32], vyčerpávajúci zdroj, ktorý lieči zavedené asociácie génov a chorôb na základe viacerých vrstiev dôkazov, a OMIM [33], najvýznamnejší katalóg zahrnutých ľudských génov. pri genetických poruchách. Porovnali sme kvalitu asociácií objavených týmito dvoma metódami podľa skóre dôkazov odvodených od OTP v rámci 24 testovaných ochorení, ktoré sú zaznamenané v OTP (obr. 6b). Podľa tejto metriky sa výsledky PWAS a SKAT zdajú byť do značnej miery porovnateľné, pričom konsenzuálne gény vykazujú silnejšie dôkazy.

Ďalej skúmame, ako tieto dve metódy (PWAS a SKAT) obnovujú externe overené asociácie poskytované OTP (obr. 6c) a OMIM (obr. 6d). Zo 4944 asociácií so silnou podporou OTP bolo 9 obnovených pomocou SKAT v porovnaní so 6 získanými pomocou PWAS. V prípade OMIM, ktorý poskytuje ešte užší zoznam 202 vysokokvalitných asociácií génov a chorôb so známym molekulárnym základom, bol PWAS o niečo lepší (12 v porovnaní so 7 obnovenými asociáciami, pričom 7 je podskupinou 12). Nepozorovali sme žiadny zjavný trend medzi typmi fenotypov (napr. rakovina alebo iné ochorenia) a významnosťou asociácií získaných týmito dvoma metódami (pozri farby na obr. 6c, d).

Na základe tejto porovnávacej analýzy sme dospeli k záveru, že PWAS a SKAT sa navzájom dopĺňajú a že môže byť výhodné použiť obe v asociačných štúdiách. Zdôrazňujeme, že tieto dve metódy sú veľmi odlišné v type asociácií, ktoré hľadajú a ako ich modelujú.

Veľmi významné asociácie, v ktorých nedominujú jednotlivé varianty

Spomedzi všetkých objavených asociácií sa snažíme zdôrazniť tie, ktoré sú pre našu novú metódu obzvlášť charakteristické, konkrétne výsledky, ktoré jedinečne objavil PWAS a vykazujú silné dôkazy, že sú kauzálne. Na tento účel sme filtrovali asociácie podľa veľmi prísnych kritérií: (i) silný význam (FDR q hodnota < 0,01), (ii) žiadne ďalšie významné gény v oblasti a (iii) žiadna asociácia jedného dominantného variantu. Z 2743 génovo-fenotypových asociácií, ktoré PWAS jednoznačne našiel (obr. 5d), 48 spĺňa tieto kritériá a označuje sa ako asociácie „exkluzívne pre PWAS“ (tabuľka 2, úplný zoznam je uvedený v dodatočnom súbore 5: tabuľka S4).

Ako sa očakávalo, gény exkluzívne pre PWAS nevykazujú vôbec žiadny signál GWAS a asociácie PWAS sú obmedzené na súvisiace gény (obr. 7a). Pri posudzovaní SKAT sa žiadna zo 48 asociácií nezdá byť významná (obr. 7b), aj keď SKAT nebola zahrnutá do kritérií na definovanie týchto asociácií. Je zaujímavé, že väčšina asociácií exkluzívnych PWAS je poháňaná recesívnou dedičnosťou. Spomedzi desiatich génov uvedených v tabuľke 2 je iba jeden (SLC39A8) vykazuje dominantný vzor dedičnosti. To naznačuje, že modelovanie recesívnej dedičnosti je jedinečnou výhodou PWAS oproti GWAS.

exkluzívne združenia PWAS. a Príkladom je 48 asociácií exkluzívnych PWAS s 3 génmi spojenými s fenotypom vnútroočného tlaku. Tieto 3 gény demonštrujú úplný nedostatok akéhokoľvek GWAS vzoru v blízkosti génov (až do 500 000 bp do oboch smerov každého génu). Každá z 3 zobrazených génových oblastí bola rozdelená do 200 zásobníkov, pričom v každom zásobníku sa zobrazil najvýznamnejší variant. Zobrazené sú aj PWAS FDR q hodnoty všetkých analyzovaných génov kódujúcich proteín v týchto chromozomálnych oblastiach. b Porovnanie FDR q hodnoty získané PWAS a SKAT pre 48 asociácií

Niektoré z uvedených asociácií sú silne podporované literatúrou. Napríklad interleukín 6 (IL6), tu je implikovaný vysoký rozptyl svetla (HLS) percento retikulocytov červených krviniek s ohromujúcim významom (PWAS FDR q hodnota = 1,8E−126), je známy svojou schopnosťou narušiť produkciu hemoglobínu a dozrievanie erytroidov. Spojenie z IL6 na erytroidné zrenie, anémiu a zápal v dôsledku poškodenia mitochondriálnej funkcie [34]. navyše IL6 hrá úlohu pri vzniku anémie pri chronickom ochorení obličiek u detí (CKD anémia). Toto IL6-závislá patológia je vyvolaná deštrukciou červených krviniek prostredníctvom jej účinkov na os erytropoetínu (Epo), čo potvrdzuje priamu súvislosť IL6 s percentom červených krviniek [35].

Podobne MLLT3, ktorý sa zdá byť spojený so šírkou distribúcie červených krviniek prostredníctvom recesívnej dedičnosti podľa PWAS (FDR q hodnota = 8,5E−06, r = − 0,01), bol skutočne hlásený ako kľúčový regulačný gén v kostnej dreni [36]. Spomedzi 49 fenotypov testovaných v tejto práci sme zistili, že gén je významný aj v mnohých ďalších znakoch krvných buniek, ako aj v sile držania ruky (doplnkový súbor 3: tabuľka S2). Podobne CD80, ktorý PWAS spája s počtom eozinofilov prostredníctvom recesívnej dedičnosti (FDR q hodnota = 1,1E−06, r = − 0,01), má skutočne dôležitú úlohu pri prezentácii antigénu eozinofilmi [37]. FOXP1 je ďalší gén spojený s počtom eozinofilov prostredníctvom recesívnej dedičnosti podľa PWAS (FDR q hodnota = 9,8E−17, r = - 0,016). Aj keď nie sú uvedené žiadne priame dôkazy o tejto asociácii, je známe, že FOXP1 ovplyvňuje diferenciáciu monocytov a funkciu makrofágov [38].

V iných príkladoch, aj keď neexistuje jasná indikácia hlásenej asociácie, existuje silná molekulárna vierohodnosť. Ďalším transkripčným faktorom patriacim do rodiny vidlicovitých hláv je FOXG1, ktorý hrá kľúčovú úlohu vo vývoji sietnice (funkcia zachovaná u všetkých stavovcov) [39]. Ukázalo sa, že gén je spojený so zrakovým postihnutím u myší aj u ľudí [40]. Nikdy však priamo nesúvisel s vnútroočným tlakom, čo je asociácia, ktorú tu pozorujeme s mimoriadnym významom podľa recesívneho modelu PWAS (FDR q hodnota = 2,6E−15). Konkrétne sa zdá, že normálna funkcia génu (t. j. nedostatok poškodzujúcich variantov) pozitívne koreluje (r = 0,031) s vnútroočným tlakom.

Ďalším príkladom je INPP1, ktorý kóduje enzým inozitolpolyfosfát-1-fosfatázu. V existujúcej literatúre sa uvádza najmä v súvislosti s autizmom a poruchami nálady [41], zatiaľ čo genetické asociácie uvádzané v platforme Open Targets Platform [32] sa zameriavajú najmä na autoimunitné poruchy a krvné charakteristiky. Zdá sa však, že to nesúvisí s počtom lymfocytov, čo je asociácia, ktorú tu pozorujeme (recesívne FDR q hodnota = 1,9E−12, r = - 0,014). Vo všeobecnosti sa zdá, že genetická štúdia fenotypov krvi je trochu zanedbávaná a často nie je isté, ako sa takéto asociácie týkajú klinických výsledkov.

V niektorých prípadoch sme našli málo alebo žiadne dôkazy v literatúre o hlásených asociáciách exkluzívnych PWAS. Napríklad, GAPT a CLVS2 zistilo sa, že sú spojené s vnútroočným tlakom. GAPT (rastový faktor receptor-viazaný proteín 2-väzbový adaptorový proteín, transmembránový) hrá úlohu pri regulácii aktivácie B buniek a správnom udržiavaní marginálnej zóny [42]. CLVS2 (clatrin vesicle-associated Sec14 protein 2) sa podieľa na transporte bunkovej membrány [43]. V oboch prípadoch ešte nie je hlásená súvislosť s vnútroočným tlakom. Ďalšou významnou asociáciou PWAS bez podpory literatúry je FAM160B1 čo sa týka leukémie. Napriek nedostatku existujúcej literárnej podpory pre tieto prepojenia, silné asociácie vytvorené PWAS poskytujú silný dôkaz o potenciálnych prepojeniach, ktoré si zaslúžia ďalšie skúmanie.


Metódy

Predpoklad binárnych efektov

V našom rámci používame zjednodušený model na opísanie heterogenity medzi štúdiami, ktoré tvoria dva predpoklady. Prvý predpoklad je taký účinok je buď prítomný alebo chýba v štúdiách. Tento predpoklad sa líši od tradičného predpokladu, ktorý predpokladá normálne rozložené veľkosti účinkov [27]–[29]. Náš predpoklad je inšpirovaný fenoménom, že veľkosti efektov sú niekedy v niektorých štúdiách oveľa menšie ako v iných. Uvádza sa, že rôzne populácie môžu spôsobiť takýto jav [19], [20], [30], [31]. Napríklad homozygotnosť pre APOE 4 variant je známy tým, že poskytuje päťnásobne menšie riziko Alzheimerovej choroby u Afroameričanov ako u Ázijcov [19], [30]. Haplotyp HapK zahŕňajúci LTA4H gene is shown to confer threefold smaller risk of myocardial infraction in the populations of Europeans decent than in African Americans [31]. The HNF4A P2 promoter variants are shown to be associated with type 2 diabetes in Ashkenazi and the results have been replicated [20]. However, in the same study, the same variants did not show associations in four different cohorts of UK population suggesting a heterogeneous effect. Gene-environmental interactions can also cause such phenomenon. If a study lacks an environmental factor necessary for the interaction, the observed effect size can be much smaller in that study. It is generally agreed that the gene-environmental interactions exist in many diseases such as cardio vascular diseases [32], respiratory diseases [33], and mental disorders [34].

The second assumption is that if the effect exists, the effect sizes are similar between studies. We call these two assumptions together the binary effects assumption. While other types of heterogeneity structures are possible such as arbitrary effect sizes, for identifying which studies have an effect and which studies do not have an effect, we expect that this model will be appropriate.

M-Value

We propose a statistic called the m-value which is the posterior probability that the effect exists in each study of a meta-analysis. Suppose that we analyze studies together in a meta-analysis. Let ( ) be the observed effect size of study and let be the estimated variance of . It is a common practice to consider the true variance. In the current GWASs, the distribution of is well approximated by a normal distribution due to the large sample sizes. Let denote the observed data.

If there is no effect in study , where is the probability density function of a normal distribution whose mean is and the variance is . If there is effect in study , where is the unknown true effect size.

Since we want a posterior probability, the Bayesian framework is a good fit. We assume that the prior for the effect size is A possible choice for in GWASs is 0.2 for small effect and 0.4 for large effect [35], [36].

Let be a random variable which has a value 1 if study has an effect and a value 0 if study does not have an effect. Let be the prior probability that each study will have an effect such that Then we assume a beta prior on Through this paper, we use the uniform distribution prior ( and ), but other priors can also be chosen.

Let be the vector indicating the existence of effect in all studies. can have different values. Let be the set of those values.

Our goal is to estimate the m-value , the posterior probability that the effect exists in study . By the Bayes' theorem, (1) where is a subset of whose elements' th value is 1. Thus, we only need to know for each the posterior probability of , consisting of the probability of given and the prior probability of .

The prior probability of is where is the number of 1's in and is the beta function.

And the probability of given is (2) where is the indices of 0 in and is the indices of 1 in . We can analytically work on the integration to obtain where where is the inverse variance or precision. The summations are all with respect to .

is a scaling factor such that The details of the derivation is in Text S1 in Supporting Information S1. As a result, we can calculate for every and therefore obtain for each study .

The drawback of the exact calculation of m-value is that we need to iterate over all which is exponential to . This is not problematic in most of the current meta-analyses of GWASs, but will be problematic in future studies if increases over several tens. Therefore, here we propose a simple Markov Chain Monte Carlo (MCMC) method to estimate m-value.

We propose the following Metropolis-Hastings algorithm [37].

  1. Start from a random .
  2. Choose a next .
  3. If , move to . Otherwise, move to with probability .
  4. Repeat from step 2.

The set of moves we use for choosing is . is a simple flipping move of between 0 and 1. is a move that shuffles the values of . This move is introduced to avoid being stuck on one mode in a special case that there are two modes which can happen when the observed direction of the effect is opposite in some studies. At each step, we randomly choose a move from this set assuming a uniform distribution. We allow burn-in and sample times. After sampling, samples gives us an approximation of the distribution over , which subsequently gives the approximations of m-values by the formula (1).

Interpretations and predictions.

The m-value has a valid probabilistic interpretation that it is the posterior probability that the effect exists in each study under our binary effects model. If we are to choose studies predicted to have an effect and studies predicted to not have an effect, a threshold is needed. In this paper, we use the threshold of m-value for the former and m-value for the latter. Although this thresholding is arbitrary, the actual level of threshold is often not of importance because outlier studies showing different characteristics from the other studies usually stand out in the plotting framework described below.

Relationship to PPA.

The m-value is closely related to the posterior probability of association (PPA) based on the Bayes factor (BF) [35] in the sense that the presence and absence of effects are essentially describing the same things as the alternative and null models in the association testing. There are two fundamental differences. First, in the usual PPA, the prior probability of association ( ) is given by a point prior which is usually a very small value in GWAS reflecting the fact that the true associations are few. In our framework, we focus on interpreting meta-analysis results after we find associations using meta-analysis. Thus, reflects our belief on the effect conditioned on that the associations are already significant. For this reason, we need not use a very small value but instead choose to use a distribution prior. Second, the PPA is calculated for each study separately. However, the m-value is calculated using all studies simultaneously utilizing cross-study information. Thus, if the binary effects assumption approximates the truth, the m-value is more effective in predicting effects than the PPA or equivalently the BF, as we show by simulations in Results.

P-M Plot

We propose plotting the studies' p-values and m-values together in two dimensions. This plot, which we call the P-M plot, can help interpreting the results of a meta-analysis. Figure 1 shows that how to interpret such a plot. The right-most (pink) region is where the studies are predicted to have an effect. Often, a study can be in this region even if the p-value is not very significant. The left-most (light-blue) region is where the studies are predicted to not have an effect. This suggests that the sample size is large but the observed effect size is close to zero, suggesting a possibility that there exists no effect in that study. The middle (green) region is where the prediction is ambiguous. A study can be in this region because the study is underpowered due to a small sample size. If the sample size increases, the study will be drawn to either the left or the right side.


Genome-Wide Association Studies

Genome-wide association studies (GWAS) use high-throughput genomic technologies to scan entire genomes of large numbers of subjects quickly, in order to find genetic variants correlated with a trait or disease. Understanding the genetic architecture of complex diseases relies heavily on discovery and characterization of disease-associated variants such as single nucleotide polymorphisms (SNPs) and copy number variations (CNVs).

GWAS for Common Variant Discovery

Complex diseases are often characterized by common variants, while the contribution of rare or low-frequency variants remains largely unknown. Large-scale GWAS using microarrays are efficient and cost-effective for identifying loci and imputing common SNP variants associated with disease. However, arrays are limited in detecting low-frequency SNP variants. The base-by-base resolution of whole-genome sequencing allows for the identification of both common and rare variants that may be associated with disease.

Benefits of Genome-Wide Association Studies

  • Identification of novel variant-trait associations, with more than 50,000 trait- and disease-associations reported to date 1
  • Genotype information that can be leveraged for clinical applications, including development of polygenic risk scores used for early detection, prevention, or treatment of disease as well as drug development, selection, and dosage
  • Generation of easily sharable data, facilitating analysis on increasingly large and diverse sample sets
Opportunities for GWAS and Genetic Disease

GWAS for many diseases and disorders have not yet been performed, and the large majority (79%) of participants in GWAS to date are of European ancestry. As the European population accounts for just

16% of the global population, there is a recognized need for more diverse GWAS datasets. 2

In addition to ethnic diversity, there is a need to perform GWAS on diverse disease indications for specific sub-groups. This will help provide clues about which genes and gene pathways could be involved in disease mechanisms and pathogenesis.

Successfully Identified Variants for Specific Complex Diseases

GWAS with the commonly used case-control setup approach, which compares two large groups of individuals–one case group affected by a disease and one healthy control group–have successfully identified variants for specific complex diseases, such as:

  • Type 2 diabetes
  • Parkinson’s disease
  • Crohn’s disease
  • Various types of heart disease including coronary artery, atrial fibrillation, cardiomyopathy, etc.
  • Multiple types of cancer including breast, colorectal, etc.

Understanding Variant to Function Research

Researchers study populations and groups to find connections that help us understand how variants relate to each other and various diseases. Genomics is essential in driving this research. Start making these connections in your research and share your stories using the hashtag #V2Fnow.

Understanding Variant to Function Research

Using GWAS to Map Complex Genetic Traits

Researchers perform large GWAS studies to identify disease-associated DNA risk loci and develop polygenic risk scores.

From GWAS to NGS: Genetics of Children's Complex Diseases

Professors at Children's Hospital of Philadelphia discuss how they use NGS to map variants to causal genes.

Featured GWAS Products

Infinium Global Diversity Array-8 v1.0 Kit

The Global Diversity Array-8 (GDA) v1.0 BeadChip combines exceptional coverage of clinical research variants with optimized multi-ethnic, genome-wide content.

Infinium Global Screening Array-24 Kit

The Infinium Global Screening Array-24 v3.0 BeadChip is a next-generation genotyping array for population-scale genetics, variant screening, pharmacogenomics studies, and precision medicine research.

Infinium Multi-Ethnic AMR/AFR-8 Kit

A cost-effective array for understanding complex disease in diverse human populations, focused on Hispanic and African American populations.

Prioritizing Functional Genetic Variants Through Advanced Sequencing Approaches

Genome-wide association studies have identified thousands of variants with putative roles in different diseases. However, going from statistical associations to true insight into disease mechanisms remains a challenge. Recent advances in sequencing technologies have facilitated the development of strategies for assaying GWAS SNPs for potential functional relevance.

Related Solutions

Whole-Genome Sequencing

Obtain a high-resolution view of the entire genome.

Microarrays

Analyze genetic variation on any scale, for a broad range of applications.

New to NGS?

Find resources designed to educate on the basics of next-generation sequencing.

Referencie
  1. Tam V, Patel N, Turcotte M, et al. Benefits and limitations of genome-wide association studies. Nat Reviews. 201920:467-484.
  2. Martin, A.R.. et al. Clinical use of current polygenic risk scores may exacerbate health disparities. Nature Genetics. 2019 51: 584-591

Inovatívne technológie

V spoločnosti Illumina je naším cieľom aplikovať inovatívne technológie na analýzu genetických variácií a funkcií, čo umožňuje štúdie, ktoré si ešte pred pár rokmi ani nevedeli predstaviť. It is mission critical for us to deliver innovative, flexible, and scalable solutions to meet the needs of our customers. As a global company that places high value on collaborative interactions, rapid delivery of solutions, and providing the highest level of quality, we strive to meet this challenge. Inovatívne sekvenčné a poliové technológie spoločnosti Illumina podporujú prevratný pokrok vo výskume biologických vied, translačnej a spotrebiteľskej genomike a molekulárnej diagnostike.

Len na výskumné použitie. Nepoužívať pri diagnostických postupoch (okrem výnimiek výslovne uvedených).


Metabolite-based genome-wide association studies in plants

mGWAS in plants benefit from huge diversity of the plant metabolome.

mGWAS is powerful in dissecting the genetic basis of the plant metabolome.

mGWAS provides an useful strategy for plant functional genomics.

mGWAS can be further applied to the dissection of complex traits in plants.

The plant metabolome is the readout of plant physiological status and is regarded as the bridge between the genome and the phenome of plants. Unraveling the natural variation and the underlying genetic basis of plant metabolism has received increasing interest from plant biologists. Enabled by the recent advances in high-throughput profiling and genotyping technologies, metabolite-based genome-wide association study (mGWAS) has emerged as a powerful alternative forward genetics strategy to dissect the genetic and biochemical bases of metabolism in model and crop plants. In this review, recent progress and applications of mGWAS in understanding the genetic control of plant metabolism and in interactive functional genomics and metabolomics are presented. Further directions and perspectives of mGWAS in plants are also discussed.


Naidoo P, Cloete S, Olivier J. Heritability estimates and correlations between subjectively assessed and objectively measured fleece traits in Merino sheep. South African J Animal Sci. 200434(6):13–4.

Hardy MH, Lyne AG. The pre-Natal development of wool follicles in Merino sheep. Aust J Biol Sci. 19569(3):423–41.

Fraser AS, Short BF: The biology of the fleece. Q Rev Biol. 1960(3):108.

Parry AL, Nixon AJ, Craven AJ, Pearson AJ. The microanatomy, cell replication, and keratin gene expression of hair follicles during a photoperiod-lnduced growth cycle in sheep. Cells Tissues Organs. 1995154(4):283–99.

Nixon A. Regulation of prolactin receptor expression in ovine skin in relation to circulating prolactin and wool follicle growth status. J Endocrinol. 2002172(3):605–14.

Auber L. VII.—the anatomy of follicles producing wool-Fibres, with special reference to keratinization. Earth Environmental Sci Transactions Royal Soc Edinburgh. 195262(01):191–254.

Hynd PI, Schlink AC, Phillips PM, Scobie DR. Mitotic activity in cells of the wool follicle bulb. Aust J Biol Sci. 198639(4):329.

Kaufman CK, Zhou P, Amalia PH, Michael R. GATA-3: an unexpected regulator of cell lineage determination in skin. Genes Dev. 200317(17):2108–22.

Rogers GE. Biology of the wool follicle: an excursion into a unique tissue interaction system waiting to be re-discovered. Exp Dermatol. 200615(12):931–49.

Wang Z, Zhang H, Yang H, Wang S, Rong E, Pei W, Li H, Wang N. Genome-wide association study for wool production traits in a Chinese Merino sheep population. PLoS One. 20149(9):e107101.

Hirschhorn JN, Daly MJ. Genome-wide association studies for common diseases and complex traits. Nat Rev Genet. 20056(2):95–108.

Jiang Z, Michal JJ, Chen J, Daniels TF, Kunej T, Garcia MD, et al. Discovery of novel genetic networks associated with 19 economically important traits in beef cattle. Int J Biol Sci. 20095(6):528.

Zhang C, Wang Z, Bruce H, Kemp R, Plastow G. Genome-wide association studies (GWAS) identify a QTL close to PRKAG3 affecting meat pH and colour in crossbred commercial pig lines. In: World Congress on Genetics Applied to Livestock Production 2014.

Irene VDB, Boichard D, Lund MS. Multi-breed GWAS and meta-analysis using sequences of five dairy cattle breeds improve accuracy of QTL mapping. In: Book of Abstracts of the Meeting of the European Federation of Animal Science 2015.

Zhang L, Liu JS, Ling-Yang XU, Zhao FP, Jian LU, Zhang SF, Wang HH, Zhang XN, Wei CH, Guo-Bin LU. Genome-wide Association Studies for Body Weight Traits in Sheep. China Animal Husbandry Vet Med. 2014.

Abdoli R, Mirhoseini SZ, Ghavi H-ZN, Zamani P, Gondro C. Genome-wide association study to identify genomic regions affecting prolificacy in Lori-Bakhtiari sheep. Anim Genet. 201849(5):488-91.

Jiang DI, Liu J, Xinming XU, Wang Q, LazateAiniwaer LYU. Genome-wide Association Studies for Wool and Body Mass Traits in Yearling Fine Wool Sheep. Acta Agriculturae Boreali-occidentalis Sinica. 201625(4):496-501.

Bolormaa S, Swan AA, Brown DJ, Hatcher S, Moghaddar N, van der Werf JH, Goddard ME, Daetwyler HD: Multiple-trait QTL mapping and genomic prediction for wool traits in sheep. Genet Sel Evol. 201749(1):1–22.

Meadows JR, Kijas EKCW. Linkage disequilibrium compared between five populations of domestic sheep. BMC Genet. 20089(1):1–10.

Sing CF: Introduction to Quantitative Genetics. Am J Human Genet. 199046(6):1231.

By I, Nagy J, Ölkner L, Komlósi L. Genetic parameters of production and fertility traits in Hungarian Merino sheep. J Animal Breeding Genet. 1999116(5):399–413.

Safari E, Fogarty NM, Gilmour AR. A review of genetic parameter estimates for wool, growth, meat and reproduction traits in sheep. Livest Prod Sci. 200592(3):271–89.

Di J, Zhang Y, Tian K-C, Lazate LJ-F, Xu X-M, Zhang Y-J, Zhang T-H. Estimation of (co) variance components and genetic parameters for growth and wool traits of Chinese superfine merino sheep with the use of a multi-trait animal model. Livest Sci. 2011138(1–3):278–88.

Yu J, Pressoir G, Briggs WH, Bi IV, Yamasaki M, Doebley JF, Mcmullen MD, Gaut BS, Nielsen DM, Holland JB. A unified mixed-model method for association mapping that accounts for multiple levels of relatedness. Nat Genet. 200638(2):203–8.

Marchini J, Cardon LR, Phillips MS, Donnelly P. The effects of human population structure on large genetic association studies. Nat Genet. 200436(5):512–7.

Vanraden PM. Efficient methods to compute genomic predictions. J Dairy Sci. 200891(11):0–4423.

Kang HM, Sul JH, Service SK, Zaitlen NA, Kong SY, Freimer NB, Sabatti C, Eskin E. Variance component model to account for sample structure in genome-wide association studies. Nat Genet. 201042(4):348–54.

Bing-ru Z, Xue-feng F, Li-juan Y, Yue-zhen T, Jun-ming H, Xu-guang W, Xi-xia H, Ke-chuan T. The difference analysis of wool traits among strains in Chinese Merino (Xinjiang type). Xinjiang Agricultural Sci. 201653(11):2135–41.

Armstrong RA. When to use the Bonferroni correction. Ophthalmic Physiol Optics J Br Coll Ophthalmic Opticians. 201434(5):502–8.

Roberts T, Chetty M. Hypohidrotic ectodermal dysplasia: genetic aspects and clinical implications of hypodontia. Die Tydskrif Van Die Tandheelkundige Vereniging Van Suid Afrika. 201873:253–6.

Megdiche S, Mastrangelo S, Ben Hamouda M, Lenstra JA, Ciani E. A combined multi-cohort approach reveals novel and known genome-wide selection signatures for wool traits in Merino and Merino-derived sheep breeds. Predná Genet. 201910:1025.

Xuemei T, A CP. Keratin 17 modulates hair follicle cycling in a TNFalpha-dependent fashion. Genes Dev. 200620(10):1353–64.

Plafker KS, Farjo KM, Wiechmann AF, Plafker SM. The human ubiquitin conjugating enzyme, UBE2E3, is required for proliferation of retinal pigment epithelial cells. Invest Ophthalmol Vis Sci. 200849(12):5611–8.

Gaur U, Aggarwal BB. Regulation of proliferation, survival and apoptosis by members of the TNF superfamily. Biochem Pharmacol. 200366(8):1403–8.

Kondo S, Yoneta A, Yazawa H, Kamada A, Jimbow K. Downregulation of CXCR-2 but not CXCR-1 expression by human keratinocytes by UVB. J Cell Physiol. 2000182(3):366–70.

Rezza A, Wang Z, Sennett R, Qiao W, Wang D, Heitman N, Mok KW, Clavel C, Yi R, Zandstra P, et al. Signaling networks among stem cell precursors, transit-amplifying progenitors, and their niche in developing hair follicles. Cell Rep. 201614(12):3001–18.

Liu C, Sello CT, Sun Y, Zhou Y, Lu H, Sui Y, Hu J, Xu C, Sun Y, Liu J et al: De Novo Transcriptome Sequencing Analysis of Goose (Anser anser) Embryonic Skin and the Identification of Genes Related to Feather Follicle Morphogenesis at Three Stages of Development. Int J Mol Sci. 201819(10):3170.

Peck JW, Oberst M, Bouker KB, Bowden E, Burbelo PD. The RhoA-binding protein, rhophilin-2, regulates actin cytoskeleton organization. J Biol Chem. 2002277(46):43924–32.

McMullan R, Lax S, Robertson VH, Radford DJ, Broad S, Watt FM, Rowles A, Croft DR, Olson MF, Hotchin NA. Keratinocyte differentiation is regulated by the rho and ROCK signaling pathway. Curr Biol. 200313(24):2185–9.

Koyama S, Purk A, Kaur M, Soini HA, Novotny MV, Davis K, Kao CC, Matsunami H, Mescher A. Beta-caryophyllene enhances wound healing through multiple routes. PLoS One. 201914(12):e0216104.

Calautti E, Cabodi S, Stein PL, Hatzfeld M, Kedersha N, Dotto GP. Tyrosine phosphorylation and src family kinases control keratinocyte cell–cell adhesion. J Cell Biol. 1998141(6):1449–65.

Gay DL, Yang CC, Plikus MV, Ito M, Rivera C, Treffeisen E, Doherty L, Spata M, Millar SE, Cotsarelis G. CD133 expression correlates with membrane beta-catenin and E-cadherin loss from human hair follicle placodes during morphogenesis. J Invest Dermatol. 2015135(1):45–55.

Santoro T, Maguire J, McBride OW, Avraham KB, Copeland NG, Jenkins NA, Kelly K. Chromosomal organization and transcriptional regulation of human GEM and localization of the human and mouse GEM loci encoding an inducible Ras-like protein. Genomics. 199530(3):558–64.

Popova NV, Suleimanian NE, Stepanova EA, Teti KA, Wu KQ, Morris RJ. Independent inheritance of genes regulating two subpopulations of mouse clonogenic keratinocyte stem cells. J Investig Dermatol Symp Proc. 20049(3):253–60.

Wiley LA, Dattilo LK, Kang KB, Giovannini M, Beebe DC. The tumor suppressor merlin is required for cell cycle exit, terminal differentiation, and cell polarity in the developing murine lens. Invest Ophthalmol Vis Sci. 201051(7):3611–8.

Ohyama M, Terunuma A, Tock CL, Radonovich MF, Pise-Masison CA, Hopping SB, Brady JN, Udey MC, Vogel JC. Characterization and isolation of stem cell-enriched human hair follicle bulge cells. J Clin Invest. 2006116(1):249–60.

Carvajal-Gonzalez JM, Mulero-Navarro S, Roman AC, Sauzeau V, Merino JM, Bustelo XR, Fernandez-Salguero PM. The dioxin receptor regulates the constitutive expression of the vav3 proto-oncogene and modulates cell shape and adhesion. Mol Biol Cell. 200920(6):1715–27.

Giannoni E, Buricchi F, Raugei G, Ramponi G, Chiarugi P. Intracellular reactive oxygen species activate Src tyrosine kinase during cell adhesion and anchorage-dependent cell growth. Mol Cell Biol. 200525(15):6391–403.

Chang C-H, Jiang T-X, Lin C-M, Burrus LW, Chuong C-M, Widelitz R. Distinct Wnt members regulate the hierarchical morphogenesis of skin regions (spinal tract) and individual feathers. Mech Dev. 2004121(2):157–71.

Sick S, Reinker S, Timmer J, Schlake T. WNT and DKK determine hair follicle spacing through a reaction-diffusion mechanism. Veda. 2006314(5804):1447–50.

Holland JD, Klaus A, Garratt AN, Birchmeier W. Wnt signaling in stem and cancer stem cells. Curr Opin Cell Biol. 201325(2):254–64.

Iwamoto Y, Nishikawa K, Imai R, Furuya M, Uenaka M, Ohta Y, Morihana T, Itoi-Ochi S, Penninger JM, Katayama I, et al. Intercellular communication between keratinocytes and fibroblasts induces local osteoclast differentiation: a mechanism underlying Cholesteatoma-induced bone destruction. Mol Cell Biol. 201636(11):1610–20.

Sambrook JRD. A laboratory manual 2000.

Li H, Durbin R. Fast and accurate short read alignment with burrows-wheeler transform. Bioinformatika. 200925(14):1754–60.

Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R. Genome project data processing S: the sequence alignment/map format and SAMtools. Bioinformatika. 200925(16):2078–9.

Wang K, Li M, Hakonarson H. ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acids Res. 201038(16):e164.

Yang J, Lee SH, Goddard ME, Visscher PM. GCTA: a tool for genome-wide complex trait analysis. Am J Hum Genet. 201188(1):76–82.

Barrett JC, Fry B, Maller J, Daly MJ. Haploview: analysis and visualization of LD and haplotype maps. Bioinformatika. 200521(2):263–5.

Gilmour AR, Thompson R, Cullis BR. Average information REML: an efficient algorithm for variance parameter estimation in linear mixed models. Biometrics. 199551(4):1440–50.

Zhou X, Stephens M. Genome-wide efficient mixed-model analysis for association studies. Nat Genet. 201244(7):821–4.


ADDRESSING PROBLEMS IN ANALYSIS

Quality Control

One disadvantage of a case–control study design compared with family-based association studies is the lack of an internal check on genotyping quality. Standard laboratory practice of assigning both cases and controls to each plate, checking for differences in genotype frequency across plates, and genotyping duplicate samples can help eliminate systematic errors. Testing for HWE in controls can also identify problems with genotyping quality.

Hardy–Weinberg Equilibrium

Under HWE, alleles segregate randomly in the population, allowing expected genotype frequencies to be calculated from allele frequencies. A comparison of the expected and observed genotype frequencies provides a test of HWE (e.g., using a chi-square statistic). For alleles G and T, in which the frequency of allele G is p and the frequency of allele T is q = (1 – p), the expected frequencies of genotypes GG, GT, and TT are p 2 , 2pq, a q 2. Allele frequencies (p, q) are usually estimated from the genotype sample under test, rather than obtained from external genotyping data.

Departure from HWE is generally tested for by using the Pearson chi-square test to assess goodness of fit (of the observed genotype counts to their expectation under HWE). Table 2 shows the step-by-step calculation with observed counts for genotypes GG, GT, and TT of a, b, c, and an application to a data set of 100 control genotypes (GG: 60, GT: 30, TT: 10). The estimated frequency of allele G is 0.75 (= [2 × 60 + 30]/200), noting the division by the number of alleles (2N) here, not genotypes (N). The chi-square goodness-of-fit test statistic is then calculated from summing (O – E)/E 2 across genotypes, giving chi-square = 4.0. Under the null hypothesis of no departure from HWE, the test statistic has one degree of freedom (not two degrees of freedom, as implied by the table dimensions), because the allele frequency p has been estimated from the observed data. In this test data set, a p value of 0.046 is obtained, giving slight evidence of departure from HWE, with a deficit in the number of observed heterozygotes.

Testing for departure from Hardy–Weinberg equilibrium

Departures from HWE in control samples may be caused by the following:

1. Genotyping error. In many genotyping platforms, calling heterozygotic individuals is more challenging than homozygotic individuals, and a higher rate of missing individuals for this genotype can distort HWE.

2. Assortative mating. HWE requires random mating for the SNP under test, which is reasonable for a random SNP across the genome, but may be violated for SNPs that affect mate choice, such as height.

3. Selection. Any genotype increasing the risk of fetal loss or early death is likely to be underrepresented.

4. Population stratification. Control samples that arise from a combination of genetically distinct subpopulations may not be in HWE.

5. Chance. HWE p values for studies of more than one SNP should be corrected appropriately for multiple testing.

Departures from HWE may be caused by any of these factors, but also by the genotyped SNP playing a role in disease susceptibility. Case genotypes for a disease mutation will only be in HWE if the genetic model is multiplicative, with genotype relative risks of 1, r, r 2. However, for modest effect sizes, the power to detect departures from HWE may be low in cases.

No standard guidelines for rejecting SNPs that depart from HWE have been developed. In practice, all SNPs for which HWE p values decrease below a predetermined threshold should be checked manually for genotyping quality. Investigators should also be aware of SNPs showing significant association in which HWE p values are close to this threshold and unsupported by neighboring SNPs in LD.

Missing Genotypes

Another indication of poor genotyping quality is low call rates, with many missing genotypes for each SNP or each individual. This is a major issue in GWAS, but it is also applicable to candidate gene association studies. Genotypes that are missing at random will not bias a test, but poor genotype call rates may indicate nonrandom missingness, with one specific genotype (often heterozygotes) having a lower call rate. This may bias tests of association. Differential rates of missingness between cases and controls (for example, because of differences in DNA extraction and storage) may also be a problem (Clayton et al. 2005).

Population Stratification

Population stratification arises in case–control studies when the two study groups are poorly matched for genetic ancestry. Confounding then occurs between disease state (case, control) and genetic ancestry, with a subsequent increase in false-positive associations. For population stratification to occur, the underlying populations must differ in SNP allele frequency and be represented at different frequencies in the case and control groups. Detecting and controlling for population stratification is important, particularly in GWAS, in which even subtle differences between cases and controls can have major effects on the analysis. Several methods are available to detect and correct for population stratification, including genomic control, the Cochran/Mantel–Haenszel test, and the transmission disequilibrium test.

Genomic control (GC) assumes that population stratification inflates the association test statistics by a constant factor λ, which can be estimated from the median or mean test statistic from a series of unlinked SNPs genotyped in both cases and controls (Devlin and Roeder 1999). Test statistics are then divided by λ and compared with a chi-square distribution or an F distribution) to test for association (Devlin et al. 2004). Genotypes at SNPs uncorrelated with disease status can also be used to infer population ancestry, assigning the samples to distinct population groups, which can then be controlled for in the analysis (Pritchard et al. 2000). In GWAS, population substructure can be identified through a principal components analysis, which models ancestral genetic differences between cases and controls and then corrects for this in the analysis (Price et al. 2006).

Where individuals can be classified into known subgroups (e.g., by birthplace), analysis can be performed within each subgroup and combined using a Cochran/Mantel–Haenszel test (Clayton et al. 2005). The issue of population stratification can be avoided by using family-based studies. The most widely used method is the transmission disequilibrium test (TDT) (Spielman et al. 1993), which tests for non-Mendelian transmission of SNP alleles from heterozygous parents to affected offspring overtransmission suggests that the SNP allele increases risk of disease.


Estimating genetic nurture with summary statistics of multi-generational genome-wide association studies

Marginal effect estimates in genome-wide association studies (GWAS) are mixtures of direct and indirect genetic effects. Existing methods to dissect these effects require family-based, individual-level genetic and phenotypic data with large samples, which is difficult to obtain in practice. Here, we propose a novel statistical framework to estimate direct and indirect genetic effects using summary statistics from GWAS conducted on own and offspring phenotypes. Applied to birth weight, our method showed nearly identical results with those obtained using individual-level data. We also decomposed direct and indirect genetic effects of educational attainment (EA), which showed distinct patterns of genetic correlations with 45 complex traits. The known genetic correlations between EA and higher height, lower BMI, less active smoking behavior, and better health outcomes were mostly explained by the indirect genetic component of EA. In contrast, the consistently identified genetic correlation of autism spectrum disorder (ASD) with higher EA resides in the direct genetic component. Polygenic transmission disequilibrium test showed a significant over-transmission of the direct component of EA from healthy parents to ASD probands. Taken together, we demonstrate that traditional GWAS approaches, in conjunction with offspring phenotypic data collection in existing cohorts, could greatly benefit studies on genetic nurture and shed important light on the interpretation of genetic associations for human complex traits.



Komentáre:

  1. Rafiq

    Chcel som sa s tebou porozprávať, ja mám čo povedať k tejto veci.

  2. Roderigo

    Vyjadrujem vďačnosť za pomoc v tejto otázke.



Napíšte správu