Informácie

Reverzná transkripcia vo veľkom meradle?

Reverzná transkripcia vo veľkom meradle?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Potrebujem vytvoriť duplexy RNA:DNA. Dokážem vyrobiť 100 až 200 ug mRNA in vitro transkripciu a viem, ako použiť reverznú transkripciu na vytvorenie knižnice cDNA, ale mám k tomu otázky.

mRNA, ktorú vytvorím pomocou IVT, je celá poly A RNA a súprava na reverznú transkripciu, ktorú mám, hovorí, že použijem 5 ug celkovej RNA alebo 500 ng poly A RNA. Potrebujem vyrobiť aspoň 10 ug RNA:DNA, čo je 20-násobok navrhovaného limitu pre poly A RNA, takže priame zvýšenie pravdepodobne nie je praktické.

Nemôžem nájsť precedens v literatúre na výrobu takého veľkého množstva DNA prostredníctvom reverznej transkripcie, všetko, čo som našiel, že používa duplexy RNA:DNA používa krátke vlákna, ktoré boli chemicky syntetizované a kombinované, moja mRNA je dlhá 1800 báz, takže môžem. Stačí si objednať oligo, musím ho vyrobiť.

EDIT: Nemôžem komentovať svoju vlastnú otázku.

Duplexy budú dlhé asi 1800 báz, je to pre luciferázu svetlušiek.

Pokus o vytvorenie DNA pre duplex z pôvodnej šablóny DNA predstavuje ďalšie problémy. Aj keď by bolo ľahké ho z plazmidu vystrihnúť, bol by dvojvláknový a musel by som ho zmiešať s RNA a zahriať, aby sa všetko disociovalo a dúfať, že sa RNA naviaže skôr, ako sa vlákna DNA znova spoja. Tiež si myslím, že by to skomplikovalo moje kontroly, pretože by bolo ťažšie povedať, že akýkoľvek prejav, ktorý vidím po podaní týchto duplexov, pochádza z RNA a nie z DNA. Samozrejme, syntetizácia DNA z RNA by mohla tiež spôsobiť tento problém.

Niektoré hrubé výpočty naznačujú, že dNTP sú limitujúcim činidlom pre transkript tejto veľkosti a že aj s 5 ug mRNA by som mal mať dostatok oligo dT primeru pre reakciu. Práve teraz spúšťam reakcie od 0,5 do 5 ug mRNA, 1 ul primeru a 4 ul dNTP, aby som sa uistil, že mám dosť. Dúfam, že gél dopadne dobre.

EDIT: Mám výsledky. Zatiaľ to vyzerá, že najlepšie funguje 3,0 ug mRNA. Má najtmavší pás a vyzerá ako správna dĺžka. Menej mRNA poskytuje slabšie pásy, ktoré sa zdajú byť príliš krátke, a viac mRNA poskytuje mierne slabšie pásy, ktoré sa zdajú byť príliš krátke. Tiež som nechal reakciu 2 hodiny namiesto 1.


Najlepší spôsob, ako zvýšiť tieto druhy reakcií, je nastaviť veľa reakcií. Pripravte si mastermix pre povedzme 20 reakcií. Môžete ich spojiť, vyzrážať RNA a rozpustiť na vhodnú koncentráciu vo vode bez nukleázy. Namiesto oligo-dT použite tiež génovo špecifický primér a nepridávajte konce poly-A (poly-A neovplyvňuje stabilitu RNA in vitro).

Ako už naznačil Mad Scientist, nemuseli by ste znova vytvárať DNA z RNA. Jednoducho vezmite molárny pomer 1:2 vašej IVT templátovej dsDNA (strávená obmedzením) a RNA (po IVT). Pomaly zahrievajte a žíhajte. Hybridy DNA-RNA sú silnejšie ako hybridy DNA-DNA a je pravdepodobnejšie, že sa hybridy vytvoria po žíhaní. Nespárované vlákna môžete stráviť pomocou enzýmov, ako je nukleáza z fazule mungo.


Reverzná transkripčná polymerázová reťazová reakcia v obrovských unilamelárnych vezikulách

Hodnotili sme použiteľnosť obrovských unilamelárnych vezikúl (GUV) na detekciu RNA vo vezikule polymerázová reťazová reakcia s reverznou transkripciou (RT-PCR). Pripravili sme GUV, ktoré zapuzdreli reakčnú zmes RT-PCR v jednej nádobe vrátane templátovej RNA, primerov a sondy Taqman pomocou metódy prenosu emulzie voda v oleji. Po tepelnom cyklovaní sme analyzovali GUV, ktoré vykazovali intenzívne fluorescenčné signály, ktoré predstavovali amplifikáciu cDNA. Podrobná analýza údajov prietokovej cytometrie ukázala, že rRNA a mRNA v celkovej RNA možno amplifikovať z 10–100 kópií v GUV s priemerom 5–10 μm, hoci frakcia reagovateľných GUV bola maximálne približne 60 %. Okrem toho uvádzame, že cieľovú RNA, ktorá bola priamo prenesená do reaktorov GUV prostredníctvom membránovej fúzie, možno amplifikovať a detegovať pomocou vo vezikule RT-PCR. Tieto výsledky naznačujú, že GUV môžu byť použité ako biomimetické reaktory schopné vykonávať PCR a RT-PCR, ktoré sú dôležité v analytických a diagnostických aplikáciách s ďalšími funkciami.


Linearita reverznej transkripcie

Relatívna koncentrácia celkovej RNA môže ovplyvniť účinnosť RT a koncentráciu cDNA produkovanej z daného transkriptu. Preto je žiaduce zahrnúť rovnakú alebo veľmi podobnú koncentráciu RNA do všetkých reakcií syntézy cDNA v dvoch krokoch, pokiaľ nebolo overené, že systém RT má lineárnu odozvu. Ako je možné vidieť v Obrázok 8.2pri použití konvenčného protokolu RT nevedú 100-násobné riedenia vstupnej RNA k zodpovedajúcemu 100-násobnému rozdielu vo výťažku cDNA pre testované templáty. Je zaujímavé, že prezentované údaje sú duplicitné qPCR spustené na duplicitných RT reakciách. Ako je ukázané, nedostatok linearity je reprodukovateľný medzi dvoma RT reakciami.

Obrázok 8.2. Celková RNA sa zriedila 100-násobne a reverzne sa transkribovala s použitím dvojkrokového náhodného primovania, uskutočnili sa dve nezávislé RT reakcie. β-aktín sa detegoval v duplikátoch qPCR pre každú RT reakciu. RT je reprodukovateľná, ale výťažok cDNA nie je úmerný vstupnej koncentrácii RNA. Preto, ak experimentálne obmedzenia vyžadujú, aby bola v RT zahrnutá premenlivá koncentrácia RNA, je dôležité overiť, či kombinácia protokolu a činidla vedie k lineárnej odozve.

V príklade uvedenom v Obrázok 8.3, činidlo ReadyScript® RT (RDRT) sa použilo na reverznú transkripciu celkovej RNA z 2-násobného a 10-násobného sériového riedenia templátu pomocou dvojkrokového protokolu a kombinácie oligo-dT (O4387) a náhodného primovania (opísané nižšie). Gén CANX bol detegovaný v oboch sériách riedenia s priamou úmernosťou k vstupnej koncentrácii RNA.

Obrázok 8.3. Činidlo ReadyScript® RT (RDRT) sa použilo na reverznú transkripciu celkovej RNA z 2-násobného a 10-násobného sériového riedenia. Gén CANX bol detegovaný v oboch sériách riedenia, čo viedlo k priamej úmernosti k vstupnej koncentrácii RNA (údaje zo študentských skupín, ktoré sa zúčastnili workshopu EMBL Advanced qPCR).


Obsah

Reverzné transkriptázy objavil Howard Temin na University of Wisconsin-Madison v r. Rousov sarkóm virióny [5] a nezávisle izolované Davidom Baltimorom v roku 1970 na MIT z dvoch RNA nádorových vírusov: vírusu myšacej leukémie a opäť vírusu Rousovho sarkómu. [6] Za svoje úspechy sa v roku 1975 podelili o Nobelovu cenu za fyziológiu a medicínu (s Renato Dulbeccom).

Dobre študované reverzné transkriptázy zahŕňajú:

  • HIV-1 reverzná transkriptáza z vírusu ľudskej imunodeficiencie typu 1 (PDB: 1HMV) má dve podjednotky, ktoré majú príslušné molekulové hmotnosti 66 a 51 kDas. [7]
  • M-MLV reverzná transkriptáza z Moloneyho vírusu myšacej leukémie je jediný 75 kDa monomér. [8]
  • AMV reverzná transkriptáza z vírusu vtáčej myeloblastózy má tiež dve podjednotky, 63 kDa podjednotku a 95 kDa podjednotku. [8], ktorý udržiava teloméry eukaryotických chromozómov. [9]

Enzýmy sú kódované a používané vírusmi, ktoré využívajú reverznú transkripciu ako krok v procese replikácie. Reverzne transkribujúce RNA vírusy, ako sú retrovírusy, používajú enzým na reverznú transkripciu svojich RNA genómov do DNA, ktorá sa potom integruje do hostiteľského genómu a replikuje sa spolu s ním. Reverzne transkribujúce DNA vírusy, ako sú hepadnavírusy, môžu umožniť RNA slúžiť ako templát pri zostavovaní a vytváraní reťazcov DNA. HIV infikuje ľudí použitím tohto enzýmu. Bez reverznej transkriptázy by sa vírusový genóm nemohol začleniť do hostiteľskej bunky, čo by malo za následok zlyhanie replikácie.

Proces reverznej transkripcie alebo retrotranskripcie Edit

Reverzná transkriptáza vytvára dvojvláknovú DNA z RNA templátu.

Vo vírusových druhoch s reverznou transkriptázou bez DNA-závislej aktivity DNA polymerázy je možné vytvoriť dvojvláknovú DNA pomocou hostiteľa kódovanej DNA polymerázy δ, pričom sa vírusová DNA-RNA pomýli s primérom a syntetizuje sa dvojvláknová DNA podobným mechanizmus ako pri odstraňovaní primérov, kde novosyntetizovaná DNA nahrádza pôvodný RNA templát.

Proces reverznej transkripcie, nazývaný aj retrotranskripcia alebo retrotras, je extrémne náchylný na chyby a práve počas tohto kroku môže dôjsť k mutáciám. Takéto mutácie môžu spôsobiť liekovú rezistenciu.

Retrovírusová reverzná transkripcia Edit

Retrovírusy, tiež označované ako vírusy ssRNA-RT triedy VI, sú vírusy s reverznou transkripciou RNA s medziproduktom DNA. Ich genómy pozostávajú z dvoch molekúl pozitívnej jednovláknovej RNA s 5' uzáverom a 3' polyadenylovaným chvostom. Príklady retrovírusov zahŕňajú vírus ľudskej imunodeficiencie (HIV) a ľudský T-lymfotropný vírus (HTLV). K tvorbe dvojvláknovej DNA dochádza v cytosóle [10] ako séria týchto krokov:

    tRNA pôsobí ako primér a hybridizuje s komplementárnou časťou vírusového RNA genómu nazývanou väzbové miesto priméru alebo PBS.
  1. Reverzná transkriptáza potom pridá nukleotidy DNA na 3' koniec priméru, čím sa syntetizuje DNA komplementárna k oblasti U5 (nekódujúca oblasť) a R oblasti (priama repetícia nachádzajúca sa na oboch koncoch molekuly RNA) vírusovej RNA.
  2. Doména na enzýme reverznej transkriptázy nazývaná RNAáza H degraduje oblasti U5 a R na 5' konci RNA.
  3. Primér tRNA potom "preskočí" na 3' koniec vírusového genómu a novosyntetizované vlákna DNA hybridizujú s komplementárnou R oblasťou na RNA.
  4. Komplementárna DNA (cDNA) pridaná v (2) je ďalej predĺžená.
  5. Väčšina vírusovej RNA je degradovaná RNAázou H, pričom zostáva len sekvencia PP.
  6. Začne sa syntéza druhého vlákna DNA s použitím zostávajúceho PP fragmentu vírusovej RNA ako priméru.
  7. Primér tRNA odíde a dôjde k „skoku“. PBS z druhého vlákna hybridizuje s komplementárnym PBS na prvom vlákne.
  8. Obidve vlákna sú predĺžené, aby vytvorili kompletnú dvojvláknovú kópiu DNA pôvodného genómu vírusovej RNA, ktorá sa potom môže začleniť do genómu hostiteľa pomocou enzýmovej integrázy.

Zahŕňa tiež vytvorenie dvojvláknovej DNA prenos prameňa, pri ktorej dochádza k translokácii krátkeho produktu DNA z počiatočnej syntézy DNA závislej od RNA do oblastí akceptorového templátu na druhom konci genómu, ktoré sú neskôr dosiahnuté a spracované reverznou transkriptázou na jej DNA závislú aktivitu DNA. [11]

Retrovírusová RNA je usporiadaná na 5' konci až 3' konci. Miesto, kde sa primér aneluje na vírusovú RNA, sa nazýva miesto viažuce primér (PBS). 5'koniec RNA k miestu PBS sa nazýva U5 a 3' koniec RNA k miestu PBS sa nazýva vedúci. Primér tRNA je odvinutý medzi 14 a 22 nukleotidmi a vytvára duplex s párovými bázami s vírusovou RNA v PBS. Skutočnosť, že PBS sa nachádza v blízkosti 5' konca vírusovej RNA, je nezvyčajná, pretože reverzná transkriptáza syntetizuje DNA z 3' konca priméru v smere od 5' do 3' (vzhľadom na novo syntetizované vlákno DNA). Preto sa primér a reverzná transkriptáza musia premiestniť na 3' koniec vírusovej RNA. Na uskutočnenie tejto repozície sú potrebné viaceré kroky a rôzne enzýmy vrátane DNA polymerázy, ribonukleázy H (RNázy H) a odvíjania polynukleotidov. [12] [13]

HIV reverzná transkriptáza má tiež ribonukleázovú aktivitu, ktorá degraduje vírusovú RNA počas syntézy cDNA, ako aj DNA-dependentnú DNA polymerázovú aktivitu, ktorá kopíruje sense cDNA reťazec do antisense DNA za vzniku medziproduktu dvojvláknovej vírusovej DNA (vDNA). [14]

Samoreplikujúce sa úseky eukaryotických genómov známe ako retrotranspozóny využívajú reverznú transkriptázu na pohyb z jednej polohy v genóme do druhej prostredníctvom medziproduktu RNA. Nachádzajú sa hojne v genómoch rastlín a živočíchov. Telomeráza je ďalšia reverzná transkriptáza nachádzajúca sa v mnohých eukaryotoch vrátane ľudí, ktorá nesie svoj vlastný RNA templát, táto RNA sa používa ako templát na replikáciu DNA. [15]

Prvé správy o reverznej transkriptáze u prokaryotov prišli už v roku 1971 vo Francúzsku (Beljanski et al., 1971a, 1972) a o niekoľko rokov neskôr v ZSSR (Romashchenko 1977 [16] ). Tieto boli odvtedy široko opísané ako súčasť bakteriálnych Retrónov, odlišných sekvencií, ktoré kódujú reverznú transkriptázu, a používajú sa pri syntéze msDNA. Na spustenie syntézy DNA je potrebný primer. V baktériách sa primér syntetizuje počas replikácie. [17]

Valerian Dolja zo štátu Oregon tvrdí, že vírusy zohrali vďaka svojej rozmanitosti evolučnú úlohu vo vývoji bunkového života, pričom ústrednú úlohu zohráva reverzná transkriptáza. [18]

Reverzná transkriptáza využíva štruktúru "pravej ruky" podobnú tej, ktorá sa nachádza v iných vírusových polymerázach nukleových kyselín. [19] [20] Okrem transkripčnej funkcie majú retrovírusové reverzné transkriptázy doménu patriacu do rodiny RNázy H, ktorá je životne dôležitá pre ich replikáciu. Degradáciou templátu RNA umožňuje syntetizovať ďalšie vlákno DNA. [21] Niektoré fragmenty zo štiepenia tiež slúžia ako primér pre DNA polymerázu (buď rovnaký enzým alebo hostiteľský proteín), ktorá je zodpovedná za vytvorenie druhého (plus) vlákna. [19]

Počas životného cyklu retrovírusu existujú tri rôzne replikačné systémy. Prvým procesom je syntéza reverznej transkriptázy vírusovej DNA z vírusovej RNA, ktorá potom vytvára novo vytvorené komplementárne vlákna DNA. Druhý proces replikácie nastáva, keď hostiteľská bunková DNA polymeráza replikuje integrovanú vírusovú DNA. Nakoniec RNA polymeráza II prepisuje provírusovú DNA na RNA, ktorá bude zabalená do viriónov. Mutácia sa môže vyskytnúť počas jedného alebo všetkých týchto krokov replikácie. [22]

Reverzná transkriptáza má vysokú chybovosť pri prepise RNA do DNA, pretože na rozdiel od väčšiny iných DNA polymeráz nemá schopnosť korektúry. Táto vysoká chybovosť umožňuje, aby sa mutácie hromadili zrýchlenou rýchlosťou v porovnaní s korekčnými formami replikácie. Komerčne dostupné reverzné transkriptázy vyrábané spoločnosťou Promega sú citované v ich manuáloch ako s chybovosťou v rozsahu 1 na 17 000 báz pre AMV a 1 na 30 000 báz pre M-MLV. [23]

Okrem vytvárania jednonukleotidových polymorfizmov sa ukázalo, že reverzné transkriptázy sa tiež podieľajú na procesoch, ako sú transkriptové fúzie, miešanie exónov a vytváranie umelých antisense transkriptov. [24] [25] Špekulovalo sa, že toto prepínanie šablón aktivitu reverznej transkriptázy, ktorú možno úplne preukázať in vivo, mohla byť jednou z príčin nájdenia niekoľkých tisícok nekomentovaných prepisov v genómoch modelových organizmov. [26]

Prepínanie šablóny Upraviť

Do každej retrovírusovej častice sú zabalené dva RNA genómy, ale po infekcii každý vírus generuje iba jeden provírus. [27] Po infekcii je reverzná transkripcia sprevádzaná prepínaním šablón medzi dvoma kópiami genómu (rekombinácia výberu kópie). [27] Existujú dva modely, ktoré naznačujú, prečo RNA transkriptáza prepína templáty. Prvý, model nútenej voľby kópie, navrhuje, aby reverzná transkriptáza zmenila templát RNA, keď narazí na nick, čo znamená, že rekombinácia je povinná na udržanie integrity genómu vírusu. Druhý, model dynamickej voľby, naznačuje, že reverzná transkriptáza mení templáty, keď funkcia RNázy a funkcia polymerázy nie sú v synchronizačnej rýchlosti, čo znamená, že k rekombinácii dochádza náhodne a nie je odpoveďou na poškodenie genómu. Štúdia Rawsona a spol. podporoval oba modely rekombinácie. [27] V každom replikačnom cykle sa vyskytuje 5 až 14 rekombinácií na genóm. [28] Prepínanie templátov (rekombinácia) sa javí ako nevyhnutné na udržanie integrity genómu a ako opravný mechanizmus na záchranu poškodených genómov. [29] [27]

Antivírusové lieky Edit

Keďže HIV používa reverznú transkriptázu na kopírovanie svojho genetického materiálu a generovanie nových vírusov (súčasť retrovírusového proliferačného kruhu), boli navrhnuté špecifické lieky, aby narušili tento proces a tým potlačili jeho rast. Súhrnne sú tieto lieky známe ako inhibítory reverznej transkriptázy a zahŕňajú nukleozidové a nukleotidové analógy zidovudín (obchodný názov Retrovir), lamivudín (Epivir) a tenofovir (Viread), ako aj nenukleozidové inhibítory, ako je nevirapín (Viramune).

Molekulárna biológia Upraviť

Reverzná transkriptáza sa bežne používa vo výskume na aplikáciu techniky polymerázovej reťazovej reakcie na RNA v technike nazývanej reverzná transkripčná polymerázová reťazová reakcia (RT-PCR). Klasickú techniku ​​PCR možno použiť len na reťazce DNA, ale pomocou reverznej transkriptázy možno RNA prepísať do DNA, čím je možná analýza molekúl RNA pomocou PCR. Reverzná transkriptáza sa používa aj na vytvorenie cDNA knižníc z mRNA. Komerčná dostupnosť reverznej transkriptázy výrazne zlepšila poznatky v oblasti molekulárnej biológie, keďže spolu s ďalšími enzýmami umožnila vedcom klonovať, sekvenovať a charakterizovať RNA.

Reverzná transkriptáza bola tiež použitá pri produkcii inzulínu. Vložením eukaryotickej mRNA na produkciu inzulínu spolu s reverznou transkriptázou do baktérií by sa mRNA mohla vložiť do genómu prokaryota. Potom sa môže vytvoriť veľké množstvo inzulínu, čím sa obíde potreba zberu pankreasu ošípaných a iných podobných tradičných zdrojov. Priame vloženie eukaryotickej DNA do baktérií by nefungovalo, pretože nesie intróny, takže by sa pomocou bakteriálnych ribozómov neprekladalo úspešne. Spracovanie v eukaryotickej bunke počas produkcie mRNA odstraňuje tieto intróny, aby sa získal vhodný templát. Reverzná transkriptáza konvertuje túto upravenú RNA späť na DNA, aby mohla byť začlenená do genómu.


Reverzná transkripcia vo veľkom meradle? - Biológia

Robustná katalytická aktivita (dokonca aj pri vysokých teplotách) a vysoká presnosť a afinita templát-primér sú žiadúce vlastnosti reverznej transkriptázy (RT) vo väčšine biotechnologických aplikácií.

Upravené RT vírusu myšacej leukémie sú najčastejšie používané enzýmy, hoci enzýmy z iných retrovírusov (vírus vtáčej myeloblastózy alebo HIV-1) a RT intrónov bakteriálnej skupiny II sú tiež účinné vo väčšine aplikácií.

Nové technológie využívajúce reverznú transkripciu a sľubné vo výskume a technológii v oblasti vedy o živote sú sekvenovanie RNA (RNA-seq) (analýza transkriptomiky), epitranskriptomika a syntetická biológia a úprava genómu (pomocou hlavných editorov).

Reverzné transkriptázy (RT) sú enzýmy, ktoré môžu vytvárať komplementárne vlákno DNA (cDNA) z RNA. V spojení s PCR sa RT široko používajú na detekciu RNA a na klonovanie exprimovaných génov. Klasické retrovírusové RT boli vylepšené proteínovým inžinierstvom. Tieto enzýmy a novo charakterizované RT sú kľúčovými prvkami vo vývoji techník sekvenovania novej generácie, ktoré sa teraz aplikujú na štúdium transkriptomiky. Okrem toho skonštruované RT fúzované s nikázou CRISPR / Cas9 nedávno ukázali veľký potenciál ako nástroje na manipuláciu s eukaryotickými genómami. V tomto prehľade diskutujeme o vlastnostiach a použití RT divokého typu a upravených RT v biotechnologických aplikáciách, od konvenčnej RT-PCR až po nedávno zavedené primárne úpravy.


Obsah

Príprava knižnice Edit

Všeobecné kroky na prípravu knižnice komplementárnej DNA (cDNA) na sekvenovanie sú opísané nižšie, ale medzi platformami sa často líšia. [8] [3] [9]

  1. Izolácia RNA:RNA je izolovaná z tkaniva a zmiešaná s deoxyribonukleázou (DNázou). DNáza znižuje množstvo genómovej DNA. Množstvo degradácie RNA sa kontroluje gélovou a kapilárnou elektroforézou a používa sa na priradenie čísla integrity RNA vzorke. Táto kvalita RNA a celkové množstvo východiskovej RNA sa berú do úvahy počas následnej prípravy knižnice, sekvenovania a analýzy.
  1. Výber/vyčerpanie RNA: Na analýzu požadovaných signálov možno izolovanú RNA buď ponechať tak, ako je, filtrovať na RNA s 3' polyadenylovanými (poly(A)) koncami, aby zahŕňali iba mRNA, zbavenú ribozomálnej RNA (rRNA) a/alebo filtrovať na RNA, ktorá viaže špecifické sekvencie (Metódy výberu a deplécie RNA tabuľka nižšie). RNA s 3' poly(A) chvostmi sa skladá hlavne zo zrelých, spracovaných, kódujúcich sekvencií. Poly(A) selekcia sa uskutočňuje zmiešaním RNA s poly(T) oligomérmi kovalentne naviazanými na substrát, typicky magnetické guľôčky. [10][11] Poly(A) selekcia má dôležité obmedzenia pri detekcii biotypu RNA. Mnohé biotypy RNA nie sú polyadenylované, vrátane mnohých transkriptov nekódujúcej RNA a histónového jadra proteínov, alebo sú regulované prostredníctvom ich dĺžky poly(A) chvosta (napr. cytokínov), a preto nemusia byť detegované po poly(A) selekcii. [12] Okrem toho, poly(A) selekcia môže zvýšiť 3' skreslenie, najmä pri RNA nižšej kvality. [13][14] Týmto obmedzeniam sa možno vyhnúť ribozomálnou depléciou, odstránením rRNA, ktorá typicky predstavuje viac ako 90 % RNA v bunke. Kroky obohatenia poly (A) a deplécie ribozómov sú náročné na prácu a mohli by spôsobiť odchýlky, takže boli vyvinuté jednoduchšie prístupy na vynechanie týchto krokov. [15] Malé ciele RNA, ako je miRNA, možno ďalej izolovať výberom veľkosti pomocou vylučovacích gélov, magnetických guľôčok alebo komerčných súprav.
  1. syntéza cDNA: RNA je reverzne transkribovaná na cDNA, pretože DNA je stabilnejšia a umožňuje amplifikáciu (ktorá využíva DNA polymerázy) a využíva zrelšiu technológiu sekvenovania DNA. Amplifikácia po reverznej transkripcii má za následok stratu zvláknitosti, ktorej sa možno vyhnúť chemickým značením alebo sekvenovaním jednej molekuly. Fragmentácia a výber veľkosti sa vykonávajú na čistenie sekvencií, ktoré majú vhodnú dĺžku pre sekvenačný stroj. RNA, cDNA alebo obe sú fragmentované pomocou enzýmov, sonikácie alebo nebulizérov. Fragmentácia RNA znižuje 5' skreslenie náhodne aktivovanej reverznej transkripcie a vplyv väzbových miest priméru [11] s nevýhodou, že 5' a 3' konce sú konvertované na DNA menej efektívne. Po fragmentácii nasleduje výber veľkosti, kde sa buď odstránia malé sekvencie, alebo sa vyberie úzky rozsah dĺžok sekvencií. Pretože sa stratia malé RNA, ako sú miRNA, tieto sa analyzujú nezávisle. cDNA pre každý experiment môže byť indexovaná hexamérnym alebo oktamérovým čiarovým kódom, takže tieto experimenty môžu byť spojené do jedného pruhu pre multiplexné sekvenovanie.

Komplementárne sekvenovanie DNA (cDNA-Seq) Edit

Knižnica cDNA odvodená z biotypov RNA sa potom sekvenuje do počítačom čitateľného formátu. Existuje mnoho vysokovýkonných sekvenčných technológií pre sekvenovanie cDNA vrátane platforiem vyvinutých spoločnosťami Illumina, Thermo Fisher, BGI/MGI, PacBio a Oxford Nanopore Technologies. [16] Pre sekvenovanie Illumina na krátke čítanie, čo je bežná technológia pre sekvenovanie cDNA, sa adaptéry ligujú do cDNA, DNA sa pripojí k prietokovej bunke, klastre sa generujú prostredníctvom cyklov mostíkovej amplifikácie a denaturácie a postupná syntéza uskutočňované v cykloch syntézy komplementárnych vlákien a laserovej excitácie báz s reverzibilnými terminátormi. Výber sekvenčnej platformy a parametre sa riadia experimentálnym dizajnom a cenou. Bežné úvahy o experimentálnom dizajne zahŕňajú rozhodovanie o dĺžke sekvenovania, hĺbke sekvenovania, použití sekvenovania s jedným verzus párovým koncom, počte opakovaní, multiplexovaní, randomizácii a prírastkoch. [17]

Malá RNA/nekódujúca RNA sekvenovanie Edit

Pri sekvenovaní RNA inej ako mRNA sa príprava knižnice modifikuje. Bunková RNA sa vyberie na základe požadovaného rozsahu veľkostí. Pre malé ciele RNA, ako je miRNA, sa RNA izoluje výberom veľkosti. To sa môže uskutočniť pomocou gélu na vylúčenie veľkosti, pomocou magnetických guľôčok na výber veľkosti alebo pomocou komerčne vyvinutej súpravy. Po izolovaní sa k 3' a 5' koncu pridajú linkery a potom sa purifikujú. Posledným krokom je vytvorenie cDNA prostredníctvom reverznej transkripcie.

Priame sekvenovanie RNA Edit

Pretože sa ukázalo, že konverzia RNA na cDNA, ligácia, amplifikácia a iné manipulácie so vzorkami spôsobujú odchýlky a artefakty, ktoré môžu interferovať so správnou charakterizáciou a kvantifikáciou transkriptov, [18] spoločnosti vrátane Helicos skúmali priame sekvenovanie RNA s jednou molekulou. (v konkurze), Oxford Nanopore Technologies, [19] a iné. Táto technológia sekvenuje molekuly RNA priamo masívne paralelným spôsobom.

Jednomolekulové sekvenovanie RNA v reálnom čase Edit

Masívne paralelné priame RNA-Seq s jednou molekulou boli skúmané ako alternatíva k tradičnému RNA-Seq, v ktorej konverzia RNA na cDNA, ligácia, amplifikácia a ďalšie kroky manipulácie so vzorkou môžu spôsobiť odchýlky a artefakty. [20] Technologické platformy, ktoré vykonávajú RNA-Seq s jednou molekulou v reálnom čase, zahŕňajú sekvenovanie Nanopore od Oxford Nanopore Technologies (ONT), [19] PacBio IsoSeq a Helicos (skrachovaný). Sekvenovanie RNA vo svojej natívnej forme zachováva modifikácie, ako je metylácia, čo umožňuje ich priame a súčasné skúmanie. [19] Ďalšou výhodou jednomolekulového RNA-Seq je to, že transkripty môžu byť pokryté v plnej dĺžke, čo umožňuje vyššiu spoľahlivosť detekcie a kvantifikácie izoforiem v porovnaní s krátkym čítaním sekvenovania. Metódy RNA-Seq s jednou molekulou majú tradične vyššiu chybovosť v porovnaní so sekvenovaním s krátkym čítaním, ale novšie metódy ako ONT priame RNA-Seq obmedzujú chyby tým, že sa vyhýbajú fragmentácii a konverzii cDNA. Nedávne použitie ONT priamej RNA-Seq na rozdielnu expresiu v populáciách ľudských buniek preukázalo, že táto technológia môže prekonať mnohé obmedzenia krátkeho a dlhého sekvenovania cDNA. [21]

Jednobunkové sekvenovanie RNA (scRNA-Seq) Edit

Štandardné metódy, ako sú mikročipy a štandardná objemová analýza RNA-Seq analyzujú expresiu RNA z veľkých populácií buniek. V zmiešaných bunkových populáciách môžu tieto merania zakryť kritické rozdiely medzi jednotlivými bunkami v rámci týchto populácií. [22] [23]

Jednobunkové sekvenovanie RNA (scRNA-Seq) poskytuje expresné profily jednotlivých buniek. Aj keď nie je možné získať úplné informácie o každej RNA exprimovanej každou bunkou, kvôli malému množstvu dostupného materiálu je možné identifikovať vzory génovej expresie pomocou analýz zhlukovania génov. To môže odhaliť existenciu vzácnych typov buniek v bunkovej populácii, ktoré možno nikdy predtým nevideli. Napríklad vzácne špecializované bunky v pľúcach nazývané pľúcne ionocyty, ktoré exprimujú regulátor transmembránovej vodivosti cystickej fibrózy, boli identifikované v roku 2018 dvoma skupinami vykonávajúcimi scRNA-Seq na epiteli pľúcnych dýchacích ciest. [24] [25]

Experimentálne postupy Edit

Súčasné protokoly scRNA-Seq zahŕňajú nasledujúce kroky: izolácia jednej bunky a RNA, reverzná transkripcia (RT), amplifikácia, generovanie knižnice a sekvenovanie. Jednotlivé bunky sú buď mechanicky oddelené do mikrojamiek (napr. BD Rhapsody, Takara ICELL8, Vycap Puncher Platform alebo CellMicrosystems CellRaft) alebo zapuzdrené do kvapiek (napr. 10x Genomics Chromium, Illumina Bio-Rad ddSEQ, 1CellBio InDrop). [26] Jednotlivé bunky sú značené pridaním guľôčok s oligonukleotidmi s čiarovým kódom, bunky aj guľôčky sa dodávajú v obmedzených množstvách, takže spoločné obsadenie viacerými bunkami a guľôčkami je veľmi zriedkavý jav. Akonáhle je reverzná transkripcia dokončená, cDNA z mnohých buniek môžu byť zmiešané dohromady na sekvenovanie transkriptov z konkrétnej bunky, ktoré sú identifikované jedinečným čiarovým kódom každej bunky. [27] [28] Jedinečný molekulárny identifikátor (UMI) môže byť pripojený k cieľovým sekvenciám mRNA/cDNA, aby pomohol identifikovať artefakty počas prípravy knižnice. [29]

Výzvy pre scRNA-Seq zahŕňajú zachovanie počiatočného relatívneho množstva mRNA v bunke a identifikáciu zriedkavých transkriptov. [30] Krok reverznej transkripcie je kritický, pretože účinnosť RT reakcie určuje, koľko z bunkovej populácie RNA bude nakoniec analyzované sekvenátorom. Procesivita reverzných transkriptáz a použité primingové stratégie môžu ovplyvniť produkciu cDNA plnej dĺžky a tvorbu knižníc smerujúcich k 3' alebo 5' koncu génov.

V kroku amplifikácie sa v súčasnosti na amplifikáciu cDNA používa buď PCR alebo in vitro transkripcia (IVT). Jednou z výhod metód založených na PCR je schopnosť generovať cDNA plnej dĺžky. Odlišná účinnosť PCR na konkrétnych sekvenciách (napríklad obsah GC a štruktúra snapback) sa však môže tiež exponenciálne zosilniť, čím sa vytvárajú knižnice s nerovnomerným pokrytím. Na druhej strane, zatiaľ čo knižnice generované IVT sa môžu vyhnúť skresleniu sekvencie vyvolanej PCR, špecifické sekvencie môžu byť prepisované neefektívne, čo spôsobuje výpadok sekvencie alebo generovanie neúplných sekvencií. [31] [22] Bolo publikovaných niekoľko protokolov scRNA-Seq: Tang et al., [32] STRT, [33] SMART-seq, [34] CEL-seq, [35] RAGE-seq, [36] Quartz -sekv [37] a C1-CAGE. [38] Tieto protokoly sa líšia z hľadiska stratégií reverznej transkripcie, syntézy a amplifikácie cDNA a možnosti prispôsobiť sa sekvenčne špecifickým čiarovým kódom (t. j. UMI) alebo schopnosti spracovať spojené vzorky. [39]

V roku 2017 boli zavedené dva prístupy na súčasné meranie jednobunkovej mRNA a expresie proteínov prostredníctvom protilátok značených oligonukleotidmi známych ako REAP-seq, [40] a CITE-seq. [41]

Upraviť aplikácie

scRNA-Seq sa stáva široko používaným v biologických disciplínach vrátane vývoja, neurológie, [42] onkológie, [43] [44] [45] autoimunitných chorôb [46] a infekčných chorôb. [47]

scRNA-Seq poskytla značný prehľad o vývoji embryí a organizmov, vrátane červa Caenorhabditis elegans, [48] a regeneračný planár Schmidtea mediterranea. [49] [50] Prvými takto zmapovanými stavovcami boli Zebrafish [51] [52] resp. Xenopus laevis. [53] V každom prípade sa študovalo viacero štádií embrya, čo umožnilo zmapovať celý proces vývoja na základe bunky po bunke. [8] Veda uznala tieto pokroky ako prelom roka 2018. [54]

Experimentálne úvahy Edit

Pri navrhovaní a vykonávaní experimentov RNA-Seq sa berú do úvahy rôzne parametre:

  • Špecifickosť tkaniva: Génová expresia sa líši v rámci tkanív a medzi nimi a RNA-Seq meria túto zmes bunkových typov. To môže sťažiť izoláciu biologického mechanizmu, ktorý je predmetom záujmu. Jednobunkové sekvenovanie sa môže použiť na štúdium každej bunky jednotlivo, čím sa tento problém zmierni.
  • Časová závislosť: Génová expresia sa v priebehu času mení a RNA-Seq vytvára iba snímku. Na pozorovanie zmien v transkriptóme možno vykonať experimenty s časovým priebehom.
  • Pokrytie (tiež známe ako hĺbka): RNA obsahuje rovnaké mutácie pozorované v DNA a detekcia vyžaduje hlbšie pokrytie. S dostatočne vysokým pokrytím je možné použiť RNA-Seq na odhad expresie každej alely. To môže poskytnúť pohľad na javy, ako sú imprinting alebo cis-regulačné účinky. Hĺbka sekvenovania potrebná pre špecifické aplikácie sa dá extrapolovať z pilotného experimentu. [55]
  • Artefakty generovania údajov (známe aj ako technické odchýlky): The reagents (e.g., library preparation kit), personnel involved, and type of sequencer (e.g., Illumina, Pacific Biosciences) can result in technical artifacts that might be mis-interpreted as meaningful results. As with any scientific experiment, it is prudent to conduct RNA-Seq in a well controlled setting. If this is not possible or the study is a meta-analysis, another solution is to detect technical artifacts by inferring latent variables (typically principal component analysis or factor analysis) and subsequently correcting for these variables. [56]
  • Data management: A single RNA-Seq experiment in humans is usually 1-5 Gb (compressed), or more when including intermediate files. [57] This large volume of data can pose storage issues. One solution is compressing the data using multi-purpose computational schemas (e.g., gzip) or genomics-specific schemas. The latter can be based on reference sequences or de novo. Another solution is to perform microarray experiments, which may be sufficient for hypothesis-driven work or replication studies (as opposed to exploratory research).

Transcriptome assembly Edit

Two methods are used to assign raw sequence reads to genomic features (i.e., assemble the transcriptome):

  • De novo: This approach does not require a reference genome to reconstruct the transcriptome, and is typically used if the genome is unknown, incomplete, or substantially altered compared to the reference. [58] Challenges when using short reads for de novo assembly include 1) determining which reads should be joined together into contiguous sequences (contigs), 2) robustness to sequencing errors and other artifacts, and 3) computational efficiency. The primary algorithm used for de novo assembly transitioned from overlap graphs, which identify all pair-wise overlaps between reads, to de Bruijn graphs, which break reads into sequences of length k and collapse all k-mers into a hash table. [59] Overlap graphs were used with Sanger sequencing, but do not scale well to the millions of reads generated with RNA-Seq. Examples of assemblers that use de Bruijn graphs are Trinity, [58] Oases [60] (derived from the genome assembler Velvet[61] ), Bridger, [62] and rnaSPAdes. [63] Paired-end and long-read sequencing of the same sample can mitigate the deficits in short read sequencing by serving as a template or skeleton. Metrics to assess the quality of a de novo assembly include median contig length, number of contigs and N50. [64]
  • Genome guided: This approach relies on the same methods used for DNA alignment, with the additional complexity of aligning reads that cover non-continuous portions of the reference genome. [65] These non-continuous reads are the result of sequencing spliced transcripts (see figure). Typically, alignment algorithms have two steps: 1) align short portions of the read (i.e., seed the genome), and 2) use dynamic programming to find an optimal alignment, sometimes in combination with known annotations. Software tools that use genome-guided alignment include Bowtie, [66] TopHat (which builds on BowTie results to align splice junctions), [67][68] Subread, [69] STAR, [65] HISAT2, [70] and GMAP. [71] The output of genome guided alignment (mapping) tools can be further utilized by tools such as Cufflinks [68] or StringTie [72] to reconstruct contiguous transcript sequences (t.j., a FASTA file).The quality of a genome guided assembly can be measured with both 1) de novo assembly metrics (e.g., N50) and 2) comparisons to known transcript, splice junction, genome, and protein sequences using precision, recall, or their combination (e.g., F1 score). [64] In addition, v silikóne assessment could be performed using simulated reads. [73][74]

A note on assembly quality: The current consensus is that 1) assembly quality can vary depending on which metric is used, 2) assembly tools that scored well in one species do not necessarily perform well in the other species, and 3) combining different approaches might be the most reliable. [75] [76] [77]

Gene expression quantification Edit

Expression is quantified to study cellular changes in response to external stimuli, differences between healthy and diseased states, and other research questions. Transcript levels are often used as a proxy for protein abundance, but these are often not equivalent due to post transcriptional events such as RNA interference and nonsense-mediated decay. [78]

Expression is quantified by counting the number of reads that mapped to each locus in the transcriptome assembly step. Expression can be quantified for exons or genes using contigs or reference transcript annotations. [8] These observed RNA-Seq read counts have been robustly validated against older technologies, including expression microarrays and qPCR. [55] [79] Tools that quantify counts are HTSeq, [80] FeatureCounts, [81] Rcount, [82] maxcounts, [83] FIXSEQ, [84] and Cuffquant. These tools determine read counts from aligned RNA-Seq data, but alignment-free counts can also be obtained with Sailfish [85] and Kallisto. [86] The read counts are then converted into appropriate metrics for hypothesis testing, regressions, and other analyses. Parameters for this conversion are:

  • Sequencing depth/coverage: Although depth is pre-specified when conducting multiple RNA-Seq experiments, it will still vary widely between experiments. [87] Therefore, the total number of reads generated in a single experiment is typically normalized by converting counts to fragments, reads, or counts per million mapped reads (FPM, RPM, or CPM). The difference between RPM and FPM was historically derived during the evolution from single-end sequencing of fragments to paired-end sequencing. In single-end sequencing, there is only one read per fragment (t.j., RPM = FPM). In paired-end sequencing, there are two reads per fragment (t.j., RPM = 2 x FPM). Sequencing depth is sometimes referred to as library size, the number of intermediary cDNA molecules in the experiment.
  • Gene length: Longer genes will have more fragments/reads/counts than shorter genes if transcript expression is the same. This is adjusted by dividing the FPM by the length of a feature (which can be a gene, transcript, or exon), resulting in the metric fragments per kilobase of feature per million mapped reads (FPKM). [88] When looking at groups of features across samples, FPKM is converted to transcripts per million (TPM) by dividing each FPKM by the sum of FPKMs within a sample. [89][90][91]
  • Total sample RNA output: Because the same amount of RNA is extracted from each sample, samples with more total RNA will have less RNA per gene. These genes appear to have decreased expression, resulting in false positives in downstream analyses. [87] Normalization strategies including quantile, DESeq2, TMM and Median Ratio attempt to account for this difference by comparing a set of non-differentially expressed genes between samples and scaling accordingly. [92]
  • Variance for each gene's expression: is modeled to account for sampling error (important for genes with low read counts), increase power, and decrease false positives. Variance can be estimated as a normal, Poisson, or negative binomial distribution [93][94][95] and is frequently decomposed into technical and biological variance.

Spike-ins for absolute quantification and detection of genome-wide effects Edit

RNA spike-ins are samples of RNA at known concentrations that can be used as gold standards in experimental design and during downstream analyses for absolute quantification and detection of genome-wide effects.

  • Absolute quantification: Absolute quantification of gene expression is not possible with most RNA-Seq experiments, which quantify expression relative to all transcripts. It is possible by performing RNA-Seq with spike-ins, samples of RNA at known concentrations. After sequencing, read counts of spike-in sequences are used to determine the relationship between each gene's read counts and absolute quantities of biological fragments [11][96] In one example, this technique was used in Xenopus tropicalis embryos to determine transcription kinetics. [97]
  • Detection of genome-wide effects: Changes in global regulators including chromatin remodelers, transcription factors (e.g., MYC), acetyltransferase complexes, and nucleosome positioning are not congruent with normalization assumptions and spike-in controls can offer precise interpretation. [98][99]

Differential expression Edit

The simplest but often most powerful use of RNA-Seq is finding differences in gene expression between two or more conditions (napr., treated vs not treated) this process is called differential expression. The outputs are frequently referred to as differentially expressed genes (DEGs) and these genes can either be up- or down-regulated (t.j., higher or lower in the condition of interest). There are many tools that perform differential expression. Most are run in R, Python, or the Unix command line. Commonly used tools include DESeq, [94] edgeR, [95] and voom+limma, [93] [100] all of which are available through R/Bioconductor. [101] [102] These are the common considerations when performing differential expression:

  • Inputs: Differential expression inputs include (1) an RNA-Seq expression matrix (M genes x N samples) and (2) a design matrix containing experimental conditions for N samples. The simplest design matrix contains one column, corresponding to labels for the condition being tested. Other covariates (also referred to as factors, features, labels, or parameters) can include batch effects, known artifacts, and any metadata that might confound or mediate gene expression. In addition to known covariates, unknown covariates can also be estimated through unsupervised machine learning approaches including principal component, surrogate variable, [103] and PEER [56] analyses. Hidden variable analyses are often employed for human tissue RNA-Seq data, which typically have additional artifacts not captured in the metadata (napr., ischemic time, sourcing from multiple institutions, underlying clinical traits, collecting data across many years with many personnel).
  • Metódy: Most tools use regression or non-parametric statistics to identify differentially expressed genes, and are either based on read counts mapped to a reference genome (DESeq2, limma, edgeR) or based on read counts derived from alignment-free quantification (sleuth, [104] Cuffdiff, [105] Ballgown [106] ). [107] Following regression, most tools employ either familywise error rate (FWER) or false discovery rate (FDR) p-value adjustments to account for multiple hypotheses (in human studies,

20,000 protein-coding genes or

Downstream analyses for a list of differentially expressed genes come in two flavors, validating observations and making biological inferences. Owing to the pitfalls of differential expression and RNA-Seq, important observations are replicated with (1) an orthogonal method in the same samples (like real-time PCR) or (2) another, sometimes pre-registered, experiment in a new cohort. The latter helps ensure generalizability and can typically be followed up with a meta-analysis of all the pooled cohorts. The most common method for obtaining higher-level biological understanding of the results is gene set enrichment analysis, although sometimes candidate gene approaches are employed. Gene set enrichment determines if the overlap between two gene sets is statistically significant, in this case the overlap between differentially expressed genes and gene sets from known pathways/databases (napr., Gene Ontology, KEGG, Human Phenotype Ontology) or from complementary analyses in the same data (like co-expression networks). Common tools for gene set enrichment include web interfaces (napr., ENRICHR, g:profiler, WEBGESTALT) [114] and software packages. When evaluating enrichment results, one heuristic is to first look for enrichment of known biology as a sanity check and then expand the scope to look for novel biology.

Alternative splicing Edit

RNA splicing is integral to eukaryotes and contributes significantly to protein regulation and diversity, occurring in >90% of human genes. [115] There are multiple alternative splicing modes: exon skipping (most common splicing mode in humans and higher eukaryotes), mutually exclusive exons, alternative donor or acceptor sites, intron retention (most common splicing mode in plants, fungi, and protozoa), alternative transcription start site (promoter), and alternative polyadenylation. [115] One goal of RNA-Seq is to identify alternative splicing events and test if they differ between conditions. Long-read sequencing captures the full transcript and thus minimizes many of issues in estimating isoform abundance, like ambiguous read mapping. For short-read RNA-Seq, there are multiple methods to detect alternative splicing that can be classified into three main groups: [116] [89] [117]

  • Count-based (also event-based, differential splicing): estimate exon retention. Examples are DEXSeq, [118] MATS, [119] and SeqGSEA. [120]
  • Isoform-based (also multi-read modules, differential isoform expression): estimate isoform abundance first, and then relative abundance between conditions. Examples are Cufflinks 2 [121] and DiffSplice. [122]
  • Intron excision based: calculate alternative splicing using split reads. Examples are MAJIQ [123] and Leafcutter. [117]

Differential gene expression tools can also be used for differential isoform expression if isoforms are quantified ahead of time with other tools like RSEM. [124]

Coexpression networks Edit

Coexpression networks are data-derived representations of genes behaving in a similar way across tissues and experimental conditions. [125] Their main purpose lies in hypothesis generation and guilt-by-association approaches for inferring functions of previously unknown genes. [125] RNA-Seq data has been used to infer genes involved in specific pathways based on Pearson correlation, both in plants [126] and mammals. [127] The main advantage of RNA-Seq data in this kind of analysis over the microarray platforms is the capability to cover the entire transcriptome, therefore allowing the possibility to unravel more complete representations of the gene regulatory networks. Differential regulation of the splice isoforms of the same gene can be detected and used to predict their biological functions. [128] [129] Weighted gene co-expression network analysis has been successfully used to identify co-expression modules and intramodular hub genes based on RNA seq data. Co-expression modules may correspond to cell types or pathways. Highly connected intramodular hubs can be interpreted as representatives of their respective module. An eigengene is a weighted sum of expression of all genes in a module. Eigengenes are useful biomarkers (features) for diagnosis and prognosis. [130] Variance-Stabilizing Transformation approaches for estimating correlation coefficients based on RNA seq data have been proposed. [126]

Variant discovery Edit

RNA-Seq captures DNA variation, including single nucleotide variants, small insertions/deletions. and structural variation. Variant calling in RNA-Seq is similar to DNA variant calling and often employs the same tools (including SAMtools mpileup [131] and GATK HaplotypeCaller [132] ) with adjustments to account for splicing. One unique dimension for RNA variants is allele-specific expression (ASE): the variants from only one haplotype might be preferentially expressed due to regulatory effects including imprinting and expression quantitative trait loci, and noncoding rare variants. [133] [134] Limitations of RNA variant identification include that it only reflects expressed regions (in humans, <5% of the genome), could be subject to biases introduced by data processing (e.g., de novo transcriptome assemblies underestimate heterozygosity [135] ), and has lower quality when compared to direct DNA sequencing.

RNA editing (post-transcriptional alterations) Edit

Having the matching genomic and transcriptomic sequences of an individual can help detect post-transcriptional edits (RNA editing). [3] A post-transcriptional modification event is identified if the gene's transcript has an allele/variant not observed in the genomic data.

Fusion gene detection Edit

Caused by different structural modifications in the genome, fusion genes have gained attention because of their relationship with cancer. [136] The ability of RNA-Seq to analyze a sample's whole transcriptome in an unbiased fashion makes it an attractive tool to find these kinds of common events in cancer. [4]

The idea follows from the process of aligning the short transcriptomic reads to a reference genome. Most of the short reads will fall within one complete exon, and a smaller but still large set would be expected to map to known exon-exon junctions. The remaining unmapped short reads would then be further analyzed to determine whether they match an exon-exon junction where the exons come from different genes. This would be evidence of a possible fusion event, however, because of the length of the reads, this could prove to be very noisy. An alternative approach is to use paired-end reads, when a potentially large number of paired reads would map each end to a different exon, giving better coverage of these events (see figure). Nonetheless, the end result consists of multiple and potentially novel combinations of genes providing an ideal starting point for further validation.

RNA-Seq was first developed in mid 2000s with the advent of next-generation sequencing technology. [139] The first manuscripts that used RNA-Seq even without using the term includes those of prostate cancer cell lines [140] (dated 2006), Medicago truncatula [141] (2006), maize [142] (2007), and Arabidopsis thaliana [143] (2007), while the term "RNA-Seq" itself was first mentioned in 2008 [144] The number of manuscripts referring to RNA-Seq in the title or abstract (Figure, blue line) is continuously increasing with 6754 manuscripts published in 2018. The intersection of RNA-Seq and medicine (Figure, gold line) has similar celerity. [145]

Applications to medicine Edit

RNA-Seq has the potential to identify new disease biology, profile biomarkers for clinical indications, infer druggable pathways, and make genetic diagnoses. These results could be further personalized for subgroups or even individual patients, potentially highlighting more effective prevention, diagnostics, and therapy. The feasibility of this approach is in part dictated by costs in money and time a related limitation is the required team of specialists (bioinformaticians, physicians/clinicians, basic researchers, technicians) to fully interpret the huge amount of data generated by this analysis. [146]

Large-scale sequencing efforts Edit

A lot of emphasis has been given to RNA-Seq data after the Encyclopedia of DNA Elements (ENCODE) and The Cancer Genome Atlas (TCGA) projects have used this approach to characterize dozens of cell lines [147] and thousands of primary tumor samples, [148] respectively. ENCODE aimed to identify genome-wide regulatory regions in different cohort of cell lines and transcriptomic data are paramount in order to understand the downstream effect of those epigenetic and genetic regulatory layers. TCGA, instead, aimed to collect and analyze thousands of patient's samples from 30 different tumor types in order to understand the underlying mechanisms of malignant transformation and progression. In this context RNA-Seq data provide a unique snapshot of the transcriptomic status of the disease and look at an unbiased population of transcripts that allows the identification of novel transcripts, fusion transcripts and non-coding RNAs that could be undetected with different technologies.

This article was submitted to WikiJournal of Science for external academic peer review in 2019 (reviewer reports). The updated content was reintegrated into the Wikipedia page under a CC-BY-SA-3.0 license ( 2021 ). The version of record as reviewed is: Felix Richter et al. (17 May 2021). "A broad introduction to RNA-Seq". WikiJournal of Science. 4 (2): 4. doi:10.15347/WJS/2021.004. ISSN 2470-6345. Wikidata Q100146647.


Endogenous Reverse Transcriptase Could Allow mRNA Vaccines to Permanently Alter DNA

The Defender is experiencing censorship on many social channels. Be sure to stay in touch with the news that matters by subscribing to our top news of the day. It’s free.

Research on SARS-CoV-2 RNA by scientists at Harvard and MIT has implications for how mRNA vaccines could permanently alter genomic DNA, according to Doug Corrigan, Ph.D., a biochemist-molecular biologist who says more research is needed.

Over the past year, it would be all but impossible for Americans not to notice the media’s decision to make vaccines the dominant COVID narrative, rushing to do so even before any coronavirus-attributed deaths occurred.

The media’s slanted coverage has provided a particularly fruitful public relations boost for messenger RNA (mRNA) vaccines — decades in the making but never approved for human use — helping to usher the experimental technology closer to the regulatory finish line.

Under ordinary circumstances, the body makes (“transcribes”) mRNA from the DNA in a cell’s nucleus. The mRNA then travels out of the nucleus into the cytoplasm, where it provides instructions about which proteins to make.

By comparison, mRNA vaccines send their chemically synthesized mRNA payload (bundled with spike protein-manufacturing instructions) directly into the cytoplasm.

According to the Centers for Disease Control and Prevention (CDC) and most mRNA vaccine scientists, the buck then stops there — mRNA vaccines “do not affect or interact with our DNA in any way,” the CDC says. The CDC asserts first, that the mRNA cannot enter the cell’s nucleus (where DNA resides), and second, that the cell — Mission-Impossible-style — “gets rid of the mRNA soon after it is finished using the instructions.”

A December preprint about SARS-CoV-2, by scientists at Harvard and Massachusetts Institute of Technology (MIT), produced findings about wild coronavirus that raise questions about how viral RNA operates.

The scientists conducted the analysis because they were “puzzled by the fact that there is a respectable number of people who are testing positive for COVID-19 by PCR long after the infection was gone.”

Their key findings were as follows: SARS-CoV-2 RNAs “can be reverse transcribed in human cells,” “these DNA sequences can be integrated into the cell genome and subsequently be transcribed” (a phenomenon called “retro-integration”) — and there are viable cellular pathways to explain how this happens.

According to Ph.D. biochemist and molecular biologist Dr. Doug Corrigan, these important findings (which run contrary to “current biological dogma”) belong to the category of “Things We Were Absolutely and Unequivocally Certain Couldn’t Happen Which Actually Happened.”

The findings of the Harvard and MIT researchers also put the CDC’s assumptions about mRNA vaccines on shakier ground, according to Corrigan. In fact, a month before the Harvard-MIT preprint appeared, Corrigan had already written a blog outlining possible mechanisms and pathways whereby mRNA vaccines could produce the identical phenomenon.

In a second blog post, written after the preprint came out, Corrigan emphasized that the Harvard-MIT findings about coronavirus RNA have major implications for mRNA vaccines — a fact he describes as “the big elephant in the room.” While not claiming that vaccine RNA will necessarily behave in the same way as coronavirus RNA — that is, permanently altering genomic DNA — Corrigan believes that the possibility exists and deserves close scrutiny.

In Corrigan’s view, the preprint’s contribution is that it “validates that this is at least plausible, and most likely probable.”

Reverzná transkripcia

As the phrase “reverse transcription” implies, the DNA-to-mRNA pathway is not always a one-way street. Enzymes called reverse transcriptases can also convert RNA into DNA, allowing the latter to be integrated into the DNA in the cell nucleus.

Nor is reverse transcription uncommon. Geneticists report that “Over 40% of mammalian genomes comprise the products of reverse transcription.”

The preliminary evidence cited by the Harvard-MIT researchers indicates that endogenous reverse transcriptase enzymes may facilitate reverse transcription of coronavirus RNAs and trigger their integration into the human genome.

The authors suggest that while the clinical consequences require further study, detrimental effects are a distinct possibility and — depending on the integrated viral fragments’ “insertion sites in the human genome” and an individual’s underlying health status — could include “a more severe immune response … such as a ‘cytokine storm’ or auto-immune reactions.”

In 2012, a study suggested that viral genome integration could “lead to drastic consequences for the host cell, including gene disruption, insertional mutagenesis and cell death.”

Corrigan makes a point of saying that the pathways hypothesized to facilitate retro-integration of viral — or vaccine — RNA into DNA “are not unknown to people who understand molecular biology at a deeper level.”

Even so, the preprint’s discussion of reverse transcription and genome integration elicited a maelstrom of negative comments from readers unwilling to rethink biological dogma, some of whom even advocated for retraction (though preprints are, by definition, unpublished) on the grounds that “conspiracy theorists … will take this paper to ‘proof’ that mRNA vaccines can in fact alter your genetic code.”

More thoughtful readers agreed with Corrigan that the paper raises important questions. For example, one reader stated that confirmatory evidence is lacking “to show that the spike protein only is expressed for a short amount of time (say 1-3 days) after vaccination,” adding, “We think that this is the case, but there is no evidence for that.”

In fact, just how long the vaccines’ synthetic mRNA — and thus the instructions for cells to keep manufacturing spike protein — persist inside the cells is an open question.

Ordinarily, RNA is a “notoriously fragile” and unstable molecule. According to scientists, “this fragility is true of the mRNA of any living thing, whether it belongs to a plant, bacteria, virus or human.”

But the synthetic mRNA in the COVID vaccines is a different story. In fact, the step that ultimately allowed scientists and vaccine manufacturers to resolve their decades-long mRNA vaccine impasse was when they figured out how to chemically modify mRNA to increase its stability and longevity — in other words, produce RNA “that hangs around in the cell much longer than viral RNA, or even RNA that our cell normally produces for normal protein production.”

It is anyone’s guess what the synthetic mRNA is doing while it is “hanging around,” but Corrigan speculates that its enhanced longevity raises the probability of it “being converted over into DNA.”

Moreover, because the vaccine mRNA is also engineered to be more efficient at being translated into protein, “negative effects could be more frequent and more pronounced with the vaccine when compared to the natural virus.” ….


Výsledky

Experimental Design

To study the RT error and RDD rates at STRs, we designed the following experiment ( fig. 1). We isolated genomic DNA and total RNA from the same sample (orangutan testis of a single individual). The genomic DNA was sequenced using two different library preparation protocols—PCR-containing and PCR-free (see Materials and Methods section for details)—allowing us to test for genotype congruence between the two libraries (see “Genotyping STRs Using the DNA Sequencing Data” in Results). Total RNA was divided into two aliquots that were used to construct two separate RNA-seq libraries. Each of these two libraries was sequenced in two separate batches. Such an experiment, ideally, should allow one to differentiate between RDDs (such differences from the DNA sequence should be present in both RNA-seq libraries) and RT errors (such variants should be present in only one of the two RNA-seq libraries but in both sequencing batches). However, empirical data frequently have missing information at some loci due to limited sampling, which can distort results. For example, if a deviant STR variant is not sampled in one cDNA library, then an RT error can be incorrectly inferred instead of an RDD. For instance, if one-tenth of RNA molecules at a locus was modified from (A)6 to (A)7 due to RDD, then we should expect to observe (A)7 in both replicated cDNA libraries sequenced. However, if (A)7 was not sampled in one library, then we will observe (A)7 only in the other library, thereby misclassifying this situation as an RT error. Therefore, we developed a full likelihood method that permits sampling errors in the likelihood calculation to avoid error misclassifications.


CDNA cloning and library construction

One of the first applications of reverse transcriptase in molecular biology was the construction of cDNA libraries [2-4]. A cDNA library consists of cDNA clones that represent the transcribed sequences within a specific sample. Therefore, a library provides information about the temporal and spatial expression of genes for a given cell type, organ, or developmental stage, for example. The cDNA library clones are used in the characterization of novel RNA transcripts, determination of gene sequences, and expression of recombinant proteins.

Essential in constructing cDNA libraries is the proper representation of RNAs in their full length and/or their relative abundance, making the selection of a reverse transcriptase extremely important. Highly processive reverse transcriptases are capable of synthesizing long cDNAs as well as capturing low-abundance RNAs. Similarly, reverse transcritpases with increased thermostability are recommended for reverse-transcribing RNA with a high degree of secondary structure. (Naučiť sa viac o reverse transcriptase attributes) (White paper:Engineered reverse transcriptase)

After reverse transcription, a number of approaches may be used to insert cDNA into a vector for cloning. The double-stranded cDNAs after second-strand synthesis often have blunt ends and can be cloned into blunt-ended vectors (Figure 5A). Although this approach involves fewer steps, blunt-end cloning may result in less efficient ligation and loss of directionality after insertion. (Learn more about cloning workflow)

Alternatively, cDNA ends may be modified to include additional nucleotides of known sequences. For example, to modify the 5′ end of cDNA, oligo(dT) primers with additional 5′ nucleotides can be used to initiate reverse transcription to modify the 3′ end, short DNA oligos called linkers or adapters with desired sequences may be ligated (Figure 5B). In this manner, sites for directional insertion (e.g., restriction and homologous recombination), promoter binding (e.g., T3 and T7 sequences), and affinity purification (e.g., biotin and His tags) can be readily incorporated into the cDNA sequence. (Learn more about DNA library construction)

In another popular strategy, the 3′ ends of cDNA inserts and vectors are enzymatically extended with complementary homopolymeric tails. Using terminal deoxynucleotidyl transferase (TdT) and a single dNTP, a string of 20–30 nucleotides can be added to an insert, and a similar string of complementary nucleotides added to a vector (e.g., Cs on the insert and Gs on the vector), enabling the vector and insert tails to anneal to each other (Figure 5C). Ligation is not required because the gaps are repaired inside the bacteria after transformation.

When the target sequence is known, the insert may be generated by RT-PCR for cloning of a specific region of a cDNA (Figure 5D). (Learn more about PCR cloning)

Learn more

Related products


ZÁVER

Real-time RT-PCR is extremely powerful and can generate reliable, reproducible, and biologically meaningful results. However, this brief review of some of the underlying problems should also have made it clear that great care must be taken in planning and analyzing real-time RT-PCR assays. We have barely touched on the problems of normalization and reference genes (previously known as housekeeping genes), and have not mentioned �solute” versus relative quantification or the need for standard curves and how they should be generated. Because the reporting of Ct values alone can conceal as much as it reports, we believe it is necessary to begin a concerted effort to introduce more standard analysis and reporting procedures, as has been done for microarray technology in the establishment of the MIAME guidelines (www.mged.org/miame). Certainly, in the absence of such standards for real-time RT-PCR, it falls to the editors of journals to ensure that papers that include this technology are appropriately reviewed, and that any conclusions are rigorously supported by the actual data.

For the researcher, it is vital to consider each stage of the experimental protocol, starting with the laboratory setup and proceeding through sample acquisition, template preparation, RT, and finally the PCR step. Only if every one of these stages is properly validated is it possible to obtain reliable quantitative data. Of course, choice of chemistries, primers and probes, and instruments must be appropriate to whatever is being quantitated. Finally, data must be interpreted, and this remains a real problem. Clearly, real-time qPCR is a valuable, versatile, and powerful technique. But, like anything powerful, it needs to be treated with respect.