Informácie

Prečo sa po analýze BLAST berú rôzne dĺžky nukleotidov na predikciu štruktúry zo zhodnej oblasti miRNA?

Prečo sa po analýze BLAST berú rôzne dĺžky nukleotidov na predikciu štruktúry zo zhodnej oblasti miRNA?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Vo všeobecnosti pri predikcii miRNA väčšina výskumníkov robí vyhľadávanie Blast so sadou miRNA stiahnutých z miRBase s parametrami, ktoré vyžadujú. Neskôr sa zvyčajne používajú vlastné metódy na získanie oblasti okolo oblasti zhody pre predikciu štruktúry.

V jednom dokumente som zistil, že ~ 70 ohraničujúcich nt zápasovej oblasti bolo braných ako pre-miRNA na štrukturálnu analýzu, zatiaľ čo v tomto dokumente ~ 100 lemujúcich nt zápasovej oblasti bolo použitých na predikciu štruktúry pre-miRNA. Máte predstavu, prečo to tak je?


Neexistuje žiadne prísne pravidlo, koľko nukleotidov musíte vybrať. Ak je vaša miRNA ~20 nt a odoberiete 70 nt z oboch strán (priemerná dĺžka vláseniek je ~84 nt u ľudí), vaša celková dĺžka bude 160 nt. Pointa $ pm70nt $ je v tom, že neviete, či je vaša hodnota čítania -3p alebo -5p. Takže vezmite 70 nt z oboch strán.

Maximálna dĺžka vlásenky ľudskej miRNA je 180nt pre mir-3648 (90nt na polovicu vlásenky). V takýchto prípadoch môžete odobrať viac vedľajších zvyškov. Ale tieto prípady sú zriedkavé.


Predikcia miRNA v genóme HIV-1 a jej cieľov prostredníctvom umelej neurónovej siete: bioinformatický prístup

MikroRNA (miRNA) sú triedou nekódujúcich RNA, ktoré inhibujú expresiu konkrétneho génu procesom post-transkripčnej metódy umlčania génu špecifickej pre nukleotidovú sekvenciu. miRNA sú

21 nt dlhé nekódujúce RNA, ktoré sú odvodené z väčších vlásenkových RNA prekurzorov. Krátka dĺžka sekvencií miRNA a relatívne nízka konzervácia sekvencií pre-miRNA obmedzujú konvenčné metódy založené na zarovnaní sekvencií na nachádzaní iba relatívne blízkych homológov. Na druhej strane sa uvádza, že gény miRNA sú viac konzervované v sekundárnej štruktúre ich prekurzora ako v primárnych sekvenciách. Preto by sa pri hľadaní homológov nových miRNA génov mali plne využiť sekundárne štruktúrne znaky. V tejto štúdii bol navrhnutý prístup na identifikáciu a predikciu miRNA vo vírusoch prostredníctvom umelých neurónových sietí (ANN). Táto myšlienka využíva sekvenčné aj štrukturálne vlastnosti pre-miRNA na trénovanie ANN na identifikáciu miRNA v nových vírusových genómoch. Navrhnutá ANN bola nájdená s presnosťou 93,68 % pre cvičný súbor údajov a 55,55 % pre súbor validačných údajov. V prípade HIV táto vyškolená ANN identifikuje pre-miRNA, ktorá nevykazuje dostatočnú homológiu so známymi sekvenciami pre-miRNA, ale je vo svojej štruktúre vysoko konzervovaná. Nakoniec sa predpovedalo, že jedna miRNA s dĺžkou 19 mer sa zameriava na štyri gény, konkrétne NDUFS7, WNT3A, SUFU a FOXK1, na prísny prah v skóre 19. Výsledky naznačujú, že túto metódu je možné so značným úspechom použiť na identifikáciu nových miRNA v iných vírusových genómoch .


Abstrakt

Mnoho štúdií zdôraznilo úlohu, ktorú majú mikroRNA vo fyziologických procesoch, a ako ich deregulácia môže viesť k rakovine. Nedávno sa navrhlo, že prítomnosť jednonukleotidových polymorfizmov v mikroRNA génoch, ich mechanizme spracovania a cieľových väzbových miestach ovplyvňuje riziko rakoviny, účinnosť liečby a prognózu pacienta. Pri skúmaní tejto novej oblasti biológie rakoviny popisujeme metodologické prístupy týchto štúdií a navrhujeme odporúčania, pre ktoré stratégie bude v budúcnosti najinformatívnejšia.


VÝSLEDKY

MiRNA cieľová predikčná knižnica

Vyvinuli sme komplexný predikčný model implementovaný ako open source Python knižnica miRmap (obrázok 1) s celkom 11 funkciami pokrývajúcimi široký rozsah publikovaných a nových metód (tabuľka 2). S vlastnou implementáciou sme porovnali rôzne funkcie bez odchýlok spojených s porovnaním vopred vypočítaných predpovedí. Hodnotili sme individuálnu predikčnú silu vlastností, merali ich vzájomné korelácie a skúmali rôzne kombinácie metód. Navyše, aby sa uľahčilo používanie knižnice, v čistom Pythone je implementovaných päť funkcií.

Použitie knižnice miRmap: po importe knižnice (riadky 1 a 2) sa vytvorí objekt „mimset“ obsahujúci sekvencie mRNA a miRNA. Potom zavoláme metódu objektu mimset na vyhľadávanie (riadok 5) pre semená s dĺžkou 7 (všetky parametre majú predvolené hodnoty, ktoré je možné týmto spôsobom zmeniť). Prepojenie s knižnicami C je inicializované na riadku 7. Potom manuálne vyhodnotíme silu represie rôznymi metódami (riadky 9–16). Každá z týchto metód má upraviteľné parametre. Nakoniec vytlačíme správu (riadok 18).

Použitie knižnice miRmap: po importe knižnice (riadky 1 a 2) sa vytvorí objekt „mimset“ obsahujúci sekvencie mRNA a miRNA. Potom zavoláme metódu objektu mimset na vyhľadávanie (riadok 5) semien s dĺžkou 7 (všetky parametre majú predvolené hodnoty, ktoré je možné týmto spôsobom zmeniť). Prepojenie s knižnicami C sa inicializuje na riadku 7. Potom ručne vyhodnotíme silu represie rôznymi metódami (riadky 9–16). Každá z týchto metód má modifikovateľné parametre. Nakoniec vytlačíme správu (riadok 18).

Vlastnosti predikcie miRNA knižnice miRmap

Kategória. Funkcia. Popis. Iba pre Python. Poznámky .
Termodynamické ΔG duplex MFE s RNAcofold
ΔG väzba Väzbová energia založená na celkovej voľnej energii Nová funkcia
ΔG otvorené mRNA otvárajúca voľnú energiu - prístupnosť Rovnako ako v PITA (12)
ΔG celkom ΔG Duplex + ΔG otvorený Podobne ako ΔΔG v PITA ( 12)
Pravdepodobnostne P. nad binomickým Problém nadmerného zastúpenia stránok (binomická vzdialenosť.) Ako v PACMIT (18)
P.over presné Problém nadmerného zastúpenia stránok. (presná vzdialenosť.) Nová funkcia
Zachovanie BLS Skóre dĺžky vetvy na 3′-UTR prispôsobenom strome Podobne ako Stark a kol. ( 32)
PhyloP Test SPH od spoločnosti PhyloP Nová funkcia
Sekvencia Obsah AU Zloženie AU nukleotidov okolo semena Rovnako ako v TargetScan (6)
Pozícia UTR Vzdialenosť od najbližšieho konca 3′-UTR Ako v TargetScan (6)
3′-párovanie 3′-kompenzačné párovanie Rovnako ako v TargetScan (6)
Kategória. Funkcia. Popis. Iba pre Python. Poznámky.
Termodynamické ΔG duplex MFE s RNAcofoldom
AG väzba Väzbová energia založená na bezplatnej energii súboru Nová funkcia
ΔG otvorené mRNA otvárajúca voľnú energiu - prístupnosť Rovnako ako v PITA (12)
ΔG celkom ΔG Duplex + ΔG otvorené Podobné ako ΔΔG v PITA (12)
Pravdepodobnostne P. nad binomickým Problém nadmerného zastúpenia stránok. (binomická vzdialenosť.) Rovnako ako v PACMIT (18)
P.presne Problém nadmerného zastúpenia stránok. (presná vzdialenosť) Nová funkcia
Zachovanie BLS Skóre dĺžky vetvy na 3′-UTR prispôsobenom strome Podobne ako Stark a kol. ( 32)
PhyloP Test SPH od spoločnosti PhyloP Nová funkcia
Sekvencia obsah AU Zloženie AU nukleotidov okolo semena Rovnako ako v TargetScan (6)
Poloha UTR Vzdialenosť od najbližšieho konca 3′-UTR Rovnako ako v TargetScan (6)
3′-párovanie 3′-kompenzačné párovanie Rovnako ako v TargetScan (6)

Funkcie predikcie cieľa miRNA knižnice miRmap

Kategória . Funkcia. Popis. Iba Python . Poznámky.
Termodynamické ΔG duplex MFE s RNAcofoldom
AG väzba Väzbová energia založená na bezplatnej energii súboru Nová funkcia
ΔG otvorené mRNA otvára voľnú energiu – dostupnosť Ako v PITA (12)
ΔG celkom ΔG Duplex + ΔG otvorené Podobné ako ΔΔG v PITA (12)
Pravdepodobnostne P.nad binomickým Problém nadmerného zastúpenia stránok (binomická vzdialenosť.) Rovnako ako v PACMIT (18)
P.over presné Problém nadmerného zastúpenia stránok. (presná vzdialenosť) Nová funkcia
Zachovanie BLS Skóre dĺžky vetvy na strome vybavenom 3′-UTR Podobne ako Stark a kol. ( 32)
PhyloP SPH test od PhyloP Nová funkcia
Sekvencia Obsah AU AU nukleotidová kompozícia okolo semena Ako v TargetScan (6)
Poloha UTR Vzdialenosť od najbližšieho konca 3′-UTR Rovnako ako v TargetScan (6)
3′-párovanie 3′-kompenzačné párovanie Rovnako ako v TargetScan (6)
Kategória. Funkcia. Popis . Iba Python . Poznámky .
Termodynamické ΔG duplex MFE s RNAcofold
ΔG väzba Väzbová energia založená na celkovej voľnej energii Nová funkcia
ΔG otvorené mRNA otvára voľnú energiu – dostupnosť Ako v PITA (12)
ΔG celkom ΔG Duplex + ΔG otvorené Podobné ako ΔΔG v PITA (12)
Pravdepodobnostne P.nad binomickým Problém nadmerného zastúpenia stránok. (binomická vzdialenosť.) Rovnako ako v PACMIT (18)
P.over presné Problém nadmerného zastúpenia stránok. (presná vzdialenosť.) Nová funkcia
Zachovanie BLS Skóre dĺžky vetvy na 3′-UTR prispôsobenom strome Podobne ako Stark a kol. ( 32)
PhyloP SPH test od PhyloP Nová funkcia
Sekvencia obsah AU Zloženie AU nukleotidov okolo semena Rovnako ako v TargetScan (6)
Poloha UTR Vzdialenosť od najbližšieho konca 3′-UTR Ako v TargetScan (6)
3′-párovanie 3′-kompenzačné párovanie Ako v TargetScan (6)

Nové metódy zahrnujú (i) presnejší spôsob výpočtu väzbovej energie medzi miRNA a mRNA na základe voľnej energie súboru namiesto minimálnej voľnej energie, (ii) presný spôsob výpočtu pravdepodobnosti, že zhoda semien je nadmerne zastúpený motív v 3'-UTR a (iii) neempirický štatistický test na posúdenie významu evolučnej konzervácie cieľového miesta.

ΔG väzba

miRNA sa viažu na svoje cielené mRNA a vytvárajú špirálu. Minimálnu voľnú skladaciu energiu (MFE) týchto duplexov je možné vypočítať („AG duplex“), ale štruktúra s MFE predstavuje iba zlomok možných a existujúcich štruktúr. Okrem toho „ΔG duplex“ je mierou energie celej dvojvláknovej štruktúry, neopisuje samotnú väzbovú energiu. Toto je zachytené meraním „ΔG viazania“, ktoré predstavuje iba väzbovú energiu vypočítanú z voľnej energie súboru.

P presné

V rámci 3'-UTR majú regulačné alebo štruktúrne úlohy iba určité sekvenčné oblasti. Tieto oblasti možno preto považovať za ostrovy prírodného výberu v mori väčšinou neutrálne sa vyvíjajúcej sekvencie-obmedzených je asi 5% ľudských 3'-UTR báz (37). Toto rozlíšenie možno využiť v rámci pravdepodobnostného (alebo evolučného, ​​pozri nasledujúci odsek) rámca na rozlíšenie zloženia sekvencie pozadia od zloženia cieľového miesta. Po modelovaní zloženia sekvencie pozadia (s Markovovým procesom, pozri časť „Materiály a metódy“) je možné vypočítať pravdepodobnostné rozdelenie výskytov motívov, aby sa posúdila významnosť prítomnosti lokality. Na výpočet rozdelenia pravdepodobnosti v závislosti od dĺžky sekvencie a očakávaného počtu výskytov motívov je možné použiť niekoľko aproximácií (napr. Gaussova, Poissonova, binomická alebo veľká odchýlka). Keďže 3′-UTR sekvencie sú relatívne krátke, vypočítali sme nielen približnú distribúciu („P.over binomial“), ale aj presné rozdelenie („P.over exclusive“).

PhyloP

Empirické distribúcie opísané vyššie (19, 32) možno použiť na posúdenie štatistickej významnosti „BLS“ (pozri časť „Materiály a metódy“). Alternatívne môže byť na testovanie významného prirodzeného výberu použitý teoretický rámec (33), pričom test SPH hodnotí pravdepodobnosť, že časť sekvencie je pod selekciou, v našom prípade negatívnej selekcie. Tento rámec sa spolieha na porovnanie referenčného stromu zostaveného z úplného zarovnania viacnásobných sekvencií 3'-UTR a stromu vytvoreného z cieľového miesta (sekvenčná oblasť vymedzená zhodou semien alebo úplného cieľového miesta) viacnásobného zarovnania.

Na zmysluplné porovnanie potenciálneho cieľového miesta s úplným 3'-UTR by každá zo sekvencií v zarovnaní cieľového miesta mala byť rozpoznateľným väzbovým miestom miRNA. Inými slovami, aby funkcia „PhyloP“ priniesla zmysluplné výsledky, mali by byť medzi cieľovými druhmi zachované polohy cieľových miest. Na testovanie tohto stavu boli identifikované potenciálne cieľové miesta vyhľadaním zarovnaní 3'-UTR všetkých ľudských mRNA na všetky známe semená ľudskej miRNA. Pozície sú pre väčšinu zápasov ľudského semena v priemere zachované, 76% zápasov ľudského semena sa nachádza v rovnakej polohe pri porovnaní pre ostatné druhy cicavcov. Pre túto analýzu boli sekvencie druhov v zhode bez akejkoľvek zhody semien zahodené. Podľa tejto analýzy sa zdá, že obrat cieľových miest miRNA u cicavcov je nízky. Zachovanie polôh cieľového miesta v zarovnaní podporuje naše používanie PhyloP. Percentá sa navyše pohybujú od 47 do 99%, ak analyzujeme každú miRNA jednotlivo. MiRNA so sekvenciami s nízkou komplexitou majú zvyčajne nízke percentá, čo tiež podporuje výber tohto testu, pretože miRNA s nízkou komplexnosťou majú menej špecifické cieľové miesta.

Korelácia medzi vlastnosťami

Identifikovali sme potenciálne cieľové miesta miRNA vyhľadaním zhody s kanonickými 7-mérnymi semenami na všetkých 3'-UTR ľudských transkriptov a predpovedali sme ich sily pomocou 11 metód našej knižnice miRmap (pozri vyššie a časť „Materiály a metódy“). Našu analýzu sme zamerali skôr na 7-mérne semená ako na kratšie 6-mérne semená, pretože silnejšia represia mRNA je spojená s dlhšími semenami. Aj keď táto voľba prináša väčšiu dôveru v našu analýzu výkonnosti funkcií, predikciu cieľa so zvýšenou citlivosťou je možné ľahko získať integráciou kratších semien (pozri nižšie). Na vyhodnotenie poradia cieľových stránok vypočítaných pre každú funkciu a ignorovanie ďalších rozdielov, napr. ich rozptyly, vypočítali sme Spearmanovu rank koreláciu medzi pármi funkcií (doplnková tabuľka S1). Absolútne hodnoty sú znázornené na obrázku 2A.

Korelácia medzi funkciami založenými na predikcii pre ľudské miRNA a mRNA. (A) Tepelná mapa absolútnych hodnôt Spearmanovho korelačného koeficientu medzi pármi znakov zaradených do kategórií metód. Vennov diagramy (B) a (C) ukazujú prekrytia medzi prvými najlepšími predikčnými kvartilmi vybraných funkcií. Jedna funkcia na kategóriu (na základe sekvencie s „obsahom AU“, konzervácia s „BLS“ a pravdepodobnostná s „P.over exclusive“) je zobrazená na (A). Vennov diagram (C) zdôrazňuje vysoké prekrytie medzi „obsahom AU“ a „ΔG otvoreným“, ktoré sme zoskupili do „skupiny prístupnosti“, zatiaľ čo „ΔG duplex“ sa s týmito dvoma funkciami veľmi prekrýva. Zoskupili sme „ΔG duplex“ s „ΔG väzbou“ do skupiny „väzbová energia“. Počty predpovedaných vzťahov medzi ľudskou miRNA a mRNA sú zapísané v zodpovedajúcich prekrývaniach Vennových diagramov.

Korelácia medzi funkciami založenými na predikcii pre ľudské miRNA a mRNA. (A) Teplotná mapa absolútnych hodnôt Spearmanových korelačných koeficientov medzi pármi znakov klasifikovaných v kategóriách metód. Vennove diagramy (B) a (C) ukazujú prekrytia medzi prvými najlepšími predikčnými kvartilmi vybraných prvkov. Jedna funkcia pre kategóriu (založená na sekvencii s „obsahom AU“, konzervácia pomocou „BLS“ a pravdepodobnostná pri „P. presnom“) je uvedená na (A). Vennov diagram (C) zdôrazňuje vysoké prekrytie medzi „obsahom AU“ a „ΔG otvorený“, ktoré sme zoskupili do „skupiny dostupnosti“, zatiaľ čo „ΔG duplex“ sa s týmito dvoma funkciami prekrýva veľmi málo. Zoskupili sme „ΔG duplex“ s „väzbou ΔG“ v skupine „väzbová energia“. Počty predpovedaných vzťahov medzi ľudskou miRNA a mRNA sú zapísané v zodpovedajúcich prekrývaniach Vennových diagramov.

Tri najpresnejšie korelované páry vlastností sú tie, ktoré merajú rovnaké základné parametre pomocou mierne odlišných prístupov: „ΔG duplex“ a „ΔG väzba“ s 0,962, „P. presný“ a „P. prevyšujúci binomický“ s 0,806 a „ΔG otvorené “a„ celkom ΔG “s 0,725. 'ΔG open' a 'AU content' vykazujú koreláciu -0,635, keďže algoritmy skladania sa spoliehajú na energie párovania a stohovania, ktoré sú silnejšie pre GC ako páry AU, sekvencie bohaté na AU tvoria potenciálne menej stabilné štruktúry, čo vysvetľuje inverznú koreláciu medzi ' ΔG otvorený “a„ obsah AU “. Pretože tieto dve vlastnosti hodnotia prístupnosť mRNA k represii miRNA, zoskupili sme ich do „skupiny prístupnosti“ spolu s „ΔG total“.

Pretože sa v experimentálnych štúdiách často používajú iba najlepšie predpovede cieľov miRNA, zmerali sme prekrývanie medzi znakmi pre ich najlepšie kvartily. Na prvom Vennovom diagrame (obrázok 2B) predstavujeme jednu vlastnosť na skupinu (dostupnosť, zachovanie a pravdepodobnosť), čo odhaľuje nízke prekrytie medzi týmito metódami. Druhý Vennov diagram (obrázok 2C) potvrdzuje, že funkcie „ΔG open“ a „AU content“ patria do rovnakej skupiny prístupnosti, zatiaľ čo „ΔG duplex“ je zreteľná vlastnosť, ktorá nesúvisí s cieľovou prístupnosťou. Porovnania programu predikcie cieľa (pozri časť „Úvod“) často obsahujú PITA (12), ktorá kombinuje „ΔG otvorený“ a „ΔG duplex“, pričom akékoľvek závery urobené v týchto porovnaniach o výkone jednotlivých funkcií sú nepresné.

Výkon jednotlivých funkcií

Hodnotili sme výkonnosť každého znaku pomocou údajov zo siedmich experimentov pochádzajúcich z piatich štúdií (tabuľka 3), ktoré pokrývajú rôzne aspekty represie miRNA a používajú rôzne testovacie techniky. i) Chi a kol. (9) uskutočnili experiment so zosieťovaním Ago-RNA, po ktorom nasledovala IP a sekvenovanie, z ktorého sa testovali väzbové miesta miRNA. ii) Hendrickson a kol. (25) vykonali Ago-IP bez zosieťovania, ktoré sme zahrnuli na zdôraznenie účinku kroku zosieťovania. Na meranie účinku na hladiny mRNA sme použili štúdie založené na miRNA transfekciách, po ktorých nasledovali merania microarray od (iii) Grimsona a kol. (6), iv) Linsley a kol. (24) a (v) Hendrickson a kol. (25). Na posúdenie účinku miRNA na transláciu sme využili výhody polyzómových frakcionačných experimentov od (vi) Hendricksona a kol. ( 25) a proteomických experimentov z (vii) Selbach a kol. (7) založené na technológii pSILAC na získanie konečného prekladového výstupu.

Experimentálne štúdie použité na vyhodnotenie vlastností predikcie cieľa miRNA

Názov množiny údajov. Napíšte . Publikácia.
Trans.Grimson Microarray Grimson a kol. ( 6)
Trans.Linsley Microarray Linsley a kol. ( 24)
Prot.Selbach pSILAC Selbach a kol. ( 7)
IPcross.Chi HITS-CLIP Chi a kol. ( 9)
IP. Hendrickson Imunopurifikácia Hendrickson a kol. ( 25)
Trans. Hendrickson Microarray Hendrickson a kol. ( 25)
RibN.Hendrickson Polyzómová frakcionácia Hendrickson a kol. ( 25)
Názov množiny údajov. Napíšte . Publikácia .
Trans.Grimson Microarray Grimson a kol. ( 6)
Trans.Linsley Microarray Linsley a kol. ( 24)
Prot.Selbach pSILAC Selbach a kol. ( 7)
IPcross.Chi HITS-CLIP Chi a kol. ( 9)
IP.Hendrickson Imunopurifikácia Hendrickson a kol. ( 25)
Trans. Hendrickson Microarray Hendrickson a kol. ( 25)
RibN.Hendrickson Polyzómová frakcionácia Hendrickson a kol. ( 25)

Experimentálne štúdie použité na vyhodnotenie vlastností predikcie cieľa miRNA

Názov množiny údajov. Napíšte . Publikácia .
Trans.Grimson Microarray Grimson a kol. ( 6)
Trans.Linsley Microarray Linsley a kol. ( 24)
Prot.Selbach pSILAC Selbach a kol. ( 7)
IPcross.Chi HITS-CLIP Chi a kol. ( 9)
IP.Hendrickson Imunopurifikácia Hendrickson a kol. ( 25)
Trans. Hendrickson Microarray Hendrickson a kol. ( 25)
RibN.Hendrickson Polyzómová frakcionácia Hendrickson a kol. ( 25)
Názov množiny údajov. Napíšte . Publikácia .
Trans.Grimson Microarray Grimson a kol. ( 6)
Trans.Linsley Microarray Linsley a kol. ( 24)
Prot.Selbach pSILAC Selbach a kol. ( 7)
IPcross.Chi HITS-CLIP Chi a kol. ( 9)
IP.Hendrickson Imunopurifikácia Hendrickson a kol. ( 25)
Trans. Hendrickson Microarray Hendrickson a kol. ( 25)
RibN.Hendrickson Polyzómová frakcionácia Hendrickson a kol. ( 25)

Identifikovali sme potenciálne cieľové weby miRNA hľadaním zápasov s kanonickými 7-mer semenami na transkriptoch zapojených do každého experimentu a predpovedali sme ich silu pomocou 11 metód implementovaných v našej knižnici miRmap a ďalšej funkcie odvodenej zo stopy UCSC PhastCons (pozri ' Časť Materiály a metódy) na uľahčenie porovnania s Wen a kol. ( 23) výsledky. Potom sme vyhodnotili korelácie medzi nameranými a predpovedanými silami represie miRNA.

Našu prvú analýzu sme zamerali na transkriptomické údaje, pretože tieto experimenty merajú prevládajúci účinok represie miRNA (38, 39) a majú najväčší rozsah („Trans.Grimson“, „Trans.Linsley“ a „Trans.Hendrickson“ zahŕňajú celkom 24 miRNA). Obrázok 3 ukazuje lineárne regresie a korelácie medzi každým znakom a pozorovanými zníženiami hladín mRNA pre súbor údajov „Trans.Grimson“ (doplnková tabuľka S2). Korelačné koeficienty sa pohybujú od 0 000 pre najhoršie fungujúcu funkciu „ΔG duplex“ do –0,229 pre najlepšiu funkciu „obsah AU“. Ďalšími najlepšími funkciami sú „PhyloP“, „PhastCons“, „ΔG total“, „ΔG open“, za ktorými nasledujú „P.over přesné“ a „BLS“. Dve z našich nových vlastností vykazujú lepšie korelácie ako ich príbuzné vlastnosti: (i) „PhyloP“ je najvýkonnejšou metódou konzervácie (–0,205) a ii) „P.over exprimuje“ lepšie výsledky ako „P.over binomial“, tj. výpočet presného rozdelenia pravdepodobnosti je lepší ako použitie binomickej aproximácie (0,170 oproti 0,147). Okrem toho (iii) vzhľadom na to, že energia súboru prevyšuje iba používanie MFE („väzba ΔG“: 0,023 oproti „ΔG duplex“: 0,000).

Korelácia medzi každým znakom a násobnými zmenami expresie mRNA po injekcii miRNA (súbor údajov „Trans.Grimson“). Dátové body boli zoskupené do 15 rovnako veľkých priehradiek. Priemer v každom koši predstavuje modrá bodka. Na modré body sme namontovali lineárny regresný model (červená čiara). r je korelácia s celým súborom údajov r′ je korelácia na súbore binned dataset. P-hodnoty nájdete v doplnkovej tabuľke S2.

Korelácia medzi každým znakom a zmenami expresie mRNA po injekcii miRNA (súbor údajov „Trans.Grimson“). Dátové body boli binované v 15 rovnako veľkých zásobníkoch. Priemer v každom zásobníku je znázornený modrou bodkou. Na modré body sme namontovali lineárny regresný model (červená čiara). r je korelácia na úplnom súbore údajov r'Je korelácia v binárnom súbore údajov. P-hodnoty nájdete v doplnkovej tabuľke S2.

V našej druhej analýze sme skúmali všetky súbory údajov, aby sme porovnali výkonnosť každej funkcie v rámci ďalších aspektov represie miRNA, hodnotenej prostredníctvom experimentov IP, proteomiky a polyzómovej frakcionácie. Korelácie pre každú funkciu a každý experimentálny súbor údajov sú vykreslené na obrázku 4 (doplnková tabuľka S2). Je pozoruhodné, že výkony funkcií vykazujú vysokú konzistenciu medzi každým z experimentálnych súborov údajov: funkcie dostupnosti (červené) vždy fungujú dobre, zatiaľ čo väzbové energie (svetlomodré) sú vždy slabo prediktívne. Pretože cieľové miesta v našej štúdii obsahujú semeno, časť cieľových miest rozlišujúcich väzbovú energiu je daná zložením nukleotidového jadra zárodku a párovaním mimo semena. Táto energia nepoháňa silu represie miRNA, čo potvrdzuje nízky výkon „párovania 3“. Poradie výkonu každej funkcie je navyše veľmi podobné medzi množinami údajov používajúcimi rovnaké experimentálne techniky, napr. súbory údajov „Trans.Grimson“ a „Trans.Linsley“. Zatiaľ čo je založený iba na jednej miRNA, súbor údajov „Trans.Hendrickson“ vykazuje lepší celkový výkon s iba malými rozdielmi: „pozícia UTR“ zlepšila svoje hodnotenie, zatiaľ čo „PhastCons“ prekonala „BLS“.

Korelácia medzi každým znakom a siedmimi experimentálnymi mierami represie miRNA (meno prvého autora každého súboru údajov je zobrazené sivou farbou) klasifikované v typoch transkriptomiky, proteomiky, IP a polyzómovej frakcionácie. Funkcie predikcie cieľa sú usporiadané do skupín, ktorých cieľom je vyhodnocovať rovnaký typ informácií. Radiálna os predstavuje korelačný koeficient (najvyššie korelácie sú najďalej od stredu kruhu).

Korelácia medzi každým znakom a siedmimi experimentálnymi mierami represie miRNA (meno prvého autora každého súboru údajov je zobrazené sivou farbou) klasifikované v typoch transkriptomiky, proteomiky, IP a polyzómovej frakcionácie. Funkcie predikcie cieľa sú usporiadané do skupín, ktorých cieľom je vyhodnocovať rovnaký typ informácií. Radiálna os predstavuje korelačný koeficient (najvyššie korelácie sú najďalej od stredu kruhu).

„Obsah AU“ trvale poskytuje najlepšiu mieru prístupnosti cieľového webu. To je v súlade so zisteniami Wena a kol. ( 23), ale na rozdiel od výsledkov Haussera a kol. ( 21), ktorý opísal lepší výkon s „ΔG open“ pre experiment IP. Avšak pre množinu údajov „IP.Hendrickson“, ktorá podobne ako Hausser a kol. (21) zapojená IP bez krížového prepojenia, „obsah AU“ a „ΔG otvorený“ fungujú rovnako dobre. Experiment „IP.Hendrickson“ sa tiež líši od pravdepodobnostných (purpurových) a „pozícií UTR“ (zelených) znakov, ktoré prekonávajú ochranné znaky (sivé), čo možno vysvetliť nižšou presnosťou tejto metódy (tj. IP bez kríženia) -linkovanie), uskutočňované s jedinou miRNA.

Výkon funkcie najlepšej ochrany je spravidla o niečo nižší ako funkcia najlepšej dostupnosti, ale prekonáva „obsah AU“ v súboroch údajov o proteomike a HITS-CLIP. Výkon „PhastCons“ v súbore údajov HITS-CLIP je v súlade so zisteniami od Wena a kol. (23). Naša nová funkcia zachovania, „PhyloP“, ukazuje najlepší alebo zhodný najlepší výkon pre päť zo siedmich súborov údajov. Keď je prekonaný, je len okrajovo prekonaný, čo znamená, že „PhyloP“ je najlepším celkovým ochranným prvkom.

Hendrickson a kol. (25) polyzómová frakcionácia merala účinky miRNA ako obsadenosť ribozómov (frakcia transkriptov daného génu spojená s ribozómami) a hustotu ribozómov (priemerný počet ribozómov viazaných na jednotku dĺžky kódujúcej sekvencie). Autori zistili účinky spôsobené miRNA na oba parametre, ale boli podstatne vyššie na hustotu ribozómov v súlade s absenciou korelácie s obsadenosťou ribozómov, ktorú sme pozorovali, t. J. Toto meranie nie je kvantitatívne. Hustota ribozómov je však kvantitatívnym meradlom účinku miRNA, pretože korelácie boli rovnako vysoké alebo vyššie ako korelácie pri rozsiahlych transkriptomických experimentoch. Opäť sme pozorovali, ako pre všetkých Hendricksonovcov a kol. ( 25) množiny údajov, vyššia korelácia pre funkciu „pozícia UTR“, pravdepodobne spôsobená experimentálnym nastavením.

Kombinácia predikčných funkcií

Vlastnosti lineárne korelujú s experimentálne nameranými hladinami represie miRNA. Skombinovali sme 10 funkcií našej knižnice miRmap (vylúčili sme „ΔG total“, pretože táto funkcia je jednoducho súčtom „ΔG duplex“ a „ΔG open“) s viacnásobnou lineárnou regresiou v súbore údajov „Trans.Grimson“ (P = 4,9 × 10 - 110 doplnkový obrázok S7). Tento model vysvetľuje 12,7% rozptylu, čo je takmer dvojnásobné zvýšenie oproti kontextovému skóre TargetScan (6): s rovnakým typom regresie tri vlastnosti kontextového skóre TargetScan („obsah AU“, „párovanie 3“ a „pozícia UTR“) vysvetľujú iba 7,49 % rozptylu. Tento zlepšený výkon nášho modelu je potvrdený vyššími koreláciami s experimentálnymi meraniami, vypočítanými rovnakým spôsobom ako korelácie jednotlivých znakov (obrázok 5A). Príspevok každej funkcie (v súbore údajov „Trans.Grimson“, obrázok 5B) vo všeobecnosti odzrkadľuje poradie na základe korelácií jednotlivých funkcií: „Obsah AU“ je najviac vysvetľujúcim znakom, ale „presný P.over“ prispieva viac do regresného modelu. než naznačuje jeho korelačné poradie. Je zaujímavé, že ochranné prvky „PhyloP“ a „BLS“ prispievajú ∼14 a ∼11%v uvedenom poradí, napriek tomu, že sa používajú rovnaké vstupné údaje (zarovnania sekvencií viacnásobného genómu), obidva výrazne prispievajú k vysvetleniu odchýlky. Medzi funkciami dostupnosti prispieva „ΔG open“ len polovičným podielom ako „obsah AU“ (15 a 30 %). Model obmedzený na päť funkcií s najväčším prínosom v modeli so všetkými funkciami (predstavujú 90,5% vysvetlenia odchýlky celého modelu) stále vysvetľuje 11,6% rozptylu.

(A) Porovnanie výkonnosti (keďže korelácie koeficientov s experimentálnou miRNA represia merajú poradie experimentov je rovnaké ako na obrázku 4) funkcie s najlepšou výkonnosťou (hnedá), kontextového skóre TargetScan (červená) a miRmap (modrá). (B) Relatívna dôležitosť vo viacnásobnom lineárnom regresnom modeli miRmap predpovedajúcom silu represie miRNA. R. 2 je podiel rozptylu vysvetlený modelom. „Obsah AU“ je s 29% najjasnejšou premennou R. 2 .

(A) Porovnanie výkonu (ako korelácia koeficientov s experimentálnymi miRNA represívnymi opatreniami je poradie experimentov rovnaké ako na obrázku 4) najlepšie fungujúceho znaku (hnedý), kontextového skóre TargetScan (červený) a miRmap (modrý). (B) Relatívna dôležitosť vo viacnásobnom lineárnom regresnom modeli miRmap predpovedajúcom silu represie miRNA. R. 2 je podiel rozptylu vysvetlený modelom. „Obsah AU“ je najviac vysvetľujúca premenná s 29 % z R. 2 .

Namiesto priameho vyhodnotenia modelu z hľadiska vysvetleného rozptylu možno kvalitu hodnotenia odhadnúť zoradením cieľových miest podľa predpokladanej sily, ich zoskupením a výpočtom strednej výrazovej násobnej zmeny každého zásobníka. Tento prístup, použitý aj v (40) na vyhodnotenie poradia rôznych nástrojov na predpovedanie sily represie miRNA pri translácii pomocou proteomických údajov, bol aplikovaný na 10 kvantilov usporiadaných predpovedí (doplnkový obrázok S2). Celková distribúcia bola pre miRmap posunutá k nižším násobným zmenám v porovnaní s kontextovým skóre TargetScan, čo naznačuje lepšie hodnotenie, pretože pokles násobnej zmeny zodpovedá väčšej represii. V prvom kvantile bola priemerná násobná zmena znížená z -0,32 na -0,39 pomocou miRmap.

Viacnásobné lineárne regresie s inými súbormi údajov ďalej podporujú závery z analýz výkonnosti jednotlivých funkcií (doplnkové obrázky S1 a doplnkové údaje). Potvrdili i) dôležitosť „PhyloP“ pre súbor údajov „IPcross.Chi“ (64% R. 2) viac ako 24% pre „obsah AU“, ii) podobný význam „PhyloP“ a „obsahu AU“ pre proteomiku (31% a 39% R. 2) a (iii) relevantnosť experimentu s frakcionáciou polyzómov (údajový súbor „RibN.Hendrickson“) na meranie sily represie miRNA v porovnaní s proteomikou, keďže 10,6 % rozptylu bolo vysvetlených modelom (5,75 % pre proteomiku). Zistili sme tiež, že model vypočítaný na súbore údajov „Trans.Linsley“ vysvetľuje iba 4,36 % rozptylu, aj keď tento súbor údajov je väčší a založený na rovnakých technikách ako súbor údajov „Trans.Grimson“ (R. 2 = 12.7%).

Kratšie semená môžu tiež podporovať represiu miRNA, ale zvyčajne s nižšou účinnosťou (4). Preto sme testovali náš prístup na kanonických 6-merných semenách výpočtom modelu s týmito zhodami semien v súbore údajov „Trans.Grimson“. Napriek tomu, že globálny význam každej funkcie je vo všeobecnosti podobný, pričom funkcie vysvetľujúce vysvetlenie sú najzákladnejšie, R. 2 klesol na 8,31% rozptylu (doplnkový obrázok S4A), ktorý stále prekonáva kontextové skóre TargetScan (R. 2 = 4,70%). Je zaujímavé, že dôležitosť pravdepodobnostného znaku „presný P.over“ bola znížená z 22 na 7% - spadajúca z druhej pozície na piatu - ako sa očakávalo u kratších semien, kde sa zápasy vyskytujú častejšie náhodou, a preto sú menej štatisticky rozlíšiteľné od pozadia . Model sme tiež hodnotili vypočítaním distribúcie násobných zmien (doplnkový obrázok S4B). Ako sa očakávalo, priemerné násobné zmeny neboli také nízke ako pri 7-mérnych semenách, napriek tomu potvrdili lepšie hodnotenie dosiahnuté pomocou miRmap v porovnaní s kontextovým skóre TargetScan, napr. priemerná násobná zmena prvého kvantilu sa znížila z -0,16 na -0,21. Tieto výsledky boli ďalej podporené analýzou ďalších súborov údajov (doplnkové obrázky S5 a doplnkové údaje).

Kombinácia viacerých cieľových lokalít

Každá mRNA môže obsahovať mnoho cieľových miest miRNA. Aj keď sa väčšina experimentálnych súborov údajov zameriava na jednu miRNA súčasne (alebo všetky miRNA pre súbor údajov „IPcross.Chi“), rámec, ktorý dokáže zachytiť multiplicitu týchto interakcií, by mal zlepšiť prediktívnu silu. Skúmali sme tri jednoduché funkcie na kombinovanie jednotlivých skóre cieľových miest do globálnej metriky na úrovni mRNA: najlepšie (minimum alebo maximum v závislosti od znamienka korelácie), súčet a logaritmus súčtu exponenciál. Pre túto analýzu sme vybrali transkripty z množiny údajov „Trans.Grimson“ s presne dvoma cieľovými miestami, čo viedlo k veľkosti vzorky 370 mRNA (iba 53 mRNA má presne tri cieľové miesta). Pre túto štúdiu sú vhodné iba funkcie predpovedajúce rôzne sily pre každé cieľové miesto v 3'-UTR, pretože by vykazovali rôzne korelácie pre každú funkciu, čo by umožnilo porovnanie funkcií. Keďže pravdepodobnostné charakteristiky počítajú pravdepodobnosť pevného počtu zhodných semien v 3'-UTR a keďže skóre 'BLS' sa počíta aj pre celé 3'-UTR, nemohli byť použité.

Log súčtu exponenciálnych funkcií je navrhnutý tak, aby aproximoval kinetiku interakcie na princípe, že silnejšie miesta by riadili pozorovanú represiu na úrovni mRNA. Táto funkcia však fungovala zle pre každú funkciu na rozdiel od súčtu (doplnkový obrázok S8), čo znamená, že každé cieľové miesto má rovnakú dôležitosť, čo naznačuje, že množstvo molekúl miRNA neobmedzuje represívnu reakciu v tomto experimente. Pokiaľ ide o vlastnosti väzbovej energie, „ΔG duplex“ a „ΔG väzba“, minimálne energie poskytovali najlepšie prediktory, t. J. Najlepšie miesto poháňa represiu voči týmto dvom funkciám. Na rozdiel od ich relatívne slabého výkonu pri predpovediach jednej lokality sa ich výkon podstatne zvýšil (s koreláciami od 0 do 0,094 (P = 0,072) a 0,023 až 0,119 (P = 0,022) pre „ΔG duplex“ a „AG väzba“, v uvedenom poradí), ale stále neprekonali ostatné vlastnosti. Poradie výkonnosti medzi zostávajúcimi funkciami sa podstatne nelíšilo od predpovedí jedného webu a, ako už bolo uvedené vyššie (7), súčet bol pre väčšinu z nich najlepšou možnosťou.


Obsah

Algoritmy strojového učenia sa zlepšujú so skúsenosťami [5] vo všeobecnosti, metódu strojového učenia je možné obvykle trénovať tak, aby rozpoznávala prvky určitej triedy so zoznamom týchto prvkov. [6] Metódy strojového učenia sa môžu napríklad trénovať na identifikáciu spojovacích miest. [7]

V roku 1985 Terry Sejnowski, ktorý spojil svoje znalosti z biológie a neurónových sietí, vyvinul program NETtalk (umelá neurónová sieť), program, ktorý sa učí vyslovovať 20 000 slov v angličtine rovnako, ako to robí dieťa. [8] [ relevantné? ]

Stroje na podporné vektory sa vo veľkej miere používajú v štúdiách genómu rakoviny. [9] Okrem toho bolo do bioinformatických algoritmov začlenené hlboké učenie. V roku 2016 Angermueller preskúmal aplikácie hlbokého vzdelávania pre regulačnú genomiku a bunkové zobrazovanie. [10]

Medzi ďalšie aplikácie patrí klasifikácia lekárskeho obrazu, analýza genomickej sekvencie, ako aj klasifikácia a predikcia proteínovej štruktúry. [11] V roku 2019 preskúmanie skúma hlboké učenie pre regulačnú genomiku, volanie variantov a skóre patogenity. [12]

Spracovanie prirodzeného jazyka a dolovanie textu sú informačné nástroje, ktoré boli zapojené do bioinformatických výskumných prác s cieľom získať nové poznatky o biologických údajoch. Tieto dve informačné vetvy pomohli pochopiť javy, ako je interakcia proteín-proteín, vzťah medzi génmi a chorobami, ako aj predpovedanie štruktúr a funkcií biomolekúl. [13]

Personalizovaná medicína Upraviť

Algoritmy spracovania prirodzeného jazyka boli schopné navrhnúť personalizovanú medicínu pre pacientov, ktorí trpia genetickými chorobami, a to kombináciou extrakcie klinických informácií a genómových údajov dostupných od pacientov. Ústavy [ ktorý? ] ako Health-financovaná farmakogenomická výskumná sieť sa zameriava na hľadanie liečby rakoviny prsníka. [14]

Výpočtové prístupy v presnej medicíne Upraviť

Cieľom presnej medicíny je zohľadniť individuálnu genomickú variabilitu, ktorá je v dnešnej dobe možná kvôli množstvu rozsiahlych biologických databáz, ktoré obsahujú rozsiahle informácie o fenotypoch a genotypoch. Preto vzniká potreba nájsť výpočtové modely, ktoré budú schopné predpovedať nové liečebné postupy špecializované na každú osobu na svete. [15]

Na predikciu, klasifikáciu a výber funkcií je možné použiť algoritmy strojového učenia v bioinformatike. Metódy na dosiahnutie tejto úlohy sú rôzne a pokrývajú mnoho disciplín, najznámejšie je strojové učenie a štatistika. Klasifikačné a predikčné úlohy sa zameriavajú na vytváranie modelov, ktoré popisujú a rozlišujú triedy alebo koncepty pre budúcu predikciu. Rozdiely medzi nimi sú nasledujúce:

  • Výstupom klasifikácie je kategorická hodnotná trieda, zatiaľ čo predikcia poskytuje numerickú hodnotu.
  • Typ algoritmu alebo procesu použitého na zostavenie prediktívnych modelov z údajov, či už je založený na analógiách, pravidlách, neurónových sieťach, pravdepodobnostiach alebo štatistikách.

Vzhľadom na exponenciálny rast informačných technológií, ako sú klastre (pre efektívnu správu informácií), cloudy (na masívne ukladanie údajov) a použiteľné modely vrátane umelej inteligencie, dolovania údajov, učiaceho sa stroja, okrem dostupnosti celosvetových vedeckých informácií, boli vytvorené nové a lepšie informačné analýzy, techniky, ktoré sú prispôsobené schopnosti učiť sa. Tieto modely nám umožňujú ísť nad rámec obyčajného popisu údajov a poskytnúť prehľady vo forme testovateľných modelov. Prispieva to k odloženiu informačnej spoločnosti na vstup do spoločnosti vedomostí.

Okrem všetkých týchto aplikácií sa na riešenie ďalších problémov používajú výpočtové techniky, ako napríklad účinný návrh primérov pre PCR, analýza biologického obrazu a spätná translácia proteínov (čo je vzhľadom na degeneráciu genetického kódu zložitý kombinatorický problém) [2]

Umelá neurónová sieť v bioinformatike Edit

Umelá neurónová sieť je široko používaný algoritmus strojového učenia v bioinformatike [16]

  • Úloha porovnávať a zarovnávať sekvencie súvisiace s RNA, proteínom a DNA.
  • Úlohou identifikácie promótorov a nájdenia génov zo sekvencií súvisiacich s DNA.
  • Úloha interpretovať údaje o expresnom géne a mikropole.
  • Úlohou identifikácie siete (regulačnej) génov.
  • Úloha naučiť sa evolučný vzťah pomocou konštrukcie fylogenetických stromov.
  • Úloha klasifikovať a predpovedať štruktúru bielkovín.
  • Úloha molekulárneho dizajnu a dokovania.

Funkcionalita Upraviť

Dôležitou súčasťou vzdelávacieho systému je spôsob, akým sa vlastnosti extrahujú z doménových údajov, ktoré sú často vektorom vo viacrozmernom priestore. [17] V genomike je obvyklou reprezentáciou sekvencie vektor k-mérových frekvencií. Toto je vektor dimenzie 4 k > ktorých záznamy počítajú vzhľady každej podsekvencie dĺžky v danej sekvencii. Pretože pre hodnotu, ktorá je taká malá, je rozmer týchto vektorov obrovský, na premietanie údajov do nižšieho rozmerového priestoru sa používajú techniky ako analýza hlavných komponentov, čím sa vyberie menší súbor funkcií. zo sekvencií.

Upraviť klasifikáciu

Výstupom tohto typu úlohy strojového učenia je diskrétna premenná. Príkladom tejto úlohy v bioinformatickom prostredí je značenie nových genomických údajov (napr. Genómy nekultivovateľných baktérií) na základe modelu už označených údajov. [18]

Skryté Markovove modely Upraviť

Skryté Markovove modely (HMM) sú triedou štatistických modelov pre sekvenčné údaje, ktoré vo väčšine prípadov súvisia so systémami, ktoré sa časom vyvíjajú. HMM sa používajú na profilovanie a konverziu zarovnania viacerých sekvencií do pozične špecifického skórovacieho systému vhodného na diaľkové vyhľadávanie databáz pre homológne sekvencie. [19] Systém záujmu je modelovaný pomocou stavového procesu (alebo systémového procesu), ktorý sa dynamicky vyvíja tak, že budúce stavy závisia od súčasného stavu. Prirodzene sa dá takýmto procesom opísať mnoho ekologických javov. [20] V HMM nie je stavový proces priamo pozorovaný – je to „skrytá“ (alebo „latentná“) premenná. Namiesto toho sa pozorovania vykonávajú od procesu závislého od stavu (alebo procesu pozorovania), ktorý je poháňaný základným stavovým procesom. V dôsledku toho možno pozorovania považovať za hlučné merania stavov systému, ktoré nás zaujímajú, ale zvyčajne nepostačujú na presné určenie stavu. HMM sa skladá z dvoch matematických objektov:

Pozorovaný proces závislý od stavu X 1, X 2,…, X M < Displaystyle X_ <1>, X_ <2>, ldots, X_>

Proces nepozorovaného (skrytého) stavu S 1 , S 2 , … , S T ,S_<2>,ldots ,S_> .

HMM je možné formulovať aj kontinuálne. [21] [22]

Konvolučná neurónová sieť Upraviť

Konvolučné neurónové siete, skrátene CNN, sú triedou hlbokých neurónových sietí, ktoré sa väčšinou používajú na spracovanie obrazu, ale nie sú na ne obmedzené. CNN má architektúru založenú na architektúre zdieľanej váhy konvolučných jadier alebo filtrov, ktoré sa posúvajú pozdĺž vstupných funkcií a poskytujú prekladové ekvivalentné odpovede známe ako mapy funkcií. [23] [24]

CNN sú regulované verzie viacvrstvových perceptrónov. Viacvrstvové perceptróny zvyčajne znamenajú plne prepojené siete, to znamená, že každý neurón v jednej vrstve je spojený so všetkými neurónmi v ďalšej vrstve. „Plná konektivita“ týchto sietí spôsobuje, že sú náchylné na prepĺňanie údajov. Medzi typické spôsoby regularizácie alebo predchádzania preplňovaniu patrí: penalizácia parametrov počas tréningu (napríklad úbytok hmotnosti) alebo orezávanie konektivity (vynechané pripojenia, výpadok atď.) CNN zaujíma k regularizácii iný prístup: využívajú výhody hierarchického vzoru v dátach a zostavujte vzorce so zvyšujúcou sa zložitosťou pomocou menších a jednoduchších vzorov vtlačených do ich filtrov. Preto sú CNN na stupnici konektivity a komplexnosti na dolných končatinách.

Konvolučné siete boli inšpirované biologickými procesmi [25] [26] [27] [28] v tom, že vzor konektivity medzi neurónmi pripomína organizáciu zrakovej kôry zvierat. Jednotlivé kortikálne neuróny reagujú na podnety iba v obmedzenej oblasti zorného poľa známej ako receptívne pole. Recepčné polia rôznych neurónov sa čiastočne prekrývajú, takže pokrývajú celé zorné pole.

CNN používa relatívne málo predbežného spracovania v porovnaní s inými algoritmami klasifikácie obrázkov. To znamená, že sa sieť naučí optimalizovať filtre (alebo jadrá) pomocou automatického učenia, zatiaľ čo v tradičných algoritmoch sú tieto filtre navrhnuté ručne. Táto nezávislosť od predchádzajúcich znalostí a ľudských zásahov pri extrakcii funkcií je hlavnou výhodou.

Fylogenetické konvolučné neurónové siete Edit

Skrátene ako Ph-CNN, fylogenetická konvolučná neurónová sieť je nová architektúra hlbokej neurónovej siete, ktorú navrhli Fioranti a kol. [29] na klasifikáciu metagenomických údajov na základe konvolučných neurónových sietí. Ich prístup sa pokúša vybaviť fylogenetické údaje pojmom blízkosti pomocou patristickej vzdialenosti na výber k-susedstiev pre každú OTU. Každá OTU a jej okolie je spracované pomocou konvolučného filtra, ktorý napodobňuje pracovný tok CNN. Podľa ich publikovaných výsledkov dosahuje Ph-CNN sľubné výsledky v porovnaní s plne prepojenými neurónovými sieťami, náhodnými lesmi a podpornými vektorovými strojmi.

Náhodná úprava lesa

Random Forest (RF) je klasifikačná metóda, ktorá funguje tak, že skonštruuje množstvo rozhodovacích stromov, ktoré fungujú ako súbor, a výstupom je triedna alebo priemerná predikcia jednotlivých stromov. [30] RF algoritmus je modifikáciou bootstrap agregácie, ktorá agreguje veľkú zbierku rozhodovacích stromov a môže sa použiť buď pre kategorickú premennú odozvy ako klasifikáciu, alebo kontinuálnu odozvu, označovanú ako regresia. [31] [32]

RF poskytuje interný odhad chyby generalizácie, takže krížová validácia nie je potrebná. Okrem toho vytvára blízkosti, ktoré možno použiť na imputáciu chýbajúcich hodnôt. Blízkosti môžu tiež poskytnúť množstvo informácií tým, že umožnia nové vizualizácie údajov. Náhodné lesy boli úspešne použité pre široké spektrum aplikácií a tešia sa značnej obľube v niekoľkých odboroch. [33]

Z výpočtového hľadiska je RF algoritmus príťažlivý, pretože: (i) prirodzene zvláda regresiu aj (viactriednu) klasifikáciu, (ii) je relatívne rýchly na trénovanie a predpovedanie, (iii) závisí len od jedného alebo dvoch parametrov ladenia, ( iv) má zabudovaný odhad chyby zovšeobecnenia, (v) možno použiť priamo pre vysokorozmerné problémy, (vi) možno jednoducho implementovať paralelne. Štatisticky je RF algoritmus príťažlivý z dôvodu dodatočných funkcií, ktoré poskytuje, ako sú: (i) miery premenlivej dôležitosti, (ii) diferenciálne váženie tried, (iii) imputácia chýbajúcej hodnoty, (iv) vizualizácia, (v) detekcia odľahlých hodnôt, vi) učenie bez dozoru. [33]

Klastrovanie Upraviť

Zhlukovanie je bežnou technikou pre analýzu štatistických údajov. Je to učebná technika bez dozoru, ktorá sa používa v mnohých oblastiach, vrátane strojového učenia, dolovania údajov, rozpoznávania vzorov, analýzy obrazu a bioinformatiky. Klastrovanie je proces zoskupovania podobných predmetov do rôznych skupín, presnejšie rozdelenia množiny údajov na nesúvislé podmnožiny tak, aby údaje v každej podskupine boli čo najbližšie k sebe a čo najďalej od údajov v akejkoľvek inú podmnožinu, podľa nejakej definovanej funkcie vzdialenosti alebo podobnosti. [34]

Klastrovanie je ústredným prvkom mnohých bioinformatických výskumov založených na dátach a slúži ako účinná výpočtová metóda, v ktorej sa prostriedky hierarchickej, ťažiskovej, distribučnej, hustotnej a samoorganizujúcej sa klasifikácie máp už dlho študujú a používajú v klasickom stroji. nastavenia učenia. Klastrovanie predovšetkým pomáha analyzovať neštruktúrované a vysokodimenzionálne údaje vo forme sekvencií, výrazov, textov, obrázkov a podobne. Klastrovanie sa používa aj na získanie poznatkov o biologických procesoch na genomickej úrovni, napr. génové funkcie, bunkové procesy, podtypy buniek, génová regulácia a metabolické procesy. [35]

Zoskupovacie algoritmy používané v bioinformatike Edit

Algoritmy zoskupovania údajov môžu byť hierarchické alebo oddielové. Hierarchické algoritmy vyhľadávajú po sebe nasledujúce klastre pomocou predtým vytvorených klastrov, zatiaľ čo oddielové algoritmy určujú všetky klastre súčasne. Hierarchické algoritmy môžu byť aglomeratívne (zdola nahor) alebo deliace (zhora nadol).

Aglomeračné algoritmy začínajú každým prvkom ako samostatným klastrom a spájajú ich do postupne väčších klastrov. Deliace algoritmy začínajú celou sadou a pokračujú v delení na postupne menšie klastre. Hierarchické zoskupovanie sa vypočítava pomocou metrík v euklidovských priestoroch. Najbežnejšie sa používa euklidovská vzdialenosť vypočítaná tak, že sa nájde druhá mocnina rozdielu medzi každou premennou, sčítajú sa všetky druhé mocniny a nájde sa druhá odmocnina uvedeného súčtu, príklad Hierarchický klastrovací algoritmus je BIRCH, ktorý je obzvlášť dobrý v bioinformatike pre svoju takmer lineárnu časovú zložitosť, pretože súbory údajov sú vo všeobecnosti veľké. [36] Algoritmy rozdeľovania sú založené na zadaní počiatočného počtu skupín a iteratívnom realokácii objektov medzi skupinami na konvergenciu. Tento algoritmus zvyčajne určuje všetky klastre naraz. Väčšina aplikácií používa jednu z dvoch populárnych heuristických metód, ako je algoritmus k-means a algoritmus k-medoids. Existujú tiež algoritmy, ktoré nevyžadujú počiatočný počet skupín, ako napríklad šírenie afinity. V genomickom prostredí bol tento algoritmus použitý ako na zoskupovanie biosyntetických klastrov génov v rodinách klastrových génov (GCF), tak na zhlukovanie uvedených GCF. [37]

Pracovný postup strojového učenia aplikovaný na biologické údaje zvyčajne prechádza nasledujúcimi štyrmi krokmi: [2]

  1. Záznam dát. Obsahuje rôzne výzvy a nástroje týkajúce sa zachytávania a ukladania údajov. V tomto kroku je potrebné integrovať a zlúčiť rôzne zdroje informácií len do jedného formátu.
  2. Predspracovanie údajov. To zahŕňa všetky operácie čistenia a priradenia zachytených údajov do formy pripravenej na analýzu, aby sa optimalizoval krok analýzy. V tomto kroku musíme odstrániť alebo opraviť neopravené údaje, ako aj rozhodnúť o stratégii imputácie chýbajúcich údajov a rozhodnúť o možných relevantných premenných pomocou techník výberu funkcií.
  3. Analýza dát. Úlohou je vyhodnocovať údaje pomocou algoritmov pod dohľadom alebo bez dozoru na základe logického uvažovania na preskúmanie každej zložky poskytnutých údajov s cieľom poskytnúť podrobné výsledky. Algoritmus je natrénovaný s podmnožinou údajov a po vyhodnotení výkonu môže dôjsť k iterácii optimalizácie parametrov. Algoritmy môžu byť klasifikačné alebo predikčné algoritmy, prehľad týchto algoritmov je uvedený nižšie.
  4. Vizualizácia a interpretácia údajov. Krok zahŕňajúci efektívnu reprezentáciu znalostí pomocou rôznych metód na určenie významu a dôležitosti zistení.

Úpravy chýb údajov

  • Prítomnosť duplicitných údajov je významným problémom v bioinformatike. S príchodom internetu sú údaje verejne dostupné, čo sťažuje zisťovanie chýb a meranie kvality údajov. [38]
  • Chyby počas experimentu. [38]
  • Chybná interpretácia biológov. [38]
  • Chyby pri písaní spôsobené ľudskou chybou. [38]
  • Pri experimentoch sa používajú neštandardizované metódy (3D štruktúra v PDB z viacerých zdrojov, röntgenová difrakcia, teoretické modelovanie, nukleárna magnetická rezonancia a i.). [38]

Genomika Upraviť

Genomika zahŕňa štúdium genómu, kompletnej sekvencie DNA organizmov. Zatiaľ čo údaje o genómovej sekvencii boli historicky zriedkavé kvôli technickým ťažkostiam pri sekvenovaní časti DNA, počet dostupných sekvencií exponenciálne rastie. [39] Kým sú však nespracované údaje čoraz dostupnejšie a dostupnejšie, biologická interpretácia týchto údajov prebieha oveľa pomalším tempom. [40] Preto rastie potreba vyvinúť nástroje výpočtovej genomiky, medzi nimi systémy strojového učenia, ktoré dokážu automaticky určiť umiestnenie génov kódujúcich proteíny v rámci danej sekvencie DNA. [40] Toto je problém vo výpočtovej biológii známy ako génová predpoveď.

Génová predikcia sa bežne vykonáva kombináciou toho, čo je známe ako vonkajšie a vnútorné vyhľadávanie. [40] Na vonkajšie vyhľadávanie sa vstupná sekvencia DNA prevedie cez veľkú databázu sekvencií, ktorých gény boli predtým objavené a ich umiestnenie bolo označené poznámkami. Množstvo sekvenčných génov možno identifikovať určením, ktoré reťazce báz v sekvencii sú homológne so známymi génovými sekvenciami. Avšak vzhľadom na obmedzenie veľkosti databázy známych a anotovaných génových sekvencií nie je možné všetky gény v danej vstupnej sekvencii identifikovať iba pomocou homológie. Preto je potrebné vnútorné vyhľadávanie tam, kde sa program génovej predikcie pokúša identifikovať zostávajúce gény iba zo sekvencie DNA. [40]

Strojové učenie sa tiež používa pri probléme zarovnania viacerých sekvencií, ktoré zahŕňa zarovnanie mnohých sekvencií DNA alebo aminokyselín, aby sa určili oblasti podobnosti, ktoré by mohli naznačovať spoločnú evolučnú históriu. [2] Môže sa použiť aj na detekciu a vizualizáciu preskupení genómu. [41]

Proteomika Upraviť

Proteíny, reťazce aminokyselín, získavajú veľkú časť svojej funkcie skladaním bielkovín, v ktorom sa zhodujú do trojrozmernej štruktúry. Táto štruktúra sa skladá z niekoľkých vrstiev skladania, vrátane primárnej štruktúry (t. J. Plochého reťazca aminokyselín), sekundárnej štruktúry (alfa helixy a beta listy), terciárnej štruktúry a kvartérnej štruktúry.

Predikcia sekundárnej štruktúry proteínu je hlavným zameraním tohto podpolí, pretože ďalšie skladania proteínov (terciárne a kvartérne štruktúry) sú určené na základe sekundárnej štruktúry. [4] Riešenie skutočnej štruktúry proteínu je neuveriteľne drahý a časovo náročný proces, ktorý podporuje potrebu systémov, ktoré dokážu presne predpovedať štruktúru proteínu priamou analýzou sekvencie aminokyselín. [4] [2] Pred strojovým učením potrebovali vedci túto predpoveď vykonať ručne. Tento trend začal v roku 1951, keď Pauling a Corey zverejnili svoju prácu na predpovedaní konfigurácií vodíkových väzieb proteínu z polypeptidového reťazca. [42] Vďaka automatickému učeniu funkcií sú dnes najlepšie techniky strojového učenia schopné dosiahnuť presnosť 82-84%. [4] [43] Súčasný stav techniky v predikcii sekundárnej štruktúry využíva systém nazývaný DeepCNF (hlboké konvolučné neurónové polia), ktorý sa spolieha na model strojového učenia umelých neurónových sietí na dosiahnutie presnosti približne 84 %, keď úlohou klasifikovať aminokyseliny proteínovej sekvencie do jednej z troch štruktúrnych tried (helix, list alebo špirála). [43] Teoretický limit pre trojstavovú sekundárnu štruktúru proteínu je 88–90%. [4]

Strojové učenie sa tiež aplikovalo na problémy proteomiky, ako je predikcia bočného reťazca proteínu, modelovanie proteínovej slučky a predikcia mapy proteínových kontaktov. [2]

Metagenomika Edit

Metagenomika je štúdium mikrobiálnych spoločenstiev zo vzoriek DNA z prostredia. [44] V súčasnej dobe existuje veľa obmedzení a výziev pri implementácii nástrojov strojového učenia kvôli veľkému množstvu údajov pochádzajúcich zo vzoriek životného prostredia. [45] Podľa Lina a kolegov [46] strojové učenie vyžaduje veľkú výpočtovú silu, ale vývoj rýchlych superpočítačov a webových serverov dnes prístup k týmto nástrojom uľahčil.Hlavnou výzvou pri charakterizácii rozdielov v zložení mikrobiómov medzi skupinami vzoriek je vysoká dimenzionalita mikrobiómových súborov údajov, ktorá výrazne znižuje silu súčasných prístupov na identifikáciu skutočných rozdielov a zvyšuje pravdepodobnosť falošných objavov. [47]

Napriek svojmu významu pre spracovanie veľkého množstva informácií zo vzoriek životného prostredia bol vývoj nástrojov strojového učenia súvisiaci s metagenomikou zameraný na štúdium črevnej mikroflóry a vzťahu s tráviacimi chorobami, akými sú zápalové ochorenie čriev (IBD), Clostridioides difficile infekcia (CDI), kolorektálny karcinóm a diabetes s cieľom získať lepšie prístupy k diagnostike a liečbe týchto patológií. [46] Existuje mnoho príkladov algoritmov vyvinutých na pokus klasifikovať mikrobiálne spoločenstvá podľa zdravotného stavu hostiteľa bez ohľadu na typ sekvenčných údajov, napr. 16S rRNA alebo sekvenovanie celého genómu (WGS) použitím metód, ako je klasifikátor operátora najmenšieho zmrštenia a selekčného operátora, náhodný les, kontrolovaný klasifikačný model a gradientom posilnený stromový model. V poslednej dobe boli vyvinuté pokročilejšie modely využívajúce neurónové siete. Napríklad rekurentná neurónová sieť (RNN), konvolučná neurónová sieť (CNN) a Hopfieldova neurónová sieť. [46] Napríklad Fioravanti a jeho kolegovia v roku 2018 [48] pracovali na vývoji algoritmu s názvom Ph-CNN. Používajú tento algoritmus na klasifikáciu vzoriek údajov od zdravých pacientov a pacientov so symptómami IBD pomocou fylogenetických stromov a konvolučných neurónových sietí. Vďaka tomu môžu určiť klasifikáciu medzi zdravými a chorými pacientmi.

Metódy náhodného lesného hospodárstva (RF) a implementované opatrenia dôležitosti okrem toho pomôžu pri identifikácii druhov mikrobiómov, ktoré je možné použiť na rozlíšenie chorých a chorých vzoriek. Výkon rozhodovacieho stromu a rozmanitosť rozhodovacích stromov v súbore však významne ovplyvňujú výkonnosť RF algoritmov. Chyba generalizácie pre RF zahŕňa merania presnosti jednotlivých klasifikátorov a ich vzájomnej závislosti. Preto problémy s vysokou dimenzionalitou mikrobiómových súborov údajov predstavujú množstvo výziev. Efektívne prístupy vyžadujú veľa možných kombinácií premenných, čo exponenciálne zvyšuje výpočtovú záťaž so zvyšujúcim sa počtom zahrnutých funkcií. [47] Na analýzu mikrobiómov v roku 2020 vyvinula spoločnosť Dang & amp Kishino [47] nový analytický kanál, ktorý rieši vyššie popísané výzvy. Jadrom potrubia je RF klasifikátor spojený s forwardovým variabilným výberom (RF-FVS), ktorý vyberá minimálnu množinu jadra mikrobiálnych druhov alebo funkčných podpisov, ktoré maximalizujú prediktívny výkon RF klasifikátora. Rámec kombinuje (i) identifikáciu niekoľkých významných znakov pomocou masívne paralelného postupu dopredu variabilnej selekcie, (ii) mapovanie vybraných druhov na fylogenetickom strome a (iii) predpovedanie funkčných profilov analýzou obohatenia funkčného génu z metagenomickej 16S rRNA údajov. Predviedli výkonnosť navrhovaného prístupu analýzou dvoch publikovaných súborov údajov z rozsiahlych štúdií prípadovej kontroly: (i) údaje o génovom amplikóne 16S rRNA pre Clostridioides difficile infekcia (CDI) a (ii) metagenomické údaje brokovnice pre ľudský kolorektálny karcinóm (CRC). Navrhovaný prístup zlepšil presnosť z 81% na 99,01% pre CDI a zo 75,14% na 90,17% pre CRC.

Na druhej strane, používanie strojového učenia vo vzorkách životného prostredia bolo menej skúmané, možno kvôli komplexnosti údajov, najmä údajov z WGS. Napriek tomu nedávno niektoré práce ukázali, že je možné použiť tieto nástroje v environmentálnych vzorkách. V roku 2021 Dhungel a kol. [49] navrhli balík R s názvom MegaR. Tento balík umožňuje prácu so 16S rRNA a celými metagenomickými sekvenciami na vytváraní taxonomických profilov a klasifikačných modelov pomocou modelov strojového učenia. MegaR obsahuje pohodlné vizualizačné prostredie, ktoré zlepšuje užívateľsky príjemný zážitok. Aplikácia strojového učenia v environmentálnej metagenomike potom môže pomôcť odpovedať na otázky súvisiace s interakciami medzi mikrobiálnymi komunitami a ekosystémami, napr. práca Xun a kol., v roku 2021 [50], kde by použitie rôznych metód strojového učenia mohlo otvoriť nové pohľady na pochopenie vzťahu medzi pôdou, biodiverzitou mikrobiómov a stabilitou ekosystému.

Microarrays Edit

Microarrays, typ lab-on-a-chip, sa používajú na automatické zhromažďovanie údajov o veľkom množstve biologického materiálu. Strojové učenie môže pomôcť pri analýze týchto údajov a použilo sa na identifikáciu vzorcov expresie, klasifikáciu a indukciu genetickej siete. [2]

Táto technológia je obzvlášť užitočná na monitorovanie expresie génov v genóme, pomáha pri diagnostike rôznych typov rakoviny na základe toho, ktoré gény sú exprimované. [51] Jedným z hlavných problémov v tejto oblasti je identifikácia génov, ktoré sú vyjadrené na základe zozbieraných údajov. [2] Okrem toho, kvôli obrovskému počtu génov, o ktorých sa údaje zhromažďujú pomocou mikročipu, existuje veľké množstvo irelevantných údajov pre úlohu identifikácie vyjadrených génov, čo tento problém ešte viac komplikuje. Strojové učenie predstavuje potenciálne riešenie tohto problému, pretože na vykonanie tejto identifikácie možno použiť rôzne klasifikačné metódy. Najbežnejšie používanými metódami sú siete s radiálnymi bázami, hĺbkové učenie, bayesovská klasifikácia, rozhodovacie stromy a náhodný les. [51]

Systémová biológia Edit

Systémová biológia sa zameriava na štúdium vznikajúceho správania z komplexných interakcií jednoduchých biologických komponentov v systéme. Takéto zložky môžu zahŕňať molekuly, ako je DNA, RNA, proteíny a metabolity. [52]

Strojové učenie sa používa na pomoc pri modelovaní týchto komplexných interakcií v biologických systémoch v oblastiach, ako sú genetické siete, siete prenosu signálu a metabolické dráhy. [2] Pravdepodobnostné grafické modely, technika strojového učenia na určovanie štruktúry medzi rôznymi premennými, sú jednou z najčastejšie používaných metód modelovania genetických sietí. [2] Strojové učenie sa navyše aplikovalo na problémy systémovej biológie, ako je identifikácia väzbových miest transkripčného faktora pomocou techniky známej ako optimalizácia Markovovho reťazca. [2] Na modelovanie genetických sietí a regulačných štruktúr boli použité genetické algoritmy, techniky strojového učenia, ktoré sú založené na prirodzenom procese evolúcie. [2]

Iné aplikácie systémovej biológie strojového učenia zahŕňajú úlohu predikcie funkcie enzýmov, vysokovýkonnú analýzu údajov microarray, analýzu celogenómových asociačných štúdií na lepšie pochopenie markerov choroby, predikciu funkcie proteínov. [53]

Evolúcia Upraviť

Táto doména, najmä rekonštrukcia fylogenetického stromu, využíva vlastnosti techník strojového učenia. Fylogenetické stromy sú schematickým znázornením vývoja organizmov. Pôvodne boli skonštruované s použitím rôznych znakov, ako sú morfologické a metabolické vlastnosti. Neskôr, vzhľadom na obrovské množstvo dostupných sekvencií genómu, konštrukcia algoritmu fylogenetického stromu použila koncept založený na porovnaní genómov. S pomocou optimalizačných techník sa uskutočnilo porovnanie pomocou zarovnania viacerých sekvencií. [54]

Diagnostika zdvihu Upraviť

Na diagnostiku cievnej mozgovej príhody sa používajú metódy strojového učenia na analýzu údajov z neurozobrazovania. Historicky existovalo niekoľko prístupov na riešenie tohto problému zahŕňajúcich rôzne architektúry neurónových sietí. [55] [56]

V tejto oblasti bolo navrhnutých viacero prístupov k detekcii úderov pomocou strojového učenia, ako to navrhuje Mirtskhulava [57], siete dopredu doprevádzané siete boli testované na detekciu úderov pomocou neurálneho zobrazovania. Ako navrhuje Titano [58], 3D-CNN techniky boli testované pod dohľadom klasifikácie na screening CT snímok hlavy na akútne neurologické príhody. Často sa používajú trojrozmerné metódy CNN a SVM. [56]

Ťažba textu Upraviť

Nárast dostupných biologických publikácií viedol k problému zvýšenia obtiažnosti pri vyhľadávaní a zostavovaní všetkých relevantných dostupných informácií o danej téme zo všetkých zdrojov. Táto úloha je známa ako extrakcia znalostí. Je to nevyhnutné pre zber biologických údajov, ktoré potom môžu byť vložené do algoritmov strojového učenia na generovanie nových biologických znalostí. [2] [59] Na túto úlohu získavania znalostí je možné použiť strojové učenie pomocou techník, ako je spracovanie v prirodzenom jazyku, na extrakciu užitočných informácií zo správ generovaných ľuďmi v databáze. Text Nailing, alternatívny prístup k strojovému učeniu, schopný extrahovať funkcie z klinických naratívnych poznámok, bol predstavený v roku 2017.

Táto technika sa použila pri hľadaní nových cieľov liečiv, pretože táto úloha si vyžaduje skúmanie informácií uložených v biologických databázach a časopisoch. [59] Anotácie proteínov v proteínových databázach často neodrážajú úplný známy súbor poznatkov o každom proteíne, preto je potrebné extrahovať ďalšie informácie z biomedicínskej literatúry. Strojové učenie bolo aplikované na automatickú anotáciu funkcie génov a proteínov, určenie subcelulárnej lokalizácie proteínu, analýzu polí expresie DNA, analýzu interakcií proteínov vo veľkom meradle a analýzu interakcií molekúl. [59]

Ďalšou aplikáciou dolovania textu je detekcia a vizualizácia odlišných oblastí DNA s dostatočnými referenčnými údajmi. [60]

Klastrovanie a profilovanie početnosti BGC Upraviť

Pretože sa mikrobiálne spoločenstvá chápu ako komplexné súbory rôznych mikroorganizmov na Zemi, [61] kde symbiontoví partneri neustále produkujú rôzne metabolity odvodené z primárneho a sekundárneho (špecializovaného) metabolizmu, z ktorých špecializovaný metabolizmus hrá dôležitú úlohu v mikrobiálnej interakcii, [62] metagenomické a metatranskriptomické údaje sú dôležitým zdrojom dešifrovania komunikačných signálov vyskytujúcich sa v interagujúcom prostredí.

V súčasnej dobe rastie záujem o objasnenie molekulárnych mechanizmov, ktorými sa produkujú špecializované metabolity. Biosyntetické génové klastre (BGC) sú preto v pozornosti, pretože niekoľko metabolitov je klinicky hodnotných antimikrobiálnych, protiplesňových, antiparazitických, protinádorových a imunosupresívnych činidiel vyrobených modulárnym pôsobením multienzymatických génových klastrov s viacerými doménami ako sú neribozomálne peptidové syntetázy (NRPS) a polyketidové syntázy (PKS). [63] Rozmanité štúdie [64] [65] [66] [67] [68] [69] [70] [71] ukazujú, že zoskupovanie BGC s podobnou architektúrou (tj. Zdieľanie podobného súboru homológnych jadrových génov) do génu klastrové rodiny (GCF) môžu poskytnúť užitočné poznatky o chemickej diverzite analyzovaných kmeňov a môžu podporovať spájanie BGC s ich sekundárnymi metabolitmi. [65] [67] GCF sa tiež používali ako funkčné markery v štúdiách o zdraví ľudí [72] [73] a na štúdium schopnosti pôdy potláčať hubové patogény. [74] Vzhľadom na ich priamy vzťah ku katalytickým enzýmom a následne k zlúčeninám produkovaným ich kódovanými dráhami môžu BGC (a v rozšírení aj GCF) slúžiť ako proxy na skúmanie chemického priestoru mikrobiálneho sekundárneho metabolizmu. Katalogizáciou všetkých GCF v sekvenovaných mikrobiálnych genómoch je možné získať prehľad o existujúcej chemickej diverzite a získať prehľad o tom, čomu by sa v budúcnosti malo uprednostniť úsilie v oblasti objavovania vedúcich. [64] [66] Preto sa objavilo niekoľko nástrojov ako BiG-SLiCE a BIG-MAP [75] s jediným cieľom odhaliť dôležitosť BGC v prírodnom prostredí.

Upraviť Big-SLiCE

BiG-SLiCE (Biosynthetic Genes Super-Linear Clustering Engine) je automatizovaný pythonový nástroj určený na zhlukovanie veľkého počtu BGC. Vďaka ich reprezentácii v euklidovskom priestore môže BiG-SLiCE zoskupovať BGC do GCF nepárovým, takmer lineárnym spôsobom. [76] z genomických a metagenomických údajov rôznych organizmov.

Pracovný tok BiG-SLiCE začína vektorizáciou [ potrebná jednoznačnosť ] (extrakcia funkcií), konvertovanie vstupných BGC poskytnutých z dátového súboru klastrových súborov GenBank z antiSMASH a MIBiG na vektory numerických prvkov založených na neprítomnosti/prítomnosti a bitových skóre zásahov získaných z dotazovania BGC génových sekvencií oproti knižnici upravenej profilom Hidden Markov Model [77] (pHMM) biosyntetických domén BGC. Tieto vlastnosti sú potom spracované superlineárnym klastrovacím algoritmom založeným na BIRCH klastrovaní [36], čo vedie k množine vektorov ťažných prvkov reprezentujúcich modely GCF. Všetky BGC v množine údajov sa nakoniec spýtajú späť voči týmto modelom a pre každý BGC sa vygeneruje zoznam hodnôt členstva v GCF. Potom sa vykoná globálne mapovanie klastrov pomocou k-means na zoskupenie všetkých funkcií ťažiska GCF v zásobníkoch GCF, potom sa vykoná ďalšie kolo priradenia členstva, aby zodpovedalo úplnému súboru funkcií BGC do výsledných zásobníkov GCF. Nakoniec je vytvorená sada archívov založených na databáze SQL, ktorú je potom možné použiť na vykonanie ďalšej analýzy (prostredníctvom externých skriptov) alebo na vizualizáciu výsledku v užívateľsky interaktívnej aplikácii.

Satria a kol. al [76] naprieč BiG-SLiCE demonštrujú užitočnosť takýchto analýz rekonštrukciou globálnej mapy sekundárnej metabolickej diverzity naprieč taxonómiou na identifikáciu nezmapovaného biosyntetického potenciálu 1,2 milióna biosyntetických génových klastrov. To otvára nové možnosti na urýchlenie objavovania prírodných produktov a ponúka prvý krok smerom k vybudovaniu globálnej a prehľadávateľnej vzájomne prepojenej siete BGC. Pretože je sekvenovaných viac genómov z nedostatočne študovaných taxónov, je možné vyťažiť viac informácií, aby sa zvýraznila ich potenciálne nová chémia. [76]

Úprava BiG-MAP

Pretože BGC sú dôležitým zdrojom produkcie metabolitov, súčasné nástroje na identifikáciu BGC zameriavajú svoje úsilie na ťažbu genómov na identifikáciu ich genomickej krajiny, pričom zanedbávajú relevantné informácie o ich množstve a úrovniach expresie, ktoré v skutočnosti zohrávajú dôležitú ekologickú úlohu pri spúšťaní závislých od fenotypu. koncentrácia metabolitu. Preto je v roku 2020 BiG-MAP (biosyntetický génový klaster Meta'omics Abundance Profiler) [75], automatizovaný pythonový kanál, ktorý pomáha určiť množstvo (metagenomické údaje) a expresiu (metatranscriptomické údaje) BGC vo vzorkách mikrobiálnych spoločenstiev, sa objavilo, aby prekonalo túto výzvu brokovým sekvenovaním čítaní génových zhlukov, ktoré boli predpovedané pomocou antiSMASH alebo gutSMASH.

Stručne povedané, BiG-MAP rozdeľuje svoj pracovný tok do štyroch hlavných modulov. 1-BiG-MAP.family: tento modul vykonáva redundantné filtrovanie na kolekcii génových klastrov, aby sa skrátil výpočtový čas a zabránilo sa nejednoznačnému mapovaniu. Použitím algoritmu založeného na MinHash, [78] MASH, [79] BiG-MAP odhaduje vzdialenosť medzi proteínovými sekvenciami, ktoré sa potom použijú na výber reprezentatívneho génového klastra pomocou k-medoidného klastrovania. Nakoniec sa vybrané génové zhluky zoskupia do rodín génových klastrov (GCF) pomocou BiG-SCAPE [64], pričom sa berie do úvahy architektonická podobnosť, čím sa spájajú vzdialenejšie príbuzné génové zhluky, ktoré produkujú rovnaký chemický produkt v rôznych organizmoch. 2- BiG- MAP.download: je voliteľný modul, ktorý používa zoznam databázy SRA (Sequence Read Archive) 3- BiG-MAP.map: tento modul mapuje čítanie zo sady reprezentatívnych GCF získaných z prvého modulu. BiG-MAP.maps je schopný mapovať hodnoty na GCF oddelene a môže tiež hlásiť kombinované úrovne abundancie alebo expresie na rodinu. Na dosiahnutie tohto cieľa sa čítania mapujú na zástupcov GCF pomocou zarovnávača krátkeho čítania Bowtie2, [80], ktoré sa potom prevádzajú na čítanie na kilobase milión (RPKM), aby sa spriemerovali z veľkosti GCF a 4- BiG -MAP.analýza: aby sa konečne profilovala hojnosť, v tomto poslednom module sú hodnoty RPKM normalizované pomocou kumulatívneho súčtu súčtov [81] (CSS), aby sa zohľadnila sparita. Potom sa vykonajú analýzy diferenciálnych výrazov pomocou modelov s Gaussovou distribučnou zmesou s nafúknutím nuly (modely ZIG) alebo pomocou Kruskal-Wallisovho modelu. Nakoniec kanál zobrazuje výsledky do grafov, ktoré zobrazujú početnosť/expresiu génových zhlukov (teplotné mapy), zmenu logaritmu (stĺpcový graf), hodnoty pokrytia a hodnoty génovej expresie pre metatranskriptomické údaje (teplotná mapa).

Dekodifikácia chemických štruktúr RiPP Upraviť

Zrýchlený nárast RiPP (ribozomálne syntetizovaných a posttranslačne modifikovaných peptidov), ktoré boli experimentálne charakterizované, spolu s dostupnosťou informácií o sekvencii a chemickej štruktúre ich veľkého počtu, vybraných z databáz ako BAGEL, BACTIBASE, MIBIG , a THIOBASE, poskytujú príležitosť vyvinúť nástroje strojového učenia na dekódovanie chemickej štruktúry RiPP a dosiahnutie klasifikácie medzi nimi.

V roku 2017 výskumníci z Národného inštitútu imunológie v New Delhi v Indii vyvinuli softvér RiPPMiner [82], bioinformatický zdroj na dekódovanie chemických štruktúr RiPP pomocou ťažby genómu. Webový server RiPPMiner pozostáva z dvoch hlavných komponentov, rozhrania dotazu a databázy RiPPDB. RiPPMiner je zaradený do 12 podtried RiPP, predpovedajúcich miesto štiepenia vedúceho peptidu a konečné zosieťovanie chemickej štruktúry RiPP.

Identifikácia RiPP a predikcia triedy RiPP

Nástroje na analýzu RiPP, ako napríklad antiSMASH a RiPP-PRISM, používajú na predikciu podtriedy RiPP skrytý Markovov model [77] modifikujúcich enzýmov prítomných v klastroch biosyntetických génov v RiPP. Na rozdiel od týchto nástrojov, RiPPMiner používa model strojového učenia, trénovaný s 513 RiPP, ktorý používa aminokyselinovú sekvenciu génu RiPP jedinečne na identifikáciu RiPP a následnú predikciu ich podtriedy. RiPPMiner odlišuje RiPP od iných proteínov a peptidov pomocou modelu strojového vektora na podporu, ktorý je vycvičený pomocou 293 experimentálne charakterizovaných RiPP ako súboru pozitívnych údajov a 8140 genómov kódovaných polypeptidov iných ako RiPP ako súboru negatívnych údajov. Súbor negatívnych údajov zahŕňal položky SWISSProt podobné dĺžkou ako RiPP, napr. Ribozomálne proteíny 30 s, matricové proteíny, proteíny cytochrómu B atď. Nosné vektory strojového modelu podporný vektor pozostávajú z aminokyselinového zloženia a dipeptidových frekvencií.

Porovnanie týchto metód identifikácie RiPP na nezávislom súbore údajov (nie je súčasťou školenia) pomocou prístupu dvojitej krížovej validácie ukázalo hodnoty citlivosti, špecifickosti, presnosti a MCC 0,93, 0,90, 0,90 a 0,85. To naznačuje dobrú prediktívnu silu modelu SVM na rozlíšenie medzi RiPP a non-RiPP. Na predikciu triedy alebo podtriedy RiPP bol vyškolený multitriedny SVM s použitím zloženia aminokyselín a frekvencií dipeptidov ako charakteristických vektorov.Počas výcviku viactriedneho SVM na predikciu triedy RiPP sa ako pozitívna sada použili dostupné prekurzorové sekvencie RiPP patriace do danej triedy (napr. Laso peptid), zatiaľ čo RiPP patriace do všetkých ostatných tried sa použili ako negatívna sada.

Predikcia miesta štiepenia

Zo štyroch hlavných tried RiPP, ktoré mali viac ako 50 experimentálne charakterizovaných RiPP v RiPPDB, bolo možné vyvinúť SVM modely na predikciu miest štiepenia pre lanthipeptidy, kyanobaktíny a laso peptidy. Aby sa vyvinul SVM na predikciu miesta štiepenia pre lanthipeptidy, extrahovalo sa 12 mérnych peptidových sekvencií sústredených na miesta štiepenia zo sady 115 prekurzorov lanthipeptidových prekurzorov so známym vzorom štiepenia. To viedlo k pozitívnemu súboru údajov 103 jedinečných 12 mérnych peptidov s miestom štiepenia v strede, zatiaľ čo všetky ostatné jedinečné 12 mérne peptidy v týchto 115 lanthiepeptidoch tvorili negatívny súbor údajov, pretože im chýbalo miesto štiepenia. Charakteristické vektory pre každý z týchto 12 mérov pozostávali zo zreťazenia 20-rozmerných vektorov zodpovedajúcich každej z 20 aminokyselín. Model SVM na predikciu miesta štiepenia bol vyvinutý a porovnávaný pomocou prístupu 2-násobnej krížovej validácie, kde polovica údajov bola použitá na tréning a druhá polovica na testovanie. Modely SVM boli vyvinuté aj na predikciu miest štiepenia v kyanobaktínových a laso peptidoch. Na základe analýzy ROC kriviek bola vybraná vhodná hranica skóre na predikciu miest štiepenia v lantipeptidoch a laso peptidoch.

Predikcia krížových väzieb

Algoritmus na predikciu krížových väzieb a dešifrovanie kompletnej chemickej štruktúry RiPP bol implementovaný pre lanthipeptidy, laso peptidy, kyanobaktíny a tiopeptidy. Predikcia lantionínových väzieb v lantipeptidoch sa uskutočnila pomocou prístupu strojového učenia. Aby sa vyvinuli klasifikátory založené na strojovom učení na predikciu lanthionínových väzieb, bol z RiPPDB získaný súbor údajov o 93 lantipeptidoch so známymi chemickými štruktúrami. Pre každý lanthipeptid v tejto sade bola sekvencia jadrového peptidu skenovaná na reťazce alebo sub-sekvencie typu Ser/Thr- (X) n-Cys alebo Cys- (X) n-Ser/Thr, aby sa vymenovali všetky teoreticky možné. cyklizačné vzory. Z týchto sekvenčných reťazcov boli reťazce zodpovedajúce párom Ser/Thr-Cys alebo Cys-Ser/Thr, ktoré boli spojené lanthionínovými mostíkmi v lanthipeptidoch, zahrnuté do pozitívnej sady, zatiaľ čo všetky ostatné reťazce boli zahrnuté do negatívnej sady.

Hmotnostná spektrálna podobnosť Skóre Upraviť

Veľa tandemovej hmotnostnej spektrometrie (MS/MS) založené na metabolomických štúdiách, ako je zhoda knižníc a molekulárne siete, používajú spektrálnu podobnosť ako zástupca za štrukturálnu podobnosť. Avšak Spec2Vec narástla z nutnosti nájsť štrukturálnu podobnosť prostredníctvom spektrálnej podobnosti, pretože už existujúce metódy predstavili určité oblasti slabín a príležitostí. Spec2vec Algoritmus nám poskytuje nový spôsob skóre spektrálnej podobnosti, založený na algoritmoch spracovania prirodzeného jazyka Word2Vec. Ale tentokrát, Spec2Vec sa učí fragmentárne vzťahy v rámci veľkého súboru spektrálnych údajov, aby mohol hodnotiť spektrálne podobnosti medzi molekulami a tiež klasifikovať neznáme molekuly prostredníctvom týchto porovnaní.

Pokiaľ ide o systémovú anotáciu, niektoré metabolomické štúdie sa spoliehajú na prispôsobenie nameraných hmotnostných spektier fragmentácie k spektrom knižnice alebo kontrastným spektrám prostredníctvom sieťovej analýzy. Na určenie podobnosti medzi pármi fragmentových spektier sa ako súčasť týchto procesov používajú skórovacie funkcie. Doteraz žiadny výskum nenavrhol skóre, ktoré by sa výrazne líšilo od bežne používaných podobnosť na báze kosínu. [83]

Dôležitou súčasťou bioinformatiky je správa veľkých súborov údajov, známych ako referenčné databázy. Existujú databázy predovšetkým pre každý typ biologických údajov, napríklad pre biosyntetické génové klastre a metagenomy.

Všeobecné databázy bioinformatiky Upraviť

Národné centrum pre biotechnologické informácie Upraviť

Národné centrum pre biotechnologické informácie (NCBI) poskytuje veľkú škálu online zdrojov pre biologické informácie a údaje vrátane databázy sekvencií nukleových kyselín GenBank a databázy citácií a abstraktov PubMed pre publikované časopisy o biologických vedách. Rozšírením mnohých webových aplikácií sú vlastné implementácie programu BLAST optimalizované na vyhľadávanie špecializovaných množín údajov. Medzi nové uvoľnené zdroje patrí PubMed Data Management, RefSeq Functional Elements, sťahovanie údajov genómu, API pre variačné služby, Magic-BLAST, QuickBLASTp a identické proteínové skupiny. Všetky tieto zdroje sú dostupné prostredníctvom NCBI. [84]

Bioinformatická analýza pre biosyntetické génové klastre Upraviť

AntiSMASH Upraviť

antiSMASH umožňuje rýchlu identifikáciu, anotáciu a analýzu génových klastrov biosyntézy sekundárnych metabolitov v genómoch baktérií a húb v celom genóme. Integruje a krížovo spája veľký počet nástrojov na analýzu sekundárnych metabolitov in silico, ktoré boli publikované skôr. [85]

GutSMASH Edit

gutSMASH je nástroj, ktorý bol vyvinutý na systematické vyhodnocovanie metabolického potenciálu baktérií predpovedaním známych aj nových anaeróbnych klastrov metabolického génu (MGC) z črevného mikrobiómu.

ÚPRAVA MIBÍNU

MIBiG, minimálne informácie o špecifikácii klastra biosyntetického génu, poskytuje robustný komunitný štandard pre anotácie a metaúdaje o klastroch biosyntetických génov a ich molekulárnych produktoch. MIBiG je projekt konzorcia Genomic Standards Consortium, ktorý vychádza z rámca minimálnych informácií o ľubovoľnom poradí (MIxS). [86]

MIBiG uľahčí štandardizované ukladanie a získavanie údajov z klastrov biosyntetických génov, ako aj vývoj komplexných nástrojov komparatívnej analýzy. Umožní to výskum ďalšej generácie v oblasti biosyntézy, chémie a ekológie širokých tried spoločensky relevantných bioaktívnych sekundárnych metabolitov, riadený robustnými experimentálnymi dôkazmi a bohatými komponentmi metadát. [87]

Bioinformatická analýza metagenomiky Upraviť

V pôde existuje veľké množstvo mikroorganizmov, medzi ktoré patria: huby, baktérie, prvoky, riasy a vírusy. Tieto mikroorganizmy vytvárajú mikrobiálne spoločenstvá vo všetkých rôznych ekosystémoch. Tieto mikrobiálne spoločenstvá sú možno najrozmanitejším a najhojnejším prostredím na planéte a môžu prispieť ku kvalite a funkčnosti pôdy.

Metagenomika pomáha štúdiu a charakterizácii mikrobiálnych spoločenstiev pomocou sekvencie DNA alebo bežne ribozomálnych RNA (rRNA). Pomocou toho môžu byť rôzne mikroorganizmy taxonomicky identifikované a tým porovnané medzi vzorkami a špecifickými prostrediami.

SILVA Edit

SILVA je interdisciplinárny projekt medzi biológmi a počítačovými vedcami, ktorý zostavuje kompletnú databázu RNA ribozomálnych (rRNA) sekvencií génov, malých (16S [ potrebná jednoznačnosť ], 18S, SSU) a veľké (23S, 28S, LSU) podjednotky, ktoré patria do domén baktérií, archea a eukarya. Tieto údaje sú voľne dostupné pre akademické a komerčné využitie. [88]

Greengenes Upraviť

Greengenes je kompletná databáza génov 16S rRNA, ktorá poskytuje skríning chiméry, štandardné zarovnanie a kurátorskú taxonómiu založenú na de novo stromovej inferencii. [89] [90]
Prehľad

  • K RNAcentrálne prispelo 1 012 863 sekvencií RNA z 92 684 organizmov.
  • Najkratšia sekvencia má 1 253 nukleotidov, najdlhšia 2 368.
  • Priemerná dĺžka je 1 402 nukleotidov.
  • Verzia databázy: 13.5.

Otvoriť taxonómiu stromu života Upraviť

Open Tree of Life Taxonomy (OTT) si kladie za cieľ vybudovať kompletný, dynamický a digitálne dostupný strom života syntézou publikovaných fylogenetických stromov spolu s taxonomickými údajmi. Fylogenetické stromy boli klasifikované, zarovnané a zlúčené, taxonómia bola použitá na vyplnenie riedkych oblastí a medzier, ktoré zanechali fylogenézy. OTT je báza, ktorá sa málo používa na sekvenačné analýzy oblasti 16S, má však väčší počet sekvencií klasifikovaných taxonomicky až na úroveň rodu v porovnaní so zásadami, ako sú SILVA a Greengenes. Z hľadiska klasifikácie na okrajovej úrovni však obsahuje menšie množstvo informácií [91]

Úprava projektu ribozomálnej databázy

Ribosomal Database Project (RDP) je databáza, ktorá poskytuje RNA ribozomálne (rRNA) sekvencie malých podjednotiek bakteriálnej a archaálnej domény (16S [ potrebná jednoznačnosť ]) a fungálnych rRNA sekvencií veľkých podjednotiek (28S). [92]


3 Výsledky

3.1 Zhromažďovanie a predbežné spracovanie množiny údajov

Ako je opísané vyššie, genómové sekvencie sú potrebné na identifikáciu zrelých miRNA prostredníctvom predikcie pre-miRNA vo väčšine existujúcich nástrojov. Osem Arabidopsis malé množiny údajov o sekvenovaní RNA z miRBase boli použité na vývoj predikčného modelu miRNA iba na základe údajov NGS bez sekvencie referenčného genómu. Na základe zarovnania sekvencií a anotácie bolo nájdených 349 známych zrelých sekvencií miRNA v 874 226 čítaniach. Po kroku párovania čítania pomocou programu RNAcofold bolo identifikovaných 130 606 prečítaných párov. V súbore údajov NGS však bolo možné spárovať iba 234 zrelých sekvencií miRNA s inými reťazcami (čítaniami). Aby sme pochopili, prečo 115 zrelých miRNA nebolo možné spárovať s inými čítaniami, 325 Arabidopsis zrelá miRNA so známymi prekurzormi v miRBase (v21) bola použitá na odhad ich párovacích štruktúr. Nanešťastie existovalo 89 prekurzorov miRNA bez duplexnej štruktúry. Ako je uvedené v doplnkovej tabuľke S2, 191 (176 + 15) z 236 (325-89) známych duplexov miRNA malo menej ako 5 nt 3'-previs a päť nezhodných párovaní. Je zaujímavé, že väčšina duplexov miRNA-miRNA* má menej ako 2 nt 3'-previs. Na druhej strane bolo 45 duplexov miRNA s 5'-previsom alebo viac ako 5 nt 3 'previsom a cez päť nezhodných párov (doplnková tabuľka S2). Pokiaľ ide o minimalizáciu rýchlosti FP, párovanie čítaní s 5-previsom, viac ako 5-tt 3’-previsom a piatimi nezhodami bolo vyradených. Výsledky načrtnuté vyššie môžu vysvetliť, prečo bolo možné spárovať iba 234 zrelých miRNA s inými čítaniami. Na základe kritéria párovania sa v nasledujúcich procesoch použilo 130 606 čítacích párov vrátane 234 zrelých sekvencií miRNA (referenčný model, ktorý sa nevyžaduje). Spracovanie údajov v kroku párovania čítaní prostredníctvom RNAcofold však bolo časovo náročné, a preto sa na zníženie počtu čítaní použili referenčné sekvencie. V dôsledku toho boli malé sekvenčné čítania RNA najskôr mapované do referenčných sekvencií. Ak boli čítania mapované na rovnakú referenčnú sekvenciu a vzdialenosť medzi týmito dvoma čítaniami bola menšia ako 200 nt, potom boli vybrané na párovanie pomocou RNAfold. Čas spracovania údajov sa tak rýchlo znížil z 2156 na 36 hodín (doplnková tabuľka S3). V ďalších krokoch bolo použitých 38 954 prečítaných párov filtrovaných podľa referenčných sekvencií (pre model vyžadujúci dvojdielnu referenciu). Čítané páry 130 606 a 38 954 sa potom použili na definovanie ako páry miRNA :: miRNA* (pozitívna sada), miRNA :: gény kódujúce proteín (negatívna sada) a proteín kódujúce gény :: gény kódujúce proteíny (negatívne sada) (doplnkový obrázok S2). V tomto výskume boli preto vyvinuté predikčné modely miRNA s referenčnými sekvenciami genómu/transkriptómu a bez nich.

3.2 Extrakcia funkcií

Po prečítaní párovania a filtrovaní sa extrahovalo skóre piatich rôznych funkcií a použilo sa na zostavenie predikčného modelu miRNA. Na základe predchádzajúcej štúdie prvý nukleotid na 5'-konci malých vodiacich vlákien RNA určil preferencie prijatých proteínov AGO (Voinnet, 2009). V ôsmich malých sekvenčných údajoch RNA z Arabidopsis„podiel 5’-uracilu v čítaniach patriacich do génov miRNA bol vyšší ako podiel mapujúci do génov kódujúcich proteíny (doplnkový obrázok S6). Počas biogenézy miRNA sú vlásenkové štruktúry pre-miRNA spracované DCL a uvoľňujú tri produkty. V rámci tohto procesu je slučka vlásenky degradovaná ako vedľajší produkt. Ďalšie dva produkty tvoria duplex, ktorý sa následne odvíja helikázovou aktivitou. Prameň pasažiera je spravidla degradovaný, zatiaľ čo vodiaci prameň je vložený do komplexu RISC (Friedlander a kol., 2008 Leuschner a kol., 2006 Matranga a kol., 2005 Siomi a Siomi, 2009 Vermeulen a kol., 2005 Zamore a kol., 2000). To naznačuje, že vodiaci reťazec môže v malých sekvenciách sekvenovania malých RNA existovať častejšie ako osobný reťazec. Predtým sa sekvenčné čítania mapovali na vlásenkovú štruktúru prekurzora miRNA a vodiace vlákno malo hojnejšie čítanie mapovania ako ostatné dva typy produktov Dicer (Friedlander a kol., 2008). Toto zistenie sa zvažovalo pre skutočnú predikciu pred miRNA v miRDeep (Friedlander a kol., 2008). Tu sme tiež ukázali, že rozdiel v počte čítaní medzi spárovanými miRNA čítaniami bol vyšší ako ostatné párované duplexy v údajoch o sekvenovaní malých RNA z Arabidopsis (Doplnkový obrázok S7). Park a kol. navrhol, že štruktúra prekurzora miRNA je dôležitá pre efektívne a presné spracovanie Dicer u ľudí (Park a kol., 2011). Navyše Tsutsumi a kol. ukázali, že fly Dicer-1 rozpoznáva štruktúru jednovláknovej koncovej slučky pre-miRNA prostredníctvom svojej N-terminálnej helikázovej domény, kontroluje veľkosť slučky a meria vzdialenosť medzi 3' previsom a koncovou slučkou. Tento mechanizmus umožňuje muške Dicer-1 prísne kontrolovať autenticitu štruktúr pre-miRNA (Tsutsumi a kol., 2011). Aby sa extrahovali spárované štruktúry miesta rezu Dicer spárovaných čítaní z údajov o sekvenovaní malých RNA, boli potrebné priľahlé sekvencie každého čítania. Surové čítania z malých sekvenčných údajov RNA sa najskôr zostavili pomocou Trinity a potom sa mohli získať lemujúce sekvencie oboch vlákien v čítacích pároch. Podľa párových štruktúr určených programom RNAcofold alebo RNAfold je možné identifikovať päť rôznych stavov (zhoda, nesúlad, vloženie, vymazanie a žiadna báza) každého páru na každej základni. Spárované vzory 10 bp v blízkosti prvej základne, 11. základne a poslednej základne čítania boli extrahované pre funkciu „miesto rezania Dicer“ (doplnkový obrázok S4). Okrem toho sa minimálna voľná energia vypočítaná pomocou RNAcofold tiež považovala za znak identifikácie miRNA. Tripletový prvok, 32 znakov miestnych súvislých informácií o štruktúre a sekvencii, bol navrhnutý na rozlíšenie vláseniek skutočných a pseudo pre-miRNA (Xue a kol., 2005). Aby sa preskúmal význam tripletových prvkov pre identifikáciu párov miRNA::miRNA*, všetky typy čítacích párov (miRNA:: miRNA*, miRNA:: gén kódujúci proteín a gén kódujúci proteín:: gén kódujúci proteín) z malé údaje o sekvenovaní RNA boli použité na výpočet ich priemerných vektorových hodnôt pre 32 dimenzií (vlastnosti z tripletových prvkov). Je pozoruhodné, že uhlový stupeň medzi vektormi miRNA :: miRNA* a miRNA :: kódujúci proteín bol oveľa väčší ako uhly medzi génom kódujúcim proteín :: génom kódujúcim proteín a miRNA :: kódujúcim proteín (doplnková tabuľka S4) . Okrem toho sa tripletové prvky párov miRNA: miRNA* výrazne líšili od ostatných typov párovania, keď sa analyzovali pomocou študentského t-test (doplnková tabuľka S5). Ako je uvedené vyššie, v skutočnej miRNA bolo významne rozpoznaných päť znakov: páry miRNA* a boli použité v modelovom tréningu.

Podľa toho bolo 1286 a 7025 prečítaných párov určených ako pozitívne súbory údajov pre modelový tréning s referenčnými sekvenciami a bez nich. Ostatné zachovávajúce prečítané páry boli aplikované na negatívne súbory údajov. Pretože počet pozitívnych a negatívnych súborov údajov bol vysoko nevyvážený, rovnaký počet prečítaných párov bol náhodne vybratý z negatívnej oblasti. Vyvážené súbory údajov sa potom použili na konštrukciu modelu. Spomedzi vyvážených súborov údajov bolo 90% použitých na cvičný súbor a zvyšných 10% bolo použitých na overovací testovací súbor.

3.3 Výber funkcií a vyhodnotenie modelu

Aby sa vybrali efektívne vlastnosti pre predikčný model miRNA, testovali sa rôzne kombinácie piatich vlastností. Počty pozitívnych a negatívnych čítacích párov v každom testovacom súbore boli ilustrované v doplnkovej tabuľke S6. Po prvé, päť funkcií bolo nezávisle použitých v modelovom tréningu. Presnosť validácie a plocha pod krivkou ROC grafu (AUC) sú uvedené v doplnkovej tabuľke S7. Výsledok naznačuje, že vlastnosti súvisiace so štruktúrou, ako napríklad „minimálna voľná energia“, „tripletový prvok“ a „miesto rezania Dicer“, poskytujú dobrý výkon v modeli s referenčnými sekvenciami alebo bez nich, pretože ich presnosť validácie bola viac ako 90%. Presnosť validácie a AUC dosiahli 97,27% a 0,99 v uvedenom poradí, keď sa skombinovali všetky funkcie v modeli natrénovanom s referenciou (doplnková tabuľka S7 a doplnkový obrázok S8). Zdá sa, že „miesto rezania Dicer“ a „trojitý prvok“ dominujú presnosti modelu vycvičeného bez referencie. Zaujíma nás, či by rôzne kombinácie týchto štruktúrnych znakov mohli zlepšiť výkon predikcie. Na vyhodnotenie účinnosti modelu boli preto použité rôzne testovacie sady uvedené v doplnkovej tabuľke S6, vrátane 10% testovacích súborov a nezávislých testovacích súborov. Presnosť predikcie modelu trénovaného pomocou „minimálnej voľnej energie“ nebola dobrá vo všetkých šiestich testovacích súboroch (údaje nie sú uvedené). Preto boli testované iba dva konštrukčné prvky s rôznymi kombináciami. Ako je uvedené v tabuľke 1, model trénovaný bez referenčnej sekvencie poskytoval dobrý výkon vo všetkých testovacích súboroch založených len na prvkoch „Miesta na rezanie kociek“ a „Miesta na rezanie kociek + triplety.“ To naznačuje, že obe funkcie súvisiace so štruktúrou boli účinné.

Presnosť predikcie modelov trénovaných pomocou rôznych funkcií a metód pomocou Arabidopsis množiny údajov


Možnosti prístupu

Získajte plný prístup k denníku na 1 rok

Všetky ceny sú ČISTÉ ceny.
DPH bude pripočítaná neskôr pri pokladni.
Výpočet dane bude dokončený pri pokladni.

Získajte časovo obmedzený alebo úplný prístup k článku na ReadCube.

Všetky ceny sú ČISTÉ ceny.


ZÁVER

V tejto práci uvádzame predpoveď mnohých nových cieľov miRNA, čo naznačuje, že repertoár regulácie založenej na miRNA v rastlinách je oveľa širší, ako sa predtým predpokladalo. Mnohé z našich nových predpovedí rozširujú spektrum biologických procesov, ktoré podliehajú regulácii miRNA. Okrem toho zmenou parametrov predikcie, ktoré sme tu zodpovedajúcim spôsobom použili, možno v transkriptóme Arabidopsis tiež hľadať prítomnosť ďalších mimikrických cieľov, ako napríklad IPS1 ( 74) povolením „nezhody“ okolo miesta štiepenia mRNA.Náš prístup by mal byť nápomocný pri predikcii predpokladanejších cieľov u iných druhov rastlín, vzhľadom na stále sa zvyšujúce súbory údajov miRNA a transkriptómov.

Nie všetky tieto nové domnelé ciele môžu byť validované ako štiepené ciele v plante. To môže mať viacero dôvodov. Niektoré výpočtovo predpovedané miRNA, ktoré neboli klonované alebo identifikované v štúdiách hlbokého sekvenovania, nemusia byť autentické gény miRNA (36–38). Patria sem miR413, miR414, miR415 až miR420 a miR426 (33). Na druhej strane stále existujú otvorené otázky týkajúce sa štrukturálnych požiadaviek hybridných štruktúr miRNA: mRNA s ohľadom na cieľový výber a spôsob funkcie v rastlinách (59). Okrem toho existuje v rastlinách vyšší stupeň translačnej represie na základe miRNA, ako sa predpokladalo predtým (75). To môže byť dôvod, prečo sa zistilo, že iba 43 už známych miRNA cieľov a 83 našich nových predpovedaných cieľov je upregulovaných v rastlinách nesúcich mutácie v génoch zapojených do miRNA biogenézy a funkcie (29 doplnková tabuľka S9). Podobne úrovne expresie MYB33 a MYB65, dva známe ciele miR159, neboli redukované v rastlinách nadmerne exprimujúcich miR159 (31), čo spochybňuje vhodnosť údajov mikročipov ako jediného zdroja na identifikáciu cieľov miRNA. Podobný argument môže platiť aj pre vysvetlenie skutočnosti, že iba niekoľko z našich predpovedaných nových cieľov (doplnková tabuľka S10) bolo detegovaných veľmi nedávnymi prístupmi na identifikáciu 5'koncov mRNA/neviazaných mRNA schopných ligácie (56, 76, 77) alebo v mutantoch, ktoré sú ovplyvnené metabolizmom RNA a umlčaním (78). S ohľadom na tieto zistenia in silico predikcia je naďalej cenným nástrojom na identifikáciu potenciálnych cieľov miRNA rastlín.


Informácie o autorovi

Títo autori prispeli rovnakým dielom: Juan Xie a Jinfang Zheng.

Príslušnosti

School of Physics, Huazhong University of Science and Technology, Wuhan, Hubei, 430074, Čína

Juan Xie, Jinfang Zheng, Xu Hong, Xiaoxue Tong a amp Shiyong Liu

Tento autor môžete tiež vyhľadať v službe PubMed Google Scholar

Tento autor môžete tiež vyhľadať v službe PubMed Google Scholar

Tento autor môžete tiež vyhľadať v službe PubMed Google Scholar

Tento autor môžete tiež vyhľadať v službe PubMed Google Scholar

Tento autor môžete tiež vyhľadať v službe PubMed Google Scholar

Príspevky

J.F.Z. a J.X. vyvinuli PRIME-3D2D a webový server. J.X., J.F.Z., X.H., X.X.T. a S.Y.L. napísal, skontroloval a upravil rukopis.

Zodpovedajúci Autor


Ďalší súbor 1: Obrázok S1.

Analýza bioinformatického prístupu. Hodnotenie výkonu rôznych stratégií anotácie MTL. Analýza ochranných hustôt MTL a numtDNA. Obrázok S2. Intronické spracovanie nimtRNA a snoRNA. Spracovanie intronických, Pol II- alebo Pol III-transkribovaných, plazmidom kódovaných ncRNA, ako bolo vyhodnotené analýzou Northern blot. Obrázok S3. Účinky NimtRNA na spájanie. Zvýšenie zostrihu sprostredkované nimtRNA sprostredkované fluorescenciou. Účinky klastra nimtRNA závislé od polohy podľa hodnotenia pomocou RT-qPCR. Obrázok S4. Navrhované sekundárne štruktúry reverzne komplementárnych nimtRNA. Navrhnuté sekundárne štruktúry nimtRNA a ich reverzne komplementárne náprotivky, ako sú určené pomocou tRNAscan alebo manuálne. Obrázok S5. Analýza TIDE lokusu nimtRNA zacieleného na CRISPR/Cas9 v intróne 28 PPFIBP1. Delécie nimtRNA indukované CRISPR v rámci PPFIBP1 gén hodnotený analýzou TIDE. Obrázok S6. Profil HEXplorer nimtRNA Tyr (67 nt). Skóre HEXplorer nimtRNA Tyr stanovené v silikóne. Obrázok S7. Charakteristiky intrónu ovplyvňujú reguláciu zostrihu sprostredkovanú nimtRNA. Účinnosť rozpoznávania 3 'miesta zostrihu bola zvýšená mutáciou, aby sa určil jeho vplyv na zvýšenie zostrihu sprostredkované nimtRNA.

Ďalší súbor 2: tabuľka S1.

Skóre Hg38. MTL a nimtRNA zasahuje do ľudského genómu.

Ďalší súbor 3: Tabuľka S2.

Mm10 skóre. MTL a nimtRNA zásahy do myšacieho genómu.

Ďalší súbor 4: Tabuľka S3.

Odľahlé hodnoty MTL a nimtRNA. MTL a nimtRNA vykazujúce vyšší stupeň konzervácie, merané Cookovou vzdialenosťou.

Ďalší súbor 5: Tabuľka S4.

NimtRNA konsenzus. Konsenzuálna sekvencia a štruktúra rôznych typov nimtRNA.

Ďalší súbor 6: tabuľka S5.

Obohatenie väzby RBP. Väzbové miesta proteínov obohatených o sekvencie nimtRNA.

Ďalší súbor 7.

Northern Blots. Plné, nezostrihané severné škvrny.

Ďalší súbor 8.

ENCODE zdroje. Zoznam zdrojov ENCODE použitých na metaanalýzu nimtRNA eCLIP.


Pozri si video: Methylation u0026 microRNA. Epigenetics Part 2 (Február 2023).