Fundamental asymmetri av insertioner och deletioner i genomstorleksutveckling (2023)

Introduktion

Idén med skräp-DNA går tillbaka till 1972 i publicerad form och har blivit allmänt accepterad tills nyligen publicerat en serie artiklar av ENCODE-konsortiet (http://www.encodeproject.org). Sammanfattningen av ENCODE-papperet (Dunhametal., 2012) förklarade att cirka 80 % av det mänskliga genomet tjänar något syfte, biokemiskt sett. Denna slutsats plockades ur sin experimentella och biologiska bakgrund i en nyhetsrapport för att förklara att idén om "skräp-DNA" har blivit historia (Elizabeth, 2012). Föga överraskande följde kritik (Eddy, 2012, Doolittle, 2013, Eddy, 2013, Graur, Zheng, Price, Azevedo, Zufall, Elhaik, 2013, Niu, Jiang, 2013, Palazzo, Gregory, 2014, Pala201, 5, Palazzo, 201, 2014). Analysen av definitionen av funktionella element av Doolittle (2013) och slumpmässig sekvens negativ kontroll som föreslagits av Eddy (2013) gav stor insikt om ytterligare riktningar att ta för att klargöra kontroversen. Niuand Jiang (2013) föreslog att knockouts är ultimata robusta sätt att testa funktionella element från skräp-DNA. I huvudsak hängde debatter om ENCODE-publikationerna på definitionen av "funktionella element" (Doolittle, Brunet, Linquist, Gregory, 2014, Kellis, Wold, Snyder, Bernstein, Kundaje, Marinov, et al., 2014, Germain, Ratti, Boem, 2014). Kellis et. al. konstaterade (Kellisetal., 2014) att man bör integrera information från biokemiska, genetiska och evolutionära metoder för att korrekt beskriva funktioner hos berörda DNA-segment. Båda (Doolittle, Brunet, Linquist, Gregory, 2014, Germain, Ratti, Boem, 2014) betonade vikten av "kausalrollen" för att definiera funktion. Trots observerade korrelationer mellan genomstorlek och olika fysiologiska och miljömässiga aspekter i ett begränsat antal arter (Gregory, 2005, Bennett, Leitch, 2005), har "C-värdesgåtan" (Petrov, 2001) varit en av de centrala frågorna om genomet. storleksutveckling och återstår att helt lösa. Även om själviska DNA (representerade av transposerbara element (TE)) föreslagna av Orgel (1980) och av Doolittle och Sapienza (1980) kan förklara en betydande del av den stora genomstorleken hos vissa arter (t. minst ~35 % hos människa (Robicheauetal., 2017)). Det visade sig att varken kön/asexuell reproduktion eller TE är ansvariga för genomstorleksskillnader hos 30 undersökta nattljusarter (Ågrenetal., 2015). Genombalanshypotesen (Freelingetal., 2015) kan förklara hur skräp-DNA i fred samexisterar med väsentliga och viktiga funktionella delar av genom, men inte hur de kom till från början. Existens, expansion eller krympning av slumpmässiga biologiska sekvenser (RBS, definierade nedan) ändrar oundvikligen storleken på de inhysande genomen och relativa vikter av funktionella och icke-funktionella sekvenser. Därför kan förståelse för RBS-evolution mycket väl hjälpa till att avslöja omfattningen av funktionella sekvenser, och kan leda till ny insikt i den långvariga "C-värdesgåtan".

Antag att det fanns en idealisk organism och att varje nukleotid i dess perfekta genom var väsentlig (strukturellt, funktionellt eller för reglering) och att insättningar vid vilket intrafunktionellt segmentställe som helst var dödligt. Vi använder det som en startpunkt för ett tankeexperiment. När det perfekta genomet börjar replikera finns det vissa sannolikheter för mutation, insättning och deletion. Enligt definitionen av det perfekta genomet kommer alla deletioner att resultera i en icke-livsduglig avkomma för att överleva naturligt urval. När det gäller storleken på ett perfekt genom kan mutation försummas eftersom det inte bidrar till storleksförändring. Den enda möjliga storleksändringen är en insättning på några expanderbara ställen av det perfekta genomet. Dessa expanderbara platser, per definition av det perfekta genomet, måste mellan två funktionella segment (gener eller strukturellt/funktionellt reglerande sekvenser) som inte kräver omedelbar fysisk närhet. Men när en infogning väl hände var deletionen av denna infogade slumpmässiga sekvens neutral under nästa replikeringsrunda. Här definierades slumpmässiga biologiska sekvenser (RBS) som sekvenser genererade på ovannämnda sätt och är funktionellt neutrala i termer av selektion (förutom de genererade energi-, utrymmes- och replikeringstidskostnaderna) vid tidpunkten för generering. Varje expanderbar webbplats är en potentiell startpunkt för generering av RBS och kan växa godtyckligt stor innan den eventuellt delas upp i flera expanderbara webbplatser (när ett eller flera segment av vilka utvecklas till väsentliga funktionella element) eller tas bort. Det är viktigt att notera att RBS för det första inte är genuint slumpmässiga sekvenser eftersom all RBS är gjord av DNA-polymerassystem (DPS), som inte är en slumpmässig sekvensgenererande maskin. Som en kranskärlssjukdom är RBS artspecifik eftersom varje art har sin egen DPS. Dessutom kan DPS för en given art utvecklas och därför kan slumpmässighet (eller fördomar) av RBS för en given art också vara tidsberoende på geologiska tidsskalor.

I denna studie ville vi svara på följande frågor. För det första, är RBS väsentliga delar av alla genom? Om svaret var ja, vad skulle deras storleksfördelning vara? Hur skulle den relativa betydelsen av insättnings- och raderingshastigheterna påverka storleksutvecklingen av RBS? Det har gjorts vissa försök att dra slutsatser från analys av både kodande sekvenser och pseudogener (de Jong, Ryden, 1981, Graur, Shuali, Li, 1989, Petrov, Lozovskaya, Hartl, 1996, Ophir, Graur, 1997), och det var fann konsekvent att indels existerar brett, med raderingsfrekvenser som i allmänhet är högre än insättningshastigheter. Baserat på dessa fynd, Petrovdu vid.föreslog jämviktsgenomstorleksmodellen (Petrov, 2002). Gregory Gregory, 2003, Gregory, 2004 diskuterade många brister i denna modell och drog slutsatsen att även om det är viktigt, är DNA-förlust via liten deletionsbias inte tillräcklig för att förklara stora genomstorleksskillnader. Kapustadu vid.fann att deletion av segment i olika storlekar är ansvariga för genomstorleksskillnader hos fåglar och djur (Kapustaetal., 2017). Men inte mycket uppmärksamhet riktades på rollen av insättningsbias eftersom det inte har observerats konsekvent i analyser av sekvenserade genom.

En enkel matematisk modell utvecklades i denna studie och några intressanta resultat härleddes från modellen. För det första antyder vår modell att liten insättningsbias (högre insättningssannolikhet) av även en enda nukleotid kan leda till godtyckligt stora genom, och ger därmed en möjlig komplementär förklaring till C-värdesgåtan förutom själviskt DNA. För det andra uppvisar svansar av RBS-längdfördelningar exponentiellt sönderfall med kortare som är mycket mer sannolika än längre, detta överensstämmer kvalitativt med fördelningen av observerade genomstorlekar (Oliveretal., 2007). Den explosivt accelererande tillväxten av genomsnittlig RBS-storlek under insättningsbias orsakas huvudsakligen av den grundläggande asymmetrin hos insättningar och deletioner, med den förra resulterar i fler platser för ytterligare infogning och de senare resulterar i mindre deleterbara nukleotider. Sådan asymmetri är tillämplig för alla former av effektiva storleksvariationer för DNA-segment som inte är föremål för selektionstryck och därför sannolikt kommer att diktera den globala trenden för genomstorleksutveckling. Den observerade proportionella evolutionens modell (Oliveretal., 2007) kan också förklaras av den fundamentala asymmetrin av insättning och radering. Dessutom, i motsats till intuition, resulterar strikt balanserad infogning och deletion i linjärt ökande i stället för fast storlek RBS, och följaktligen hyser genomet. Återigen, ett sådant kontraintuitivt fenomen orsakas av grundläggande asymmetri av infogningar och deletioner.

Modellerna som presenteras i detta arbete kodades med C++ programmeringsspråk för att utföra beräkningar, källkoder är tillgängliga på begäran.

Avsnittsutdrag

Utveckling av medelstorlek för slumpmässiga biologiska sekvenser

Även om det förblir ett mysterium hur livet uppstår exakt, vet vi att DPS vid någon tidpunkt i evolutionen och därefter har varit ansvarig för vidarebefordran av genetisk information. Som demonstrerats genom analys av många sekvenserade genom (de Jong, Ryden, 1981, Graur, Shuali, Li, 1989, Petrov, Lozovskaya, Hartl, 1996, Ophir, Graur, 1997), är både infogningar och deletioner möjliga händelser under sådan informationsrelä . För enkelhetens skull antar vi att sannolikheten för en fast infogning (Pi) kl

Diskussion

"C-värdesgåtan" är mer relevant för eukaryoter med genomstorleksintervall över fyra storleksordningar, medan känd bakteriegenomstorlek spänner över ungefär en storleksordning (Casjens, 1998, Mira, Ochman, Moran, 2001). Den konsekvent observerade deletionsbias (Miraetal., 2001) i bakteriegenomet förklarades som en balans mellan naturligt urval för mindre genom och för att upprätthålla väsentlig funktion och genduplicering/förvärvshändelser (Miraetal., 2001). Icke-kodning

Slutsatser

Med utgångspunkt i en enkel matematisk modell av ett tänkt perfekt genom, visade vi att till och med enstaka nukleotidinsättningsbias ensam kan resultera i godtyckligt stor RBS. Den explosiva tillväxten av RBS-storlek i senare skede av insättningsbias tillskrevs den grundläggande indel-asymmetrin som kan generaliseras till alla kombinationer av indel-storlekar och sannolikheter. I enlighet med vår modell observerades ihållande deletionsbias i många indelanalyser. Svansar av förutspådd RBS-längd

Finansiering

Detta arbete stöds avKinas nationella nyckelforsknings- och utvecklingsprogram(2017YFB0702500), och genom attNational Natural Science Foundation i Kina(bevilja31,270,758till P.T. och bidrag31401123till S.T.).

Tillgänglighet av data och material

De datauppsättningar och koder som används och/eller analyseras under den aktuella studien är tillgängliga från motsvarande författare på rimlig begäran.

(Video) Types of Sequence Variants - Duplications, Insertions, Deletions, and Indels

Författarens bidrag

P.T. tänkte på studien och kodade beräkningen. S.T. och P.T. utvecklade den matematiska modellen, Y.H. och P.T. utfört analys. S.T. och P.T. skrev manuskriptet.

Etiskt godkännande och samtycke till att delta

Inte tillämpbar

Förklaring om konkurrerande intresse

Författarna förklarar att de inte har några konkurrerande intressen.

Rekommenderade artiklar (6)

  • Forskningsartikel

    Samband mellan polymorfism i den insulinreceptorrelaterade receptorgenen och tillväxtegenskaper hos Stillahavsostronet Crassostrea gigas

    Biochemical Systematics and Ecology, Volym 54, 2014, s. 144-149

    Insulinreceptorrelaterad receptor (IRR) är ett föräldralöst receptortyrosinkinas från insulinreceptorfamiljen och involverat i tillväxt- och reproduktionsprocesserna för StillahavsostronCrassostrea gigas. Polymorfismer avIRRgenen utvärderades för associationer med tillväxtprestanda hos 336 individer i fem familjer och bekräftades ytterligare hos 206 individer från tre selektivt uppfödda stammar för snabb tillväxt. Två av de sex identifierade synonyma mutationerna (C.1996G>A och C.2110C>T) var signifikant associerade med tillväxtprestanda i familjerna och stammarna. Fem diplotyper konstruerades baserat på de två tillväxtrelaterade SNP:erna, och diplotypanalys visade att D3(GGTT) kan vara den mest fördelaktiga diplotypen för tillväxtegenskaper. Resultaten tyder på att två SNP:er (C.1996G>A och C.2110C>T) iIRRgener är potentiellt associerade med tillväxtprestanda avC. gigas, och skulle kunna fungera som genetiska markörer för snabb tillväxt i ostronuppfödning.

    (Video) Penalizing Insertions and Deletions in Sequence Alignment

  • Forskningsartikel

    En multipelinformationsfusionsmetod för att förutsäga subcellulära placeringar av två olika typer av bakterieprotein samtidigt

    Biosystems, volym 139, 2016, s. 37-45

    Subcellulär lokaliseringsförutsägelse av bakteriellt protein är en viktig komponent i bioinformatik, vilket har stor betydelse för läkemedelsdesign och andra tillämpningar. För att förutsäga protein subcellulär lokalisering, som vi alla vet, har massor av beräkningsverktyg utvecklats under de senaste decennierna. I denna studie introducerar vi först tre typer av proteinsekvenskodningsscheman: fysikalisk-kemiskt baserade, evolutionära baserade och GO-baserade. De ursprungliga och konsensussekvenserna kombinerades med fysikalisk-kemiska egenskaper. Och elementinformation för olika rader och kolumner i positionsspecifik poängmatris togs i beaktande samtidigt för mer kärn- och essensinformation. Beräkningsmetoder baserade på genontologi (GO) har visat sig vara överlägsna metoder baserade på andra egenskaper. Därefter tillämpas principal component analysis (PCA) för funktionsval och reducerade vektorer matas in i en stödvektormaskin (SVM) för att förutsäga subcellulär proteinlokalisering. Den föreslagna metoden kan uppnå en prediktionsnoggrannhet på 98,28 % och 97,87 % på en stringent Gram-positiv (Gpos) respektive Gram-negativ (Gneg) dataset med Jackknife-test. Äntligen beräknar vi "absolut sann övergripande noggrannhet (ATOA)", som är strängare än total noggrannhet. ATOA som erhålls från den föreslagna metoden är också upp till 97,32 % och 93,06 % för Gpos och Gneg. Från både rationaliteten i testförfarandet och framgångsfrekvensen för testresultat, kan den nuvarande metoden förbättra förutsägelsekvaliteten för proteinsubcellulär lokalisering.

  • Forskningsartikel

    Förutsäga Golgi-bosatta proteintyper med hjälp av pseudoaminosyrakompositioner: Tillvägagångssätt med positionsspecifika fysikalisk-kemiska egenskaper

    Journal of Theoretical Biology, Volym 391, 2016, s. 35-42

    Att känna till typen av ett Golgi-bosatt protein är ett viktigt steg för att förstå dess molekylära funktioner såväl som dess roll i biologiska processer. I detta dokument utvecklade vi en ny beräkningsmetod för att förutsäga Golgi-bosatta proteintyper med hjälp av positionsspecifika fysikalisk-kemiska egenskaper och analys av variansbaserade funktionsvalsmetoder. Vår metod uppnådde 86,9 % förutsägningsnoggrannhet i korsvalideringar som lämnas en-ut med endast 59 funktioner. Vår metod har potential att användas för att förutsäga ett brett spektrum av proteinattribut.

    (Video) Insertion, Deletions and Frameshift Mutations
  • Forskningsartikel

    Återbesöker "felen av medelvärden" inom ekologi: Förväntad vinst per tidsenhet är lika med förväntad vinst dividerat med förväntad tid

    Journal of Theoretical Biology, volym 483, 2019, artikel 109993

    Fitness definieras ofta som den genomsnittliga utdelning ett djur får när det är engagerat i flera aktiviteter, som var och en tar lite tid. Vi påpekar att medelvärdet kan beräknas med avseende på antingen tidsfördelningen, eller till händelsefördelningen för dessa aktiviteter. Vi visar att dessa två medelvärden leder till samma konditionsfunktion. Vi illustrerar detta resultat genom två exempel från födosöksteorin, Holling II funktionell respons och kostvalsmodellen, och ett spelteoretiskt exempel på Hamiltons regel tillämpad på det tidsbegränsade prisoner's dilemmat (PD). Speciellt visar vi att i dessa modeller är kondition definierad som förväntad vinst per tidsenhet lika med kondition definierad som förväntad ökning dividerat med förväntad tid. Vi visar också hur dessa konditioner förutsäger det optimala resultatet för kostval och förekomsten av samarbete i det upprepade PD-spelet.

  • Forskningsartikel

    Identifiering av S-glutationyleringsställen i artspecifika proteiner genom att införliva fem sekvenshärledda egenskaper i den allmänna pseudoaminosyrasammansättningen

    Journal of Theoretical Biology, Volym 398, 2016, s. 96-102

    Som ett selektivt och reversibelt protein post-translationell modifiering,S-glutationylering genererar blandade disulfider mellan glutation (GSH) och cysteinrester, och spelar en viktig roll för att reglera proteinaktivitet, stabilitet och redoxreglering. Att helt förståS-glutationyleringsmekanismer, identifiering av substrat och specifikaS-Glutationylerade platser är avgörande. Experimentell identifiering avS-glutationylerade platser är arbetsintensiva och tidskrävande, så att etablera en effektiv beräkningsmetod är mycket önskvärt på grund av deras bekväma och snabba hastighet. Därför, i denna studie, ett nytt bioinformatikverktyg vid namn SSGlu (Artsspecifik identifiering av proteinS-glutationyleringsställen) utvecklades för att identifiera artspecifikt proteinS-glutationylerade ställen, som använder stödvektormaskiner som kombinerar flera sekvenshärledda funktioner med ett tvåstegsval av funktion. Genom 5-faldig korsvalidering mättes prestandan för SSGlu med en AUC på 0,8105 och 0,8041 förEn vis manochMusmuskel, respektive. Dessutom jämfördes SSGlu med de befintliga metoderna, och den högre MCC och AUC för SSGlu visade att SSGlu var mycket lovande att förutsägaS-glutationylerade ställen. Dessutom visade en platsspecifik analys detS-glutationylering intimt korrelerad med de egenskaper som härrör från dess omgivande platser. Slutsatserna från denna studie kan hjälpa till att förstå mer avS-glutationyleringsmekanism och vägleda den relaterade experimentella valideringen. För allmänhetens tillgång är SSGlu fritt tillgänglig påhttp://59.73.198.144:8080/SSGlu/.

  • Forskningsartikel

    En osäkerhetslag för mikrobiell evolution

    Journal of Theoretical Biology, volym 489, 2020, artikel 110155

    Medicinsk praktik skulle gynnas av en grundlig förståelse av begränsningar och osäkerhet i mikrobiell evolution. Epistas av högre ordning hänvisar till oväntade effekter av flera mutationer även om både enstaka mutationer och parvisa effekter har tagits med i beräkningen. Nyligen genomförda studier visar att epistas av högre ordning är rikligt i naturen, för såväl bakterier som högre organismer. Vikten av högre ordningseffekter har dock diskuterats. Det har föreslagits att sådana effekter inte kan tolkas och inte bör övervägas.

    Här visar vi definitivt att epistas av högre ordning förändrar de adaptiva utsikterna för en befolkning. Slutsatsen är baserad på en uttömmande sökning av 193 270 310 hyperkubgrafer och tillämpningar av grafteori. Våra resultat är mer exakta, men ändå mer universella, än relaterad forskning eftersom de beror på matematisk teori snarare än provtagning eller simuleringar. Dessutom är osäkerheten vi fastställer för mikrobiell evolution, på grund av epistas av högre ordning, inte känslig för detaljerade modellantaganden, som att baslinjen är additiv eller log-additiv fitness.

© 2019 Publicerad av Elsevier Ltd.

References

Top Articles
Latest Posts
Article information

Author: Chrissy Homenick

Last Updated: 01/09/2023

Views: 5933

Rating: 4.3 / 5 (74 voted)

Reviews: 81% of readers found this page helpful

Author information

Name: Chrissy Homenick

Birthday: 2001-10-22

Address: 611 Kuhn Oval, Feltonbury, NY 02783-3818

Phone: +96619177651654

Job: Mining Representative

Hobby: amateur radio, Sculling, Knife making, Gardening, Watching movies, Gunsmithing, Video gaming

Introduction: My name is Chrissy Homenick, I am a tender, funny, determined, tender, glorious, fancy, enthusiastic person who loves writing and wants to share my knowledge and understanding with you.