Informație

Măsurarea distanței genetice: $F_{ST}$ față de distanța lui Nei

Măsurarea distanței genetice: $F_{ST}$ față de distanța lui Nei


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Din câte știu, distanța genetică a lui Nei este destul de veche în comparație cu $F_{ST}$. Cu toate acestea, am citit recent mai multe lucrări care au folosit distanța genetică a lui Nei împreună cu $F_{ST}$. Deoarece nu sunt foarte familiarizat cu Nei, care sunt unele avantaje pe care le are față de $F_{ST}$?

Distanța genetică a lui Nei suferă din cauza prejudecăților de stabilire?


Relația dintre trei măsuri de diferențiere genetică GSF, DEst și G’SF: cat de gresit am gresit?

Tabelul S1 Studii incluse în această meta-analiză.

Vă rugăm să rețineți: Wiley-Blackwell nu este responsabil pentru conținutul sau funcționalitatea oricăror materiale auxiliare furnizate de autori. Orice întrebări (altele decât materialul lipsă) trebuie adresate autorului corespunzător articolului.

Nume de fișier Descriere
MEC_4185_sm_TableS1.doc113 KB Element de informații de sprijin

Vă rugăm să rețineți: editorul nu este responsabil pentru conținutul sau funcționalitatea oricărei informații de sprijin furnizate de autori. Orice întrebări (altele decât conținutul lipsă) trebuie direcționate către autorul corespunzător articolului.


UN TEST SIMPLU PRIVIND CONȚINUTUL INFORMAȚIILOR DE MĂRIMIA ALELEI

Testul indică dacă dimensiunile alelelor furnizează informații despre diferențierea populației, având în vedere un set de date, adică dacă modificările dimensiunilor alelelor rezultate din mutații asemănătoare trepte contribuie la diferențierea populației. Contribuția mutațiilor treptate la diferențierea genetică necesită (1) ca procesul de mutație să fie cel puțin parțial asemănător SMM și (2) ca rata de mutație, μ, să fie suficient de mare în raport cu efectul derivei și migrației (de exemplu., μ≥ m altfel noile mutații sunt rapid răspândite dincolo de populația lor nativă prin migrație). Tabelul 2 evidențiază ipotezele nule care pot fi testate, prezentând o ipoteză nulă generală, precum și ipoteze nule specifice care se susțin sub anumite ipoteze anterioare.

Principiul testului se bazează pe obținerea unei distribuții a unei statistici sub ipoteza nulă (H0) că diferențele în dimensiunile alelelor nu contribuie la diferențierea populației. Prin urmare, folosim o procedură de randomizare prin care diferitele dimensiuni ale alelelor observate la un loc pentru un anumit set de date sunt permutate aleatoriu între stările alele. Pentru a înțelege mai bine procedura, se poate disocia starea alelică, identificată, de exemplu, printr-o literă (de exemplu, a, b, c, d, și e dacă există cinci alele diferite) și dimensiunea alelei, identificată printr-un număr (de exemplu., 4, 5, 7, 8 și 11, fiecare reprezentând numărul de repetări ale secvenței), având în vedere că există o corespondență unu-la-unu între starea alelică și dimensiunea alelei. Înainte de randomizare, dimensiunea alelei atribuită fiecărei stări alele este dimensiunea reală a alelei (de ex., a, 4 b, 5 c, 7 d, 8 și e, 11). Pe parcursul procedurii de randomizare, genotipurile sunt definite în termeni de stări alelice și nu sunt modificate, dar dimensiunile alelelor sunt reatribuite aleatoriu între stările alele (de ex., a, 7 b, 4 c, 11 d, 5 și e, 8). După o astfel de randomizare, oricare două gene care au inițial aceeași dimensiune al alelei rămân identice, deși poate fi pentru o altă dimensiune alelelor, în timp ce oricare două gene care poartă inițial alele diferite de diferență de dimensiune mică pot avea alele cu diferență de dimensiune mare sau reciproc. Prin urmare, informațiile de identitate ale alelei sunt păstrate intacte, dar nu și informațiile despre dimensiunea alelei. În ipoteza nulă (Tabelul 2, cazul 1), procedura de randomizare nu ar trebui să afecteze așteptarea unei măsuri de diferențiere, cum ar fi RSF. Dimpotrivă, dacă dimensiunile alelelor contribuie la diferențierea genetică, RSF calculat după permutarea mărimii alelelor (denumită în continuare relatii cu publiculSF) ar depinde numai de identitatea/nonidentitatea alelei și, prin urmare, ar avea o așteptare mai mică decât valoarea calculată înainte de randomizare. Testul poate fi astfel proiectat prin compararea celor observate RSF valoare (înainte de randomizare) la distribuția de relatii cu publiculSF valorile obținute pentru toate configurațiile posibile ale permutărilor mărimii alelelor (sau un subset reprezentativ al acestora, deoarece numărul total de configurații diferite devine rapid enorm când numărul de alele depășește 7 sau 8). Din această comparație, probabilitatea ca ipoteza nulă să fie valabilă poate fi estimată ca proporție de relatii cu publiculSF valori mai mari decât cele observate RSF (test cu o singură coadă). Rețineți că media relatii cu publiculSF ar trebui să fie egal în așteptare cu FSF calculate pe aceleași date (fără a ține cont de potențiala părtinire statistică), așa cum se confirmă mai târziu.

Pe un singur locus, un astfel de test poate fi aplicat numai dacă un număr suficient de alele diferite (n) sunt în setul de date, deoarece numărul de configurații diferite de permutare este egal cu n!. Prin urmare, cinci alele (120 de configurații diferite) par a fi un minim pentru a efectua un astfel de test la un criteriu de rata de eroare de tip I de 5 sau 1%. Pe un multilocus RSF estimare, testul poate fi efectuat prin permutarea dimensiunilor alelelor în fiecare locus. Este de remarcat faptul că testul nu face ipoteze asupra modelului de mutație: Un rezultat semnificativ (RSF semnificativ >relatii cu publiculSF) sugerează că mutațiile au contribuit la diferențierea genetică (de exemplu., deoarece μ≥ m într-un model de insulă) și că procesul de mutație urmează cel puțin parțial un SMM (testul rămâne valabil în cazul abaterilor de la SMM). Cu toate acestea, se presupune neutralitatea în ceea ce privește selecția naturală. Când testul este semnificativ, FSF este probabil să ofere o estimare părtinitoare a parametrilor fluxului de gene, dar nu poate fi concluzionată a priori acea RSF ar avea neapărat performanțe mai bune, având în vedere varianța sa mai mare (care este și mai pronunțată atunci când pot apărea mutații de mai mult de o treaptă Z hivotovsky și F eldman 1995) și având în vedere părtinirea pe care o poate suferi atunci când procesul de mutație se abate de la ipotezele GSM (E stoup şi Angers 1998). Un rezultat nesemnificativ (RSF nu diferit semnificativ de relatii cu publiculSF) ar sugera că dimensiunea alelelor nu este informativă pentru diferențierea populației, deoarece procesul de mutație nu este treptat și/sau pentru că mutațiile nu au contribuit la diferențiere (de exemplu., deoarece μ⪡ m într-un model de insulă). În acest caz, FSF cu siguranță ar trebui să fie preferată RSF (deși nu ar asigura asta FSF oferă o estimare corectă a fluxului de gene având în vedere multe alte surse de părtinire legate de modelele populației W hitlock și M c C auley 1999).

Ipoteze testate prin permutările mărimii alelelor aplicate RSF

Ce ipoteze pot fi testate și cu ce statistici? Simulările permit validarea testului de permutare a mărimii alelelor și evaluează puterea acestuia. Dar mai întâi este necesar să insistăm asupra a ceea ce poate fi testat (Tabelul 2).

Randomizarea dimensiunilor alelelor creează replici ale unui set de date pentru un proces de mutație în urma unui KAM (sau IAM), deoarece, în acest model, dimensiunea alelelor este irelevantă și interschimbarea lor este ca și cum replicarea proceselor de mutație trecute care duc la setul de date prezent, dar cu altele aleatoare. alele alese după fiecare eveniment mutațional. Prin urmare, o posibilă aplicare a procedurii de randomizare a mărimii alelelor este testarea dacă procesul de mutație urmează un KAM (Tabelul 2, cazul 3). În acest scop, mărimile alelelor randomizate pot fi aplicate pe orice statistică bazată pe dimensiunea alelelor, nu numai R-statistici, dar și diferite distanțe genetice pentru modele de mutații în trepte precum (δμ) 2 (de exemplu., G oldstein et al. 1995b S hriver et al. 1995), sau pur și simplu asupra variației totale a mărimii alelelor. Este, totuși, deja bine stabilit că marea majoritate a loci de microsateliți nu se conformează unui KAM, iar întrebarea interesantă despre procesul de mutație al microsateliților este mai degrabă cum se abate de la un SMM ideal (E stoup și Angers 1998). Prin urmare, utilizarea procedurii de permutare a mărimii alelelor pentru a testa KAM nu este discutată în continuare.

O a doua aplicare a procedurii de permutare a mărimii alelelor, presupunând aici a priori că mutațiile urmează cel puțin parțial un proces asemănător SMM, este de a testa dacă mutația a contribuit la divergența populației (Tabelul 2, cazul 2). Cu alte cuvinte, putem testa dacă rata migrației (m) între populații, sau reciproca numărului de generații (t), deoarece divergența populației, este mare în comparație cu ratele de mutație (μ⪡ m sau μ⪡ 1/t, respectiv Tabelul 2, cazurile 2a și 2b). Testul de permutare a mărimii alelelor este cel mai interesant pentru a aborda această întrebare, deoarece există suficiente dovezi că majoritatea microsateliților urmează un proces asemănător SMM (de exemplu., E llegren 2000 X u et al. 2000 Z hu et al. 2000 R enwick et al. 2001). Cu toate acestea, în acest scop, permutarea mărimii alelelor nu poate fi aplicată niciunei statistici bazate pe dimensiunea alelei: funcționează bine pe R-statistici, care sunt rapoarte ale componentelor variației mărimii alelelor, dar nu și pe distanțe genetice, cum ar fi G oldstein et al. (1995a) (δμ) 2 statistică, care este o componentă între populații a variației mărimii alelelor. Motivul este că permutările aleatorii ale dimensiunilor alelelor nu numai că înlătură covarianța în interiorul populației dintre dimensiunile alelelor pentru diferite alele, dar modifică și varianța dimensiunii alelelor în SMM sau GSM, deoarece distribuția de frecvență așteptată a dimensiunilor alelelor nu este uniformă (D onnelly). 1999). Statisticile care exprimă o componentă a variației mărimii alelelor, cum ar fi statistica (δμ) 2, vor fi întotdeauna afectate de o modificare a variației mărimii alelei, indiferent dacă mutațiile au contribuit sau nu la diferențiere. Dimpotrivă, statisticile bazate pe un raport al componentelor varianței, cum ar fi RSF, nu vor fi afectate dacă componentele varianței în interiorul și între populații sunt multiplicate cu factori care au aceleași așteptări. Simulările prezentate în continuare arată că acest lucru se întâmplă atunci când nu există o covarianță în cadrul populației între dimensiunile alelelor pentru diferite alele (adică, diferențierea datorată derivei și nu mutațiilor treptate).

Pentru a arăta că testul de permutare a mărimii alelelor este adecvat pentru RSF statistică, dar nu statistica (δμ) 2 la testare m ⪢ μ sau 1/t ⪢ μ (sub a priori presupunând că procesul de mutație este treptat ca în Tabelul 2, cazurile 2), am simulat o populație de împerechere aleatorie de indivizi diploizi (dimensiunea populației N = 1000 de indivizi) la echilibrul mutație-derire (μ= 0,001) sub SMM. Apoi a fost aplicat testul de permutare a mărimii alelelor (1000 de randomizări). RSF și (δμ) 2 calculat între două eșantioane independente (dimensiunea eșantionului n = 100 indivizi) din acea populație pentru fiecare din 200 de loci simulați (cele două eșantioane reprezintă astfel subpopulații nediferențiate). Programele de calculator utilizate pentru simulări și calcule sunt descrise mai jos. Raportăm procentul de loci pentru care testele au fost semnificative (%RHo) conform criteriului ratei de eroare de tip I (α, probabilitatea de respingere a ipotezei nule atunci când este adevărată). Deoarece ipoteza nulă de testat (1/t ⪢μ) este îndeplinită de simulări, o procedură de testare validă trebuie să asigure că %RHo =α, altfel înseamnă că procedura nu este adecvată pentru a testa această ipoteză nulă. Figura 1 arată că procedura de testare a randomizării mărimii alelelor este într-adevăr validă atunci când este aplicată RSF dar nu pe (δμ) 2 .

Puterea testului sub SMM: Pentru a investiga puterea testului la testarea dacă mutațiile au contribuit la diferențierea populației în cadrul SMM (Tabelul 2, cazurile 2), am verificat procedura pe seturi de date artificiale cu dimensiuni realiste ale eșantionului derivate din simulările Monte Carlo ale populațiilor formate din hermafrodiți diploizi. Au fost simulate trei seturi de situații demografice: (1) un model de insulă la echilibrul deriva-migrație-mutație, (2) un model de două populații izolate care s-au îndepărtat de o populație ancestrală comună la echilibrul mutație-derivare și (3) un model liniar. model de treaptă (fluxul de gene limitat la populațiile adiacente) la echilibrul deriva-migrație-mutație. Modelul insulei a fost compus din 10 populații, formate din 100 de indivizi fiecare, iar noi generații au fost obținute prin extragerea aleatorie a genelor din populația cu probabilitate 1 - m sau din celelalte populaţii cu probabilitate m. Modelul de populație izolată a fost compus din două populații de împerechere aleatorie, constând din 500 de indivizi fiecare și care au divergent pentru t generatii. Modelul de treaptă a fost compus din 30 de populații aliniate, formate din 50 de indivizi fiecare, iar noi generații au fost obținute prin extragerea aleatorie a genelor din populația cu probabilitate 1 - m sau din cele două populaţii adiacente cu probabilitate m.

—Controlul validității testului de permutare a mărimii alelelor atunci când este aplicat RSF (□) sau (δμ) 2 (▵) statistici calculate între două eșantioane dintr-o populație aflată la echilibru mutație-derire sub SMM. Procentul de loci cu ipoteza nulă respinsă (%RHo) este prezentat în funcție de criteriul ratei de eroare de tip I (α), iar linia întreruptă arată relația %RHo =α așteptată în cadrul ipotezei nule pentru o procedură de testare validă . Ipoteza nulă de interes este dacă rata de mutație este neglijabilă, având în vedere că procesul de mutație este în trepte (Tabelul 2, cazul 2). Rezultatele arată că procedura de permutare a mărimii alelelor aplicată pe (δμ) 2 nu este potrivită pentru a testa această ipoteză.

Parametrii genetici simulați au fost următorii: în stadiul inițial, toate populațiile au fost fixate pentru o alelă, 10 loci au fost simulați cu mutații după un SMM și μ= 10 -3 la toți loci fără constrângeri de dimensiune. Simulările au fost efectuate pentru un timp suficient pentru a atinge o stare de echilibru pentru parametrii de diversitate a genelor totale și în interiorul populației, apoi a fost extras și analizat un eșantion de indivizi reprezentativi pentru studiile experimentale comune. Pentru a obține estimări precise, s-au efectuat 200 de replici pentru fiecare set de condiții. Simulările au fost efectuate folosind software-ul EASYPOP ver. 1.7.4 (B alloux 2001). Teste de permutare a mărimii alelelor (cu 1000 de randomizări) și calcule ale FSF și RSF pe probele extrase s-au făcut cu programul SPAGeDi (Hardy și V ekemans 2002). Monolocus și multilocus FSF și RSF au fost estimate după W eir și Cockerham (1984) și, respectiv, M ichalakis și E xcoffier (1996). Trebuie remarcat faptul că aceasta RSF (un estimator al parametrului numit ρSF de Rousset 1996) diferă oarecum de definiția originală a lui S latkin (1995) (M ichalakis și E xcoffier 1996), dar este mai potrivită pentru comparație cu FSF estimator al lui W eir și Cockerham (1984) (numit θ de către acești autori) și pentru estimări ale parametrilor demografici (Rousset 1996). Ambele astea FSF și RSF estimatorii procedează printr-o ANOVA ierarhică standard în care varianța observată (σ 2 ) a identității alelei per locus și per alele (FSF), sau varianța mărimii alelei pe locus (RSF), este împărțit în trei componente (efecte aleatoare): între populații ( σ a 2 ), între indivizi din cadrul populației ( σ b 2 ) și între gene din cadrul individului din cadrul populației ( σ c 2 ). FSF și RSF sunt apoi estimate ca σ a 2 ∕ ( σ a 2 + σ b 2 + σ c 2 ) (locus unic RSF) sau Σ σ a 2 ∕ Σ ( σ a 2 + σ b 2 + σ c 2 ) , unde însumările se aplică tuturor locurilor (multilocus) RSF), toate alelele unui locus (locus unic FSF), sau toate alelele și locii (multilocus FSF E xcoffier 2001).

Pentru modelul insulei, simulările au fost efectuate pentru 5000 de generații, cu rate de migrație în rândul populațiilor variind de la 10 -4 la 10 -1 (adică., m = 0,1-100μ) conform curselor. Global RSF, FSF, și relatii cu publiculSF (pentru 1000 de randomizări) au fost calculate pe un eșantion total de 300 de indivizi (30 de indivizi din fiecare populație). Pentru modelul populațiilor izolate, o singură populație de 1000 de indivizi a fost simulată pentru 5000 de generații, apoi a fost împărțită în două subpopulații izolate de 500 de indivizi care au fost conduse pentru 30-10.000 de generații suplimentare (adică., 1/t = 0,1-33μ). RSF, FSF, și relatii cu publiculSF (pentru 1000 de randomizări) au fost calculate pe un eșantion total de 100 de indivizi (50 de indivizi din fiecare subpopulație). Pentru modelul de treaptă, au fost simulate 10.000 de generații cu o rată de migrare de 0,1 (0,05 între oricare două populații adiacente). Analizele au fost efectuate pe un eșantion de 20 de indivizi din fiecare dintre cele 30 de populații (dimensiunea totală a eșantionului de 600 de indivizi). Perechi FSF/(1 - FSF) și RSF/(1 - RSF) au fost calculate pentru fiecare pereche de populații, iar aceste valori au fost mediate pe toate perechile separate prin 1, 2, 3. 20 de trepte (20 de clase la distanță). Testele de permutare a mărimii alelelor au fost aplicate în medie pe perechi RSF/(1 - RSF) rapoarte pe clasă de distanță de furnizat relatii cu publiculSF/(1 - relatii cu publiculSF) valori pe clasă de distanță (1000 de permutări). Aici, perechi FSF/(1 - FSF) și RSF/(1 - RSF) au fost calculate deoarece teoria prezice o relație liniară aproximativă cu distanța liniară dintre populații în modele unidimensionale de izolare după distanță (Rousset 1997).

Validitatea unora dintre rezultatele simulării ar putea fi verificată prin compararea acestora cu așteptările teoretice. De exemplu, după 5000 de generații de simulare a unei singure populații de N = 1000 de indivizi (pentru modelul populației izolate), heterozigozitatea medie și varianța medie a mărimii alelei au fost egale cu He = 0,68 și V = 1,96, respectiv, cu un număr mediu de alele per locus de 5,8 (interval, 3-11 alele).Aceste valori sunt apropiate de așteptările lor la echilibrul mutație-derire (E stoup și C ornuet 1999): Sub SMM strict, He = 1 - (1 + 8)Nμ) -0,5 = 0,67 și V = 2Nμ= 2. În modelul insular cu 10 populații a câte 100 de indivizi fiecare (d = 10, N = 100), medie RSF valorile au fost egale cu 0,019, 0,197, 0,677 și 0,924 pentru m = 10 -1 , 10 -2 , 10 -3 și respectiv 10 -4 (Figura 2A), în acord cu valorile așteptate aproximativ egale cu 1/(1 + 4Nm d/(d - 1)) = 0,022, 0,184, 0,692, respectiv 0,957 (Rousset 1996). În modelul populațiilor izolate (N = 500), timpul de divergență t poate fi estimată din relație RSF/(1 - RSF) = t/2N (S latkin 1995 R ousset 1996), oferind estimări ale t = 97, 1132 și 11.301 pentru valorile reale de 100, 1000 și, respectiv, 10.000 de generații. În cele din urmă, în modelul liniar de trepte (N = 50, m = 0,1), perechi RSF/(1 - RSF) au crescut liniar cu distanța dintre populații (Figura 2C), dând o pantă de regresie egală cu 0,054, în acord cu valoarea estimată aproximativă 1/(4).Nm) = 0,050 pentru modelul liniar de trepte (Rousset 1997).

Rezultatele tuturor simulărilor confirmă această medie relatii cu publiculSF valori (adică., valoarea medie calculată după permutări aleatorii ale mărimii alelei) sunt foarte apropiate, deși nu exact egale, de FSF valori (Figura 2). De exemplu, în modelul insulei, media și abaterea standard a diferenței dintre FSF si rau relatii cu publiculSF valorile per locus au fost egale cu 0,003 ± 0,007, 0,008 ± 0,012 și 0,010 ± 0,110 pentru m = 10-2, 10-3, respectiv 10-4. Prin urmare, rău relatii cu publiculSF valorile au fost în medie ușor mai mici decât FSF deși, pentru un loc dat, diferența dintre cele două ar putea fi destul de substanțială, mai ales în cazul ratelor de migrație foarte scăzute. Pentru celelalte simulări, înseamnă relatii cu publiculSF valorile au fost în general puțin mai mari decât FSF (Figura 2, B și C). De asemenea, am observat că discrepanța dintre FSF si rau relatii cu publiculSF a fost mult mai mică pentru estimările multilocus decât pentru estimările cu un singur loc.

Cum era de așteptat, RSF valorile sunt similare cu FSF valori oricând m ⪢μ= 0,001 (model insular), 1/t ⪢μ (modelul populațiilor divergente), sau populațiile sunt apropiate (modelul de treaptă cu m ⪢μ). Dimpotriva, RSF devine considerabil mai mare decât FSF cand m ≤μ (model insular), 1/t ≤μ (modelul populațiilor divergente) sau când populațiile sunt separate prin mai mult de cinci trepte (modelul de treaptă Figura 2).

Pentru a evalua puterea testului de permutare a mărimii alelelor, prezentăm în Figura 2 (graficele din dreapta) procentul de teste semnificative statistic (%RHo) dintre 200 de replici de simulare (folosind α= 5%) conform (1) migrației rată m (modelul insulei), (2) timpul de divergență t în numărul de generații de la izolare (model izolat cu două populații) și (3) distanța d în număr de trepte între populaţii (model de trepte). Acest lucru se face pentru testele aplicate fiecărui loc, precum și pentru o estimare multilocus bazată pe 10 loci.

—Rezultatele de simulare pentru (1) un model de insulă cu rata de migrare m (A), (2) un model cu două populații izolat pentru t generațiile (B) și (3) un model liniar de trepte de 30 de populații (C). Graficele din stânga arată RSF (□), FSF (○) și medie relatii cu publiculSF (⋄) valori (estimări medii multilocus bazate pe 10 loci și 200 replici) conform m (A), t (B), sau numărul de pași care separă populațiile (C). În C, medie pe perechi RSF/(1 - RSF), FSF/(1 - FSF), și înseamnă relatii cu publiculSF/(1 - relatii cu publiculSF) sunt reprezentate rapoarte pentru toate perechile separate de un număr dat de pași. Graficele din dreapta ilustrează puterea testelor de permutare a mărimii alelelor, oferind procentele de teste semnificative (%RHo) pe RSF estimări [sau medie pe perechi RSF/(1 - RSF)] bazate pe un singur loc (×) sau 10 loci (▵) (adică, estimare multilocus) și luând în considerare un criteriu de rata de eroare de tip I α de 5% (linie punctată). Simbolurile (× și ▵) de pe axele orizontale ale graficelor A și B arată valorile la care erorile pătratice medii ale FSF și RSF sunt aproximativ egale.

În modelul insular, %RHo se apropie de α pentru rate de migrație relativ ridicate (adică., m = 10 -1 -10 -2 = 10-100μ), în conformitate cu noastre a priori așteptarea că nu ar trebui să detectăm un efect semnificativ când m ⪢μ (Figura 2A). Dimpotrivă, pentru rate mai mici de migrare, mutația nu mai este neglijabilă în comparație cu migrație și proporția de teste semnificative crește peste α, ajungând la 88 și 100% atunci când m = 10 -4 (m = 0,1 μ) pentru teste pe un singur loc sau, respectiv, 10 loci (Figura 2A). Testele bazate pe 10 loci par de fapt destul de puternice pentru dimensiunile eșantioanelor tipice întâlnite în studiile experimentale (300 de indivizi aici), deoarece 100% dintre teste au fost semnificative atunci când m =μ și deja 24% când m = 10μ. Rezultatele celor două modele de populație izolate sunt foarte asemănătoare cu cele ale modelului insular dacă m se inlocuieste cu 1/t (Figura 2B). Aici, totuși, testele par mai puțin puternice decât în ​​modelul insulei simulate (de exemplu., pentru 10 loci, %RHo > 50% când 1/t ≤μ în modelul populației izolate și m ≤ 0,3μ în modelul insulei), ceea ce se datorează probabil dimensiunii mai mici a eșantionului (100 vs. 300 de indivizi) și numărul mai mic de populații eșantionate (2 vs. 10). B alloux şi G oudet (2002) au arătat într-adevăr că varianţa a RSF crește substanțial cu mai puține populații eșantionate. În modelul de treaptă, %RHo crește odată cu distanța care separă populațiile, dar atinge un platou dincolo de opt trepte la ~60% pentru estimări bazate pe 10 loci și doar 20% pentru estimări cu un singur loc (Figura 2C). În mod surprinzător, %RHo este deja semnificativ mai mare decât α pentru populațiile separate doar de o treaptă și care fac schimb de migranți într-un ritm ridicat (m/2 = 0,05) raportat la rata de mutație (μ= 0,001).

Utilitatea testului pentru a determina cele mai potrivite statistici: Pentru a verifica dacă testul oferă un ghid adecvat pentru a alege RSF și FSF atunci când se evaluează diferențierea populației, erorile pătratice medii (MSE) de FSF și RSF au fost calculate. MSE este o măsură sintetică a eficienței unui estimator care combină părtinire și varianță (MSE = bias 2 + varianță). A fost deja folosit pentru a compara eficiența FSF și RSF estimatori (B alloux şi G oudet 2002) sau estimări ale fluxului de gene bazate pe FSF sau RSF (G aggiotti et al. 1999). MSE-urile au fost calculate ca Σ(i - e) 2 /n, Unde i este FSF sau RSF estimarea a ireplica, n este numărul de replici (n = 200), și e este valoarea aşteptată având în vedere parametrii demografici. Valoarea așteptată este e = 1/(1 + 4Nmd/(d - 1)) în cazul modelului insulă (cu N = 100 și d = 10), și e = t/(2N + t) în cazul modelului populației izolate (cu N = 500). Acestea sunt valorile așteptate pentru RSF sub SMM si pentru FSF sub IAM (sau KAM) și o rată scăzută a mutațiilor (S latkin 1995 Rousset 1996). Rețineți că e nu este de așteptat FSF în condițiile simulărilor (SMM și μ relativ mari), dar doar o bună aproximare când mutația poate fi neglijată.

Pentru modelul insular și μ= 0,001 (SMM), cu rata de migrare variind de la 0,0001 la 0,1, raportul MSE(RSF)/MSE(FSF) a variat, respectiv, de la 0,06 la 2,1 pentru estimările cu un singur loc și de la 0,02 la 2,3 pentru estimările multilocus bazate pe 10 loci. Rata de migrare la care MSE(RSF) = MSE(FSF) era între m = 0,001 și 0,002 pentru estimări cu un singur loc și între m = 0,003 și 0,005 pentru estimări multilocus. După cum se poate observa în Figura 2A, aceste limite ale ratei de migrare sub care RSF se comporta mai bine decat FSFși peste care are loc invers, se potrivesc îndeaproape cu rata de migrare sub care testul de permutare a mărimii alelei devine adesea semnificativ (adică., %RHo ≥ 30%). Același model se observă și pentru modelul populațiilor izolate: Pentru t variind de la 30 la 10.000 de generații, MSE(RSF)/MSE(FSF) a variat de la 2,37 la 0,41 și de la 4,00 la 0,01 pentru estimările cu un singur loc și, respectiv, multilocus și MSE(RSF) = MSE(FSF) pentru t = 2000 (adică, 2/μ) și t = 500 (adică., 0,5/μ) pentru estimări cu un singur loc și, respectiv, multilocus. Prin urmare, testul devine frecvent semnificativ atunci când MSE(RSF) este aproape de MSE(FSF) (Figura 2B).

Aceste rezultate sugerează cu tărie că testul de permutare a mărimii alelelor este bine potrivit pentru a determina care dintre ele FSF sau RSF este cel mai adecvat pentru inferențe ale parametrilor demografici, cel puțin pe baza celui mai scăzut criteriu MSE. Cu toate acestea, trebuie subliniat că statistica cu cel mai mic MSE nu este neapărat statistica care va furniza cel mai mic MSE în estimarea demografică, deoarece estimările demografice nu sunt de obicei funcții liniare ale FSF sau RSF. De exemplu, în modelul populației izolate, τ= t/N estimări care pot fi derivate folosind τF = 2FSF/(1 - FSF) și τR = 2RSF/(1 - RSF) dați MSE(τR) > MSE(τF) pentru tot timpul de divergență simulat cu estimări cu un singur loc [τF poate fi estimat și ca -ln(1 - FSF) (R eynolds et al. 1983), dar aceasta conduce în esență la aceleași rezultate]. Acest lucru se întâmplă pentru că oricând FSF sau RSF se apropie de 1, τ dedus ia rapid valori enorme, astfel încât impactul varianței mai mari a RSF relativ la FSF este mult amplificată în τ dedus, deși τR este mult mai puțin părtinitoare decât τF pentru τ≥ 1. Vestea bună este că pentru estimările multilocus am obținut MSE(τR) = MSE(τF) pentru t = 500 și MSE(τR) < MSE(τF) pentru t > 500, așa cum a fost găsit anterior pentru MSE(RSF) = MSE(FSF). În mod similar, pentru modelul insulă, unde Nm poate fi estimat ca NmF = (1/FSF - 1)/4 și NmR = (1/RSF - 1)/4, cel m valorile corespunzătoare MSE(NmF) = MSE(NmR) au fost exact egale cu acestea obținute pentru MSE(RSF) = MSE(FSF) atât pentru estimări cu un singur loc cât și pentru multilocus. Astfel, utilitatea testului de permutare a mărimii alelelor pentru a determina care dintre FSF sau RSF este cea mai adecvată în scopuri inferențiale pare a fi destul de generală, cu excepția, probabil, cu o dimensiune redusă a eșantionului și/sau un număr redus de loci, când inferențe sunt în orice caz îndoielnice, deoarece variațiile asociate sunt prea mari.

Exemple de aplicații: Pentru a ilustra utilitatea și puterea testului de permutare a mărimii alelelor cu date reale, prezentăm trei exemple de seturi de date publicate pe care le-am reanalizat. Aceste date au fost colectate pentru a evalua diferențierea populației și pentru a verifica izolarea prin distanță în trei organisme diferite. Am calculat global sau pe perechi FSF și RSF statistici așa cum este descris mai sus și a aplicat testele de permutare a mărimii alelelor pentru a obține relatii cu publiculSF valorile. Aceste analize au fost efectuate cu SPAGeDi.

Biomphalaria pfeiferi, un melc care se auto-a introdus recent în Madagascar: Biomphalaria pfeiferi, o gazdă intermediară a unui trematod parazit care provoacă bilharziaza intestinală, este un melc de apă dulce hermafrodit distribuit în cea mai mare parte a Africii, Orientul Mijlociu și Madagascar. Madagascarul a fost invadat relativ recent de acest melc, probabil ca urmare a ocupației umane cu câteva sute de ani în urmă (C harbonnel et al. 2002a). Mai mult decât atât, conform unui studiu la scară largă a variației microsateliților în Madagascar, testele de blocaj (C ornuet și L uikart 1996) și amestecuri (B ertolle și E xcoffier 1998) sugerează că au avut loc cel puțin trei introduceri independente din surse diferențiate genetic (C harbonnel). et al. 2002a). Un studiu la scară mică al variației microsateliților dezvăluie, de asemenea, că populațiile au experimentat blocaje recurente și că migrația a fost frecventă în bazinele hidrografice, dar rară în rândul acestora (C harbonnel et al. 2002b). Această dinamică a populației și rata mare de autoingezie experimentată de acest melc explică diferențierea genetică ridicată între populații observată în Madagascar: FSF = 0,80 și, respectiv, 0,58 pentru scări mari și, respectiv, mici (C harbonnel et al. 2002a,b).

În acest context particular, putem formula o ipoteză cu privire la conținutul de informații pe care l-ar putea suporta dimensiunile alelelor microsateliților. Având în vedere introducerile recente postulate ale acestui melc în Madagascar, ne așteptăm ca mutația să nu fi contribuit la diferențierea între populațiile care provin din aceeași introducere, ci să contribuie la diferențierea între populațiile provenite din diferite introduceri (cel puțin dacă populațiile sursă s-ar fi divergit în timp suficient). ). Locurile și momentul introducerii nu sunt cunoscute, dar populațiile dintr-un singur bazin hidrografic este probabil să provină dintr-o singură introducere sau, dacă genotipurile din diferite introduceri se amestecă într-un bazin hidrografic, migrația în bazinul hidrografic este probabil să fi împiedicat acumularea unui bazin hidrografic. model filogeografic la această scară. Prin urmare, ne putem aștepta RSF a fi aproape de FSF pentru populațiile aparținând aceluiași bazin hidrografic și semnificativ mai mari decât FSF pentru populațiile din diferite bazine hidrografice când acestea din urmă au fost colonizate inițial de indivizi proveniți din introduceri independente.

Diferențierea între populațiile de Biomphalaria pfeifferi la scări diferite

Pentru a testa această ipoteză, am reanalizat datele din studii la scară mică și la scară mare realizate de C harbonnel et al. (2002a,b). Global RSF și FSF valori precum și pe perechi RSF și FSF au fost calculate valorile între populații. Distingând perechile de populații în interiorul sau între bazine hidrografice, valorile perechi au fost regresate pe distanțe spațiale (testele Mantel au fost utilizate pentru a evalua semnificația pantelor de regresie), iar valorile medii pe perechi au fost calculate pentru un set de clase de distanță (definite în așa fel încât fiecare conținea aproximativ 33 de perechi de populații). O mie de permutări aleatorii ale dimensiunilor alelelor au oferit o distribuție a relatii cu publiculSF valori, intervale de încredere de 95% care acoperă valorile ordonate de la 25 la 975 și P testarea valorilor dacă RSF > relatii cu publiculSF.

Multilocus RSF valorile sunt semnificativ mai mari decât medii relatii cu publiculSF la scară largă, dar nu la scară locală (Tabelul 3). Aplicate fiecărui locus, aceste teste au fost, de asemenea, semnificative pentru patru din opt loci la scară largă, dar pentru niciunul la scară locală.

Analiza multilocusului mediu pe perechi FSF și RSF valorile pe clasă de distanță la scară largă arată următoarele (Figura 3):

Diferențierea dintre populațiile care ocupă același bazin hidrografic este mult mai mică decât cea dintre populațiile din bazine hidrografice diferite, chiar și pentru populații separate de aceeași distanță spațială. Acest lucru este în concordanță cu rata de migrație mai mare detectată în bazinele hidrografice decât printre acestea (C harbonnel 2002b).

Un model de izolare în funcție de distanță este detectat în cadrul bazinelor hidrografice pentru ambele FSF și RSF (Teste mantel: P = 0,007 și, respectiv, 0,021). Printre bazine hidrografice, un astfel de model nu este detectat pentru FSF dar este pentru RSF (Teste mantel: P = 0,18 și, respectiv, 0,002).

În cadrul bazinelor de apă, RSFnu sunt semnificativ mai mari decât relatii cu publiculSF’s, în timp ce printre bazine hidrografice, RSFsunt semnificativ mai mari decât relatii cu publiculSFeste pentru toate clasele la distanță, dar pentru prima.

Medie pe perechi relatii cu publiculSF valorile sunt întotdeauna ceva mai mici decât perechi FSF valorile, dar ele urmăresc îndeaproape modelul lor de variație cu distanța spațială.

În concluzie, la scară locală, RSF valorile sunt apropiate de FSF valorile și testele de permutare a mărimii alelelor nu dezvăluie nicio contribuție semnificativă a mutațiilor treptate la diferențierea populației. Dimpotrivă, la scară largă, RSF valorile sunt substanţial mai mari decât FSF valorile și testele de permutare a mărimii alelelor demonstrează că modificările dimensiunilor medii ale alelelor contribuie în mod semnificativ la diferențierea populației. Teste semnificative pe RSF valorile sunt așteptate dacă populațiile s-au divergent pentru o perioadă suficient de lungă și/sau dacă populațiile au schimbat migranți la o rată similară sau inferioară ratei de mutație. Rezultatele sunt astfel foarte în concordanță cu a priori așteptările dat fiind că (1) la scară largă, ambele condiții sunt probabil îndeplinite deoarece populațiile aflate la distanță unul de celălalt în Madagascar au provenit probabil din introduceri relativ recente și independente de la sursă populații continentale izolate pentru o lungă perioadă de timp, iar rata de migrație este scăzută printre bazine hidrografice și (2) la scară locală, în special în cadrul bazinelor hidrografice, nici una dintre aceste condiții nu este susceptibilă de a fi îndeplinită.

-Medie pe perechi FSF (○ și •), RSF (□ și ▪), și medie relatii cu publiculSF (⋄ și ♦) valori în rândul populațiilor de Biomphalaria pfeifferi pe tot Madagascarul pentru un set de clase de distanță, diferențiind comparațiile între populațiile din bazinele hidrografice (•, ▪, ♦) și dintre bazinele hidrografice (○, □, ⋄). Liniile punctate reprezintă intervalul de 95% ordonat central relatii cu publiculSF valori (adică, după randomizarea mărimii alelelor). Fiecare clasă la distanță conține 32-35 de perechi de populații.

Fraxinus excelsior, un arbore european răspândit: Fraxinus excelsior (Oleaceae, frasin comun) este o specie europeană răspândită de arbori polenizată de vânt, găsită mai ales în locații inundabile și cu o distribuție împrăștiată în pădurile naturale. Distribuția haplotipurilor de ADN cloroplastic (ADNcp) în toată Europa sugerează că F. excelsior a fost situat în cel puțin trei refugii diferite în timpul ultimei ere glaciare, un refugiu presupus fiind zona balcanică (G. G. V endramin , date nepublicate). H euertz et al. (2001) au analizat polimorfismul microsateliților la 10 populații bulgare (zona Balcanilor) din trei regiuni (321 de indivizi). Populațiile au fost separate cu 0,5-22 km în cadrul regiunilor și 120-300 km între regiuni.

În absența dovezilor de divergență pe termen lung între populațiile bulgare (nicio dovadă a unor refugii diferite) și având în vedere că fluxul de gene ar trebui să fie relativ extins la o specie polenizată de vânt, ne putem aștepta ca mutațiile în trepte să nu fi contribuit semnificativ la diferențierea populației în Bulgaria. Setul de date al lui H euertz et al. (2001) a fost astfel reanalizat pentru a compara media pe perechi FSF și RSF valori între populații, diferențierea perechilor în și între regiunile bulgare și testare RSF valori prin permutări ale mărimii alelelor (1000 de randomizări).

Estimările medii multilocus pe perechi au fost egale cu FSF = 0.074, RSF = 0,091 în cadrul regiunilor și FSF = 0.097, RSF = 0,180 între regiuni (Figura 4). Prin urmare, în timp ce diferențierea crește ușor de la scari geografice mici la mari, conform FSF, aproape se dublează în funcție de RSF. Mai mult, medie pe perechi RSF este mult mai mare decât FSF între regiuni, dar doar puțin mai mare decât FSF în cadrul regiunilor. În cadrul regiunilor, observat RSFsunt întotdeauna în intervalul de 95% din centrală relatii cu publiculSF, dar printre regiuni, multilocusul RSF estimarea precum și estimarea pentru locusul FEM19 este mai mare decât intervalul de 95%. relatii cu publiculSF (Figura 4), demonstrând că mutațiile asemănătoare trepte au contribuit la diferențierea populației la scară geografică mare pentru cel puțin un locus.

Mai multe cauze pot explica efectul semnificativ al mărimii alelelor asupra diferențierii populației între regiunile din Bulgaria, de exemplu:

Modelul poate reflecta izolarea prin distanță. Cu toate acestea, pare puțin probabil ca rata de migrație între regiuni să fie slabă în comparație cu rata de mutație, având în vedere că polenul este dispersat prin vânt.

Modelul se poate datora recolonizării postglaciare din diferite refugii. Nu există, totuși, nicio dovadă a unor refugii diferite din ADN-ul citoplasmatic moștenit matern, deoarece același haplotip unic apare în toate cele trei regiuni (M. H euertz, date nepublicate).

Modelul poate reflecta introducerea mediată de om a Fraxinus din regiuni îndepărtate.

Modelul poate reflecta hibridizarea care apare local între F. excelsior și o specie înrudită precum F. angustifolia sau F. pallisiae. Având în vedere că un total de patru specii de frasin (primele trei și F. ornus) se găsesc în Bulgaria și că în aceleași păduri apar specii diferite (M. H euertz , observație personală), această din urmă ipoteză merită o investigație suplimentară. În orice caz, observația că un efect semnificativ al mutațiilor în trepte este observat la scară mare, dar nu la o scară mică, rămâne foarte consistentă cu a priori așteptările, deoarece populațiile din apropiere ar trebui să facă schimb de gene la o rată relativ mare.

— Înseamnă pereche RSF, Rău relatii cu publiculSF, și FSF valori intre populatiile bulgare de Fraxinus excelsior pentru populațiile aparținând aceleiași regiuni (A) sau regiuni diferite (B). Sunt date valori pentru fiecare locus și estimările multilocus. Baruri de relatii cu publiculSF indicați media relatii cu publiculSF valori peste 1000 de permutări ale mărimii alelelor, iar intervalele corespunzătoare oferă intervalul de 95% relatii cu publiculSF valorile.

Centaurea corymbosa, o plantă rară și îngustă care locuiește pe stânci: Centaurea corymbosa (Asteraceae) este o specie de plante perene de scurtă durată, distribuită într-o zonă foarte îngustă (într-o zonă de 3 km 2 a unui masiv calcaros de-a lungul coastei mediteraneene franceze), unde apare în doar șase populații mici (Colas et al. 1997). S-a specializat într-un habitat extrem: vârful stâncilor de calcar, unde puține alte specii de plante supraviețuiesc. Pe un teren mai fertil, C. corymbosa este depășit, astfel încât habitatul potrivit este foarte fragmentat, apărând ca mici insule dispersate în peisaj. Având în vedere că specia ocupă doar o mică parte din aceste „insule” (întregul masiv se întinde pe 50 km 2 ), capacitatea de colonizare trebuie să fie foarte limitată, probabil ca o consecință a capacității limitate de răspândire a semințelor și a sistemului de auto-incompatibilitate care împiedică un potențial nou venit de la întemeierea unei noi populații pe cont propriu (Colas et al. 1997 F réville et al. 2001). Modele de izoenzime (C olas et al. 1997) și microsatelit (F réville et al. 2001) variația arată niveluri ridicate de diferențiere între populații, cu FSF = 0,35, respectiv 0,23, în ciuda intervalului îngust al speciei (2,3 km între cele mai îndepărtate două populații). Diferențierea ridicată la o scară atât de mică nu poate fi atribuită sistemului de împerechere, deoarece specia este auto-incompatibilă. Cel mai probabil, rezultă din dimensiunile mici ale populației și fluxul genetic scăzut în rândul populațiilor. Ar putea fi, de asemenea, o consecință a blocajelor mai mult sau mai puțin recurente atunci când se întemeiază noi populații (deși schimbarea de afaceri ar trebui să fie relativ lentă, având în vedere că nu a fost observată nicio extincție sau întemeiere a populației din 1994, când C. corymbosa populațiile au început să fie cercetate îndeaproape, iar datele din herbar arată că cinci din cele șase populații erau cunoscute cu 100 de ani în urmă).

În acest context, este interesant să ne întrebăm dacă fluxul de gene între populații este suficient de scăzut pentru a permite divergența prin mutații. Cu cât se observă mai sus FSF valoarea la loci alozimatici decât la loci microsateliți ar putea fi într-adevăr cauzată de ratele mari de mutație ale microsateliților, cu condiția ca μ≥ m. F réville et al. (2001) au subliniat că această ipoteză a fost susținută și de faptul că FSF valorile la cei doi loci microsateliți cei mai polimorfi (12B1 și 21D9, Tabelul 4), cei susceptibili de a avea cele mai mari rate de mutație, au fost mai mici decât cele pentru cei doi loci cu niveluri intermediare de polimorfism (13D10 și 28A7, Tabelul 4).

Procedura de randomizare a mărimii alelelor este adecvată pentru a aborda această întrebare. Prin urmare, global RSF, relatii cu publiculSF, și FSF au fost calculate pentru loci de microsateliți așa cum este descris mai sus și RSF a fost comparat cu distribuția de 1000 relatii cu publiculSF valorile. Testele de permutare nu au detectat niciuna RSF valoare semnificativ >relatii cu publiculSF (Tabelul 4). Acest lucru sugerează astfel că diferențierea este cauzată în principal de deriva și că fluxul de gene, m, și/sau reciproca timpului de divergență, 1/t, sunt mari în comparație cu rata de mutație, μ. Acest rezultat implică și faptul că FSF ar trebui să fie un estimator mai bun decât RSF de diferenţiere a populaţiei pentru această specie. De fapt, având în vedere dimensiunile mici ale populației (C olas et al. 1997, 2001), este de așteptat ca deriva să fie mare. De exemplu, dacă populațiile aveau dimensiuni efective de aproximativ 100 de indivizi (există de fapt multă variație între populații) și s-au conformat unui model de insulă (există de fapt unele efecte de izolare prin distanță), o valoare de m = 0,006 ar explica cele observate FSF, o valoare mai mare decât ratele tipice de mutație a microsateliților (10-3-10-4). Presupunând că aceste populații au fost stabilite pentru o perioadă suficient de lungă pentru a permite potențial diferențierea prin mutații (schimbarea mărimii alelelor), absența unei astfel de diferențieri determinate de mutații sugerează, de asemenea, că rata de migrare este mai mare decât rata mutației, astfel încât noua mutație variante răspândite pe toate populaţiile.

Diferențierea între populațiile de Centaurea corymbosa, estimat la nivel global RSF, Rău relatii cu publiculSF, și FSF valori pe locus și pentru o medie multilocus

Testele nesemnificative ar putea fi, de asemenea, din cauza lipsei de putere, astfel încât testul ar trebui aplicat unor loci microsateliți suplimentari pentru a confirma aceste rezultate (în prezent, doar patru din șase loci au avut un număr suficient de alele pentru a efectua teste de permutare). Abaterea de la un SMM la anumite locații ar putea reduce, de asemenea, puterea testului. De exemplu, locusul dinucleotidic 28A7 are șase alele cu dimensiuni după o secvență de o etapă de repetare plus o alele cu cel puțin șase repetări mai mici decât celelalte. Deși acest model nu este neapărat incompatibil cu un SMM pur (de exemplu., D onnelly 1999), ar putea sugera că o mutație cu efect mare a creat alela outsider.


Materiale și metode

Studiu de simulare

Generarea de genotipuri individuale:

Am generat mai întâi genotipuri individuale folosind ms (Hudson 2002), presupunând un model insular al structurii populației (Wright 1931). Pentru fiecare scenariu simulat, am luat în considerare opt deme, fiecare format din indivizi haploizi. Rata migrației (m) a fost fixată pentru a atinge valoarea dorită de (0,05 sau 0,2), utilizând ecuația 6 din Rousset (1996) conducând la, de exemplu., pentru și pentru Rata de mutație a fost stabilită la dând Am luat în considerare dimensiunile eșantionului fie fixe, fie variabile între deme. În acest din urmă caz, dimensiunea eșantionului haploid n a fost extras independent pentru fiecare dem dintr-o distribuție gaussiană cu medie 100 și SD 30, acest număr a fost rotunjit la cel mai apropiat număr întreg, cu un minim de 20 și maxim de 300 de haploizi per dem. Am generat un număr foarte mare de secvențe pentru fiecare scenariu și am prelevat polimorfisme de nucleotidă unică (SNP) independente din secvențe cu un singur sit de segregare. Fiecare scenariu a fost replicat de 50 de ori (500 de ori pentru Figura 3 și Figura S2).

Secvențierea piscinei:

Pentru fiecare set de date simulate ms, am generat date Pool-seq prin extragerea citirilor dintr-o distribuție binomială (Gautier et al. 2013). Mai precis, presupunem că pentru fiecare SNP, numărul de citiri de tip alelic k in piscina i urmează: (14) unde este numărul de gene de tip k în ith pool, este numărul total de gene din pool i (dimensiunea bazinului haploid) și este acoperirea totală simulată pentru bazin i. În cele ce urmează, fie luăm în considerare o acoperire fixă, cu pentru toate piscinele și locațiile, fie o acoperire variabilă între piscine și locații, cu

Eroare de secvențiere:

Am simulat erori de secvențiere care apar la o rată tipică pentru secvențierele Illumina (Glenn 2011 Ross et al. 2013). Am presupus că fiecare eroare de secvențiere modifică tipul alelic al unei citiri la una dintre alte trei stări posibile cu probabilitate egală (există, prin urmare, patru tipuri alelice în total, care corespund la patru nucleotide). Rețineți că numai markerii bialelici sunt păstrați în seturile de date finale. De asemenea, rețineți că, deoarece am inițiat această procedură numai cu markeri polimorfi, neglijăm erorile de secvențiere care ar crea SNP false din site-uri monomorfe. Cu toate acestea, astfel de SNP-uri ar trebui să fie rare în seturile de date reale, deoarece markerii cu un număr minim de citire (MRC) scăzut sunt în general filtrați.

Eroare experimentală:

Cantitățile neechimolare de ADN de la toți indivizii dintr-un grup și variația stocastică a eficienței de amplificare a ADN-urilor individuale sunt surse de erori experimentale în Pool-seq. Pentru a simula erorile experimentale, am folosit modelul derivat de Gautier et al. (2013). În acest model, se presupune că contribuția fiecărei gene j la acoperirea totală a ial-lea pool urmează o distribuție Dirichlet: (15) unde parametrul ρ controlează dispersia contribuțiilor genelor în jurul valorii care este așteptată dacă toate genele au contribuit în mod egal la grupul de citiri. Pentru comoditate, definim eroarea experimentală ϵ ca coeficient de variaţie al adică, (vezi Gautier et al. 2013). Cand ϵ tinde spre 0 (sau echivalent, când ρ tinde spre infinit), toți indivizii contribuie în mod egal la fond și nu există nicio eroare experimentală. Am testat robustețea estimărilor noastre la valori de ϵ între 0,05 și 0,5. Cazul ar putea corespunde, de exemplu, unei situații în care (pentru ) cinci persoane contribuie cu mai multe citiri decât celelalte cinci persoane.

Alți estimatori

Din motive de claritate, un rezumat al notației estimatorilor utilizați în acest articol este prezentat în Tabelul 2.

Acest estimator de este implementat implicit în pachetul software PoPoolation2 (Kofler et al. 2011). Se bazează pe o definiție a parametrului ca reducerea globală a heterozigozității medii în raport cu populația totală combinată (vezi, de exemplu., Nei și Chesser 1983): (16) unde este heterozigozitatea medie în cadrul subpopulațiilor și este heterozigozitatea medie în populația totală (obținută prin reunirea tuturor subpopulațiilor pentru a forma o singură unitate virtuală). În PoPoolation2, este media neponderată a heterozigozităților din cadrul subpopulației: (17) (folosind notația din Tabelul 1). Rețineți că în PoPoolation2, este limitat doar la cazul a două subpopulații ( ). Cele două rapoarte din partea dreaptă a ecuației 17 sunt probabil împrumutate de la Nei (1978) pentru a oferi o estimare imparțială, deși nu am găsit nicio justificare formală pentru expresia din ecuația 17 pentru datele Pool-seq. Heterozgozitatea totală este calculată astfel (folosind notația din tabelul 1):

Acesta este estimatorul alternativ oferit în pachetul software PoPoolation2. Se bazează pe o interpretare a lui Kofler et al. (2011) a lui Karlsson et al.estimatorul lui (2007) al lui , ca: (19) unde și sunt frecvențele perechilor identice de citiri în și, respectiv, între grupuri, calculate prin simpla numărare a perechilor IIS. Acestea sunt estimări ale probabilității IIS pentru două citiri din același grup (indiferent dacă sunt secvențiate din aceeași genă sau nu) și probabilitatea IIS pentru două citiri în grupuri diferite. Rețineți că probabilitatea IIS este diferită de cea din ecuația 1, care, din definiția noastră, reprezintă probabilitatea IIS între gene distincte din același pool. Prin urmare, această abordare confundă perechi de citiri în grupuri care sunt identice, deoarece au fost secvențiate dintr-o singură genă din perechi de citiri care sunt identice, deoarece au fost secvențiate din gene distincte, dar IIS.

FRP13:

Acest estimator a fost dezvoltat de Ferretti et al. (2013) (a se vedea ecuațiile lor 3, 10, 11, 12 și 13). Ferretti et al. (2013) folosesc aceeași definiție ca în ecuația 16 de mai sus, deși ei estimează heterozigoziile în interiorul și între grupuri ca „diversități medii de nucleotide pe perechi”, care, din definițiile lor, sunt echivalente formal cu probabilitățile IIS. În special, ei estimează heterozigozitatea medie în cadrul grupurilor ca (folosind notația din tabelul 1): (20) și heterozigositatea totală în rândul populațiilor ca:

Analizele datelor Ind-seq

Pentru compararea seturilor de date Ind-seq și Pool-seq, am calculat pe subeșantioane de 5000 de loci. Aceste subprobele au fost definite astfel încât au fost reținute numai acele loci care au fost polimorfe în toate condițiile de acoperire și aceiași loci au fost utilizați pentru analiza datelor Ind-seq corespunzătoare. Pentru aceasta din urmă, am folosit fie estimatorul lui Nei și Chesser (1983) bazat pe raportul heterozigozității (vezi Ecuația 16 de mai sus), notat în continuare prin, fie estimatorul de analiză a varianței dezvoltat de Weir și Cockerham (1984), notat în continuare. de

Toți estimatorii au fost calculați folosind funcții personalizate în mediul software R pentru calcul statistic, versiunea 3.3.1 (R Core Team 2017). Toate aceste funcții au fost verificate cu atenție față de pachetele software disponibile pentru a se asigura că au furnizat estimări strict identice.

Exemplu de aplicare: C. asper

Dennenmoser et al. (2017) au investigat baza genomică a adaptării la condițiile osmotice la scobiul înțepător (C. asper), un pește eurihalin abundent în nord-vestul Americii de Nord. Pentru a face acest lucru, au secvențiat întregul genom al bazinelor de indivizi din două populații estuariene (Estuarul râului Capilano, estuarul râului CR Fraser, FE) și două populații de apă dulce (Lacul Pitt, Lacul PI Hatzic, HZ) din sudul Columbia Britanică (Canada) . Am descărcat cele patru fișiere BAM corespunzătoare din Dryad Digital Repository (http://dx.doi.org/10.5061/dryad.2qg01) și le-am combinat într-un singur fișier miileup folosind SAMtools versiunea 0.1.19 (Li et al. 2009) cu opțiuni implicite, cu excepția adâncimii maxime pe BAM care a fost setată la 5000 de citiri. Fișierul rezultat a fost procesat în continuare utilizând un script awk personalizat pentru a apela SNP-urile și a calcula numărătoarea de citiri, după ce s-a eliminat bazele cu un scor de calitate a alinierei de bază (BAQ) <25. O poziție a fost considerată apoi un SNP dacă: (1) s-au observat doar două nucleotide diferite cu un număr de citire >1 (nucleotide cu citire fiind considerate ca o eroare de secvențiere) (2) acoperirea a fost între 10 și 300 în fiecare dintre cele patru alinieri fișierele (3) frecvența alelelor minore, calculată din numărările de citire, a fost în cele patru populații. Setul de date final a constat din 608.879 SNP.

Scopul nostru aici a fost să comparăm structura populației dedusă din estimările pe perechi ale utilizării estimatorului (Ecuația 12) cu cea a PP2d. Pentru a determina care dintre cei doi estimatori are performanțe mai bune, am comparat apoi structura populației dedusă din și cu cea dedusă din modelul ierarhic bayesian implementat în pachetul software BayPass (Gautier 2015). BayPass permite estimarea robustă a matricei de covarianță scalată a frecvențelor alelelor între populații pentru datele Pool-seq, despre care se știe că este informativă despre istoria populației (Pickrell și Pritchard 2012). Elementele matricei estimate pot fi interpretate ca estimări de diferențiere perechi și specifice populației (Coop et al. 2010) și, prin urmare, oferă o descriere cuprinzătoare a structurii populației care utilizează pe deplin datele disponibile.

Disponibilitatea datelor

Un pachet R numit poolfstat, care implementează estimări pentru datele Pool-seq, este disponibil la Comprehensive R Archive Network (CRAN): https://cran.r-project.org/web/packages/poolfstat/index.html.

Autorii afirmă că toate datele necesare pentru confirmarea concluziilor prezentate în acest articol sunt pe deplin reprezentate în articol, figuri și tabele. Material suplimentar (inclusiv figurile S1–S4, tabelele S1–S3 și o derivație completă a modelului din fișierul S1) disponibil la Figshare: https://doi.org/10.25386/genetics.6856781.


3. Materiale și metode

(i) Colectarea semințelor și protocolul de germinare

În vara anului 2004, am colectat fructe de la plante a nouă populații de-a lungul coastelor tunisiene (Tabelul 1). Mărimea acestor populații variază de la aproape 60 de indivizi la mult mai mult de 500 de plante individuale. Zece semințe per familie au fost semănate într-un vas Petri pe hârtie de filtru umezită. Germinarea a fost efectuată în condiții de laborator (în întuneric la 20-25°C). Patru zile mai târziu, patru răsaduri aleși la întâmplare per familie au fost plantați în ghivece separate și randomizați într-o seră neîncălzită. Zece familii per populație (adică 40 de puieți per populație) au fost cultivate în condiții de mediu uniforme și utilizate pentru studiul genetic cantitativ. Din fiecare grup de 40 de puieți, 30 au fost utilizați pentru analiza alozimelor.

Tabelul 1. Cakile maritima Populațiile tunisiene. Regiunea lor climatică și codul lor alfanumeric

(ii) Flotabilitatea și viabilitatea semințelor

Caracteristicile de flotabilitate (capacitatea de plutire) indică potențialul speciilor de a fi dispersate de apă. Este dat ca proporție de semințe care plutesc după o perioadă de timp definită. În acest scop, 100 de semințe de C. maritima au fost introduse într-o sticlă închisă care conținea 500 ml apă de mare în octombrie 2005. Numărul de semințe care s-au scufundat a fost înregistrat în timp. În februarie 2006, zece dintre semințele plutitoare au fost semănate pe nisip filtrat și irigate cu apă de la robinet pentru a le testa viabilitatea.

(iii) Măsurători morfologice

Două seturi de trăsături morfologice au fost considerate trăsături discriminatoare între populații: trăsături vegetative (morfotipul frunzei (forma frunzei (LFF)) și lungimea frunzei (LFL)) și trăsăturile reproductive (răsărirea florii (FED), lungimea petalei (PTLT), lățimea petalelor. (PTW), culoarea petalelor (PTC), lungimea pistilului (PSL), tipul fructului (FRT), mărimea fructelor (lungimea segmentului superior (LUP) și lungimea segmentului inferior (LLW) și numărul semințelor (SN)). Caracteristicile frunzelor au fost clasificate de la 1 la 10, 1 fiind frunzele cu marginile întregi, 10 fiind frunzele cu marginile cele mai profund pinnatificate, iar intermediarii clasificate prin gradații între aceste extreme (Fig. 1).Frunzele selectate pentru determinarea morfotipului au fost, de asemenea, utilizate pentru Mărimea fructelor a fost măsurată separat pentru segmentele superioare și inferioare și a fost clasificată în trei modali discriminate: fără coarne, intermediar și cu coarne cuantificate ca o serie de 0, 1 și, respectiv, 2 (Fig. 2).Lungimea frunzei, lungimea petalei și lățimea, lungimea pistilului iar mărimea fructelor au fost măsurate cu un șubler electronic. Măsurătorile de culoare și mărime au fost efectuate pe o petală aleasă întâmplător de la fiecare individ.

Fig. 1. Morfotipurile frunzelor în Cakile aranjate ca o secvență standard, 1–10, pentru evaluarea pe teren a variației frunzelor.

Fig. 2. Siliculas modal de Cakile (0: fruct fără coarne 1: fruct intermediar 2: fruct cu coarne).

(iv) Analiza datelor

O analiză imbricată a varianței (ANOVA) incluzând populația și familia (imbricate în cadrul populației) ca efecte aleatoare a fost efectuată pentru fiecare trăsătură cantitativă. Nivelul de diferențiere a populației în trăsăturile cantitative a fost măsurat cu Qst (Spitze, Reference Spitze 1993), care este analog cu Fst măsurat folosind loci marker alozimatic. Pentru a estima Qst, δb 2 se obține direct din varianța populației δp 2, adică (δb 2 =δp 2), în timp ce varianța familiei δf 2 trebuie convertit în δw 2 prin înmulțire cu un coeficient (c) care depinde de relația dintre indivizi în cadrul familiilor (δw 2 =cδf 2). Pentru frații jumătate, frații întregi și indivizii clonați, c este 4, 2 și 1 (sub ipoteza lipsei de dominanță și, respectiv, epistasis). Când populațiile sunt în dezechilibru Hardy-Weinberg (Fis≠0), nivelul de diferențiere în trăsăturile cantitative poate fi exprimat astfel: (Yang et al., Reference Yang, Yeh and Yanchukt 1996) unde Qst are expresia (Spitze, Reference Spitze 1993) și altele (Lande, Reference Lande 1992 Latta, Reference Latta 2004).

V W este estimat a fi de patru ori mai mare decât componenta de varianță între familii V fam în ipoteza că efectele materne au fost slabe și că în familiile cu polenizare deschisă erau rude ca frați jumătate (Yang et al., Referință Yang, Yeh și Yanchukt 1996), în timp ce V B este pur și simplu componenta varianței între populație. Valorile aproximative ale erorii standard (SE) ale Qst au fost obținute prin tehnica „delta” (Stuart & Ord, Reference Stuart and Ord 1987). Această metodă, utilizată de Podolsky & Holtsford (Reference Podolsky and Holtsford 1995), oferă estimări SE fiabile ale componentelor varianței genetice pentru stabilirea limitelor de încredere (CL) la parametrii genetici (Hohls, Reference Hohls 1996).

(v) Experimentul cu alozime

Pentru analiza alozimelor, a fost utilizat un studiu de electroforeză pentru a estima variabilitatea genetică în interiorul și între ele C. maritima populatiilor. Aproximativ 200 mg țesut de frunze au fost colectate de la fiecare plantă (în vârstă de 1 lună), măcinate sub azot lichid și amestecate cu 100 μl de tampon de extracție (tampon de măcinare PVP-fosfat de potasiu, pH 7), așa cum este descris de Thrall et al. (Referință Thrall, Andrew și Burdon 2000) și au fost centrifugate la 19 000 g timp de 20 min. Materialul măcinat a fost absorbit pe fitiluri de hârtie de filtru Whatman 3MM și depozitat într-un congelator ultra-rece (-70 ° C) până la analiză. Electroforeza orizontală amidon-gel a fost efectuată pentru șapte sisteme enzimatice care dezvăluie un minim de 13 loci: peroxidază (Px EC 1.11.1.7), izocitrat dehidrogenază (IDH EC 1.1.1.42), glutamat oxaloacetat transaminaza (GOT EC 2.6.1.1.1), dehidrogenază de izocitrat (SDH EC 1.1.1.25), leucină aminopeptidază (LAP EC 3.4.11.1), 6-fosfogluconat dehidrogenază (6-PGD EC 1.1.1.44) și malat dehidrogenază (MDH EC 1.1.1.37). Compozițiile de gel și electrozi tampon au fost descrise în Soltis et al. (Referință Soltis, Haufler, Darrow și Gastony 1983) și metodele utilizate pentru colorarea benzilor de alozime au fost descrise în Michaud et al. (Referință Michaud, Lumaret și Romane 1992) pentru Px și în Cardy et al. (Referire Cardy, Stuber și Goodman 1980) pentru IDH, GOT, LAP, SDH, 6-PGD și MDH. Pentru acidul fosfatază (ACPH EC 3.1.3.2), gelurile de poliacrilamidă cu zone verticale au fost preparate după Laemmli (Reference Laemmli 1970) și au fost colorate conform Selander et al. (Referință Selander, Smith, Yang, Johnson și Gentry 1971). Locii au fost numerotați secvențial, cu cel mai anodal locus migrator desemnat drept locus 1. Interpretarea genetică pentru toți loci a fost simplă.

(vi) Analiza datelor

La fiecare dintre cei 13 loci studiati in C. maritima, frecvențele genotipice și alelice au fost evaluate dintr-un studiu al fenogramelor de gel. Trei coeficienți, care măsoară variația genetică, au fost calculați folosind BIOSYS-1: (i) procentul de loci polimorfi (P) folosind criteriul 0,95 (un locus este considerat polimorf dacă alela cea mai comună are o frecvență mai mică de 95% în toate populațiile analizate) (ii) numărul mediu de alele per locus (A) și (iii) heterozigositatea așteptată (He) în echilibrul Hardy-Weinberg (Nei, Reference Nei 1978). Acești trei coeficienți au fost estimați pentru fiecare dintre populațiile eșantionate. Media și abaterea standard a coeficienților menționați anterior au fost apoi calculate pentru toate populațiile eșantionate. Structura genetică în interiorul și între populații a fost, de asemenea, evaluată folosind Wright (Reference Wright 1965) F-statistici Fit, Fis si Fst. Frecvența heterozigoților pentru fiecare locus polimorf din fiecare populație a fost testată pentru abaterea semnificativă de la așteptările Hardy-Weinberg cu o analiză χ 2 (Li & amp Horvitz, Reference Li și Horvitz 1953) (BIOSYS-1). Estimarea Nm (numărul de migranți pe generație) sa bazat pe Fst (Wright, Reference Wright 1951) (Genetix 4.02). Pentru a testa dacă diferențele genetice ale populațiilor au urmat modelul de izolare prin distanță, am stabilit relația dintre valorile diferenței genetice Fst dintre perechile de populații și distanța lor geografică folosind testul Mantel (Genetix 4.02). Pentru a examina distanța genetică și distanța geografică, au fost efectuate analizele de clustering UPGMA (BIOSYS-1).

(vii) Corelația matricei

Asocierea dintre matricele morfologice, genetice, viteza curentului marin și distanța geografică a fost examinată cu testul Mantel (1967). Testul Mantel folosește permutări aleatorii ale rândurilor și coloanelor matricei pentru a testa dacă corelațiile dintre matricele de distanță sunt mai mari decât cele așteptate din întâmplare (Sokal și Rohlf, Reference Sokal și Rohlf 1995). Am comparat matricele de distanță genetică și morfologică între ele cu matricele geografice individual și apoi am comparat Nm estimat de la Fst și Qst cu viteza curentului marin. Populația în perechi a vitezei curentului marin a fost măsurată utilizând deriva navei. Măsurarea în derivă a navei a vitezei curentului de suprafață constă în diferența vectorială dintre viteza unei nave determinată din două poziții fixe și viteza medie estimată a navei prin apă în același interval de timp, de obicei 12-24 ore. Diferența vectorială este considerată a fi datorată unui curent de suprafață. Absența conexiunii a fost marcată ca 0.

(viii) Teste de atribuire

Pentru a testa dacă curenții marini, așa cum este descris în Fig. 5, conduc direcția fluxului de gene, va fi interesant să folosiți testele de atribuire. Aceste metode sunt instrumente puternice pentru a detecta evenimentele recente de imigrare chiar și atunci când diferențierea generală a populației este scăzută (Rannala & amp Mountain, Reference Rannala și Mountain 1997 Waser & Strobeck, Reference Waser și Strobeck 1998 Castric & amp Bernatchez, Reference Castric și Bernatchez 2004). De fapt, testele de atribuire sunt deosebit de utile pentru a urmări dinamica contemporană a populațiilor naturale fără a necesita ipoteze de echilibru bazate pe procese genetice pe termen lung (Manel et al., Referință Manel, Gaggiotti și Waples 2005). Deoarece modelul de clasificare greșită a indivizilor dintr-o populație poate fi utilizat pentru a determina direcția migrației, testele de atribuire ar putea fi o metodă utilă pentru a examina influența curenților marini asupra fluxului de gene. Probabilitatea ca un individ eșantionat într-o anumită populație să fie un migrant care provine dintr-o altă populație a fost determinată folosind o metodă bayesiană (software Geneclass2) (Piry et al., Referință Piry, Alapetite, Cornuet, Paetkau, Baudouin și Estoup 2004).


Discuţie

Abordările de grupare permit împărțirea unui eșantion de indivizi în grupuri distincte genetic fără un a priori definirea acestor grupuri. Majoritatea progreselor recente în metodologia de clustering au fost realizate folosind modele statistice bayesiene [3, 20, 5, 21, 22]. Metodele bayesiene atribuie indivizii la grupuri pe baza genotipurilor lor și a presupunerii că markerii sunt în Hardy-Weinberg și echilibrul de legătură în cadrul fiecărei subpopulații.

În acest studiu, a fost folosită o nouă metodă pentru a deduce structura ascunsă într-o populație, bazată pe maximizarea distanței genetice și fără a face nicio presupunere asupra HWE și LE, și arătăm că oferă o performanță bună în diferite scenarii simulate și cu un set de date real. Prin urmare, ar putea fi un instrument util pentru a determina grupuri omogene genetic, mai ales în acele situații în care numărul de clustere este mare, cu structură complexă a populației și în care sunt prezente HWD și/sau LD.

Rezultatele simulării indică faptul că metoda BAPS este cea mai puțin precisă, deoarece avea nevoie de un număr mare de markeri genotipați pentru a ajunge la partiția corectă, mai ales când populația a atins echilibrul mutație-migrație-derivare. Pentru scenariile originale/de bază, performanțele MGD și STRUCTURA au fost similare (bune) indiferent de parametrul de comparație, deși noua metodă a prezentat un ușor avantaj (vezi Tabelul 3 și Figura 2).

Am arătat că abaterile de la ipotezele implicite din metodele bayesiene cu privire la echilibrul Hardy-Weinberg și legăturile în cadrul populațiilor afectează acuratețea acestora, în special pentru BAPS, conducând la un număr supraestimat de clustere și o proporție redusă de grupări corecte. Aceste observații sunt în acord cu Kaeuffer et al. [35] care au arătat că o valoare mare a coeficientului de corelație LD crește probabilitatea de a detecta clustering fals cu STRUCTURE. Randomizarea alelelor (și, de asemenea, randomizarea genotipurilor și haplotipurilor într-o oarecare măsură) restabilește atât HWE, cât și LE. În aceste situații, cele două metode evaluează corect numărul de clustere și dau o proporție crescută de grupări corecte. Dimpotrivă, MGD este mai precis în situații de dezechilibru și performanța sa nu se modifică semnificativ după randomizare, demonstrând independența metodei noi față de existența sau nu a HWE și LE. Din rezultatele prezentate aici, o alternativă pentru a testa acuratețea rezultatelor din orice metodă de grupare ar fi compararea rezultatelor obținute după randomizarea informațiilor moleculare în cadrul fiecărei subpopulații predefinite atunci când aceste informații sunt disponibile.

Precizia tuturor celor trei metode este excelentă pentru F SFpână la 0,03. Acest lucru este în acord cu rezultatele Latch et al. [10], care au demonstrat că STRUCTURE și BAPS discernează extrem de bine substructura populației la F SF= 0,02 - 0,03. Cu toate acestea, în simulările noastre, numai STRUCTURA determină numărul corect de clustere la F SF= 0,01. Cu toate acestea, există o controversă cu privire la nivelul minim de diferențiere necesar pentru ca o populație să fie considerată ca fiind structurată genetic. Waples și Gaggiotti [36] au sugerat că dacă F SFeste prea redus (de exemplu. F SF= 0,01), atunci probabil că nu poate fi asociat cu dovezi semnificative statistic pentru abaterile de la panmixie. În aceste situații, nu este clar dacă soluția cea mai potrivită pentru MGD (și, de asemenea, celelalte metodologii de grupare) este separarea diferitelor subpopulații sau menținerea subpopulațiilor ca populație nediferențiată.

Scenariile simulate ținând cont de ratele diferite de autoechipare au indicat atât o creștere a diferențierii între subpopulații (adică superior F SFvalori) și o creștere a dezechilibrului Hardy-Weinberg (F ESTEtrece de la 0,01 la 0,81). Cu toate acestea, creșterea în F SFvalorile (de la 0,27 la 0,42) nu sunt la fel de mari ca cele ale F ESTEvalori care indică faptul că dezechilibrul Hardy-Weinberg nu poate fi mascat de efectul nivelului de diferențiere. În plus, creșterea în F SFvalorile ar trebui să ajute la distingerea diferitelor clustere și, prin urmare, HWD ar trebui să atingă cel puțin limita inferioară a efectului său.

Rezultatele noastre obținute cu metoda MGD din setul de date umane sunt, în general, similare cu cele obținute cu STRUCTURE [34] și, de asemenea, în concordanță cu un studiu mai recent al 525910 SNP [37], deși există unele discrepanțe cu rezultatele de Li et al. [38] folosind 650000 SNP. Rosemberg et al. [34] au indicat soluții multiple de grupare pentru K = 7 cu STRUCTURA. Cu toate acestea, rezultatele obținute cu MGD pentru K = 7 sunt în total acord cu cele șapte regiuni geografice. O inspecție atentă a rezultatelor detectează grupuri în care indivizii grupați au surse multiple de ascendență, în special cei din Orientul Mijlociu și Asia Central-Sud. Această situație (adică ascendența mixtă estimată) s-ar putea datora fie unei amestecări recente, fie unei ascendențe comune înainte de divergența a două populații, dar fără un flux de gene ulterioare între ele. S-a indicat că variația genetică umană globală este foarte influențată de geografie [39–41]. În plus, Serre și Pääbo [42] au indicat că clusterele obținute de Rosenberg et al. [34] au fost generate de eșantionarea eterogenă și că acestea ar dispărea dacă ar fi analizate mai multe populații.

În acest studiu, a fost luat în considerare un model de insulă simplu cu dimensiuni constante ale populației și migrație simetrică invariantă, ceea ce este puțin probabil în sistemele naturale. Performanța STRUCTURĂ a fost evaluată recent [23] prin simularea diferitelor scenarii de dispersie și pare să funcționeze bine cu structuri de populație mai complexe decât modelul insulei finite (modelul insulei ierarhice, modelul zonei de contact). În acest studiu, performanța metodei MGD a fost mai bună decât cea a abordărilor bayesiene în scenariile simulate cu un număr mai mare de clustere și o structură a populației mai complexă. Cu toate acestea, sunt necesare investigații suplimentare pentru a determina capacitatea metodei MGD de a face față altor tipuri de structură a populației.

Timpul de calcul poate fi o limitare a noii metode, mai ales atunci când aveți de-a face cu cantități mari de markeri.Cu toate acestea, trebuie remarcat faptul că analiza grupării nu este efectuată foarte des și rezultatele nu sunt de obicei necesare urgent. Prin urmare, poate merita să așteptați rezultatele obținute cu cea mai precisă metodă.

Dacă distanța genetică calculată din coancestry molecular a fost evaluată ca alternativă, atunci utilizarea altor distanțe genetice publicate anterior în literatură [24] ar putea fi investigată ca parametru de maximizare atât pentru markerii moleculari codominanți, cât și pentru cei dominanti. Mai mult, distanța minimă Nei [25] ar putea fi inadecvată atunci când se lucrează cu diverși markeri, de exemplu atunci când se amestecă datele obținute cu markeri cu diferite niveluri de heterozigoză (de exemplu. amestecarea datelor microsateliților și SNP). În plus, ar putea fi implementată și o procedură de ponderare [43, 44] luând în considerare dimensiunea subpopulației, numărul de loci sau numărul de alele. Cu toate acestea, natura noii metode (adică maximizarea distanței genetice) permite utilizarea oricărei măsuri care s-ar putea potrivi mai bine cu datele moleculare disponibile, dincolo de distanța Nei.

Informativitatea markerilor are un efect clar asupra eficienței metodelor de clustering, în special pentru BAPS. Creșterea numărului de markeri (scenariul 1 vs. 2, 3 vs. 4, 5 vs. 6 și 7 vs. 8) dă aproape întotdeauna rezultate mai bune: numărul corect de clustere este estimat în mai multe cazuri, iar procentul de grupări corecte este superior. În paralel, când se compară un număr similar de markeri, dar cu grade diferite de polimorfism (scenariul 2 vs. 5, microsateliți vs. SNP), markerii bialelici au performanțe mai slabe. Cu toate acestea, atunci când se utilizează un număr rezonabil de markeri (50 de microsateliți și 300 SNP), MGD și STRUCTURE, cel puțin, oferă o precizie ridicată. Cu toate acestea, la compararea rezultatelor obținute cu STRUCTURE, este surprinzător că această metodă a arătat mai puțină acuratețe cu 10 microsateliți decât cu 50 microsateliți.

Deși în lucrarea de față metoda a fost dezvoltată pentru markeri co-dominanți, indiferent de abordare (coastrărie moleculară sau frecvențe alelice), metodologia poate fi extinsă cu ușurință și la markerii moleculari dominanti, prin înlocuirea matricei de coancestry moleculară cu o matrice a oricărei matrice disponibile. măsura similarității pentru markerii dominanti [45] sau estimarea frecvențelor alelice de la recesive (vezi [46] și referințele din acestea) și apoi folosind distanțe genetice tipice.

Formularea prezentă a metodei nu ține cont în mod explicit de prezența indivizilor amestecați. Pentru a face acest lucru, un set diferit de probabilități ar trebui să fie dat fiecărui locus din fiecare individ (în abordarea frecvențelor alele), permițând ca fiecare locus să fie atribuit unor grupuri diferite. Creșterea timpului de calcul și capacitatea algoritmului de optimizare de a face față unui spațiu mai mare de soluții merită investigații suplimentare.

Un fișier compilat al codului utilizat pentru a deduce numărul de clustere și alocarea indivizilor la fiecare cluster dintr-o anumită probă din matricea de concomitent moleculară sau frecvențele alelelor va fi disponibil pe site-ul web http://www.uvigo. es/webs/c03/webc03/XENETICA/XB2/Jesus/Fernandez.htm.


REZULTATE

Detectarea hibridizării cu valorile de diversitate genetică a populației vs. ecologia comunitară

Dintre cele patru metrice genetice ale populației și trei indici de diversitate a speciilor, toate calculate folosind o abordare multilocus, doar unul (HN) a detectat o modificare a diversității genetice în populațiile hibride (Fig. 1). Față de populațiile de sfeclă de mare sălbatică, populațiile hibride au prezentat statistic semnificativ mai mari HN (Mann–Whitney U = 16, z = 𢄢.09, P = 0,037). Cu toate acestea, nu am detectat diferențe în alte metrici multilocus ale diversității genetice, inclusiv procente de loci polimorfi (U = 40, z = 0.04, P = 0,10), numărul de alele per locus polimorf (U = 40, z = 0.04, P = 0,10), numărul total de alele (U = 30, z = 𢄠.84, P = 0,40), Shannon–Weiner’s H (U = 23, z = 𢄡.47, P = 0,14), Simpson’s D (U = 26, z = 𢄡.20, P = 0,23), sau McIntosh’s E (U = 47, z = 𢄡.41, P = 0.16).

Spre deosebire de rezultatele multilocus, comparațiile cu un singur loc folosind metrica diversității speciilor au fost mai informative. În comparație cu populațiile de sfeclă de mare sălbatică, populațiile hibride au prezentat o diversitate Shannon–Weiner mai mare (H, la 11 din 12 loci, testul semnului: P = 0,003, de exemplu, Fig. 2), Simpson’s mai mare D (la 10 din 12 loci, P = 0,02), și McIntosh’s mai mari E valori (la 11 din 12 loci, P = 0,003). Mai mult decât atât, comparațiile cu un singur locus ale diversității folosind valorile genetice tradiționale ale populației au fost mai puțin sensibile decât valorile ecologiei comunitare la schimbările în diversitatea sau compoziția alelelor. În comparație cu populațiile de sfeclă de mare sălbatică, populațiile hibride au prezentat mai multe alele (la 10 din 12 loci, P = 0,02), dar populațiile hibride nu au diferit semnificativ de populațiile sălbatice în procente de loci polimorfi (a scăzut la nouă din 12 loci, P = 0,073) sau numărul de alele per locus polimorf (creștet la opt din 12 loci, P = 0.19).

Estimările medii ale diversităţii Shannon pentru un singur locus pentru 12 loci (linii separate) mediate pe 10 hibrizi sălbatici sau opt presupusi Beta vulgaris subsp. maritima populatiilor. Cei 12 loci sunt reprezentați aici cu abrevieri: AAT (aspartat amino transferază, EC 2.6.1.1), ACO (aconitaza EC 4.2.1.3), GDH (glutamat dehidrogenază EC 1.4.1.2), LAP (leucină aminopeptidază EC 3.4.1.11). MDH1, MDH2 (NAD + malat dehidrogenază EC 1.1.1.37), PGM1, PGM2 (fosfoglucomutază EC 5.4.2.2), SKD (shikimat dehidrogenază EC 1.1.1.25), TPI1, TPI2 (trioză fosfat izomeraza EC.15), și UDP15. (uridin difosfoglucoză pirofosforilază EC 2.4.1.1). Estimările erorilor nu sunt afișate pentru claritate.

Consecințele hibridizării asupra diversității genetice

În cei 12 loci, populațiile presupuse de sfeclă hibridă posedau doar un sfert din alelele rare găsite în populațiile sălbatice (χ 2 = 22,5, df = 1, P < 0,001 Fig. 3). Pe baza coeficientului de asemănare Jaccard, populațiile de hibrizi au fost cu 10,8% (±SE = 0,6%) mai asemănătoare cu soiurile de smog decât populațiile sălbatice (un eșantion). t Test: t = 18.66, df = 47, P < 0,001). În plus, populațiile de hibrizi erau cu 3,7% (±SE = 1,1%) mai asemănătoare cu soiurile de sfeclă de zahăr decât populațiile sălbatice (t = 3.45, df = 47, P = 0,001). În cele din urmă, pe baza comparațiilor pereche, populațiile de hibrizi au fost semnificativ mai asemănătoare cu sfecla de zahăr decât soiurile de sfeclă de zahăr (pereche). t Test: t = 𢄦.62, df = 47, P < 0,001).

Numărul mediu de alele care nu contribuie în mod semnificativ la diversitatea genelor (adică, alele rare, ±SE) per locus estimat pentru 12 loci alozimatici în medie pentru 10 hibrizi sălbatici sau opt presupusi Beta vulgaris subsp. maritima populatiilor.


Rezultate si discutii

Pentru a ilustra aplicabilitatea abordării noastre, o aplicăm la două seturi de date publicate anterior care au fost analizate în [37] și, respectiv, [17].

Beetle Data

Primul set de date a fost utilizat ca parte a unui studiu filogeografic al speciilor de gândaci Brachyderes rugatus rugatus pe La Palma (Insulele Canare) [37]. În acest studiu au fost prelevate 138 de gândaci individuali. Cele 18 locații de prelevare sunt prezentate în Figura ​ Figura 3. 3 . Folosind datele de secvență din gena COII mitocondrială (pentru detalii vezi [37]), cele 138 de eșantioane au fost ulterior grupate în 69 de haplotipuri și a fost construită o filogenie a haplotipului bazată pe criteriul de parsimonie folosind programul TCS [38]. Această filogenie este prezentată în Figura ​ Figura 4 4 .

Locații de eșantionare și regiuni pentru datele despre gândaci. O hartă a orașului La Palma cu locații de eșantionare indicate prin puncte negre [37]. Locațiile de eșantionare în care au fost găsite haplotipuri dintr-un anumit filogrup (cf. Figura 4) sunt reprezentate de curbele întrerupte. Rețineți că locația de eșantionare Altos de Jedey este singurul în care au fost găsite haplotipuri din două filogrupuri distincte (și anume 1 și 2). Cele șase grupuri de locații de eșantionare corespunzătoare celor șase regiuni R1, R2, . R6 discutate în text sunt de asemenea indicate.

Filogeneza haplotipului pentru datele gândacului. Rețeaua de haplotipuri prezentată în [37] pentru haplotipurile colectate în La Palma. Rețineți că toate marginile au lungimea 1. Punctele colorate (negru, roșu și verde) reprezintă haplotipurile eșantionate și punctele albe intermediari ipotetici. Casetele punctate corespund celor trei filogrupuri, 1-3, identificate în [37]. Haplotipurile găsite în regiune R2 sunt evidențiate cu roșu, cele găsite în R6 în verde și cele găsite în R3 sunt indicate prin cercuri albastre.

Conform acestei filogenii, haplotipurile au fost împărțite în 3 filogrupuri, așa cum este indicat pe filogenie și în Figura ​ Figura 3. 3 . Pe baza acestor grupări s-a concluzionat pt Brachyderes rugatus rugatus că (i) există o regiune de contact secundar, sau vasul de topire, în sudul insulei la suprapunerea regiunilor 1 și 2 și (ii) că există o regiune ancestrală sau un punct fierbinte în regiunea care conține cele trei locații de eșantionare din partea dreaptă sus a regiunii 2. Rețineți că în [37] sprijinul pentru concluzia (i) a fost oferit prin efectuarea testului dat în [8] pentru detectarea zonelor de contact secundar, care implică în esență calcularea distanței medii. între centrele geografice ale cladelor la niveluri de cuibărire în creștere într-o filogenie pe haplotipurile de interes.

Pentru a investiga dacă noua noastră metodă a susținut concluziile (i) și (ii) sau nu, am grupat mai întâi locațiile de eșantionare în 6 regiuni R1, . R6 așa cum se arată în Figura ​ Figura 3. 3 . Am folosit aceste regiuni mai degrabă decât locațiile individuale de prelevare, deoarece numărul de probe prelevate în fiecare locație a fost foarte mic (între 2 și 8). La formarea grupurilor, locațiile apropiate geografic au fost grupate. Am luat în considerare și alte grupări bazate pe proximitatea geografică (datele nu sunt afișate) și rezultatul a fost similar, deși mai puțin pronunțat atunci când numărul de grupări a fost redus (cel mai mic număr de grupări utilizate a fost 3). Apoi am măsurat diversitatea (folosind măsura PD) și conectivitatea haplotipurilor pentru haplotipurile găsite în fiecare regiune Riîn raport cu distanțele filetice date de filogenie din Figura ​ Figura 4, 4, așa cum este descris în secțiunea Metode.

Rezultatele pentru cele 6 regiuni sunt rezumate în Tabelul ​ Tabelul 1. 1 . În acest tabel, prezentăm dimensiunea subsetului Y a haplotipurilor găsite în regiune (coloana 2), valorile PD(Y), PDmin(|Y|), PDmax(|Y|) (coloanele 3-5) și scorul de diversitate normalizat PD*(Y) (coloana 6) așa cum este definit în secțiunea Metode. În mod similar, prezentăm valorile HC(Y), HCmin(|Y|), HCmax(|Y|) și HC*(Y) (coloanele 7-10).

Tabelul 1

RegiuneNumărul de haplotipuri din regiuneDiversitateConectivitate haplotip
PDPDminPDmaxPD*HCHCminHCmaxHC*
R6214725870.35143250.50
R3112810670.32161270.58
R2183320810.2173250.18
R47146550.1651270.15
R5182920810.1553250.09
R15104480.1471280.22

Scoruri de diversitate și conectivitate haplotip pentru regiunile geografice din La Palma indicate în Figura 3, clasate în funcție de scorurile de diversitate filogenetică normalizate, PD*, așa cum este definit în textul principal. Coloanele etichetate cu PDmin, PDmax, HCmin și HCmax conțin scorul minim/maxim pentru toate subseturile care conțin același număr de haplotipuri ca cele găsite în regiune.

După cum se poate observa în Tabelul ​ Tabelul 1, 1, cele două regiuni cu cea mai mare PD* scorul sunt R6 și R3, care au, de asemenea, o mult mai mare HC* scor decât oricare dintre celelalte patru regiuni. Aceasta susține concluzia (i), adică că R6 este probabil o topire. Într-adevăr, în Figura ​ Figura 4 4 haplotipurile găsite în regiune R6 sunt evidențiate cu verde și se poate observa că se adună în două grupuri. Acest lucru indică și de ce am obținut un mare HC* scor pentru această regiune. În mod similar, înaltul PD* și HC* scoruri pentru regiune R3 sugerează că această regiune este, de asemenea, un vas de topire, o concluzie care este în concordanță cu constatările din [37] unde se sugerează că în R3 extinderile ariei spre sud și nord-vest s-au suprapus parțial.

În ceea ce privește concluzia (ii), vedem că printre regiunile rămase R2 în mod clar are cel mai înalt PD* scor și mult mai mic HC* scor decat R6 și R3. Acest model de scoruri, adică diversitate relativ mare și conectivitate haplotip scăzută, susține mai mult un scenariu de punct fierbinte decât un scenariu de topire, în acord cu concluzia (ii). Examinând figura ​ Figura 4, 4, vedem că haplotipurile din R2 (evidențiate cu roșu) sunt relativ răspândite pe filogenia haplotipului, de unde scorul scăzut de conectivitate a haplotipului.

Date de pin

Al doilea set de date pe care îl considerăm a făcut parte dintr-un studiu al istoriei filogeografice a speciei Pinus pinaster în jurul Mării Mediterane [17]. Au fost prelevate probe din 10 locații, așa cum este indicat în Figura ​ Figura 5. 5 . Datele de secvență constând din nouă markeri de repetare a secvenței simple de cloroplast au dat naștere la 34 de haplotipuri diferite (pentru detalii vezi [17]). Pentru aceste 34 de haplotipuri a fost calculată o matrice de distanță utilizând diferența haplotipică pe perechi (adică, pentru oricare două haplotipuri, suma diferenței dintre dimensiunea alelei pe cei nouă loci).

Locații de prelevare a datelor pentru pin. Locații de eșantionare pentru setul de date din [17].

Pentru a înțelege structura filogeografică a acestor date, în [17] distribuția de frecvență a distanțelor perechi dintre haplotipuri, uneori numită și spectrul diversității genetice (GDS) [12], a fost calculat. Am recalculat acest lucru și redăm rezultatul în Figura ​ Figura 6. 6 . În special, pe baza unor considerente - cum ar fi forma GDS pentru locațiile Landes și Pantelleria - s-a emis ipoteza că Landes și Pantelleria sunt puncte fierbinți, deși s-a afirmat, de asemenea, că ipoteza conform căreia sunt topitoare nu ar putea fi exclus [[17], p.462]. Într-adevăr, într-un studiu filogeografic extins mai recent al Pinus pinaster [39] s-a ajuns la concluzia că Landes era mai probabil să fie o topire.

Spectrul diversității genetice. Spectrul diversității genetice (GDS) pentru (a) locația Landes și (b) locația Pantelleria din Figura 5. Pentru fiecare distanță posibilă, este reprezentat numărul de perechi de haplotipuri care se află la acea distanță.

Folosind aceeași matrice de distanță, am calculat scorurile de diversitate și conectivitate haplotip pentru fiecare dintre cele 10 locații de eșantionare, așa cum este explicat în secțiunea Metode (folosind măsura ANUNȚ pentru diversitate). Acestea sunt prezentate în Tabelul ​ Tabelul 2. 2 . Rețineți că, spre deosebire de [17], scorurile noastre nu iau în considerare cât de des a fost găsit un haplotip într-o anumită locație, ci mai degrabă ce haplotipuri au fost găsite.

Masa 2

Locația de prelevareNumărul de haplotipuri din regiuneDiversitateConectivitate haplotip
ANUNȚANUNȚminANUNȚmaxANUNȚ*HCHCminHCmaxHC*
Landes62.450.337.140.3161100.56
Pantelleria91.670.375.660.2531100.22
Leiria80.730.366.060.0611100.00
Sardinia90.700.375.660.0621100.11
Maroc80.690.366.060.0611100.00
Corsica80.680.366.060.0611100.00
Liguria50.640.318.060.0421110.10
Moncao60.330.337.140.0011100.00
Toscana50.310.318.060.0011110.00
Alcacier50.310.318.060.0011110.00

Scoruri de diversitate și conectivitate haplotip pentru locațiile de eșantionare ilustrate în Figura 5, clasate în funcție de scorul mediu normalizat de diversitate la distanță pătrată (ANUNȚ*). Coloanele etichetate cu ANUNȚmin, ANUNȚmax, HCmin și HCmax conțin scorul minim/maxim pentru toate subseturile care conțin același număr de haplotipuri ca cele găsite în regiune.

După cum se poate observa în Tabelul ​ Tabelul 2, 2, cele două locații cu cea mai mare ANUNȚ* scorurile de diversitate sunt Landes și Pantelleria. Având în vedere HC* scoruri pentru aceste locații, acest lucru susține scenariul melting-pot, în special pentru locația Landes. Rețineți că bimodalitatea GDS pentru locația Landes indică, de asemenea, două grupuri de haplotipuri care au distanțe interne mici și distanțele mari între clustere, care ar putea fi, de asemenea, privite ca o semnătură care susține un scenariu de topire. Cu toate acestea, forma GDS pentru locația Pantelleria este oarecum mai puțin distinctivă și astfel, cel puțin în acest caz, abordarea conectivității haplotipului oferă câteva informații suplimentare utile.


Concepte și definiții

Să începem cu o scurtă trecere în revistă a diversității speciilor (aka diversitatea comunității, biodiversitatea sau diversitatea ecologică) pentru a explica cele două elemente esențiale ale conceptului de diversitate în general, care ar trebui să faciliteze introducerea măsurilor noastre de diversitate și similaritate SNP de mai jos. Diversitatea speciilor se referă la diversitatea ecologică a speciilor dintr-o comunitate ecologică, dar conceptul de diversitate este aplicabil în mod egal și diversității genetice (de exemplu. Nei 1973, Wehenkel et al., Bergmann et al.) 13,23,24 sau alte entități cum ar fi diversitatea metagenomului (Ma și Li) 20 . Conceptual, diversitatea posedă două elemente esențiale: varietate si variabilitate de soiuri (Gaston Chao et al.) 10,25 . De exemplu, cele două elemente ale diversităţii speciilor sunt speciile (varietatea) şi variabilitatea abundenţelor speciilor. Pentru a cuantifica conceptul de diversitate a speciilor, se cercetează o comunitate (de obicei prin prelevarea de probe), numără abundența fiecărei specii din comunitate și obține pi = (abundența relativă a speciilor i) = (numărul de indivizi ai speciilor i)/(totalul de indivizi ai tuturor speciilor din comunitate) și, de asemenea, numără numărul de specii din comunitate (S). Setul de date dintr-un astfel de studiu (eșantionare) este un vector al abundenței speciilor sub formă de (p1, p2, …, pi, …ps). Pentru un astfel de vector de abundențe relative (frecvențe), o abordare pentru caracterizarea acestuia este de a se potrivi unei distribuții statistice, care este cunoscută sub numele de distribuție a abundenței speciilor (SAD) în ecologia comunității. SAD-urile cele mai utilizate pe scară largă includ distribuțiile log-seriilor, log-normale și legea puterii. O proprietate comună a SAD-urilor este că sunt foarte distorsionate, distribuții cu coadă lungă, dar rareori urmează distribuția normală sau distribuția uniformă.În schimb, SAD este foarte agregat (deformat sau non-aleatoriu), la fel ca distribuția SNP non-aleatoare menționată anterior în secțiunea de introducere. Deși SAD descrie pe deplin frecvența abundenței speciilor și, prin urmare, surprinde în mod adecvat toate caracteristicile diversității speciilor, utilizarea unui SAD pentru a măsura diversitatea nu reușește să prezinte măsuri intuitive pentru a sintetiza cele două elemente ale diversității (adică., varietate și variabilitate). O abordare alternativă pentru potrivirea SAD este utilizarea diferitelor metrici de diversitate (cunoscute și ca măsuri sau indici). Au fost propuse numeroase metrici de diversitate pentru măsurarea diversității speciilor, entropia lui Shannon fiind cea mai cunoscută.

Măsurile de diversitate aparțin așa-numitului agregat funcții, care combină mai multe valori într-o singură valoare (Beliakov et al., Iacov) 6,7 . Media aritmetică (media) este funcția de agregare cel mai frecvent utilizată, dar este o măsură destul de slabă pentru măsurarea diversității datorită distribuției foarte nealeatoare a abundenței speciilor. În schimb, funcția de agregare bazată pe entropie este potrivită pentru măsurarea diversității. Prima și încă una dintre cele mai utilizate metrice de diversitate bazată pe entropie este entropia Shannon, care a fost atribuită lui Claude Shannon, co-fondatorul teoriei informațiilor (Shannon, Shannon & Weaver) 8,26, dar Shannon nu a studiat niciodată. biodiversitatea însuși. Ceea ce s-a întâmplat a fost că ecologistii au împrumutat ideea din teoria informațională a lui Shannon, în care entropia lui Shannon măsoară conținutul informațiilor sau incertitudinea în sistemele de comunicare. Desigur, entropia lui Shannon este într-adevăr suficient de generală pentru a măsura biodiversitatea, deoarece diversitatea este în esență eterogenitate, iar eterogenitatea și incertitudinea ambele pot fi măsurate prin schimbarea informațiilor. adică., informația scade incertitudinea.

Folosind ca exemplu entropia Shannon, diversitatea speciilor (H), mai precis uniformitatea speciilor, poate fi calculată cu următoarea formulă,

Unde S este numărul de specii din comunitate și pi este abundența relativă a fiecărei specii din comunitate. În ceea ce privește varietate-variabilitate noțiune pentru definirea diversității, cel varietate este specia si variabilitate este evident abundenta speciei. De fapt, noțiunea de varietate-variabilitate poate fi utilizată pentru a defini diversitatea pentru orice sisteme (nici măcar limitate la sistemele biologice) care pot fi rezumate ca cele două elemente de varietate și variabilitate, inclusiv diversitatea SNP, așa cum este expus mai jos.

Definiții pentru diversitățile SNP

Folosind o analogie, un cromozom care are multe loci este similar cu o comunitate ecologică de mai multe specii și fiecare locus poate avea un număr diferit de SNP. Cu noțiunea de varietate-variabilitate pentru definirea diversității, locusul este varietate (similar cu speciile dintr-o comunitate), iar numărul de SNP la fiecare locus este variabilitate (asemănător cu abundența speciilor într-o comunitate). Presupunând S este numărul de loci cu orice SNP și pi este relativ abundența SNP-urilor la locus i (adică., numărul sau abundența SNP-urilor la locus i împărțit la numărul total de SNP din toți loci), atunci diversitatea SNP poate fi măsurată cu entropia Shannon (Ec. 1). Strict vorbind, SNP poate fi, de asemenea, numit locus diversitatea, din moment ce locus este în esență „habitatul” în care locuiesc SNP-urile. Figura 1 a ilustrat conceptual distribuția SNP-urilor pe un cromozom în mod specific pi este definită și calculată.

O diagramă conceptuală care arată distribuția SNP-urilor pe un cromozom cu referire la cromozomul de referință: cromozomul este similar cu o comunitate ecologică, iar numărul de SNP-uri pe un locus genic este similar cu abundența speciilor într-o comunitate ecologică. De exemplu, există trei SNP-uri pe locusul genei-1, presupunând că totalul SNP-urilor de pe cromozom este N (sau 10 afișate cu primele 3 gene afișate), atunci abundența SNP relativă pentru gena-1 este egală cu 3/N (sau 3/10 = 0,3 cu cele 3 gene afișate). În mod similar, p2, p3, … poate fi calculat. Când abundența relativă a SNP-urilor este disponibilă, diversitatea (numerele Hill) poate fi calculată pe baza definițiilor diversității [Ec. (2–15)]. Codurile R care calculează profiluri alfa-diversitate, beta-diversitate (inclusiv similaritate) sunt furnizate în OSI.

Deși entropia lui Shannon a fost utilizată pe scară largă pentru măsurarea diversității speciilor, un consens recent în rândul ecologiștilor este că numerele Hill, care se bazează pe entropia generală a lui Renyi, oferă cele mai adecvate metrici pentru măsurarea diversității alfa și pentru împărțirea multiplicativă a diversității beta (Chao). et al. 2012, 2014, Ellison 2010, Kaplinsky și Arnaout) 9,10,12,19. Având în vedere avantajele numerelor Hill față de alți indici de diversitate existenți, credem că numerele Hill ar trebui să fie, de asemenea, o alegere preferată pentru definirea diversității SNP.

SNP alfa-diversitate

Numerele Hill au fost derivate de Hill (1973) pe baza entropiei generale a lui Renyi (1961) 15,16. Aici propunem să o aplicăm pentru definirea diversității alfa SNP, adică.,

Unde G este numărul de loci genici cu orice SNP, pi este abundența relativă (adică., cel frecvența de apariție) a SNP-urilor la locus i, q = 0, 1, 2, … este Ordin numărul de diversitate SNP, q D este alfa-diversitatea SNP la ordinea diversităţii q, adică., numerele Hill ale q-a ordine.

Numărul Hill este nedefinit pentru q = 1, dar limita sa ca q abordările la 1 există în următoarea formă:

Ordinea diversității (q) determină sensibilitatea numărului Hill la abundența relativă (adică., frecvența de apariție) a SNP. Cand q = 0, frecvența SNP nu contează deloc și 0 D = G, adică., cel bogăția SNP, similar cu bogăția de specii în conceptul de diversitate a speciilor. Cand q = 1, 1 D este egal cu exponenţială de entropie Shannon și este interpretată ca numărul de SNP-uri cu frecvențe tipice sau comune. Prin urmare, indicele Shannon este în esență un caz special al numerelor Hill în ordinea diversității q = 1. Când q = 2, 2 D este egal cu reciproca indicelui Simpson, adică.,

care este interpretat ca numărul de SNP dominante sau foarte frecvente. Prin urmare, cei mai folosiți indici de diversitate, indicele Shannon și indicele Simpson sunt cazurile speciale și, mai precis, funcțiile numerelor Hill.

În general, trebuie să specificăm o entitate (unitate sau domeniu) pentru definirea și măsurarea diversității SNP. Pentru scop demonstrativ în acest articol, alegem cromozomul individual ca entitate pentru definirea diversității SNP, similar cu utilizarea comunității pentru definirea diversității speciilor. Interpretarea generală a diversității ordinii q este că cromozomul conţine q D = X loci cu frecvență SNP egală. Rețineți că entitatea pentru definirea diversității SNP poate fi alte unități adecvate, cum ar fi întreg genomul a unui organism sau a unui segment de cromozom.

Diversitatea SNP definită mai sus măsoară diversitatea SNP pe o entitate genetică individuală (cum ar fi cromozomul sau genomul), similar conceptului de diversitate alfa în diversitatea speciilor comunitare și îl numim SNP alfa-diversitate. În cele ce urmează, definim omologii diversității beta și gamma ale speciilor în ecologia comunitară pentru SNP, adică., Diversitatea beta SNP și SNP gama-diversitatea.

Diversitatea gama SNP

În timp ce diversitatea SNP alfa definită anterior are scopul de a măsura diversitatea SNP într-o entitate genetică (cum ar fi un cromozom sau genom), următoarea diversitate gamma SNP este definită pentru a măsura total Diversitatea SNP de grupare, multiple (N) cromozomi dintr-o populație (cohortă) de N indivizi diferiți, câte unul de la fiecare individ, dar cu aceeași numerotare cromozomială.

Presupunând că există N indivizi dintr-o populație (cohortă), definim SNP gama-diversitatea cu următoarea formulă, similară speciei gama-diversitate în ecologie (de exemplu., Chao et al. Chiu et al.) 9,10,27 ,

unde (overline<

_>) este frecvența SNP pe i- al-lea loc (i = 1, 2, …,G) în populația comună a N indivizi (numiti N-populatie).

Compararea Eq. (5) pentru diversitatea gama cu Eq. (2) pentru diversitatea alfa arată că diversitatea gama este numerele Hill bazate pe SNP frecvență la i--lea loc în N-populația. Similar cu Chao et al. 9,10 Chiu et al. 27 , derivarea pentru gama-diversitatea speciilor în comunitatea ecologică, presupunând yij este frecvența SNP la i-al-lea loc al j-individul, yi+ este valoarea totală a SNP la i--lea loc conținut în N indivizi, y+j este SNP total din j- al doilea individ, y++ este SNP total conținut în N indivizi, pij este frecvența SNP la i-al-lea loc al j- al doilea individ, wj este greutatea j- al doilea individ,

se poate deduce cu ușurință că,

Plug Eq. (6) pentru (overline<

_>) în definiția lui Diversitatea gama SNP [Ec. (5)], obținem următoarele formule de calcul SNP gama-diversitatea de N-populația după cum urmează:

Diversitatea SNP beta

În ecologia comunitară, există două scheme de definire a diversității beta: una este partiția aditivă și alta este împărțirea multiplicativă a diversității gamma în diversitatea alfa și diversitatea beta presupus independente. Consens recent (de exemplu., Jost Ellison Chao et al., Gotelli & Chao, Gotelli & Ellison) 9,10,11,12,28,29 a recomandat utilizarea partiției multiplicative. Fie ( (<>^D_) ) și ( (<>^D_) ) sunt diversitatea alfa și gama măsurată cu numerele Hill, respectiv, diversitatea beta este definită ca:

Adoptăm exact aceeași partiție multiplicativă a numerelor Hill în diversitatea speciilor pentru măsurarea diversității beta SNP, cu excepția faptului că atât diversitățile alfa cât și gama sunt calculate cu frecvența SNP (abundența relativă), mai degrabă decât cu abundența speciilor.

Această diversitate beta SNP ( (<>^D_<eta >) ) derivat din partiția multiplicativă de mai sus ia valoarea 1 dacă toate comunitățile sunt identice, iar valoarea lui N (numărul de indivizi din populație) când toți indivizii sunt complet diferiți unul de celălalt (adică., fără SNP partajate).

Deși Eq. (2) definește corect alfa-diversitatea SNP, necesită unele adaptări pentru a se aplica pentru partiția diversității gamma pentru a obține diversitatea beta cu Eq. (9). Similar cu derivarea pentru diversitatea speciilor alfa așa cum sa demonstrat la Chiu et al. 27, putem deriva următoarele formule pentru diversitatea SNP alfa în N-setarea populației, adică.,

Calculul diversității beta SNP poate fi apoi realizat cu ecuațiile. (7–11), adică., Ec. (7 și 8) pentru diversitatea gama, (9) pentru diversitatea beta și (10-11) pentru diversitatea alfa.

Definim o serie de numere Hill pentru diversitatea SNP la diferite ordine de diversitate q = 0, 1, 2, … ca Profil de diversitate SNP, adică o serie de numere Hill corespunzătoare diferitelor niveluri de neliniaritate ponderate diferit cu distribuția de frecvență SNP.


IMPLICAȚII DE MANAGEMENT

Studiul nostru demonstrează că eșantionarea genetică repetată pe scale de timp relevante din punct de vedere biologic (de exemplu, intervale de 10 generații sau

5 ani pentru bilby) va permite părților interesate să evalueze dacă practicile de management stabilite sunt suficiente pentru a menține diversitatea genetică la niveluri comparabile cu populațiile ancestrale. În cazul în care pierderea excesivă a heterozigozității este o preocupare (adică diversitatea genetică a scăzut la un nivel semnificativ mai mic decât cel al grupului (grupurilor) fondatoare), translocarea indivizilor din populații divergente genetic la o rată de 1–10 migranți la 1– 2 generații ar trebui să fie suficiente pentru a atenua cele mai grave efecte ale consangvinizării, asigurându-se în același timp că fluxul de gene nu perturbă complet distincția genetică între unitățile individuale de management. Acolo unde este practic, programele de translocare ar trebui să introducă indivizi din populații divergente genetic care ocupă medii și zone climatice comparabile.

Când numărul fondatorilor este mare, poate fi avantajos să se împartă metapopulațiile captive sau îngrădite de conservare în mai multe unități sau subpopulații discrete de management. Deși acest lucru poate duce la o pierdere pe termen scurt a heterozigozității la nivelul unităților individuale de management, încrucișarea reprezentanților din diferite subpopulații în timpul sau în cadrul unei singure generații de translocare ar trebui să fie suficientă pentru a restabili diversitatea genetică la nivelurile de pre-fragmentare, păstrarea potenţialului adaptativ al speciei în ansamblu. Menținerea metapopulației ca și serie de unități de management discrete va asigura, de asemenea, că rezervele genetice existente pot fi utilizate pentru translocări viitoare, minimizând probabilitatea unor evenimente de blocaj din cauza mișcării repetate a indivizilor din aceeași populație sursă.


Priveste filmarea: Теплый, уютный и очень удобный женский кардиган на пуговицах спицами! Расчет на любой размер! Часть2 (Iunie 2022).


Comentarii:

  1. Wolfrick

    Grozav!

  2. Mozshura

    Adică, permiteți greșeala. Îmi pot apăra poziția. Scrie -mi în pm, ne vom descurca.

  3. Wallache

    Sunt total de acord cu autorul! Apropo, cu Come You!

  4. Jemal

    What a wonderful phrase

  5. Daniachew

    Poate ai gresit?

  6. Shepley

    Toko câțiva din care poți râde!

  7. Selik

    Ai dat în marcaj.

  8. Sutton

    Mă gândeam altfel, mulțumesc pentru informații.

  9. Galloway

    Îmi pare rău, dar această opțiune nu era potrivită pentru mine. Poate sunt variante?



Scrie un mesaj