Informație

Cum notez activitatea diferențială a căilor celulare în datele microarray (nu îmbogățirea)?

Cum notez activitatea diferențială a căilor celulare în datele microarray (nu îmbogățirea)?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Aș dori să identific căile celulare (KEGG) cu modificări discriminatorii ale activității medii (nivelurile de expresie) ale membrilor genei lor într-un set de date microarray cu două condiții. Scopul este de a utiliza activitatea medie a căii pentru învățarea automată (clasificarea eșantionului), nu de a identifica căi îmbogățite în gene exprimate diferențial (adică neefectuarea unei analize clasice de îmbogățire a setului de gene).


Cum notez activitatea diferențială a căilor celulare în datele microarray (nu îmbogățirea)?

Te-ai uita la genele din aval, care sunt selective pentru căile individuale - sau genele care au locuri de legare pentru factorii de transcripție care se află la sfârșitul căii tale. În funcție de literatura existentă, de experimentul dvs. și de calea specifică, aceasta poate include gene, care sunt ele însele parte din cale (dacă feedback). Pentru interpretabilitate, ați prefera genele, care au fost stabilite anterior ca creatori ai unei căi în literatura precedentă.

Aș dori să identific căile celulare (KEGG) cu modificări discriminatorii ale activității medii (nivelurile de expresie) ale membrilor genei lor într-un set de date microarray cu două condiții.

Acest lucru ar putea fi dificil, deoarece luarea mediei introduce mai multe ipoteze, cum ar fi: impact redus al fondului tehnic (exprimarea majorității genelor căii peste fundal), media fiind reprezentativă pentru calea KEGG de interes (și nu numai pentru calea cea mai abundentă membri) și impunerea unei decizii oarecum arbitrare de a face o medie a datelor transformate în log (ceea ce este justificat pentru multe gene, dar nu pentru gene care nu se scalează multiplicativ, cum ar fi multe gene de stres), sau nu pentru transformarea în log.

Scopul este de a utiliza activitatea medie a căii pentru învățarea automată (clasificarea eșantionului),

Puteți utiliza acest lucru în avantajul dvs. și puteți crea mai multe caracteristici pe cale (de exemplu: mediană, medie, varianță, ne/log-transformate etc..., gene semnături ale căilor selectate manual) și apoi solicitați învățarea automată să aleagă cele mai bune caracteristici pentru clasificarea dvs. (de exemplu: așa cum s-ar întâmpla dacă folosiți clasificatori aleatoriu de pădure)


Puteți utiliza software-ul PathVar disponibil aici: www.pathvar.embl.de

Vezi și publicația corespunzătoare: http://bioinformatics.oxfordjournals.org/content/28/3/446.long


utilizați pachetul GSVA R pentru a restrânge datele despre expresia genelor la scorurile activității căii. https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-14-7


Utilizarea -score-ului pentru a identifica căile oncogene ale colangiocarcinomului

Extragerea informațiilor maxime din seturile de semnături ale genelor (GSS) prin profilarea transcripțională bazată pe microarray implică atribuirea funcției genelor reglate în sus și în jos. Aici prezentăm o nouă metodă de notare a probei numită Signature-score (S-score) care poate fi utilizată pentru a cuantifica modelul de expresie al probelor tumorale din seturi de semnături genetice identificate anterior. Un rezultat de simulare a demonstrat o acuratețe și o robustețe îmbunătățite prin metoda scorului S în comparație cu alte metode de notare. Aplicând metoda scorului S la colangiocarcinom (CAC), un cancer hepatic agresiv care apare din celulele căilor biliare, am identificat căi oncogene îmbogățite în două seturi mari de date CAC. Treisprezece căi au fost îmbogățite în CAC în comparație cu ficatul normal și ductul biliar. Mai mult, folosind scorul S, am putut diseca corelațiile dintre căile oncogene asociate CAC și funcția Ontologiei genelor. Au fost identificate două grupuri oncogene majore și funcțiile asociate. Clusterul 1, care a inclus beta-catenina și Ras, a arătat o corelație pozitivă cu ciclul celular, în timp ce grupul 2, care a inclus TGF-beta, citokeratina 19 și EpCAM a fost invers corelat cu funcția imună. Am folosit, de asemenea, scorul S pentru a identifica căile care sunt exprimate diferențiat în CAC și carcinomul hepatocelular (HCC), cel mai frecvent subtip de cancer hepatic. Rezultatele noastre demonstrează utilitatea și eficacitatea scorului în atribuirea de roluri funcționale seturi de semnături de gene asociate tumorii și în identificarea potențialelor ținte terapeutice pentru subtipuri specifice de cancer hepatic.

Cuvinte cheie: Analiza căii setului de semnături ale genelor metoda scorului S clasificarea tumorii

Trimis 15 noiembrie 2012. Acceptat pentru publicare 24 decembrie 2012.


Date asociate

Fundal

Dezvoltarea tehnologiilor omice de înaltă performanță a permis măsurători la nivelul întregului genom a activității elementelor celulare și oferă resursele analitice pentru progresul disciplinei Biologie a sistemelor. Analiza și interpretarea datelor despre expresia genelor au evoluat de la genă la nivelul căii și interacțiunii, adică de la detectarea genelor exprimate diferențial, până la stabilirea rețelelor de interacțiune a genelor și identificarea categoriilor funcționale îmbogățite. Cu toate acestea, înțelegerea sistemelor biologice necesită un nivel suplimentar de analiză care să abordeze caracterizarea interacțiunii dintre modulele funcționale.

Rezultate

Prezentăm o nouă metodologie computațională pentru a studia interconexiunile funcționale dintre elementele moleculare ale unui sistem biologic. Abordarea PANA utilizează măsurători genomice de mare performanță și o schemă de adnotare funcțională pentru a extrage un profil de activitate din fiecare bloc funcțional - sau cale- urmat de metode de învățare automată pentru a deduce relațiile dintre aceste profiluri funcționale. Rezultatul este o rețea globală, interconectată de căi care reprezintă dialogul funcțional în cadrul sistemului molecular. Am aplicat această abordare pentru a descrie conexiunile transcripționale funcționale în timpul ciclului celular de drojdie și pentru a identifica căile care își schimbă conectivitatea într-o stare de boală folosind un exemplu Alzheimer.

Concluzii

PANA este un instrument util pentru a aprofunda înțelegerea noastră a interdependențelor funcționale care funcționează în cadrul sistemelor biologice complexe. Arătăm că abordarea este consistentă din punct de vedere algoritmic și rețeaua dedusă este bine susținută de datele funcționale disponibile. Metoda permite disecția bazei moleculare a conexiunilor funcționale și descriem diferitele mecanisme de reglare care explică topologia rețelei obținută pentru datele ciclului celular de drojdie.


Metode

În această lucrare, introducem o abordare bazată pe grafice și o abordare de maximizare a așteptărilor pentru a identifica diferențele specifice între sistemele biologice la nivelul grupurilor și căilor ortologice.

Figura 1 prezintă întregul flux de instrumente XPathway. În abordarea bazată pe grafice, calculăm a p-valoare folosind parametrii extrași din rețea pentru a răspunde la două întrebări statistice diferite: (1) Când și pe baza ce parametru putem spune că un set de proteine ​​se mapează în mod semnificativ la o cale? (2) Care este probabilitatea de a găsi o astfel de mapare întâmplător având în vedere datele (transcrieri/citire/proteine) și o topologie a căii? În cele din urmă, căile metabolice semnificative sunt selectate prin compararea p-valoarea căii inițiale cu cele din diferite mostre bootstrapped. Metoda de maximizare a așteptărilor, pe de altă parte, utilizează interacțiunea dintre grupurile de ortologi identificate pentru a deduce activitatea căii. Ultima parte a fluxului constă în validarea ambelor ramuri. În primul rând, efectuăm o analiză a expresiei diferențiale asupra tuturor contig-urilor extrase din căile ieșite de ambele ramuri. În al doilea rând, se efectuează un experiment qPCR pe contig-urile care au o schimbare de ori de 1,2 sau mai mult.

Fluxul de analiză XPathway. Ramurile reprezintă cele două abordări utilizate pentru a calcula semnificația căii în cazul graficului bazat pe partea stângă și nivelul de activitate al căii în cazul abordării de maximizare a așteptărilor din dreapta. Ambele metode sunt validate prin calcularea expresiilor diferențiale contigs/transcripts și qPCR ca ultimul pas al fluxului

Model de maximizare a așteptărilor pentru activitatea căii

În această secțiune, prezentăm un algoritm bazat pe EM pentru deducerea nivelurilor de activitate a căilor pe baza datelor secvenței metatranscriptomului. Lăsa w să fie o cale care este considerată a fi un set de enzime reprezentate de grupurile lor ortologice w=<p 1,…,p k>. Deoarece un grup ortolog poate avea mai multe funcții și poate participa la mai multe căi, căile pot fi văzute ca o familie de subseturi W a ansamblului tuturor grupelor de ortologi P. Mai jos începem prin a introduce un model uniform de activitate a căii binare bazat pe un model de expresie de grup ortolog discret.

Modelul de activitate a căii binare uniforme se bazează pe ipotezele de uniformitateși anume că fiecare moleculă dintr-un grup ortolog participă la fiecare cale activă cu aceeași probabilitate (adică, în proporții egale) și de activitate binară, care postulează că o cale este activă dacă nivelul activității grupului ortolog depășește un anumit prag (posibil dependent de cale). Formal, să δ(w) să fie o variabilă binară care indică starea de activitate de w, adică δ(w)=1 dacă w este activă şi δ(w)=0, în caz contrar. De asemenea, lăsați nivelul de activitate de cale w fie însumarea grupurilor ortologice constitutive g a participării lor g w în w. Întrucât presupunem că fiecare grup ortolog g este la fel de probabil să participe la fiecare cale care o conține, rezultă că (g_ = left (1+ sum _ delta (w') ight)^<-1>) și nivelul de activitate f w de cale w este dat de

Starea activității binare a w se calculează din nivelul său de activitate f w iar pragul T w după cum urmează

Modelul binar uniform descris de Ecs. (1)–(2) poate fi rezolvată folosind un algoritm iterativ simplu. Algoritmul începe cu atribuirea stării activității δ(w)=1 pentru fiecare cale wW, adică Δ 0 (W)=<δ 0 (w)|wW>←1 și apoi actualizează în mod repetat nivelul de activitate conform (1) și starea activității conform (2). Procedura se termină când secvența de stare Δ 0 (W)=1,Δ 1 (W),Δ 2 (W),... începe să oscileze Δ n+k (W)=Δ n (W) sau converge. În toate experimentele noastre preliminare, o oscilație cu perioada k=2 se realizează în cel mult 10 iterații. De asemenea, pragul T w nu modifică semnificativ ordinea căilor sortate în raport cu nivelurile lor de activitate estimate ca medie f w după convergenţă. Modelul este reprezentat în Fig. 2.

Abordarea de maximizare a așteptărilor pentru a calcula activitatea căii. Acest grafic bipartit constă dintr-un set A reprezentând citiri/contigs/ORF/proteine, iar setul B este pentru ORF/proteine/grupuri ortolog/numere CE (Comisia Enzimatică). Arcurile reprezintă maparea dintre elementele ambelor seturi. Pentru EM binar, setul A constă din contig mapate la grupuri de ortologi și greutatea fiecărui arc este 1

Deși modelul binar uniform permite calcularea activității căii prin alocarea de grupuri ortologi la căi, are unele limitări care îl împiedică pentru capturarea atributelor specifice ale rețelei metabolice. De exemplu, modelul uniform binar atribuie doar valoarea 1 sau 0, dacă grupul ortolog aparține sau nu unei căi. Această presupunere da sau nu nu este întotdeauna adevărată, deoarece poate exista o parte fracțională a unui grup ortolog care aparține unor căi diferite. În plus, modelul de uniformitate nu este ușor de aplicat proceselor naturale, deoarece toate atribuțiile nu sunt niciodată la fel de probabile. În cele din urmă, modelul nu este complet stabil, ci mai degrabă periodic, cu unele subseturi de grupuri de ortologi care fluctuează între căi.

Estimarea pe bază de grafice a semnificației căii

În mod ideal, o metodă cuprinzătoare de analiză a căii ar lua în considerare poziția și rolul fiecărei gene într-o cale, eficiența cu care este efectuată o anumită reacție și câțiva factori limitanți (de exemplu, tratarea datelor metagenomice sau nu). Cu datele genomului, este posibil să se ia în considerare dimensiunea căilor, lungimea genei și suprapunerea în conținutul genelor între căi [5] pentru a calcula abundența relativă a căilor și clasarea căilor, dar această abordare ar putea să nu funcționeze cu datele ARN-Seq, mai ales în absența acestora. a unei referințe genomului.

De acum înainte, în cea de-a doua abordare, fiecare cale este privită ca o rețea de enzime numite și numere EC (numerele Comisiei Enzimatice) pentru a calcula semnificația lor statistică. Semnificația activității căii într-o probă este măsurată prin caracterul aleatoriu al pozițiilor enzimelor potrivite în graficul căii KEGG corespunzător. Aleatorietatea este măsurată folosind un model de permutare pentru a găsi aliniamente și motive semnificative ale căilor [10].

Acest model presupune că subsetul de enzime exprimate într-o cale activă adnotată ar trebui să fie conectat. Modelul de permutare a enzimei găsește gradul mediu de vârf în subgraf indus de enzimele exprimate. Apoi același parametru este calculat pentru suficient de multe permutări aleatorii ale etichetelor enzimelor. Potrivirea semnificativă statistic ar trebui să aibă o densitate mai mare de 95 % din permutări. Caracteristicile specifice ale graficului luate în considerare în analiza noastră sunt:

Numărul de noduri. Un nod reprezintă o proteină care a fost cartografiată în timpul BLAST. KEGG atribuie de obicei o culoare verde acelor proteine ​​din grafic.

Densitate = (Număr de muchii)/(Număr de noduri - 1)

Fracție de 0 noduri de grad în și în exterior. Să sunați la acest număr X. X este definit de:

x = ((numărul de noduri cu grad în afara = 0) + (numărul de noduri cu gradul în interior = 0)) / 2 * (numărul de noduri)

Luăm în considerare și alte criterii precum (1) numărul de componente verzi conectate, (2) Cel mai mare număr de noduri într-o componentă conectată și (3) Cel mai mare număr de muchii într-o componentă conectată.

Folosind aceste metrici, calculăm densitatea graficului indus compus doar din proteine ​​mapate. Obținem numele acelor proteine ​​prin numerele EC de pe grafic. Mai jos, prezentăm două modele bazate pe grafice, schimbarea etichetelor de vârf și schimbarea marginilor pentru generarea aleatorie de grafice, pentru a analiza căile. Acest model este explicat prin partea stângă a Fig. 1.

Model 1: Schimbarea etichetelor vârfurilor pentru generarea aleatorie de grafice

În acest model, păstrăm aceeași topologie, dar permitem schimbul de etichete între două vârfuri (Fig. 3 prezintă un exemplu). O problemă cunoscută a acestei abordări este aceea că vârfurile cu grad ridicat sunt întotdeauna conectate. Acest lucru ar putea duce la prea multe potriviri semnificative, crescând astfel rata fals pozitive. Algoritmul de schimbare a etichetelor de vârf poate fi reprezentat după cum urmează:

Modelul de schimb de etichete de vârf pentru generarea aleatorie de grafice. Schimbăm doar vârfuri care au etichete diferite. O etichetă este un atribut al unui vârf care reprezintă o proteină mapată sau nu

Model 2: Schimbarea marginilor pentru generarea aleatorie de grafice

Din cauza părtinirii modelului de schimbare a etichetelor vârfurilor, am implementat și schimbarea marginilor. Aici, ideea este să păstrăm aceleași gradele de intrare și de exterior ale fiecărui nod, schimbând nodurile numai dacă aceste valori nu se schimbă. Păstrăm etichetele vârfurilor la fel. Figura 4 prezintă un exemplu când permutăm două margini.

Model de schimb de margini pentru generarea aleatorie de grafice. Înainte de a schimba muchiile, verificăm dacă gradul de intrare și de exterior al vârfurilor implicate rămâne același

Algoritmul de schimbare a marginilor poate fi reprezentat după cum urmează:

Analiza diferențială a activității și semnificației căii

Analiza diferențială a activității căii

Scopul acestei analize este de a determina care cale trebuie luată în considerare mai îndeaproape pentru a înțelege diferența în metabolismul a două organisme. În acest scop, folosim expresia căii calculată din modelul binar prezentat mai devreme. Mai întâi calculăm expresia fiecărei căi prezente în setul de căi pe care le obținem de la KEGG pentru un eșantion dat. Apoi calculăm diferența dintre expresia fiecărei căi. Conform acestui model, căile selectate ca având activitate diferențială sunt cele în care raportul expresiei lor este mai mare decât un anumit prag. Tabelul 3 prezintă rezultatele noastre privind analiza diferențială a activității căii.

Analiza diferențială a semnificației căii

Analiza diferențială a semnificației căii se bazează pe p-valoare descrise în subsecțiunea bazată pe grafice a Metodelor. Permutăm aleatoriu fiecare grafic de cale generat m diferite grafice. Rețineți că chiar și cele mai mici grafice de cale conține cel puțin 15 noduri și aproximativ 40 de muchii, ceea ce este suficient pentru a genera implicit m=200 de grafice aleatorii distincte. O cale este semnificativă dacă p-valoare din cartografiere este mai mică de 5 %. The p-valoare este poziția graficului original atunci când este plasat în lista sortată a tuturor graficelor generate aleatoriu, sortate mai întâi după „densitate” (de la cel mai mare la cel mai mic) și apoi după numărul de noduri care au 0 grad în interior sau 0 grad în exterior (de la cel mai mic la cel mai mare). ). O cale este semnificativ daca este p-valoare este mai mică de 5 %, foarte semnificative daca este p-valoare este mai mică de 1 % și cel mai semnificativ daca este p-valoare este mai mică sau egală cu 0,5 %.

Lăsa p1 fi cel p-valoare pentru cale X in proba 1 si lasati p2 fii p-valoare pentru cale X în proba 2. Spunem că calea X este semnificativ diferențial între cele două eșantioane dacă probabilitatea calculată prin ecuația lui p r o b D i f f(X) de mai jos este mai mare de 50 %.

De exemplu, să luăm în considerare m=200 de grafice generate aleatoriu și modelul de schimb de etichete de vârf. În Fig. 5 reprezentând o parte a căii de alungire a acizilor grași (ko00062), enzimele mapate (dreptunghiuri umplute) din proba 1 formează un sub-graf cu densitate = 1,875 și numărul de grade 0 in/out = 0,11 pentru acel sub- grafic. După sortarea graficului, poziția graficului nostru original este prima, prin urmare p-valoare p1=0.5 % (cea mai semnificativă cale având în vedere cele 200 de grafice). În eșantionul 2, enzimele mapate (dreptunghiuri umplute) formează un sub-graf cu densitate = 1,375, număr de 0 in/out grad = 0,22 pentru acel sub-graf și poziția sa după sortare este 148. Aceasta are ca rezultat un p-valoare p2=74.5 % (nu este o mapare semnificativă).

Analiza diferenţială a căii. În eșantionul 1, enzimele mapate (dreptunghiuri umplute) formează un subgraf cu densitate = 1,475, numărul de grade 0 in/out = 0,11 și p-valoare = 0,5. În eșantionul 2, enzimele mapate (dreptunghiuri umplute) formează un sub-graf cu densitate = 1,375, numărul de grade 0 in/out = 0,22 și p-valoare =.74. Pe baza acestora p-valoare, spunem că această cale este semnificativă diferențial

Pe baza valorii lui p1 și p2, p r o b D i f f(k o00062)=.74 care este mai mare de 50 %. Concluzionăm că ko00062 este semnificativ diferențial în cele două eșantioane.


Discuţie

Diferențierea osteogenă este un proces complex în care interacțiunea dintre gene și căi nu a fost pe deplin descoperită. Conform protocolului Societății Internaționale de Terapie Celulară, MSC-urile ar trebui să posede următoarele trei caracteristici: (i) să aibă capacitatea de a adera la suprafețele din plastic (ii) test pozitiv pentru CD90, CD73 și CD105 și negativ pentru CD79, CD19, CD45, CD34, CD14 sau CD11b și HLA-DR și (iii) au potențialul de a se diferenția în osteoblaste, condrocite și adipocite in vitro [18]. În acest studiu, ne-am propus să obținem mai multe informații despre identificarea genelor hub și a căilor cheie în timpul etapelor timpurii, mijlocii și târzii ale diferențierii osteogene (zilele 0, 8, 12 și 25) ca căi comune și individuale.

Atât căile Wnt canonice, cât și necanonice contribuie la reglarea osteogenezei

Calea Wnt joacă un rol în migrarea, creșterea, determinarea destinului celular, diferențierea și [19, 20] diferențierea osoasă [21]. Există patru gene supraregulate (FRZB, FZD4, SFRP, și FZD1) în calea Wnt non-canonică. Această cale este frecvent reglată în sus în zilele 8, 12 și 25 (Fig. 1a). FRZB a avut cel mai mare logFC timp de 3 zile. Supraexprimarea lui FRZB prin calea Wnt/CaMKII promovată osteogenă, dar nu prin activarea căii canonice [22]. FRZB pare a fi important în rețeaua de gene (Fig. 2a). S-a raportat interacțiunea sa cu liganzii canonici și necanonici. FZD4 aparține familiei Frizzled (FZD). Legarea Wnt la FZD4 activează semnalizarea canonică Wnt/β-catenină și promovează diferențierea osteogenă. Studii recente au arătat că miR-139-5p se leagă de CTNNB1 și FZD4, reduce expresia acestora și apoi diferențierea osteogenă este scăzută [23]. S-a raportat că stimularea mecanică a promovat osteogeneza prin calea Wnt5a/FZD4 în BM-MSC prin calea Wnt non-canonică [24]. SFRP1 este o altă genă suprareglată în această cale care are un rol în inhibarea atât a căilor canonice, cât și a căilor non-canonice [25].

NF-kB este un mediator important în promovarea osteogenezei de către receptorul toll-like 4 prin calea BMP2

Calea de semnalizare mediată de LPS a fost o altă BP care a fost reglată în sus pentru toate cele 3 zile (Fig. 1a). Au fost cinci gene implicate în acest termen BP (IL18, NFKBIA, TLR4, SCARB1, și CD14). TLR4 și CD14 din această cale sunt două gene care sunt implicate în calea de semnalizare TLR4. Trei proteine ​​accesorii, inclusiv MD2, LBP și CD14, au roluri în activarea TLR4. LBP și CD14 facilitează transferul LPS la complexul TLR4/MD2 [26]. Un studiu a raportat că liganzii TLR2 și TLR4 (peptidoglican și, respectiv, LPS) și TNF-α cresc diferențierea osteogenă prin activarea NF-κB în celulele stem derivate din țesut adipos uman (hADSC) [27]. Luate împreună, aceste rezultate sugerează că NF-kB este un factor de transcripție important în reglarea osteogenezei (Fig. 4a). Hess et al. au demonstrat că activarea NF-kB care este indusă de TNF-α promovează diferențierea osteogenă prin creșterea expresiei BMP-2 și a fosfatazei alcaline (ALP) [28].

Model de reglare PI3K/AKT și Wnt/β-catenina în diferențierea osteogenă. Căi importante în osteoblast care promovează osteogeneza prin PI3K/AKT și β-catenina. A PI3K/AKT și relația sa cu factorii de creștere, atașarea ECM, IGF1, IGF2, LPS și BMP2 sunt ilustrate în partea de sus a acestei figuri. Semnul întrebării de lângă PI3K/AKT/NF-kB indică dacă PI3K/AKT joacă un rol semnificativ în timpul osteogenezei direct prin semnalizarea BMP2 sau indirect prin reglarea în sus a NF-kB. b Sunt prezentate interacțiunea sau conexiunile genelor și căilor cu β-catenina. Wnt/β-catenina interacționează sau este afectată de FGF, IGF-1/IGF-2, IGFBP7, VEGF, integrin-ILK, ITGA11/β1, ITGA5/β1, CDH11, ERK/MAPK, PI3K/AKT, IL-6, si adiponectina. Steaua roșie reprezintă gene regulate în mod obișnuit în toate cele 3 zile. Sunt reprezentate doar expresia MAPK3 (ERK1) în ziua 8, ITGA5 în zilele 8 și 25 și atât IGFBP7, cât și ITGA11 în ziua 25. ECM, matrice extracelulară PI3K, fosfoinozitid 3-kinaza MKK, MAP kinaze kinaze

Nișa celulelor stem și micromediul mediază osteogeneza prin calea de semnalizare PI3K/AKT

Am observat că calea PI3K/AKT a fost reglată la fiecare 3 zile. Au fost 21 de gene implicate în această cale (Fig. 2b). Recent, rezultatele unui studiu au arătat că factorul de creștere derivat din trombocite (PDGF) a crescut diferențierea osteogenă indusă de TGF-β. Cu toate acestea, PDGF singur nu a afectat diferențierea osteogenă, mai degrabă, a existat un dialog încrucișat sinergic între căile PI3K/AKT (mediate de PDGF și protein kinaza activată de mitogen (MAPK)/ERK kinaza (mediată de TGF-β [29). Sa raportat că supresorul PDGF a promovat adipogeneza prin semnalizarea PI3K [30] Am observat că, în urma stimulării factorilor de creștere PDGFD și VEGFB, au fost activate receptorii tirozin kinazei PDGFRA și PDGFRB, urmate de reglarea în sus a proteinei kinazei 2 activate de mitogen (MAP2K2) a MAPK (pentru mai multe detalii, a se vedea secțiunea următoare) și a subunității de reglare a fosfoinozitid-3-kinazei 1 (PIK3R1) care aparține la calea PI3K (Fig. 4a).

Deși calea de semnalizare PI3K/AKT este implicată în procesul de osteogeneză la oameni și șoareci [31, 32]. La șoareci, rolul acestei căi este arătat în osificarea endocondrală [33], această cale având și un rol în multe funcții MSC [34]. In vitro, AKT contribuie la condrogeneza și dezvoltarea osteoblastelor în creșterea metatarsiană izolată de la șoareci [35]. S-a raportat că activarea semnalizării PI3K/AKT a fost importantă în pluta membranară bogată în colesterol noncaveolar, probabil pentru osteogeneza MSC umană [31].

Diferențierea osteogenă în celulele stem ale tendonului de șobolan (TSC) este afectată de prostaglandina E2 care activează semnalizarea PI3K/AKT, rezultând diferențierea osteogenă indusă de BMP [36]. Interesant este că BMP-2 pare să medieze efectele căii PI3K/AKT asupra osteogenezei. Rolul BMP-2 a fost demonstrat în angajamentul progenitorilor în osteoblaste și în stimularea Runx2 și a altor factori de transcripție, cum ar fi Dlx3 și Dlx5, care promovează osteogeneza [37, 38]. Într-un alt studiu, s-a sugerat că AKT ar putea să nu medieze direct expresia BMP-2, mai degrabă, promovează osteogeneza, eventual printr-un factor de transcripție cum ar fi NF-κB [36]. Inducerea acestei căi de către factorul de creștere asemănător insulinei (IGF) a promovat diferențierea osteoblastelor prin BMP. Rolul IGF-urilor, de asemenea, în formarea și dezvoltarea osului este prin calea PI3K/AKT [32].

Mukherjee și colab. au demonstrat că AKT a jucat un rol în toate etapele diferențierii osteogene. Rezultatele unui studiu au indicat că AKT2, dar nu AKT1, a fost important în diferențierea osteogenică prin BMP-2, că AKT2 a stimulat expresia genei Runx2 [39]. În general, rezultatele PPI în această cale au dezvăluit interacțiunea PIK3R1 și a subunității integrinei alfa V (ITGAV), care sunt gene importante în această rețea (Fig. 2b).

Reglarea genelor implicate în calea MAPK a condus la reglarea osteogenezei

În studiul nostru, MAP2K2 din calea PI3K-AKT (în ziua 3) și MAPK3 (în ziua 8) ca genă hub au fost reglate. MAP2K, inclusiv MEK1 (MAP2K1) și MEK2 (MAP2K2), activează ERK1 (MAPK3) și ERK2 (MAPK1) [40]. Studiile au arătat că calea MAPK este importantă pentru formarea osului [41,42,43]. Cu toate acestea, rolul MAPK-urilor în osteogeneză este contradictoriu. Un studiu recent a demonstrat că TRIB3 a influențat proliferarea și diferențierea în stadiul mediu de diferențiere prin inhibarea ERK1/2 [44]. După cum sa menționat mai sus, mecanismul molecular pe care TLR4 este implicat în controlul soartei MSC-urilor către osteogeneză este încă descoperit. La activarea MAP kinazei kinazelor (MKK) în calea TLR4, p38, JNK și ERK1/2 s-au activat [45]. În studiul recent, activarea maximă a ERK a fost demonstrată în timpul osteogenezei hADSC în ziua 7, când stimularea LPS a fost îmbunătățită [46].

S-a demonstrat recent că JNK1 este un regulator negativ al osteogenezei prin BMP-2 prin fosforilarea Runx2 [47]. JNK2 este necesar în stadiul târziu al diferențierii osteogene [48]. Interesant, într-un studiu, rezultatele au arătat că JNK1 a fost implicat în mineralizare în stadiul târziu al diferențierii osteogene și a mediat expresia crescută a IGF2 și VEGFα din factorii proangiogenici [49]. p38 este un regulator pozitiv în sinteza OCN [50]. Semnalizarea MAPK ar putea fi afectată de diverși factori, cum ar fi factori de creștere (TGF-β, BMP și FGF2), integrine (ECM) și încărcare mecanică [51], care, în factorii de creștere și integrine, au fost în concordanță cu studiul nostru (Fig. .4a). ERK și p38 MAP kinaza ar putea juca un rol în diferențierea osteoblastelor prin fosforilarea genelor legate de diferențierea osteogenă, cum ar fi RUNX2, Osx și DLX5 [51].

Genele în semnalizarea adeziunii focale promovează diferențierea osteogenă

Au fost 14 gene (ITGA1, ITGA10, ITGB5, CTNNB1, MYL9, VEGFB, LAMA2, COMP, ITGAV, PDGFRA, PDGFRB, PDGFD, COL11A1, și PIK3R1) implicat în calea focală de adeziune care a crescut în zilele 8-25. Am observat reglarea în sus a subunității integrinei alfa 5 (ITGA5) în zilele 8 și 12. Hamidouche și colab. a remarcat că căile de semnalizare FAK/ERK1/2-MAPK și PI3K au promovat diferențierea osteogenă prin inducerea hMSC-urilor ITGA5 [52]. S-a raportat că activarea ITGA5 a indus atât expresiile IGF2, cât și IGFBP2 prin semnalizarea FAK, ERK1/2 și PI3K, ceea ce a dus la diferențierea osteogenă în hMSC [53]. Într-un alt studiu, cilengitida (o pentapeptidă RGD ciclică) este un inhibitor ITGAV [54] care poate elimina osificarea în BM-MSC [55]. Interacțiunea dintre osteopontină și integrina αv/β1 a indus osteogeneza și a inhibat adipogeneza în MSC [56]. Prin urmare, legarea osteopontinei, fibronectinei și a altor molecule implicate în diferențierea osteogenă ar putea determina posibilul echilibru între MSC-urile care se angajează spre diferențierea adipogenă sau osteogenă [57]. Am observat suprareglarea cadherinei 11 (CDH11) în toate cele 3 zile. CDH11 este implicat în conexiunile celulare și are un rol în semnalizarea celulelor. CDH11 este exprimat în osteogeneza osteoblastelor. A fost raportat rolul său în angajarea osteoblastelor și diferențierea osteogenică [58]. Datele noastre au arătat că genele legate de adeziunea celulară, cum ar fi ITGA11 și proteina de legare a factorului de creștere asemănător insulinei 7 (IGFBP7) a fost de asemenea suprareglată în ziua 25. Integrina α11 (ITGA11) este un receptor pentru osteolectină care activează calea Wnt și promovează osteogeneza [59]. Recent, Zhang și colab. a raportat de asemenea că IGFBP7 gena a promovat diferențierea osteogenă a hBM-MSC prin reglarea în sus a căii β-cateninei [60].

Relația dintre genele hub și calea Wnt în timpul osteogenezei

A fost studiat rolul unor gene hub importante, inclusiv interleukina (IL)-6, AKT1, VEGFA, CDK1, PLK1, CDC20, CCNA2, MAPK3 (în ziua 8) și CTNNB1 (în zilele 8 și 25) în calea Wnt (suplimentar Masa 2).

Efectele inhibitoare ale IL-6 în diferențierea osteoblastelor în artrita reumatoidă se datorează interacțiunii sale negative cu calea Wnt [61]. Într-un studiu, Li și colab. a sugerat că efectul IL-6 asupra inhibării diferențierii osteogene se datorează efectului său inhibitor asupra căii Wnt canonice [62].

AKT1 este o genă importantă în calea PI3K/AKT. Au fost efectuate studii despre dialogul între căile de semnalizare Wnt/β-catenina și PI3K/AKT [63, 64]. Han şi colab. au raportat că inhibarea PI3K/AKT a suprimat transcripția prin β-catenina în celulele de glioblastom [64]. β-catenina poate fi fosforilată direct la Ser552 de către AKT, care o separă de contactul celulă-celulă și crește translocarea β-cateninei în nucleu, atât in vitro, cât și in vivo [65].

VEGFA joacă un rol esențial în angiogeneză. Numeroase studii au evaluat rolul jucat de VEGFA în legarea osteogenezei și angiogenezei [66, 67]. În celulele osteoblastice și endoteliale, VEGF a indus formarea osoasă prin calea β-cateninei [68]. Inhibarea β-cateninei sau distrugerea Wnt4 în MSC a condus la revenirea efectelor proangiogenice induse de semnalizarea Wnt [69].

CDK1, PLK1, CDC20 și CCNA2 sunt gene implicate în ciclul celular. Proliferarea și diferențierea au conexiuni opuse [70]. În acord cu studiile anterioare, genele legate de ciclul celular au fost reglate în jos [71, 72]. Asocierea dintre sistemul Wnt și genele legate de ciclul celular în timpul osteogenezei a fost mai puțin observată. Un studiu a sugerat că inducerea Wnt/β-cateninei prin fosforilarea LRP6 este reglată prin Ciclin Y/CDK în faza G2/M [73]. Calea canonică Wnt joacă, de asemenea, un rol important în controlul ciclului celular [74].

MAPK3 este legat de calea MAPK. Rezultatele au arătat că ERK interacționează cu calea de semnalizare Wnt/β-catenină. De asemenea, sa demonstrat că calea ERK este implicată în diferențierea osteoblastelor prin reglarea RUNX2, β-cateninei și ATF4 [43]. Calea Wnt este influențată indirect de semnalizarea ERK/MAPK prin inhibarea GSK-3β de către p38, JNK și ERK [75].

Rolul β-cateninei a fost implicat atât în ​​căile Wnt canonice, cât și în adeziunea celulă-celulă [16, 76]. În calea canonică, frizzled și LRP5/6 sunt activate de liganzii Wnt. În prezența liganzilor Wnt, complexul de distrugere (GSK3, AXIN și APC) este inhibat și această inhibare ajută la stabilizarea și translocarea β-cateninei în nucleu [77,78,79,80]. Există un site pe promotorul Runx2 pentru β-catenina/TCF-1, care activează expresia acestei gene și promovează diferențierea osteogenă [81]. Tornero-Esteban et al. a investigat implicarea Wnt și posibilele mecanisme compensatorii implicate în fiziopatologia osteoartritei (OA). Ei au arătat că nivelurile crescute de β-catenină în OA-MSC nu au însoțit o creștere osteogenă, sugerând că mecanismele compensatorii sunt implicate în modularea transcripțională a diferențierii osteogene [82]. Datorită rolului important al β-cateninei în calea Wnt, în secțiunea următoare, am evaluat β-catenina care interacționează/sau este afectată de alte căi.

Calea Wnt/β-catenină ar putea interacționa/sau a fost afectată de alte căi asociate cu osteogeneza

Interacțiunea dintre moleculele de semnalizare legate de integrină și calea Wnt a sugerat că receptorii integrinei sunt asociați cu kinaza legată de integrină (ILK) [83]. GSK3β este fosforilată în urma activării ILK [84]. Activarea căilor de semnalizare Wnt/β-cateninei și PI3K-Akt conduce la diferențierea osteogenă pe integrina α5β1 amorsată folosind peptide în celulele scheletice mezenchimale [85]. Un alt studiu a arătat că osteolectina/α11β1 are ca rezultat activarea căii Wnt care a crescut β-catenina nucleară și, în final, a promovat osteogeneza [59]. CDH11 este implicat în osteoblastele implicate în descendența osteogenă. Interesant este că adipogeneza nu a fost afectată de CDH11 și poate fi mediată prin β-catenina [58]. A fost raportată o relație între factorii de creștere și calea de semnalizare Wnt în timpul osteogenezei. (IGF)-I și IGF-II pot afecta, de asemenea, calea de semnalizare a β-cateninei [86, 87]. IGFBP7 a indus și osteogeneza în ziua 25. FGF interacționează cu calea Wnt/β-catenină în osteogeneză în timpul reglării factorului de transcripție al Osx [88]. Rolul adiponectinei ca adipocitokină a fost demonstrat în formarea osului prin calea Wnt/β-catenină [89]. În general, Wnt/β-catenina interacționează sau este afectată de PI3K/AKT, ERK/MAPK, CDH11, integrine (integrină-ILK, integrină α5β1, integrină α11β1), factori de creștere (FGF, IGF1/IGF2, IGFBP7 și VEGF), IL6 și adiponectina (Fig. 4b).


Clustering, îmbogățirea căilor și analiza interacțiunii proteină-proteină a expresiei genelor în tulburările de neurodezvoltare

Tulburarea de dezvoltare neuronală este o clasă de boli în care există afectarea sistemului nervos central și a funcției creierului. Creierul în faza sa de dezvoltare suferă schimbări uriașe în funcție de stadiu și de factorii de mediu. Tulburările de neurodezvoltare includ anomalii asociate cu tulburările cognitive, de vorbire, de citit, de scris, lingvistice, de comunicare și de creștere cu efecte pe parcursul vieții. Metodele de calcul oferă un potențial mare pentru îmbunătățirea cercetării și a înțelegerii mecanismului molecular al bolilor. În acest studiu, am folosit patru mostre de date de dezvoltare neuronală microarray: control, RV (resveratrol), NGF (factor de creștere a nervilor) și RV + NGF. Prin utilizarea metodelor computaționale, am identificat gene care sunt exprimate în stadiul incipient al dezvoltării neuronale și, de asemenea, implicate în bolile neuronale. Am folosit aplicația MeV pentru a grupa datele brute folosind coeficientul de corelație Pearson al metricii distanței. În cele din urmă, 60 de gene au fost selectate pe baza analizei de coexpresie. Analiza ulterioară a căilor a fost efectuată folosind instrumentul Metascape, iar procesul biologic a fost studiat folosind baza de date de ontologie genetică. Au fost identificate un total de 13 gene AKT1, BAD, BAX, BCL2, BDNF, CASP3, CASP8, CASP9, MYC, PIK3CD, MAPK1, MAPK10 și CYCS care sunt comune în toate clusterele. Aceste gene sunt implicate în tulburările de dezvoltare neuronală și cancerele precum cancerul colorectal, apoptoza, tuberculoza, scleroza laterală amiotrofică (ALS), moartea neuronilor și calea cancerului de prostată. A fost efectuat un studiu de interacțiune proteină-proteină pentru a identifica proteinele care aparțin aceleiași căi. Aceste gene pot fi utilizate pentru a proiecta inhibitori potențiali împotriva tulburărilor neurologice în stadiul incipient al dezvoltării neuronale. Probele de microarray discutate în această publicație fac parte din datele depuse în Gene Expression Omnibus al NCBI (Yadav et al., 2018) și sunt accesibile prin seria GEO (număr de acces GSE121261).

1. Introducere

1.1. Tulburare de dezvoltare neuronală

Neurogeneza este un proces de generare de neuroni noi și funcționali din precursori neuronali cunoscuți ca NSC (celule stem neuronale) [1, 2]. Neuronii funcționali sunt generați în stadiul embrionar în diferite stadii de dezvoltare de-a lungul vieții [3, 4].Cu progresul rapid în tehnici și curiozitatea de a înțelege bolile neuronale în stadiul de dezvoltare, cercetătorii au explorat o arie largă de boli de dezvoltare neuronală și cauzele acestora [5-8]. Celulele stem neuronale au două caracteristici majore care sunt capacitatea de regenerare, adică capacitatea de auto-reînnoire prin procesul de diviziune celulară și capacitatea de diferențiere, adică procesul de generare a unor tipuri de celule noi și specializate [9]. Neuronii dezvoltați nu poartă dendrite și axoni, dar joacă un rol important în primirea și trimiterea semnalelor către alți neuroni [10]. S-a făcut o dezvoltare semnificativă pentru a identifica genele care sunt implicate în bolile neuronale în stadiul de dezvoltare [11]. Este important să studiem diferitele etape ale dezvoltării sistemului nervos și să identificăm anomaliile care pot apărea din dezvoltarea necorespunzătoare a creierului în stadiul incipient [12]. Oamenii de știință au adus o contribuție semnificativă la identificarea tulburărilor neuronale care apar în stadiul incipient de dezvoltare [13]. Tulburările neuronale includ anomalii asociate cu dizabilitățile intelectuale, tulburarea de hiperactivitate cu deficit de atenție (ADHD) și tulburările de abilități cognitive, cum ar fi dislexia și disgrafia, și tulburările de dezvoltare a limbajului, cum ar fi tulburarea de expresie [14-18]. Dovezile științifice arată că tulburările neurologice pot fi identificate în stadiu incipient, în prima săptămână sau lună a ciclului de viață [19-21]. Este important să identificăm care gene sunt cruciale și au ca rezultat tulburări neurologice.

Am folosit experimentul cu microarray de mare debit pentru a identifica genele care sunt implicate în stadiul incipient al dezvoltării neurologice. Scopul nostru a fost să identificăm genele care au fost exprimate atunci când celulele stem au fost expuse la MCP (monocrotophos), un neurotoxic, și să evaluăm rolul eficient al resveratrolului (RV) și al factorului de creștere a nervilor (NGF) ca neuroprotector.

1.2. Resveratrol Perspective clinice

Resveratrolul este un fenol natural și fitoalexină produse în mod natural de mai multe plante ca răspuns la răni [22]. Există dovezi exponențiale încă din 1939 în literatură că resveratrolul este un compus natural promițător pentru prevenirea și tratamentul unei game largi de boli umane [23]. Resveratrolul este, de asemenea, raportat a fi eficient împotriva disfuncției celulelor neuronale și a morții celulare, a bolii Huntington și a bolii Alzheimer [24-27]. Studiile moleculare arată că resveratrolul este asociat cu o inducere a genelor pentru fosforilarea oxidativă și biogeneza mitocondrială [28]. Se știe că efectul resveratrolului prelungește durata de viață și afectează funcția mitocondrială și homeostazia metabolică [29]. În lucrarea actuală, am cartografiat eficacitatea resveratrolului împotriva probelor de neurodezvoltare lezate. În acest studiu, au fost preparate patru probe (martor, resveratrol, NGF și RV + NGF). Au fost luate seturi de date de probe pregătite pentru a investiga rolul neuroprotector al resveratrolului împotriva expunerii la monocrotofos. Analiza expresiei in silico a diferitelor seturi de date se face pentru a identifica genele care sunt coexprimate.

1.3. Analiza datelor cu microarray

Micromatricele oferă o sursă bogată de date despre mecanismul molecular al funcției celulare. Fiecare microarray raportează expresia a mii de ARNm [30]. Practic, aproape fiecare boală umană este studiată folosind experimentul cu microarrays, cu scopul de a găsi noi gene implicate în boli și markeri de boală și de a identifica ținte de medicamente [31]. Analiza bioinformatică joacă un rol important în procesarea informațiilor, încorporată în studiile de profilare a expresiei la scară largă și pentru interpretarea biologică a datelor de microarray de mare capacitate [32]. O sarcină de bază, dar provocatoare în analiza datelor despre expresia genelor microarray, este identificarea modificărilor în expresia genelor care sunt asociate cu anumite condiții biologice [33, 34]. Proiectarea și analiza statistică atentă sunt esențiale pentru a identifica genele implicate în fiecare condiție biologică.

Este necesar un flux de lucru standard pentru a utiliza instrumente de calcul la diferite etape ale analizei microarray. Această lucrare descrie, de asemenea, utilizarea diferitelor instrumente bioinformatice pentru controlul calității, normalizare, coexprimare, adnotare și analiza interacțiunii proteine-proteină.

1.4. Clustering și analiza coexpresiei

Clusteringul este o metodă de identificare a genelor care sunt coexprimate în fiecare condiție biologică [35]. Metodele de grupare utilizează o măsură a distanței (de exemplu, metrica euclidiană) pentru a compara valorile de expresie ale perechilor de gene pentru fiecare experiment [36]. Când distanța dintre o pereche de gene este mică, atunci cele două gene ar putea fi grupate. Clusterele sunt analizate pentru a identifica genele care sunt coexprimate și corelate.

1.5. Adnotare și interpretare biologică

După o analiză extinsă a datelor microarray, trebuie să adnotăm ID-urile Affymetrix pentru semnificația lor. Adnotarea dezvăluie semnificația biologică a genelor, cum ar fi calea sa moleculară, bolile implicate, ontologia genelor și așa mai departe [37]. Este necesară o explorare atentă pentru a identifica genele care sunt exprimate în fiecare condiție a experimentului cu microarray. Îmbogățirea căilor și proceselor este o parte crucială a adnotării, deoarece duce la identificarea unui set de gene care sunt implicate în aceleași căi [38]. Analiza căilor evidențiază, de asemenea, setul de proteine ​​care interacționează între ele, această informație este folosită pentru a clasifica partenerii de interacțiune proteină și pentru a studia rețeaua de interacțiune proteină-proteină [39].

2. Materiale și metode

2.1. Date microarray

MSC-urile (celule stem mezenchimale) au fost folosite pentru a studia efectul monocrotofosului (MCP) și capacitatea de reparare a resveratrolului și a factorului de creștere a nervilor. MSC-urile au fost expuse la RV, NGF și, respectiv, RV + NGF. În total, au fost generate patru mostre pentru a identifica genele care au fost coexprimate în stadiul de dezvoltare neuronală. Platforma cipului genei Affymetrix (Prime view.CDF) a fost utilizată pentru a identifica expresia genei folosind patru mostre, așa cum este descris în tabelul 1.

2.2. Analiza și adnotarea datelor cu microarray

Au fost folosite software și instrumente de calcul pentru a identifica genele care sunt coexprimate. Figura 1 prezintă fluxul de lucru utilizat pentru analiza și adnotarea datelor cu microarray. Au fost utilizate fișiere brute, adică fișiere electronice de cip (CEL) și fișier de descriere a cipului (CDF) pentru analiza controlului calității. R și Bioconductor, pachetul Affy, a fost folosit pentru normalizarea datelor și transformarea datelor. Matricea de expresie genică a fost generată din pachetul Affy, folosind RMA (medie robustă multiarray).

Analiza semnificativă a microarrayului (SAM) [40] și gruparea au fost efectuate folosind aplicația MeV [41]. Metoda de grupare a fost utilizată pentru a grupa genele semnificative obținute prin metoda SAM. Pentru grupare, a fost utilizat coeficientul de corelație Pearson al metricii distanței, folosind parametrul algoritmului k-means, numărul de cluster 10 și numărul de iterație 50. Genele coexprimate au fost identificate prin analiza fiecărui zece clustere.

2.3. Îmbogățirea căilor și analiza interacțiunii proteină-proteină

Genele coexprimate identificate din analiza grupării au fost adnotate în continuare pentru intervenția biologică și analiza căii. Lista genelor coexprimate a fost căutată în baza de date a căii și GO folosind instrumentul Metascape (http://metascape.org) [42]. Fiecare genă a fost studiată pentru calea sa și scorul de îmbogățire a procesului pentru semnificația statistică a genelor în fiecare proces biologic. Genele au fost, de asemenea, grupate în funcție de căile lor. Relația dintre gene a fost, de asemenea, identificată prin utilizarea hărții rețelei generată din instrumentul Metascape și vizualizată în instrumentul Cytoscape [43].

Analiza interacțiunii proteină-proteină este efectuată de diferite baze de date de interacțiune proteine, cum ar fi BioGrid, InWeb_IM și OmniPath, folosind instrumentul Metascape. Algoritmul de detectare a complexului molecular (MCODE) a fost folosit de instrumentul Metascape pentru a identifica o rețea dens conectată de interacțiune proteină-proteină [44].

3. Rezultate

3.1. Analiza Controlului Calitatii

Controlul calității (QC) este un aspect important al examinării datelor de microarray, înainte de efectuarea oricărei analize statistice. Analiza QC a fost efectuată folosind pachetul Affy de R și Bioconductor [45]. Figura 2 prezintă imaginea chipului a patru mostre: (a) eșantion de control, (b) eșantion NGF, (c) eșantion RV și (d) eșantion RV + NGF, înseamnă că nu există nicio eroare în cipurile din toate cele patru mostre și pot fi utilizate pentru explorarea și analiza datelor.

3.2. Normalizarea și transformarea datelor

Găsirea unui răspuns biologic relevant din experimentul cu microarray este o nevoie primară a oricărui experiment cu microarray. Variațiile în expresia genelor nu ar trebui să provină din punct de vedere biologic de la nicio sursă de erori, cum ar fi părtinirea coloranților, laserelor, probelor și reperarea cipurilor în timpul experimentului cu microarray [46]. Pentru a analiza datele cu microarray, trebuie să eliminați aceste părtiniri și erori în experimentul cu microarray. Normalizarea este o metodă de a elimina aceste erori sistematice care afectează măsurile de exprimare a genelor [47]. După analiza QC, normalizarea s-a făcut folosind pachetul Affy de R și Bioconductor. Am folosit metoda RMA de normalizare. Figura 3 prezintă diagrama cu case a patru eșantioane după normalizarea datelor. Box plot prezintă valori statistice precum media sau mediana și variațiile între eșantioane [48]. Figura 3 arată că mijloacele tuturor celor patru eșantioane sunt în poziție. Datele au fost transformate la valoarea logaritmului de bază 2 a raportului de expresie și a fost scrisă matricea de expresie, pentru analize și comparații statistice ulterioare.

3.3. Clustering și analiza coexpresiei

S-a făcut o analiză semnificativă a microarrayului (SAM) pentru a identifica numărul de gene care au fost semnificative statistic. Din 49.495 de gene, 49.022 de gene s-au dovedit a fi nesemnificative și 473 de gene au fost semnificative statistic. Gruparea K-means a fost realizată pe gene semnificative cu parametrul de k = 10. Zece clustere au fost generate și studiate pentru coexprimarea genelor. Figura 4 prezintă grupul 1 (este prezentat doar un grup, dar toate cele zece grupuri au fost studiate pentru analiza coexpresiei) care arată coexpresia Tp53 și a genei celulelor B cll/limfom2. În plus, Caspaza-8, Caspaza-10 și receptorul de dopamină sunt de asemenea coreglate.

Analiza tuturor celor zece clustere are ca rezultat identificarea genelor coexprimate. Analiza riguroasă a grupării arată că 60 de gene au fost coexprimate (AKT1, BAD, BAX, BCL2, BDNF, CASP3, CASP8, CASP9, MYC, PIK3CD, MAPK1, MAPK10 și CYCS). Aceste gene au fost folosite pentru ontologia genelor, funcția biologică și analiza căilor. Descrierile, inclusiv funcția acestor 60 de gene, au fost prezentate în analiza de îmbogățire a căilor și proceselor.

3.4. Analiza îmbogățirii căilor și proceselor

Genele coexprimate care au fost grupate în etapa de grupare au fost utilizate pentru adnotarea și interpretarea biologică. Instrumentul Metascape a fost folosit pentru a studia calea și procesul acestor 60 de gene. Rețeaua de interacțiune proteină-proteină a fost construită pentru a identifica mai multe proteine ​​care au funcție similară și aparțin aceleiași căi. 60 de gene au fost grupate în continuare în 20 de grupuri pe baza scorului lor de îmbogățire (scorul de îmbogățire este scorul dintre numărul observat și numărul așteptat din întâmplare) [49].

În fiecare cluster, un termen reprezintă clusterul care este cel mai semnificativ statistic [42]. Figura 5 prezintă harta termică a termenilor îmbogățiți colorați cu

valoare. Analiza de îmbogățire a căilor arată că majoritatea genelor au fost implicate în cancerul colorectal, calea de semnalizare a neurotrofinelor, moartea neuronilor și calea de semnalizare a hormonilor tiroidieni. Alte grupuri indică gene care au fost implicate în răspunsul celular la compușii organoazotați, răspunsul la nicotină și dezvoltarea capului. Genele care aparțin acestor grupuri au fost studiate în detaliu pentru analiza funcției și a căilor.

Primele 5 clustere sunt afișate în Tabelul 2. Numărul este numărul de gene din fiecare grup procentual este ontologia totală a genei furnizată în lista de gene. [42].

Îmbogățirea căilor arată că genele de dezvoltare neuronală sunt implicate în cancerul colorectal, moartea neuronilor și alte boli precum leucemia și scleroza [50]. Genele AKT1, BAD, BAX, BCL2, CASP3, CASP8, CASP9, MYC, PIK3CD, MAPK1, MAPK10 și CYCS sunt exprimate în mod obișnuit în grupul de cancer colorectal, calea de semnalizare neuronală, moarte neuronală, acleroză laterală amitrofică și tuberculoză [51]. ]. Alte proteine ​​sunt identificate care prezintă interacțiune cu aceste proteine ​​pe baza studiului interacțiunii proteină-proteină.

3.5. Analiza îmbogățirii interacțiunii proteine-proteine

Îmbogățirea interacțiunii proteină-proteină (PPI) a fost făcută printre lista de gene care au fost grupate în analiza de îmbogățire a căilor și proceselor. Instrumentul Metascape prezice rețeaua PPI comparând-o cu bazele de date de interacțiune cu proteine ​​(BioGrid, InWeb_IM și OmniPath) [42]. PPI este realizat între proteine ​​care au interacțiuni fizice, iar rețeaua PPI este subgrupată în continuare pe baza scorului valorii. Figura 6 prezintă harta PPI între setul de gene de intrare. Sunt identificate trei gene cu cele mai bune scoruri în funcție de valoare, aceste proteine ​​definesc funcționalitatea rețelei PPI. Cele mai bune gene aparțin apoptozei (hsa04210) [52], cancerului colorectal (hsa05210) [53] și hepatitei B (hsa05161) [54]. Rețeaua PPI reprezintă implicarea genelor de dezvoltare neuronală în boli precum cancerul.

Metoda de detectare a complexului molecular (MCODE) a fost aplicată pentru a identifica proteinele strâns legate din rețeaua PPI. Algoritmul MCODE a subgrupat rețeaua PPI în 3 subclustere. Figura 7 prezintă componentele MCODE (roșu, albastru și verde ca MCODE 1, 2 și 3). Au fost realizate trei PPI dense și detaliile fiecărui cluster sunt date în Tabelul 3. Predicția MCODE validează rezultatele grupării, așa cum s-a arătat anterior în Figura 4. Același set de proteine ​​a fost identificat prin algoritmul MCODE așa cum a fost prezis prin grupare folosind instrumentul MeV. Aceste proteine ​​au aceeași GO și aceeași cale.

Se efectuează analiza grupării componentelor MCODE și detaliile proteinelor implicate în fiecare grup și căile lor corespunzătoare sunt prezentate în tabelul 3. Clusterul 1 include proteinele CASP3, CASP9, BAX, TP53, BAD, GSK3B, POU5F1, MAPK14, CREB1, SOX2, și KLF4. Datele ontologiei genetice arată că aceste proteine ​​sunt asociate cu scleroza laterală amiotrofică (hsa05014) [55], cancerul colorectal (hsa05210) [56] și reglarea pozitivă a morții neuronilor (GO: 1901216) [57].

Genele Clusterului 2 sunt menționate în Tabelul 3. Analiza GO arată că aceste proteine ​​aparțin căii de semnalizare a hormonilor tiroidieni (hsa04919) [55], bolilor de transducție a semnalului (R-HSA-5663202) [56] și căilor în cancer (hsa05200) [57]. Proteinele grupului 3 sunt implicate în căile de toxoplasmoză (hsa05145) [55], tuberculoză (hsa05152) [56] și stresul de forfecare a fluidelor și ateroscleroza (hsa05418) [55].

Clusterul MCODE și clusterul de software MeV arată că unele gene au fost exprimate în mod obișnuit și au fost corelate. Genele AKT1, BAD, BAX, BCL2, BDNF, CASP3, CASP8, CASP9, MYC, PIK3CD, MAPK1, MAPK10 și CYCS sunt corelate. Analiza PPI identifică alte proteine ​​care au interacțiune cu proteinele menționate mai sus. Aceste proteine ​​sunt importante în diferențierea neuronală, iar proteinele de regenerare precum ACTB, GSK3B, CREB1 și CTNNB1 au interacțiune fizică cu proteinele coexprimate [58]. Tabelul 3 oferă, de asemenea, informații despre proteine ​​și asocierea cu boli. Analiza bolilor asociate cu proteinele evidențiază faptul că unele proteine ​​aparțin unor clase diferite de cancere. 12 proteine ​​(CASP3, CASP9, BAX, TP53, BAD, GSK3B, MTOR, BCL2L11, SIRT1, CASP8, AKT1 și proteinele C TNNB1) sunt implicate în diverse tipuri de cancere precum cancerul pulmonar, cancerul de sân, cancerul ovarian, cancerul colorectal, și leucemie [59].

În timp ce alte proteine ​​(GSK3B, POU5F1, MAPK14, CREB1, SOX2, KLF4, PRKACA, MAPK10, STAT1, ACTB, TUBB3, MYC, GAPDH, AKT1 și CTNNB1) sunt legate de procesul de îmbătrânire, boli neuronale, boli cardiovasculare, creier anormal. dezvoltare, retard mental, schizofrenie și infecții micobacteriene și virale [60–62].

Constatările cheie ale studiului de asociere a căii și bolii sunt identificarea proteinelor implicate în bolile neurologice și, de asemenea, exprimate în stadiul incipient al dezvoltării neuronale. Proteina SOX2 a fost exprimată în hipoplazia nervului optic și anomalii ale sistemului nervos central [63], STAT1 a fost exprimat în timpul infecțiilor micobacteriene și virale [64], TUBB3 a fost asociat cu fibroză și displazie corticală și deformări ale creierului, AKT1 a fost exprimat în cancerul de sân, cancerul colorectal, cancerul ovarian și schizofrenia [65] și CTNNB1 a fost exprimat în cancerul colorectal, carcinomul hepatocelular, cancerul ovarian și retardul mental [66]. Studiul arată că proteinele (SOX2, STAT1, AKT1 și CTNNB1) pot fi utilizate ca markeri pentru boli neurologice în stadiul incipient al dezvoltării neuronale și pot fi potențiale ținte de medicamente pentru dezvoltarea terapeutică.

4. Concluzie și discuții

Experimentul cu microarray este conceput pentru a investiga genele care sunt exprimate în stadiul incipient al dezvoltării neuronale. Datele de exprimare a genelor microarray de neurodezvoltare sunt utilizate pentru a identifica genele care sunt exprimate în tulburările neuronale, în stadiul inițial de progres [67]. Au fost preparate patru probe, adică control, resveratrol, factor de creștere a nervilor și RV + NGF și hibridizate cu cip Affymetrix (Prime view). A fost construită matricea expresiei genice și a fost făcută analiza computațională. Protocolul este conceput pentru a studia genele semnificative biologic. Fluxul de lucru pentru analiza datelor cu microarray include controlul calității, normalizarea datelor, gruparea, îmbogățirea căilor și studiul PPI. Analiza grupării identifică genele care sunt coexprimate. Aceste seturi de gene coexprimate sunt utilizate pentru analiza de îmbogățire a căilor și proceselor. Ontologia genelor și studiul căilor dezvăluie proteine ​​care împărtășesc căi și funcții comune. O altă rețea de interacțiune proteină-proteină este construită pentru a identifica un număr mai mare de proteine, care au interacțiune fizică cu proteinele coexprimate. Rețeaua PPI este subgrupată pentru a prezice proteinele strâns legate. Informațiile despre ontologia genetică a acestor proteine ​​sunt utilizate pentru a identifica funcția și boala asociată cu proteinele. Se preconizează că 12 proteine ​​CASP3, CASP9, BAX, TP53, BAD, GSK3B, MTOR, BCL2L11, SIRT1, CASP8, AKT1 și CTNNB1 sunt implicate în diferite tipuri de cancer, cum ar fi cancerul pulmonar, cancerul de sân, cancerul ovarian, cancerul colorectal, și leucemie [60, 61, 62].Unele proteine ​​precum proteinele SOX2, STAT1, AKT1 și CTNNB1 sunt asociate cu boli neurologice cum ar fi dezvoltarea anormală a creierului, retardul mental, schizofrenia și infecțiile micobacteriene și virale [63-66]. Aceste gene pot fi folosite ca markeri pentru boli neurologice, pentru detectarea anomaliilor în stadiul incipient al dezvoltării neuronale [67]. Proteinele prezise pot acționa, de asemenea, ca potențiale ținte de droguri pentru procesul de dezvoltare a medicamentelor. Sunt necesare lucrări suplimentare pentru verificarea în laborator umed a genelor prezise care sunt exprimate în tulburări neurologice și se exprimă în stadiul de dezvoltare. Sunt necesare mai multe cercetări în domeniul biologiei neurodezvoltării pentru a identifica anomaliile neurologice în stadiul de îngrădire. Această lucrare subliniază, de asemenea, importanța experimentului cu microarray în înțelegerea bolilor neurologice și a metodologiei de a studia diferite rezultate ale datelor despre expresia genelor, cum ar fi analiza coexpresiei, identificarea căilor și proceselor și studiul rețelei de interacțiune proteină-proteină.

Disponibilitatea datelor

Datele microarray utilizate pentru a susține concluziile acestui studiu sunt incluse în fișierul de informații suplimentare.

Conflicte de interes

Autorii declară că nu au conflicte de interese.

Materiale suplimentare

Fișierele brute cu microarray cu matrice de expresie genetică (fișiere CEL și CDF) au fost utilizate pentru a face matrice de expresie genetică folosind pachetul Affy și metoda RMA (medie robustă multiarray). Acest fișier matrice a fost folosit pentru analize suplimentare de microarray, cum ar fi analiza de grupare, cale și interacțiune proteină-proteină. Calea și interacțiunea proteină-proteină este prezentată, așa cum este generată din instrumentul Metascape. Acest fișier include informații despre grupările formate în gene și detalii de rețea cu scoruri. Fișierul de adnotări de adnotare și îmbogățire și rezultatul îmbogățirii căii generate de instrumentul Metascape este dat. Fișierul de adnotare include informații despre gene, cum ar fi simbolul genei, descrierea genei, procesul biologic GO, funcția proteinei și așa mai departe. (Materiale suplimentare)

Referințe

  1. P. S. Eriksson, E. Perfilieva, T. B. Eriksson și colab., „Neurogeneza în hipocampul uman adult”, Medicina Naturii, vol. 4, nr. 11, p. 1313, 1998. Vizualizare la: Site-ul editorului | Google Academic
  2. H. Van Praag, G. Kempermann și F. H. Gage, „Alergarea crește proliferarea celulară și neurogeneza în gyrusul dentat de șoarece adult”, Neuroștiința naturii, vol. 2, nr. 3, p. 266, 1999. Vizualizare la: Site-ul editorului | Google Academic
  3. H. Van Praag, A. F. Schinder, B. R. Christie, N. Toni, T. D. Palmer și F. H. Gage, „Nurogeneza funcțională în hipocampul adult”, Natură, vol. 415, nr. 6875, p. 1030, 2002. Vizualizare la: Site-ul editorului | Google Academic
  4. J. Wegiel, I. Kuchna, K. Nowicki et al., „Neuropatologia autismului: defecte ale neurogenezei și migrației neuronale și modificări displazice”, Acta Neuropatologica, vol. 119, nr. 6, pp. 755–770, 2010. Vizualizare la: Site-ul editorului | Google Academic
  5. M. V. Johnston, M. E. Blue și N. Sakkubai, „Sindromul Rett și dezvoltarea neuronală”, Journal of Child Neurology, vol. 20, nr. 8, pp. 759–763, 2005. Vizualizare la: Site-ul editorului | Google Academic
  6. A. M. Galaburda, J. LoTurco, F. Ramus, R. H. Fitch și G. D. Rosen, „De la gene la comportament în dislexia de dezvoltare”, Neuroștiința naturii, vol. 9, nr. 10, pp. 1213–1217, 2006. Vizualizare la: Site-ul editorului | Google Academic
  7. D. A. Lewis și P. Levitt, „Schizofrenia ca tulburare a neurodezvoltării”, Revizuirea anuală a neuroștiinței, vol. 25, nr. 1, pp. 409–432, 2002. Vizualizare la: Site-ul editorului | Google Academic
  8. B. D. Trapp și K.-A. Nave, „Scleroza multiplă: o boală imunitară sau neurodegenerativă?” Revizuirea anuală a neuroștiinței, vol. 31, pp. 247–269, 2008. Vizualizare la: Site-ul editorului | Google Academic
  9. G. Muñoz-Elías, W. Dale și I. B. Black, „Celule stromale ale măduvei, mitoză și diferențiere neuronală: celule stem și funcții precursoare”, Celule stem, vol. 21, nr. 4, pp. 437–448, 2003. Vizualizare la: Site-ul editorului | Google Academic
  10. M. Schuldiner, R. Eiges, A. Eden și colab., „Diferențierea neuronală indusă a celulelor stem embrionare umane”, Cercetarea creierului, vol. 913, nr. 2, pp. 201–205, 2001. Vizualizare la: Site-ul editorului | Google Academic
  11. D. P. Purpura, „Dezvoltarea neuronală normală și aberantă în cortexul cerebral al fătului uman și al sugarului mic”, în Mecanismele creierului în întârzierea mintală, Elsevier Inc., Amsterdam, Olanda, 1975. Vizualizare la: Site-ul editorului | Google Academic
  12. A. E. West și M. E. Greenberg, „Transcrierea genelor reglate de activitatea neuronală în dezvoltarea sinapselor și funcția cognitivă”, Cold Spring Harbour Perspective în biologie, vol. 3, nr. 6, ID articol a005744, 2011. Vizualizare la: Site-ul editorului | Google Academic
  13. M. P. Whitaker-Azmitia, „Serotonina și dezvoltarea creierului: rol în bolile de dezvoltare umană”, Buletinul de cercetare a creierului, vol. 56, nr. 5, pp. 479–485, 2001. Vizualizare la: Site-ul editorului | Google Academic
  14. T. L. Bale, T. Z. Baram, A. S. Brown și colab., „Programarea timpurie a vieții și tulburările de neurodezvoltare”, Psihiatrie biologică, vol. 68, nr. 4, pp. 314–319, 2010. Vizualizare la: Site-ul editorului | Google Academic
  15. H. Y. Zoghbi, „Tulburări de neurodezvoltare postnatale: întâlnire la sinapsă?” Ştiinţă, vol. 302, nr. 5646, pp. 826–830, 2003. Vizualizare la: Site-ul editorului | Google Academic
  16. M. Dennis, D. J. Francis, P. T. Cirino, R. Schachar, M. A. Barnes și J. M. Fletcher, „De ce IQ-ul nu este o covariabilă în studiile cognitive ale tulburărilor de neurodezvoltare,” Jurnalul Societății Internaționale de Neuropsihologie, vol. 15, nr. 3, pp. 331–343, 2009. Vizualizare la: Site-ul editorului | Google Academic
  17. P. Krakowiak, C. K. Walker, A. A. Bremer et al., „Condiții metabolice materne și risc pentru autism și alte tulburări de neurodezvoltare”, Pediatrie, vol. 129, nr. 5, pp. e1121–e1128, 2012. Vizualizare la: Site-ul editorului | Google Academic
  18. P. Levitt, K. L. Eagleson și E. M. Powell, „Regularea dezvoltării interneuronului neocortical și implicațiile pentru tulburările de neurodezvoltare”, Tendințe în neuroștiințe, vol. 27, nr. 7, pp. 400–406, 2004. Vizualizare la: Site-ul editorului | Google Academic
  19. I. C. Gillberg și C. Gillberg, „Copii cu tulburări minore de neurodezvoltare preșcolară. IV: comportament și rezultate școlare la vârsta de 13 ani,” Medicina Dezvoltarii si Neurologia Copilului, vol. 31, nr. 1, pp. 3–13, 1989. Vizualizare la: Site-ul editorului | Google Academic
  20. M. J. Millan, „Un cadru epigenetic pentru tulburările de neurodezvoltare: de la patogeneză la terapie potențială”, Neurofarmacologie, vol. 68, pp. 2–82, 2013. Vizualizare la: Site-ul editorului | Google Academic
  21. J. A. Baur și D. A. Sinclair, „Potențialul terapeutic al resveratrolului: dovezile in vivo”, Nature Reviews Descoperire săpată, vol. 5, nr. 6, p. 493, 2006. Vizualizare la: Site-ul editorului | Google Academic
  22. L. Frémont, „Efectele biologice ale resveratrolului”, Științele vieții, vol. 66, nr. 8, pp. 663–673, 2000. Vizualizare la: Site-ul editorului | Google Academic
  23. M. Lagouge, C. Argmann, Z. Gerhart-Hines et al., „Resveratrolul îmbunătățește funcția mitocondrială și protejează împotriva bolilor metabolice prin activarea SIRT1 și PGC-1α,” Celulă, vol. 127, nr. 6, pp. 1109–1122, 2006. Vizualizare la: Site-ul editorului | Google Academic
  24. M. H. Aziz, S. Reagan-Shaw, J. Wu, B. J. Longley și N. Ahmad, „Chemoprevention of skin cancer by grape constituent resveratrol: relevance to human disease?” Jurnalul FASEB, vol. 19, nr. 9, pp. 1193–1195, 2005. Vizualizare la: Site-ul editorului | Google Academic
  25. K. Magyar, R. Halmosi, A. Palfi și colab., „Cardioprotecție prin resveratrol: un studiu clinic uman la pacienții cu boală coronariană stabilă”, Hemoreologie clinică și microcirculație, vol. 50, nr. 3, pp. 179–187, 2012. Vizualizare la: Site-ul editorului | Google Academic
  26. V. Vingtdeux, U. Dreses-Werringloer, H. Zhao, P. Davies și P. Marambaud, „Potențialul terapeutic al resveratrolului în boala Alzheimer”, BMC Neuroscience, vol. 9, nr. 2, p. S6, 2008. Vizualizare la: Site-ul editorului | Google Academic
  27. E. N. Frankel, A. L. Waterhouse și J. E. Kinsella, „Inhibarea oxidării LDL umane prin resveratrol”, The Lancet, vol. 341, nr. 8852, pp. 1103-1104, 1993. Vizualizare la: Site-ul editurii | Google Academic
  28. G. López-Lluch, P. M. Irusta, P. Navas și R. de Cabo, „Biogeneza mitocondrială și îmbătrânirea sănătoasă”, Gerontologie experimentală, vol. 43, nr. 9, pp. 813–819, 2008. Vizualizare la: Site-ul editorului | Google Academic
  29. A. Biala, E. Tauriainen, A. Siltanen și colab., „Resveratrolul induce biogeneza mitocondrială și ameliorează remodelarea cardiacă indusă de Ang II la șobolanii transgenici care găzduiesc gene de renină umană și angiotensinogen” Tensiune arteriala, vol. 19, nr. 3, pp. 196–205, 2010. Vizualizare la: Site-ul editorului | Google Academic
  30. de M. X. Renée, J. M. Boer și H. C. van Houwelingen, „Microarray data analysis”, Bioinformatica aplicata, vol. 3, nr. 4, pp. 229–235, 2004. Vizualizare la: Site-ul editorului | Google Academic
  31. A. T. Weeraratna și D. D. Taub, Analiza datelor cu microarray, Humana Press, New York City, NY, SUA, 2007.
  32. P. Behzadi, E. Behzadi și R. Ranjbar, „Microarray data analysis”, Provocare, vol. 7, p. 8, 2014. Vizualizare la: Google Scholar
  33. G. K. Smyth, Y. H. Yang și T. Speed, „Probleme statistice în analiza datelor cu microarray cDNA”, Genomica funcțională, Humana Press, New York City, NY, SUA, 2003. Vizualizare la: Site-ul editorului | Google Academic
  34. T. Jirapech-Umpai și S. Aitken, „Selectarea și clasificarea caracteristicilor pentru analiza datelor cu microarray: metode evolutive pentru identificarea genelor predictive”, Bioinformatica BMC, vol. 6, nr. 1, p. 148, 2005. Vizualizare la: Site-ul editorului | Google Academic
  35. G. Getz, E. Levine și E. Domany, „Coupled two-way clustering analysis of gene microarray data,” Proceedings of the National Academy of Sciences, vol. 97, nr. 22, pp. 12079–12084, 2000. Vizualizare la: Site-ul editorului | Google Academic
  36. R. K. Curtis, M. Orešič și A. Vidal-Puig, „Căi către analiza datelor microarray”, TENDINȚE în biotehnologie, vol. 23, nr. 8, pp. 429–435, 2005. Vizualizare la: Site-ul editorului | Google Academic
  37. T. Werner, „Aplicații de bioinformatică pentru analiza căii de date microarray”, Opinie actuală în biotehnologie, vol. 19, nr. 1, pp. 50–54, 2008. Vizualizare la: Site-ul editorului | Google Academic
  38. G. Wu, X. Feng și L. Stein, „O rețea de interacțiune a proteinelor funcționale umane și aplicarea acesteia la analiza datelor despre cancer”, Biologia genomului, vol. 11, nr. 5, p. R53, 2010. Vizualizare la: Site-ul editorului | Google Academic
  39. S. Dudoit, R. C. Gentleman și J. Quackenbush, „Software open source pentru analiza datelor microarray”, Biotehnici, vol. 34, nr. 13, pp. 45–51, 2003. Vizualizare la: Site-ul editorului | Google Academic
  40. E. Howe, K. Holton, S. Nair, D. Schlauch, R. Sinha și J. Quackenbush, „Mev: Multiexperiment Viewer”, Informatica biomedicala pentru cercetarea cancerului, Springer, Boston, MA, SUA, 2010. Vizualizare la: Google Scholar
  41. S. Tripathi, M. O. Pohl, Y. Zhou et al., „Integrarea meta-și ortogonală a datelor OMIC de gripă definește un rol pentru UBR4 în înmugurirea virusului”, Celulă gazdă și microbi, vol. 18, nr. 6, pp. 723–735, 2015. Vizualizare la: Site-ul editorului | Google Academic
  42. L. Shuaichen și G. Wang, „Analiza bioinformatică dezvăluie CYP2C9 ca un potențial marker de prognostic pentru liniile celulare de HCC și cancer hepatic potrivit pentru studiul mecanismului său.” Biologie celulară și moleculară, vol. 64, nr. 7, pp. 70–74, 2018. Vizualizare la: Site-ul editorului | Google Academic
  43. A. Kuno, K. Nishimura și S. Takahashi, „Analiza transcriptomului în timp a reprogramării celulare umane de la mai multe tipuri de celule dezvăluie că schimbarea drastică are loc între faza mijlocie și faza târzie”, BMC Genomics, vol. 19, nr. 1, p. 9, 2018. Vizualizare la: Site-ul editorului | Google Academic
  44. C. L. Wilson și C. J. Miller, „Simpleaffy: un pachet BioConductor pentru controlul calității Affymetrix și analiza datelor”, Bioinformatica, vol. 21, nr. 18, pp. 3683–3685, 2005. Vizualizare la: Site-ul editorului | Google Academic
  45. R. A. Irizarry, „Explorarea, normalizarea și rezumatele datelor la nivel de sondă de matrice de oligonucleotide de înaltă densitate”, Biostatistica, vol. 4, nr. 2, pp. 249–264, 2003. Vizualizare la: Site-ul editorului | Google Academic
  46. D. P. Kreil, N. A. Karp și K. S. Lilley, „Metodele de normalizare a micromatricelor ADN pot elimina părtinirea din analiza exprimării proteinelor diferențiale a rezultatelor electroforezei pe gel diferențelor 2D”, Bioinformatica, vol. 20, nr. 13, pp. 2026–2034, 2004. Vizualizare la: Site-ul editorului | Google Academic
  47. Y. H. Yang, „Normalizarea pentru datele de microarray ADNc: o metodă compozită robustă care abordează variația sistematică a unei diapozitive simple și multiple”, Cercetarea acizilor nucleici, vol. 30, nr. 4, p. e15, 2002. Vizualizare la: Site-ul editorului | Google Academic
  48. Da W. Huang, B. T. Sherman și R. A. Lempicki, „Instrumente de îmbogățire bioinformatică: căi către analiza funcțională cuprinzătoare a listelor mari de gene”, Cercetarea acizilor nucleici, vol. 37, nr. 1, pp. 1–13, 2008. Vizualizare la: Site-ul editorului | Google Academic
  49. S. E. Soden, C. J. Saunders, L. K. Willig et al., „Eficacitatea exomului și secvențierii genomului ghidată de acuitatea bolii pentru diagnosticarea tulburărilor de neurodezvoltare”, Medicină translațională a științei, vol. 6, nr. 265, ID articol 265ra168, 2014. Vizualizare la: Site-ul editorului | Google Academic
  50. S. Wang, Z. Z. Chong, Y. C. Shang și K. Maiese, „Wnt1 inductible signaling pathway protein 1 (WISP1) blocks neurodegeneration through phosphoinozitid 3 kinaze/Akt1 and apoptotic mitocondrial signaling implicing Bad, Bax, Bim, and Bcl-xL,” Cercetări neurovasculare curente, vol. 9, nr. 1, pp. 20–31, 2012. Vizualizare la: Site-ul editorului | Google Academic
  51. Y. S. Lee, S. G. Hwang, J. K. Kim și colab., „Identificarea unor noi gene țintă terapeutice în cancerul de sân dobândit rezistent la lapatinib prin meta-analiză integrativă”, Biologie tumorală, vol. 37, nr. 2, pp. 2285–2297, 2016. Vizualizare la: Site-ul editorului | Google Academic
  52. A. L. Tarca, S. Draghici, G. Bhatti și R. Romero, „Down-weighting overlapping genes improves gene set analysis”, BMC Bioinformatica, vol. 13, nr. 1, p. 136, 2012. Vizualizare la: Site-ul editorului | Google Academic
  53. S.-L. Chen, Z.-M. Wang, Z.-Y. Hu și B. Li, „Analiza la nivelul genomului a ARN-urilor lungi necodante exprimate diferențial induse de stresul de forfecare scăzut în celulele endoteliale ale venei ombilicale umane”, Medicina Moleculara Integrativa, vol. 2, pp. 276–289, 2015. Vizualizare la: Site-ul editorului | Google Academic
  54. Z.-P. Liu, Y. Wang, X.-S. Zhang și L. Chen, „Identificarea diafoniei disfuncționale a căilor în diferite regiuni ale creierului bolii Alzheimer”, Biologia sistemelor BMC, vol. 4, nr. 2, 2010. Vizualizare la: Site-ul editorului | Google Academic
  55. R. Wang, J. Wei, Z. Li, Y. Tian și C. Du, „Analiza bioinformatică a semnăturilor expresiei genelor ale diferitelor subtipuri de gliom”, Scrisori oncologice, vol. 15, nr. 3, pp. 2807–2814, 2018. Vizualizare la: Site-ul editorului | Google Academic
  56. H.-Q. Wang, X.-P. Xie și C.-H. Zheng, „O metodă de clasificare bazată pe căi care poate îmbunătăți diagnosticul cancerului colorectal bazat pe microarray”, în Proceedings of International Conference on Intelligent Computing, Springer, Berlin, Heidelberg, august 2011. Vizualizare la: Google Scholar
  57. J. K. Choudhari, B. P. Sahariah, J. K. Choubey, A. Patel și M. K. Verma, „Identificarea potențialului factor de transcripție și proteine ​​kinazelor pentru reglarea genelor exprimate diferențial pentru expunerea la fluor la om folosind abordarea Expression2Kinases (X2K)” Analiza modelării rețelelor în informatica sănătății și bioinformatică, vol. 6, nr. 1, p. 7, 2017. Vizualizare la: Site-ul editorului | Google Academic
  58. V. Uversky, I. Na, K. Landau și R. Schenck, „Proteine ​​foarte dezordonate în cancerul de prostată”, Știința actuală a proteinelor și peptidelor, vol. 18, nr. 5, pp. 453–481, 2017. Vizualizare la: Site-ul editorului | Google Academic
  59. E. Weinstein, X. Cui și P. Simmons, Editarea genomică a genelor de neurodezvoltare la animale, Cererea de brevet SUA nr. 12/842.
  60. D. Nousome, „Identificarea factorilor de risc genetici pentru mutismul cerebelos la pacienții cu tumoare cerebrală pediatrică”, Școala de Sănătate Publică a Universității din Texas, Houston, TX, SUA, 2012, disertație. Vizualizați la: Google Scholar
  61. C. R. Sullivan, C. Mielnik, S. M. O’Donovan și colab., Analize de conectivitate ale modificărilor bioenergetice în schizofrenie: identificarea unor tratamente noi, bioRxiv, 2018.
  62. A. L. M. Ferri, „Deficiența Sox2 cauzează neurodegenerare și neurogeneza afectată în creierul șoarecilor adulți”, Dezvoltare, vol. 131, nr. 15, pp. 3805–3819, 2004. Vizualizare la: Site-ul editorului | Google Academic
  63. T. Nishibori, Y. Tanabe, L. Su și M. David, „Dezvoltarea afectată a celulelor T reglatoare CD4+CD25+ în absența STAT1: susceptibilitate crescută la boli autoimune”, Journal of Experimental Medicine, vol. 199, nr. 1, pp. 25–34, 2004. Vizualizare la: Site-ul editorului | Google Academic
  64. G. Xiromerisiou, G. M. Hadjigeorgiou, A. Papadimitriou, E. Katsarogiannis, V. Gourbali și A. B. Singleton, „Asociație între gena AKT1 și boala Parkinson: un haplotip protector,” Scrisori de neuroștiință, vol. 436, nr. 2, pp. 232–234, 2008. Vizualizare la: Site-ul editorului | Google Academic
  65. T. Morikawa, „Asociația modificărilor CTNNB1 (β-catenină), indicelui de masă corporală și activitate fizică cu supraviețuire la pacienții cu cancer colorectal”, JAMA, vol. 305, nr. 16, pp. 1685–1694, 2011. Vizualizare la: Site-ul editorului | Google Academic
  66. N. N. Parikshak, M. J. Gandal și D. H. Geschwind, „Biologia sistemelor și rețelele de gene în tulburările neurodezvoltării și neurodegenerative”, Nature Reviews Genetica, vol. 16, nr. 8, p. 441, 2015. Vizualizare la: Site-ul editorului | Google Academic
  67. P. B. Crino, J. Q. Trojanowski, M. A. Dichter și J. Eberwine, „Markeri neuronali embrionari în scleroza tuberoasă: patologia moleculară cu o singură celulă”, Proceedings of the National Academy of Sciences, vol. 93, nr. 24, pp. 14152–14157, 1996. Vizualizare la: Site-ul editorului | Google Academic

Drepturi de autor

Copyright © 2018 Ruchi Yadav și Prachi Srivastava. Acesta este un articol cu ​​acces deschis distribuit sub Licența de Atribuire Creative Commons, care permite utilizarea, distribuirea și reproducerea fără restricții pe orice mediu, cu condiția ca lucrarea originală să fie citată corespunzător.


Discuţie

Într-un studiu anterior (21), am arătat că transcriptoamele reprezentând răspunsul in vivo la trei stadii de creștere ale speciei L. plantarum a arătat promovarea specifică etapei a rețelelor și căilor de reglare a genelor conduse de NF-κB. Pentru a ajuta la proiectarea unor studii viitoare asupra mecanismelor probiotice și a studiilor terapeutice umane și pentru a extinde cunoștințele noastre de bază despre răspunsurile umane in vivo la lactobacili obișnuiți, am obținut răspunsuri transcripționale in vivo ale mucoasei duodenale ale adulților sănătoși la trei tulpini probiotice utilizate pe scară largă de diferite. Lactobacillus specii și un control placebo conform unui design de studiu randomizat dublu-orb încrucișat. Condițiile experimentale au fost alese astfel încât homeostazia intestinală să nu se piardă. Cantitățile de bacterii consumate au fost de aproximativ 10 10 , doze recomandate pentru a atinge utilitatea clinică (33). Am măsurat răspunsurile acute la bacteriile lactice, și anume după 6 ore de consum, în partea proximală a duodenului. Se poate aștepta ca răspunsurile măsurate să fie mai puțin adecvate pentru a oferi indicii asupra posibilelor efecte probiotice în ileonul sau colonul mai distal. În prezent, nu se știe cum răspunsurile acute pe care le-am măsurat sunt legate de consumul prelungit de probiotice. Modificările modeste ale expresiei genelor (cel mult, modificări moderate de ori până la 10 pentru câteva gene care codifică citokine, de obicei modificări mai mici de ori, sub sau aproape de 2) sugerează că intervențiile noastre nu au condus la pierderea homeostaziei imune și metabolice. Ne așteptăm ca transcripția reglată în sus a genelor care codifică factorii implicați în imunitate să revină la nivelurile de bază dacă probioticele sunt consumate o dată pe zi. Prin urmare, este posibil ca răspunsurile mucoasei care au fost măsurate în acest studiu să fie declanșate frecvent la indivizi, potențial zilnic. Terapia standard cu probiotice implică adesea consumul zilnic de cel puțin o singură porție de probiotice timp de mai multe săptămâni. Atunci când se proiectează studii clinice pe baza constatărilor din acest manuscris, aceste aspecte ar trebui să fie luate în considerare ori de câte ori este posibil și, în mod ideal, implică măsurători în mai multe puncte de timp și în diferite locații de-a lungul intestinului.

În acest studiu, am descoperit că transcriptoamele s-au grupat pe persoană, nu pe intervenție, arătând că variația de la persoană la persoană a expresiei genelor a fost cel mai mare determinant al diferențelor dintre transcriptoame. Cu toate acestea, consumul de diferiți lactobacili probiotici a condus la profiluri de expresie semnificativ diferite in vivo în mucoasa umană, coroborând ideea că tulpinile probiotice specifice, potențial chiar stadiul de creștere a bacteriilor dintr-un preparat (21), induc răspunsuri specifice la om. Rețineți că este posibil ca concluziile acestui studiu să nu se aplice tuturor tulpinilor probiotice ale unei anumite specii. Am reconstruit profilurile de expresie a mucoasei în rețele cuprinzătoare, le-am adnotat cu funcție biologică și am transformat rețelele de gene în căi de semnalizare interconectate. În mod surprinzător, profilurile de expresie in vivo prezintă o asemănare semnificativă cu profilurile de expresie din experimentele farmaceutice de mare capacitate care vizează profilarea răspunsurilor liniilor celulare comune tratate cu molecule mici cu impact farmaceutic și bioactivitate cunoscute, inclusiv mai multe medicamente. Genele care joacă roluri centrale în rețelele de reglementare arată puține variații între indivizi, iar corelațiile lor pot explica o parte din efectele probiotice observate în studiile clinice. Rețineți că răspunsurile noastre măsurate in vivo pot fi specifice duodenului proximal și pot duce probabil la efecte locale în mucoasa intestinală, în timp ce majoritatea medicamentelor acționează sistemic în fluxul sanguin. Datele și interpretările din acest studiu pot ajuta la proiectarea rațională a studiilor clinice care implică voluntari umani pentru a măsura efectele rezultate din tratamentele cu probiotice.

Consumul de L. acidophilus Lafti L10 a dus la modularea reglării transcripționale a căii de semnalizare IL-23 asociată cu IBD mucoasei. La voluntarii sănătoși, subunitatea p40 a IL-23 nu a prezentat expresie diferențială, în timp ce expresia subunității p19 a fost reglată în jos. Expresia p40 și p19 a fost reglată în sus în lamina propria a persoanelor care suferă de boala Crohn (27), în timp ce o scădere a p19 a ameliorat inflamația indusă de bacterii într-un model de colită de șoarece (34). Reglarea observată a semnalizării IL-23 este, prin urmare, mai în concordanță cu un rol în toleranța imună. Mai multe chemokine induse de IFN specifice Th1, cum ar fi CXCL10 și CXCL11 și gene sensibile la IFN au fost reglate în sus, indicând faptul că consumul de L. acidophilus Lafti L10 poate promova răspunsurile imune Th1. Într-un model de șoarece, ingestia orală de L. acidophilus Lafti L10 a condus la o stimulare a răspunsurilor imune înnăscute, în principal printr-o producție crescută de IFN (35). Poate fi interesant să se testeze efectul L. acidophilus în modelele de boală care se caracterizează prin lipsa răspunsului Th1 și pierderea asociată a toleranței imune. De asemenea, poate fi de interes să se investigheze dacă consumul de L. acidophilus are un efect pozitiv asupra ameliorării hipertensiunii musculare intestinale și reglarea echilibrului de apă și sare, așa cum sugerează analiza ConnMap.

Consumul de L. casei CRL-431 poate promova o schimbare a echilibrului Th1/Th2 la un tip Th2 și/sau tip Th17, acesta din urmă ținând cont de reglarea crescută observată a IL-17D (sin. IL-22) și IL-21 (36). IL-15, IL-17D (IL-22) și IL-21 sunt, de asemenea, implicate în dezvoltarea celulelor natural killer (37 ⇓ –39), celule imunitare ale căror roluri mai reglatoare în imunologia mucoasei au fost recunoscute abia recent. Am observat o expresie crescută a receptorilor de suprafață care sunt tipice pentru celulele prezentatoare de anticorpi. O expresie crescută a receptorilor a fost observată, de asemenea, în macrofage și celule dendritice la un model de șoarece după administrarea orală de L. casei CRL-431 (40). Efectele antiinflamatorii, așa cum se deducă din analizele ConnMap, au fost raportate pentru un L. casei tulpină într-un model de infecție cu celule epiteliale intestinale umane (41). Asemănarea cu profilurile induse de compușii care modulează retenția de apă și homeostazia sării a fost exemplificată prin expresia crescută a transportorilor multipli de ATPaze. Ar putea fi de interes să se investigheze în continuare posibilele proprietăți imunomodulatoare, antiinflamatorii și de reglare a apei ale L. casei.

Consumul de L. rhamnosus GG a fost asociat cu prevenirea sau ameliorarea simptomelor alergice. Într-un studiu randomizat, controlat cu placebo, L. rhamnosus GG a redus dezvoltarea eczemei ​​atopice la nou-născuți și sugari la jumătate (15, 42), posibil prin prevenirea producției în exces de celule efectoare Th2 (10). După 5 săptămâni de administrare orală zilnică de 2 × 109 L. rhamnosus GG de către adulți sănătoși, măsurătorile producției de citokine de către celulele din sângele periferic au sugerat că consumul de L. rhamnosus GG modificase raportul Treg vs Th1/Th2 și echilibrul Th1/Th2 (43). Am constatat că consumul de L. rhamnosus GG a indus, printre altele, genele care codifică citokine CCL24, CCL2 și CXCL3. Ultimele două sunt gene cu răspuns timpuriu (44) care sunt deosebit de eficiente în stimularea răspunsurilor Th1. Reglarea în sus a mai multor gene induse de IFN și STAT4 sugerează că consumul de L. rhamnosus poate să fi promovat expresia genelor care stimulează dezvoltarea celulelor efectoare Th1 (45, 46). În două studii diferite de microarray, unul folosind o linie celulară de șoarece și unul care profilează răspunsurile intestinale ale oamenilor care suferă de esofagită, principalele căi de răspuns modulate la L. rhamnosus GG a participat la reglarea răspunsului imun, apoptoză și creșterea și diferențierea celulelor (47, 48) (Anexa SI, Rezultate SI), sugerând că diferite gazde prezintă cel puțin câteva răspunsuri similare la această tulpină bacteriană.

În ansamblu, pare să existe o corespondență remarcabilă între rețelele transcripționale in vivo ale mucoasei umane modificate după consumul de bacterii probiotice, experimente cu randament ridicat care profilează răspunsurile la molecule bioactive, inclusiv medicina comercială, și literatura științifică (Anexa SI, Tabelul S4). Deși acest studiu ar putea include doar o cantitate modestă de voluntari, considerăm că căile de răspuns induse de intervențiile bacteriene specifice pot fi induse mai general. Deducem acest lucru din observația că căile de răspuns specifice tratamentului bacterian au fost identificate la toți voluntarii, în ciuda variației mari între transcriptoame obținute de la voluntari individuali. Mai mult, genele de reglare cu roluri centrale în rețele au arătat o expresie semnificativ mai puțin variabilă între persoane decât genele care au apărut mai puțin centrale în rețele și care ar putea fi modulate direct și indirect de mai multe rețele. Am găsit sute de gene exprimate diferențial care participă la (reglarea) căilor mucoasei bazale, unele cu relevanță clinică. Acest lucru arată că investigarea efectului unor tulpini bacteriene specifice în studiile încrucișate folosind voluntari umani poate da rezultate relevante clinic. Genele mai centrale, de reglementare, care au fost transcrise diferențiat, cu variații scăzute în expresie, ar putea duce la dezvoltarea de biomarkeri pentru o funcție duodenală sănătoasă. Rezultatele acestui studiu pot contribui, de asemenea, la identificarea moleculelor bacteriene care sunt implicate în coreglarea funcției mucoasei umane. Astfel de molecule există într-adevăr, așa cum demonstrează studiile unde sunt secretate L. rhamnosus S-a descoperit că proteinele GG evită deteriorarea celulelor epiteliale induse de TNF și promovează vindecarea epitelială intestinală și homeostazia (49, 50). Considerăm că cercetarea probioticelor ar putea oferi în cele din urmă intervenții terapeutice care corectează abaterile ușoare de la metabolismul intestinal normal și pot contribui la menținerea sănătății intestinale în condiții de stres ușor, cum ar fi exercițiul fizic. Cercetarea probioticelor ar putea folosi o abordare similară cu cea a cercetării în nutrigenomică (51), care se bazează pe ideea că nutriția ar trebui să se concentreze în primul rând pe sănătate și prevenirea bolilor și să fie complementară cu terapia medicală care este utilizată pentru a preveni sau vindeca boli mai avansate (52). Variația mare de la persoană la persoană a transcriptoamelor de răspuns pe care le-am observat în acest studiu, împreună cu CoVar-urile ridicate pentru acele gene care codifică molecule bioactive, inclusiv chemokine care atrag și activează celulele imune, ajută la explicarea de ce suplimentarea cu probiotice poate duce la rezultate măsurabile. efecte la unele persoane, dar nu la altele. Anticipăm că reacția la probiotice nu este determinată doar de caracteristicile tulpinii bacteriene consumate, ci și de fondul genetic, microbiota rezidentă, dietă și stilul de viață. Acest studiu ar putea fi, prin urmare, printre primii pași de investigare a interacțiunii dintre microbiotă, probiotice sau alte suplimente nutritive și genetica umană, remorcă nutriția personalizată.


Traducerea modelelor de markeri multifactoriali în teste de diagnostic

Căi de la descoperirile cercetării omice la testele de diagnostic clinic

Tehnicile de măsurare a omicelor de mare performanță nu sunt de obicei concepute pentru aplicații de diagnosticare, ci pentru analize ample la nivel de sisteme, generarea de ipoteze și construirea primelor modele de învățare automată pentru clasificarea eșantioanelor. Astfel de modele tentative necesită o rafinare și validare ulterioară folosind tehnici de măsurare mai sensibile și reproductibile pentru a evalua potențialul lor pentru aplicații de diagnostic. De exemplu, un model de clasificare a eșantionului construit și validat încrucișat folosind date de expresie a genelor cu microarray, cu o selecție de caracteristici încorporate pentru a alege doar genele cele mai informative ca predictori, poate fi validat folosind o reacție în lanț a polimerazei cu transcripție inversă cantitativă mai precisă (qRT-PCR) măsurători pentru subsetul de gene alese.

Important, pentru a evita concluziile greșite în evaluarea modelelor de clasificare diagnostică, trebuie alese metode statistice adecvate pentru a evalua performanța predictivă globală a unui model (cuantificarea cât de apropiate sunt predicțiile de rezultatul real), calibrarea/fiabilitatea acestuia (măsurând cât de aproape de x din 100 de indivizi cu o predicție de risc de x% au rezultatul) și capacitatea sa discriminativă (determinând dacă indivizii cu rezultatul au predicții de risc mai mari decât cei fără) [86]. Datorită incertitudinii inerente asociate sarcinilor de diagnosticare, predicțiile ar trebui furnizate într-o formă probabilistică, mai degrabă decât deterministă [87], iar performanța generală ar trebui cuantificată folosind așa-numitele „reguli de scoring adecvate”, pentru care scorul așteptat este optimizat atunci când distribuția predictivă este de acord cu distribuția adevărată a cantității de estimat (un exemplu corespunzător este scorul Brier pentru rezultatele binare și de supraviețuire [88]). În schimb, optimizarea modelelor în raport cu ratele convenționale de non-erori discontinue, cum ar fi clasificarea corectă în procente, poate oferi rezultate înșelătoare, de ex. când probabilitățile prezise sunt apropiate de pragul de decizie ales necesar pentru aceste măsuri [89]. Pentru a evalua calibrarea unui model, poate fi utilizat testul Hosmer-Lemeshow „bunătatea potrivirii” [90], iar statistica de concordanță pentru a cuantifica capacitatea de discriminare [91]. Dacă un sistem de predicție de referință este deja disponibil, măsurile dedicate ale îmbunătățirii relative obținute cu o nouă metodă de predicție ar trebui să fie calculate suplimentar (denumită „aptitudine”, de exemplu, cuantificată prin Scorul Brier Skill [92]). Mai mult decât atât, abordări analitice decizionale, cum ar fi analiza curbei de decizie [93], concepute pentru a evalua beneficiul net obținut luând decizii în conformitate cu predicțiile modelului, ar trebui aplicate dacă modelul urmează să fie utilizat pentru a direcționa managementul clinic al pacientului [86].

Pentru proiectarea studiului, calculele inițiale ale puterii sunt necesare pentru a se asigura că sunt disponibile dimensiuni suficiente ale eșantionului pentru toate evaluările statistice [94]. Aceasta implică, de asemenea, alegerea unei împărțiri adecvate a datelor măsurate în seturi de instruire, testare și validare și selectarea tehnicilor de validare încrucișată sau reeșantionare adecvate pentru optimizarea și evaluarea modelului (de exemplu, folosind validarea încrucișată externă pe două niveluri [95]) [96].

Este important că validarea clinică nu necesită doar dimensiuni semnificativ mai mari ale eșantioanelor decât majoritatea studiilor de cercetare, ci și teste independente de replicare pe date de la alte cohorte de pacienți, specificarea clară a rațiunii biologice din spatele metodei și o demonstrație a utilității sale clinice. Spre deosebire de cadrul de reglementare pentru medicamente, există mai multe căi pentru traducerea testelor bazate pe omice în teste validate. in vitro aparate de testare de diagnosticare. Aceste teste pot fi dezvoltate și validate fie prin revizuire de către Food and Drug Administration (FDA), fie prin validare și performanță de către un laborator specific certificat conform Amendamentelor Clinical Laboratory Improvement (CLIA) [97].

Deoarece utilizarea conductelor de dezvoltare a produselor medicale consacrate ca în companiile farmaceutice nu este o practică obișnuită în mediul academic, pentru multe instituții de cercetare biomedicală este adesea recomandabilă o colaborare timpurie cu un partener industrial cu experiență. Deși în prezent nu este disponibil un proces standard unic și recunoscut pe scară largă pentru a traduce rezultatele cercetării omice în diagnostice clinice, pot fi urmate recomandări comune ale organizațiilor de sănătate recunoscute pe scară largă. În special, un comitet al Institutului de Medicină din SUA a efectuat un studiu privind dezvoltarea testelor clinice bazate pe omic și a propus un proces generic pentru dezvoltarea și evaluarea acestor teste ca ghid recomandat [97]. Un exemplu de proces corespunzător, care este subliniat pe scurt în scop ilustrativ în Figura 1 și nu este menit să acopere toate variațiile importante, începe cu faza de descoperire în care un model de biomarker candidat este construit pe un set de antrenament, blocat și evaluat pe baza datelor de testare. set (acest set de mostre ar trebui să fie complet independent de setul de antrenament). În următoarea fază de validare a testului, după aprobarea comitetului de revizuire instituțional și consultarea cu FDA, un laborator certificat CLIA definește și optimizează metoda testului de diagnosticare, validează clinic și biologic testul pe un set de mostre orbite și implementează testul în conformitate cu clinica curentă. standarde de laborator.

Exemplu de ilustrare a etapelor comune în timpul dezvoltării testelor de diagnostic bazate pe omic (versiune simplificată a procesului prezentată într-un studiu al Institutului de Medicină al SUA [97], concentrându-se pe etapele majore în curs). După trecerea de la a doua la a treia fază (evidențiată de simbolul lacătului), testul de diagnosticare trebuie să fie complet definit, validat și blocat. Există multe variante și alternative importante la procesul exemplu subliniat, precum și realizări diferite ale pașilor generici din proces (de exemplu, cazurile în care un test direcționează managementul pacientului pot acoperi diferite situații, în funcție de libertatea de a folosi rezultatul testului ca consideră de cuviință sau dacă procedurile predefinite trebuie urmate sub rezerva contraindicațiilor și/sau în funcție de rezultatele testelor). Configurația poate varia, de asemenea, în funcție de dacă se știe exact cum ar fi fost tratați pacienții dacă ar fi fost randomizați în brațul opus, în funcție de dacă testul implică o întârziere a tratamentului și dacă pragul de limită adecvat pentru test este incert.

Exemplu de ilustrare a etapelor comune în timpul dezvoltării testelor de diagnostic bazate pe omic (versiune simplificată a procesului prezentată într-un studiu al Institutului de Medicină al SUA [97], concentrându-se pe etapele majore în curs). După trecerea de la a doua la a treia fază (evidențiată de simbolul lacătului), testul de diagnosticare trebuie să fie complet definit, validat și blocat. Există multe variante și alternative importante la procesul exemplu subliniat, precum și realizări diferite ale pașilor generici din proces (de exemplu, cazurile în care un test direcționează managementul pacientului pot acoperi diferite situații, în funcție de libertatea de a folosi rezultatul testului ca consideră de cuviință sau dacă procedurile predefinite trebuie urmate sub rezerva contraindicațiilor și/sau în funcție de rezultatele testelor). Configurația poate varia, de asemenea, în funcție de dacă se știe exact cum ar fi fost tratați pacienții dacă ar fi fost randomizați în brațul opus, în funcție de dacă testul implică o întârziere a tratamentului și dacă pragul de limită adecvat pentru test este incert.

În mod interesant, autorii ghidului subliniază că un dezavantaj frecvent al testelor bazate pe omic este lipsa unui argument biologic în spatele testului - în timp ce markerii cu o singură moleculă sunt adesea cunoscuți că joacă un rol în boală, modelele omice multifactoriale obținute de la mașină. învățarea sunt adesea mai dificil de interpretat și implică un risc mai mare de supraadaptare. Noile tehnici de modelare bazate pe căi și rețele, așa cum sunt discutate în această revizuire, ar putea ajuta, prin urmare, la abordarea unora dintre aceste deficiențe și ar putea oferi modele mai interpretabile și mai robuste, spre deosebire de modelele clasice de învățare automată „cutie neagră”.

În următoarea etapă a procesului de dezvoltare clinică, testul blocat este evaluat pentru utilitatea clinică prin una dintre următoarele abordări: (i) Un studiu prospectiv-retrospectiv utilizând specimene arhivate din studiile clinice anterioare, (ii) un studiu clinic prospectiv în care testul (a) orientează managementul pacientului sau (b) nu direcționează managementul pacientului [97]. Complexitatea și durata unui studiu sau studiu clinic corespunzător vor depinde în mare măsură de tipul specific de biomarker dezvoltat și de beneficiul clinic propus. Pentru biomarkerii de diagnostic axați pe această analiză, procedurile pot varia semnificativ în funcție de faptul dacă testul este conceput pentru a detecta prezența, severitatea sau subtipul unei boli. Biomarkerii de prognostic, care indică cursul clinic viitor al unui pacient cu privire la un rezultat specific, și biomarkerii predictivi, care prezic respondenții și gradul de susceptibilitate la un anumit efect al medicamentului, vor necesita, de asemenea, proceduri de dezvoltare și evaluare diferite decât markerii de diagnostic. În cele din urmă, pentru fiecare tip de biomarker, pot fi avute în vedere diferite beneficii clinice și influențează semnificativ proiectarea unui studiu, de ex. scopul de a alege opțiuni de tratament mai adecvate sau obiectivul de a diagnostica boala mai devreme pentru a permite terapii mai eficiente pentru a preveni, opri sau încetini progresia acesteia.

Povești de succes anterioare în dezvoltarea de teste de diagnosticare bazată pe omic

O varietate de modele de biomarkeri multifactoriale, bazate pe omice, au fost traduse cu succes în teste de diagnostic în ultimii ani, în special în domeniul stratificării subtipurilor de cancer. Un exemplu proeminent este testul Oncotype DX pentru a evalua riscul unei femei de reapariție a cancerului de sân în stadiu incipient, cu receptori de estrogeni pozitivi și probabilitatea de a beneficia de chimioterapie după intervenție chirurgicală. Acest test măsoară activitatea a 21 de gene în probele tumorale și apoi determină un număr de scor de recurență între 0 și 100 (scorurile mai mari reflectă un risc mai mare de recurență în decurs de 10 ani). Spre deosebire de alte teste de diagnosticare care utilizează probe congelate, testul Oncotype DX utilizează probe de țesut tumoral care sunt conservate chimic și sigilate în ceară de parafină (vezi [98, 99] pentru detalii despre colectarea probelor și analize).

Dezvoltarea Oncotype DX a implicat pași tipici ai unei abordări de profilare a biomarkerilor omici și de filtrare de sus în jos: în primul rând, prin analiza întregului transcriptom pe date de microarray de mare performanță și folosind cunoștințele din literatură și bazele de date genomice, au fost selectate 250 de gene marker candidate. 98]. Relația dintre expresia acestor candidați și reapariția cancerului de sân a fost apoi evaluată în datele din trei studii clinice independente pe 447 de pacienți. Rezultatele au fost utilizate pentru o filtrare finală, oferind un panou de 16 gene legate de cancer și 5 gene de referință, ale căror niveluri de expresie au permis calcularea scorurilor de recurență pentru probele de tumoră printr-un model de învățare automată. Această abordare de diagnostic a fost validată cu succes în mai multe studii clinice și a fost inclusă în ghidurile de tratament pentru cancerul de sân de către National Comprehensive Cancer Center Network și Societatea Americană de Oncologie Clinică.

În timp ce în cazul testului Oncotype DX, setul de markeri necesari ar putea fi restrâns la un număr mic de gene cu cunoștințe anterioare despre relația lor cu boala, pentru alte boli complexe și mai eterogene, un număr semnificativ mai mare de predictori moleculari poate este necesar pentru un diagnostic precis. În astfel de cazuri, abordările de modelare bazate pe cale și rețea pot facilita generarea de modele robuste și interpretabile biologic, care ulterior ar putea fi supuse unor proceduri de dezvoltare și validare a testelor de diagnostic similare ca modelul inițial din spatele testului Oncotype DX. Important, succesul abordării Oncotype DX nu este un caz izolat, dar au fost dezvoltate și validate alte teste de diagnostic comerciale folosind strategii similare, inclusiv MammaPrint [100], Prosigna (PAM50) [101], Mammostrat [102], Tissue of Origin [103], AlloMap [104], Corus CAD [105] și OVA1 [106], printre alții.

Pe scurt, traducerea cu succes a modelelor de biomarkeri bazate pe omic în teste de diagnostic comercial acceptate clinic a fost realizată în mai multe cazuri în trecut. Având în vedere un număr mare de boli complexe pentru care sunt încă necesare teste de diagnostic mai fiabile, mai devreme și mai ieftine, există un potențial semnificativ de a dezvolta abordări îmbunătățite folosind modelarea biomarkerilor bazate pe omic și exploatarea cunoștințelor biologice anterioare din căi și rețele moleculare.


Modelarea biomarkerilor bazată pe rețea

Deși căile curatate manual au multe beneficii pentru interpretarea biologică a datelor omice la scară largă, în celulele vii, căile metabolice și de semnalizare nu sunt izolate, ci interconectate în cadrul unor rețele moleculare și de reglementare mari și complexe. Aceste rețele includ adesea mai multe gene, proteine ​​sau metaboliți care nu sunt adnotați pentru nicio cale și, prin urmare, ignorați de metodele de analiză bazate pe căi. În consecință, pentru a identifica modulele de biomolecule interconectate asociate bolii într-un mod mai imparțial (adică fără a restricționa spațiul de căutare la biomolecule cu adnotări de căi cunoscute), au fost introduse metode de analiză bazate pe rețea. În timp ce abordările bazate pe căi pentru modelarea biomarkerilor pot avea avantaje în ceea ce privește interpretabilitatea modelului, explorarea spațiului de căutare în descoperirea biomarkerilor pe bază de rețea nu este restricționată de limitele căilor definite subiectiv, iar rețelele moleculare la scară genomului utilizate ca intrare acoperă de obicei mult mai mari. un număr de biomolecule decât toate căile combinate. Cu toate acestea, similar căilor definite subiectiv, rețelele asamblate din surse publice de date suferă de diverse limitări, de ex. lipsesc interacțiunile moleculare și lipsa adnotărilor specifice țesuturilor, iar aceste probleme trebuie abordate prin metode dedicate (a se vedea secțiunea ‘limitări și posibile strategii de soluție’ de mai jos). În cele ce urmează, vor fi discutate două tipuri principale de abordări de modelare bazată pe rețea: în primul rând, abordări secvențiale în doi pași, care punctează activitatea în subrețele moleculare și apoi utilizează aceste activități pentru învățarea automată predictivă și, în al doilea rând, abordări de analiză a rețelei într-un singur pas. , care exploatează informațiile despre topologia rețelei direct în construcția modelului predictiv.

Abordări de punctare și predicție a activității de rețea în doi pași

Activitatea rețelei pe mai multe biomolecule interconectate poate fi rezumată și punctată folosind abordări similare de mediere sau de reducere a dimensiunii ca în metodele de notare a activității căii. Cu toate acestea, spre deosebire de utilizarea simplă a definițiilor de căi predefinite, mai întâi o rețea moleculară sau de reglementare trebuie să fie asamblată sau reconstruită, folosind fie baze de date publice de interacțiune moleculară, fie aplicând metode de inferență de rețea la datele omice (în Tabelul 2, o prezentare generală a diferitelor metodologii). este prezentată, care sunt discutate în cele ce urmează).

Masa 2.

Prezentare generală a metodelor bazate pe rețea pentru analiza învățării automate a datelor omice, scorul și metodele de predicție a activității secvențiale ale rețelei sunt afișate în partea de sus, în timp ce abordările de învățare automată care utilizează selecția caracteristicilor încorporate pe bază de rețea sunt enumerate sub linia neagră îndrăzneață

Publicare de metodologie Metoda de notare a activității/alterării în rețeaMetoda de predicție
Tuck etਊl. [39]Sunt construite rețele de reglare a genelor specifice probei, iar activitatea subrețelei este punctată prin însumarea interacțiunilor activeCei mai apropiați vecini, arbore de decizie, Naïve Bayes, printre altele
Ma etਊl. [40]Asocierea bolii este punctată pentru gene pe baza datelor de exprimare a genelor și a scorurilor de asociere ale vecinilor lor într-o rețea PPI folosind teoria câmpului aleatoriu MarkovAbordarea este evaluată pentru prioritizarea genelor bolii, dar este aplicabilă pentru selecția caracteristicilor predictive în combinație cu orice metodă de predicție
Chuang etਊl. [41]Datele normalizate de expresie a genelor sunt mapate pe o rețea de interacțiune cu proteine ​​și subrețelele discriminatorii sunt identificate printr-o procedură de căutare lacomăRegresie logistică
Taylor etਊl. [42]Nodurile hub în rețelele de interacțiune cu proteine ​​sunt determinate și expresia genică relativă a hub-urilor cu fiecare dintre partenerii lor care interacționează este calculată pentru a identifica hub-uri cu expresie relativă diversă în grupurile de eșantioaneGruparea de propagare a afinității este utilizată pentru a atribui o probabilitate de prognostic prost pacienților cu cancer de sân
Petrochilos etਊl. [43]Un algoritm de detectare a comunității de mers aleatoriu este aplicat pentru a descoperi module într-o rețea de interacțiune moleculară, iar datele despre expresia genelor sunt utilizate pentru a identifica modulele asociate boliiAbordarea este utilizată pentru a identifica modulele de rețea asociate cancerului și validată prin notarea îmbogățirii genelor cunoscute legate de cancer extrase din baza de date OMIM.
Rapaport etਊl. [44]Descompunerea spectrală a profilurilor de expresie genetică se aplică în raport cu funcțiile proprii ale unui grafic de rețea, atenuând componentele de înaltă frecvență ale profilurilor de expresie în raport cu topologia graficuluiSVM
Li etਊl. [45]O procedură de regularizare constrânsă de rețea pentru analiza de regresie liniară este utilizată pentru a identifica subrețele discriminatorii legate de boliRegresia liniară penalizată
Yang etਊl. [46]Sunt propuse trei metode de învățare automată pentru selectarea și gruparea caracteristicilor ghidate de grafic, inclusiv o funcție convexă și două formulări neconvexe concepute pentru a reduce distorsiunea de estimareAbordare penalizată bazată pe cele mai mici pătrate (GOSCAR: Algoritmul grafic al contracției octogonale și al grupării pentru regresie)
Lorbert etਊl. [47, 48]Se propune o abordare de regresie rară, folosind penalizarea PEN pentru a favoriza gruparea caracteristicilor puternic corelate bazate pe asemănări pe perechi (de exemplu, derivate dintr-un grafic de interacțiune moleculară)Regresie penalizată (penalizare PEN)
Vlassis etਊl. [49]Regresia logistică penalizată este aplicată folosind o funcție de penalizare PEN convexă (vezi abordarea lui Lorbert etਊl.) cu ponderi absolute ale caracteristicilor pentru a reflecta mai bine relevanța genelor discriminatorii în selecția caracteristicilorRegresie logistică penalizată (penalizare PEN cu ponderi absolute ale caracteristicilor)

Tuck a propus o primă metodă de construire a unor noi rețele de reglare a genelor specifice eșantionului pentru clasificarea probelor transcriptomice. etਊl. [39]. Rețelele au fost generate prin determinarea intersecției graf-teoretice între o rețea de conectivitate statică (reprezentând legarea factorului de transcripție la regiunile promotoare ale genei), obținută folosind date din baza de date TRANSFAC [50], cu rețele de coexpresie specifice probei (reprezentând factorul de transcripție x02013target gene coexpression), derivat din datele despre expresia genei. Pentru a extrage caracteristici discriminatorii pentru clasificarea specimenelor de diagnostic din aceste rețele, ei au propus o abordare de clasificare bazată pe legături, comparând starea activității interacțiunilor de reglementare a genelor (numite ‘links’) în diferite grupuri de eșantioane și o metodă de clasificare bazată pe grad, compararea măsurilor de centralitate topologică [51] pentru rețele. La testarea acestor abordări pe date din diferite studii de caz-control de cancer, au fost raportate acuratețe ridicate validate încrucișat atât pentru tipul de celule, cât și pentru clasificarea eșantionului de pacient. Mai mult, analiza bazată pe rețea a permis autorilor să identifice regulatorii transcripționali cheie modificați în condiții specifice de boală.

În loc să se construiască noi rețele de reglementare, modificările discriminatorii asociate cu bolile pot fi identificate și prin maparea computațională a datelor omice pe în silico reprezentări ale rețelelor de interacțiune a proteinelor biochimice (PPI). Ma etਊl. [40] a dezvoltat o abordare corespunzătoare pentru a obține scoruri mai fiabile de asociere a bolii pentru gene prin exploatarea informațiilor de vecinătate dintr-o rețea PPI. Ei au folosit un coeficient de corelație Pearson modificat pentru a evalua asocierea dintre expresia genelor microarray și valorile numerice care codifică starea bolii a probelor (ținând cont de faptul că aceste valori ale fenotipului pot să nu aibă o distribuție normală) și au atribuit asocierea genă-fenotip transformată de Fisher. scoruri la proteinele corespunzătoare dintr-un PPI. Apoi, ei recalibrează aceste scoruri de asociere prin modelarea scorurilor adevărate subiacente pentru fiecare genă folosind teoria câmpului aleatoriu Markov [52], reestimându-le valorile din contribuțiile ponderate ale scorurilor de asociere originale ale vecinilor lor de rețea (ponderile sunt determinate în funcție de diferite vecinătăți ale rețelei). definiții, folosind fie vecini direcți, calea cea mai scurtă sau vecinătăți ale nucleului de difuzie, vezi [40] pentru detalii). Atunci când s-a evaluat utilitatea scorurilor recalibrate pentru prioritizările genelor de boală pe datele microarray folosind adnotări funcționale cunoscute ale Ontologiei genelor, abordările convenționale de prioritizare folosind numai expresia genelor sau date PPI au fost depășite (deși abordarea de scor ar putea fi folosită și pentru construirea de modele predictive, acest lucru special cererea nu a fost luată în considerare).

În timp ce abordarea de către Ma etਊl. se concentrează pe îmbunătățirea scorurilor de asociere a bolii pentru gene individuale, Chuang etਊl. [41] au prezentat o metodă de identificare și punctare a subrețelelor întregi legate de boală, similară abordării lor de punctare a asocierii căilor discutate mai sus (vezi Lee șiਊl. [29]). După ce au calculat informațiile reciproce (MI) dintre valorile fenotipului eșantionului (codifică prezența sau absența unei boli) și valorile de expresie discretizate pentru fiecare genă dintr-un set de date microarray atribuit proteinelor într-un PPI, au aplicat o căutare avidă pentru a extinde noduri de semințe din rețea cu scoruri MI maxime la nivel local. În mod specific, fiecare nod de bază a fost extins astfel încât suma scorurilor pentru modulul de rețea extins să fie maximizată (căutarea se oprește atunci când nicio extensie nu crește scorul total peste o rată de îmbunătățire predefinită). Când antrenează clasificatorii de regresie logistică pe activitățile normalizate și medii ale subrețelelor rezultate pentru datele despre cancerul de sân, autorii au descoperit că markerii de subrețea erau mai reproductibili decât markerii cu o singură genă și au oferit o precizie mai mare în distingerea tumorilor metastatice de cele nemetastatice.

Ca o soluție intermediară între concentrarea pe biomolecule individuale și module întregi de rețea, Taylor etਊl. [42] a propus o metodă care investighează nodurile de rețea cu proprietăți topologice remarcabile și vecinii lor direcți. După cartografierea computațională a datelor despre expresia genelor cancerului de sân pe în silico reprezentarea unei rețele PPI, au determinat proteine ​​cu un număr mare de parteneri de interacțiune biochimică (așa-numitele ‘hub nodes’) și au calculat expresia lor relativă în comparație cu fiecare dintre acești parteneri care interacționează. Apoi au determinat pentru ce hub-uri expresia relativă diferă semnificativ între supraviețuitorii pe termen lung și pacienții care au murit din cauza bolii și au aplicat o abordare de grupare pentru a atribui o probabilitate de prognostic nefavorabil noilor eșantioane de pacienți (metoda specifică utilizată este cunoscută ca &# clustering de propagare a afinității x02018’ în literatură). Abordarea a fost evaluată folosind validarea încrucișată de 5 ori, oferind estimări de acuratețe, sensibilitate și specificitate care au comparat favorabil cu rezultatele raportate pentru diagnosticarea cancerului mamar genomic disponibil comercial.

În loc să se ia în considerare proprietățile topologice ale nodurilor individuale dintr-o rețea moleculară, informațiile dintr-un graf de rețea pot fi extrase și prin algoritmi de găsire a subgrafurilor, care se remarcă prin densitatea mare a interacțiunilor moleculare (folosind abordări denumite &# x02018identificarea comunității’ sau ‘metodele de grupare grafică’ din literatură). Petrochilos etਊl. [43] a propus o abordare corespunzătoare, care aplică mai întâi un algoritm de mers aleatoriu bazat pe grafice pe o rețea moleculară la scară genomică. Informațiile din datele despre expresia genelor legate de cancer au fost apoi integrate în rețea prin setarea greutății fiecărui nod de rețea ca schimbare maximă a orificiului sondelor corespunzătoare simbolului genei sale (greutățile pentru interacțiunile biochimice sunt determinate de pătratul mediei absolute). modificări ale partenerilor de interacțiune relevanți). În cele din urmă, scorul unui modul de rețea de noduri conectate a fost obținut prin compararea activității sale cumulative (adică pătratul expresiei medii ponderate pentru toate nodurile sale) cu o distribuție bootstrap a activităților cumulate obținute prin eșantionarea aleatorie a unui număr potrivit de modificări de ori. valorile. La testarea îmbogățirii genelor canceroase cunoscute în modulele de rețea cu scoruri de top identificate cu această abordare, s-a atins o performanță similară sau mai bună în comparație cu alți algoritmi de găsire a modulelor utilizați pe scară largă (aplicații alternative potențiale ale modulelor identificate pentru modelarea biomarkerilor nu au fost evaluate în această publicație).

Pe lângă medierea activităților moleculare în vecinătățile rețelei sau utilizarea metodelor de identificare a comunității, tehnicile de procesare a semnalului pot oferi un alt mijloc de a culege informații utile dintr-o rețea pentru construirea de modele predictive, așa cum se arată într-o abordare a Rapaport. etਊl. [44]. Ei au folosit observația că genele aflate în imediata apropiere una de cealaltă într-o rețea tind să aibă o expresie similară și au propus să elimine zgomotul măsurătorilor de microarray prin eliminarea componentei lor de înaltă frecvență în rețea. În acest scop, a fost aplicată descompunerea spectrală a profilurilor de expresie genetică în raport cu un grafic al rețelei moleculare, urmată de atenuarea componentelor semnalului de înaltă frecvență, care se estimează că vor reprezenta zgomotul de măsurare. Metoda a fost evaluată pentru analiza supravegheată a tulpinilor de drojdie iradiate și neiradiate folosind un SVM, oferind performanțe de clasificare similare ca un model construit fără filtrarea bazată pe rețea, dar facilitând interpretarea datelor biologice prin gruparea biomoleculelor selectate în funcție de participarea lor la modulele de rețea. .

Abordări de învățare automată într-un singur pas pentru analiza rețelei

Spre deosebire de abordările de analiză a rețelei avute în vedere până acum, care aplică extracția caracteristicilor rețelei și analiza predictivă a învățării automate în pași separați, mai recent, au fost propuse abordări de selecție a caracteristicilor bazate pe rețea într-un singur pas, integrând selecția atributelor direct în modelul predictiv. clădire. Cele mai multe dintre aceste abordări formulează sarcina de construire a modelului ca o formulare a problemei de optimizare, în care funcția obiectivă pentru clasificare sau regresie este extinsă cu un termen de penalizare care promovează selecția caracteristicilor grupate într-o rețea moleculară (această strategie este denumită și rețea- regularizarea constrângerii).

Li etਊl. [45] a propus una dintre primele abordări corespunzătoare prin adăugarea unui termen de penalizare la regresia liniară, încorporând informații de rețea în analiză prin matricea laplaciană a graficului rețelei. Abordarea penalizează norma L1 a ponderilor caracteristicilor și încurajează un profil uniform al ponderilor asupra nodurilor învecinate din rețea. Cu toate acestea, Binder și Schumacher au raportat mai târziu că metoda are performanțe mai scăzute decât un model nul, adică un model care nu utilizează nicio informație covariabilă [53]. Ca posibile explicații, ei notează că Li etਊl. au eliminat observațiile cenzurate și aproximativ 20� de variabile care nu au putut fi alocate nodurilor corespunzătoare din rețeaua de interacțiune moleculară (a se vedea secțiunea despre ‘limitări’ de mai jos). Yang etਊl. [46] a sugerat că penalitățile de grupare a rețelei utilizate anterior pot introduce distorsiuni de estimare suplimentare în model atunci când semnele coeficientului pentru două caracteristici conectate în grafic sunt diferite. Ei au prezentat penalizări alternative pentru a realiza gruparea rețelei și selecția rare a caracteristicilor, în special două penalități neconvexe, care micșorează doar diferențele mici în valorile absolute ale ponderilor caracteristicilor pentru a reduce distorsiunea de estimare [46]. În experimentele pe date sintetice și două seturi de date reale, noile abordări au depășit metodele anterioare de grupare a caracteristicilor.

Cu toate acestea, cu penalizări neconvexe, găsirea soluțiilor globale optime nu este adesea fezabilă și chiar și identificarea unor optime locale bune poate necesita efort de calcul ridicat. Lorbert etਊl. [47, 48] au propus o penalizare convexă generică alternativă, Pairwise Elastic Net (PEN), care oferă o selecție rară a caracteristicilor și promovează gruparea atributelor în funcție de o măsură de similitudine a caracteristicilor definite de utilizator (de exemplu, obținută din greutățile de interacțiune biochimică într-o moleculară). reţea). PEN este o generalizare a rețelei elastice, o metodă care oferă un compromis între regresiile penalizate L1 și L2 printr-un parametru ajustabil. În PEN, acest parametru poate fi înlocuit pentru a determina compromisul folosind informații suplimentare dintr-o matrice de similaritate de atribute (pot fi definite diferite instanțe de PEN atâta timp cât matricea de similaritate este pozitivă semidefinită și nenegativă). Comparând PEN cu alte abordări populare de învățare automată a datelor simulate cu o structură de grupare între caracteristici, PEN a obținut o eroare pătrată medie competitivă (MSE) și a oferit soluții mai rare decât abordările cu MSE similare.

Mai recent, Vlassis etਊl. a introdus o nouă instanță de PEN, care penalizează diferențele dintre valorile �solute’ ale ponderilor caracteristicilor interconectate într-un grafic de rețea. Motivația din spatele acestei abordări, denumită GenePEN, este că mărimea unei ponderi într-un model liniar reflectă valoarea predictivă a variabilei corespunzătoare, astfel încât ponderile pentru caracteristicile irelevante sunt conduse la zero de penalizare. Prin asigurarea convexității funcției de penalizare, soluțiile globale optime pot fi identificate eficient cu cadrele de optimizare existente. La evaluarea GenePEN pe date simulate și seturi de date cu microarray cu cuvinte reale, în comparație cu alte metode de clasificare care utilizează gruparea de caracteristici, metoda a furnizat o putere predictivă și selecții de gene similare, partajând semnificativ mai multe conexiuni într-o rețea de interacțiune moleculară. Vizualizarea subrețelelor corespunzătoare a permis o interpretare biologică a regiunilor de rețea afectate de boală, care au fost îmbogățite în gene cunoscute legate de boli, obținute din exploatarea literaturii.

În general, metodele de clasificare a probelor bazate pe rețea oferă un nou mijloc de a analiza seturi complexe de date omice, permițând cercetătorilor să identifice modificări coerente ale rețelei moleculare în diferite condiții biologice. Identificarea unor astfel de modele la nivel de rețea în datele omice pentru boli cu manifestări moleculare complexe poate arunca o lumină nouă asupra mecanismelor moleculare ale bolii și poate facilita dezvoltarea semnăturilor biomarkerilor multifactoriale robuste.

Spre deosebire de modelarea biomarkerului bazată pe o singură moleculă, o abordare la nivel de rețea are potențialul de a surprinde diverse fațete ale unei boli heterogene reflectate prin modele de alterare în diferite regiuni ale rețelei. În comparație cu abordările de învățare automată bazate pe căi, metodele care utilizează rețele la scară genomică ca cunoștințe anterioare pot produce modele care sunt mai dificil de interpretat biologic, dar care pot identifica o gamă mult mai largă de modificări ale proceselor celulare (care acoperă multe gene, proteine ​​sau metaboliți fără nicio adnotare a căii cunoscute). În cele din urmă, abordările de clasificare bazate pe rețele și căi împărtășesc principalul beneficiu al îmbunătățirii robusteței modelului în analizele de studii încrucișate, în comparație cu utilizarea biomoleculelor individuale ca caracteristici. Printre aceste semnături noi de biomarkeri de nivel superior, semnăturile bazate pe rețea care țin cont de activitățile moleculare pe regiuni de rețea mai mari și derivate din algoritm pot furniza adesea markeri multifactoriali mai robusti decât semnăturile pentru căi mai mici, care sunt de obicei definite subiectiv, trecând posibil cu vederea moleculelor relevante legate funcțional. în rețeaua înconjurătoare. Cu toate acestea, robustețea modelului va depinde și de alți factori, de ex. apariția complexelor de proteine ​​în calea/rețeaua studiată (membrii acestor complexe tind să aibă activitate foarte coordonată, oferind medii mai robuste) și fiabilitatea și completitudinea rețelei specifice sau a sursei de date ale căii utilizate (a se vedea limitările discutate în secțiunea următoare ).


Spotul genomului

În seria noastră de ARN-seq până acum, am efectuat analize diferențiale și am generat câteva grafice frumoase, care arată mii de gene exprimate diferențial după tratamentul cu azacitidină. Pentru a înțelege biologia care stă la baza profilului de expresie genică diferențială, trebuie să efectuăm o analiză a căii.

Folosim analiza de îmbogățire a seturilor de gene (GSEA) deoarece poate detecta modificările căii mai sensibil și mai robust decât unele metode. O lucrare din 2013 a comparat o grămadă de software de analiză a setului de gene cu micromatrice și merită să aruncăm o privire.

Generați un fișier de clasare

Fișierul de clasare este o listă de gene detectate și un scor de măsurare a rangului. În partea de sus a listei sunt genele cu cea mai „puternică” reglare în sus, în partea de jos a listei sunt genele cu cea mai „puternică” reglare în jos, iar genele care nu se schimbă sunt la mijloc. Scorul metric pe care îmi place să-l folosesc este semnul modificării pliului înmulțit cu inversul valorii p, deși pot exista metode mai bune (link ).

#!/bin/bash
DGE=1 USD
RNK=`echo $DGE | sed 's/.xls/.rnk/'`
sed 1d $DGE
| sortare -k7g
| cut -d '_' -f2-
| awk '!arr[$1]++'
| awk'
< dacă ($6>0) printf „%s %4.3e ”, $1, 1/$7
else printf „%s %4.3e ”, $1, -1/$7 >'
| sortare -k2gr > $RNK


Priveste filmarea: The Real Evidence: Laptop Вещественные доказательства: Компьютер (Iunie 2022).


Comentarii:

  1. Tse

    The agha, so seemed to me too.

  2. Dugar

    I sit and do not stumble as the author came to this on his own

  3. Branris

    Și m -am confruntat. Putem comunica pe această temă.



Scrie un mesaj