Informație

Set de date imagine pentru celulele cardiace pentru Mus musculus?

Set de date imagine pentru celulele cardiace pentru Mus musculus?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Lucrez la dezvoltarea unui model de învățare prin transfer pentru a detecta celulele dintr-o cultură folosind imagini microscopice. pentru asta am nevoie de un set de date de imagini care au imagini microscopice de diferite tipuri de celule. Există o astfel de bază de date prezentă? Orice lucrare de cercetare open source care are imagini microscopice ale celulelor cardiace care pot fi folosite?


Cu siguranță, ajutați-vă cu colecția largă de seturi de imagini ale institutului

Broad Bioimage Benchmark Collection - Seturi de imagini biologice adnotate pentru testare și validare: https://data.broadinstitute.org/bbbc/image_sets.html

Și EMBL-EBI: https://www.ebi.ac.uk/bioimage-archive/

Nu există celule cardica de șoarece, dar sunt încrezător că puteți transfera cu ușurință învățarea după antrenamentul pe acestea.


NCBI Mus musculus Adnotare versiunea 109

Înregistrările genomului RefSeq pentru Mus musculus au fost adnotate de NCBI Eukaryotic Genome Annotation Pipeline, o conductă automată care adnotă gene, transcrieri și proteine ​​pe ansamblurile genomului proiectat și finit. Acest raport prezintă statistici privind produsele de adnotare, datele de intrare utilizate în conductă și rezultatele alinierii intermediare.

Produsele de adnotare sunt disponibile în bazele de date de secvențe și pe site-ul FTP.

    : Numele lansării, datele importante, versiunea software : O scurtă descriere a ansamblului(elor) adnotat(e) : Numărul și caracteristicile caracteristicilor adnotate : Numărul de proteine ​​adnotate cu accesări la un set de proteine ​​de înaltă calitate : Cât de mult din genom a fost mascat: numărul și tipul de dovezi extrase din bazele de date publice și utilizate pentru predicția genelor
  • Asemănarea ansamblului curent și anterior: asemănarea ansamblului curent și anterior
  • Comparația adnotărilor actuale și anterioare: ce proporție de gene s-a schimbat în această adnotare

Pentru mai multe informații despre procesul de adnotare, vă rugăm să vizitați pagina NCBI Eukaryotic Genome Annotation Pipeline.


Fundal și rezumat

O provocare majoră cu care se confruntă cercetările biomedicale este de a defini funcția unor tipuri de celule specifice într-un sistem multicelular extrem de complex. O reconstrucție anatomică detaliată a distribuției lor va facilita, fără îndoială, o astfel de cercetare. În studiul nostru recent 1, am identificat cardiomiocite Pnmt + derivate din celule (PdCMs) în inima murină prin introducerea canalrhodopsinei 2 (ChR2) în mod specific în celulele murine care exprimă Feniletanolamină n-metiltransferaza (Pnmt), care codifică enzima responsabilă de conversia noradrenalinei în adrenalină. Acest model murin (șoareci Pnmt-Cre/ChR2) ne-a permis să identificăm o clasă distinctivă de celule neuroendocrine care exprimă Pnmt și descendenții acestora (adică Pnmt + celule derivate din celule) în inimă. Am arătat că celulele Pnmt + derivate din celule sunt localizate predominant în partea stângă a inimii adulte 1 . În mod remarcabil, am găsit multe dintre celulele derivate din celule Pnmt + din atriul și ventriculul stâng păreau să funcționeze cardiomiocite pe baza aspectului lor morfologic și proprietăților funcționale 1 . Aceste PdCM sunt similare cu miocitele convenționale în proprietăți morfologice, electrice și contractile 1 . Prin stimularea selectivă a PdCM-urilor cu lumină albastră (lungime de undă de 470 nm, durată de 2 ms, generată de o diodă emițătoare de lumină (LED) controlată prin logica tranzistor-tranzistor (TTL), am putut controla ritmul cardiac în întreaga inimă, preparate de țesut izolate. și cardiomiocite unice. Astfel, noul nostru model murin demonstrează eficient disecția funcțională a subpopulațiilor de cardiomiocite folosind optogenetica și deschide noi frontiere de explorare în rolurile fiziologice ale acestora în funcția normală a inimii, precum și rolurile patologice în inima bolii 1 .

Având în vedere rolurile potențial nedescoperite ale PdCM, este necesară o examinare detaliată a distribuției lor în inimă cu reconstrucție anatomică. Pentru a atinge acest obiectiv, un set cuprinzător de date a fost generat prin experimentare și calcul folosind modelul de inimă de șoarece Pnmt-Cre/ChR2. Acești șoareci exprimă o proteină de fuziune channelrhodopsin-2/tdTomato îmbunătățită în celulele derivate din celule Pnmt +, care include PdCM. Figura 1 ilustrează o imagine de ansamblu schematică a designului studiului.

Panoul din stânga: procesele de criosecție a inimii și imunohistologie. Mijloc: proces de imagistică. Imaginile de fluorescență pentru detectarea celulelor pozitive ChR2/tdTomato au fost obținute folosind microscoape fluorescente Olympus FV1000 Confocal sau Zippy Moving-stage. Dreapta: diagramă care ilustrează procedurile de reconstrucție 3D. Imaginile brute au fost mai întâi îmbunătățite manual și înregistrate, a fost aplicată o clasificare bazată pe intensitate pentru a obține celulele colorate pozitiv reconstruite. Datele de volum 3D au fost vizualizate în Paraview după netezirea Gaussiană și eșantionarea în jos.

Setul de date are numeroase caracteristici avantajoase și unice. În primul rând, expresia condiționată a Pnmt-Cre/ChR2 facilitează exprimarea proteinei de fuziune ChR2/tdTomato utile într-o manieră specifică țesutului. Subunitatea sensibilă la lumină ChR2 a acestei proteine ​​de fuziune provoacă depolarizarea și contracția cardiomiocitelor cu stimulare de lumină albastră, în timp ce imagistica este facilitată de proteina fluorescentă tdTomato. În al doilea rând, imagistica serii de secțiuni de țesut fixe din inimile de șoarece Pnmt-Cre/ChR2 a fost efectuată utilizând microscopie cu fluorescență cu deconvoluție cu câmp larg. Această tehnică produce imagini digitale de înaltă calitate echivalente cu imaginile confocale cu contrast și rezoluție ridicate, dar cu lumină fluorescentă scăzută. Utilizarea concomitentă a unei etape de mișcare programată a permis capturarea a până la o sută de imagini dintr-o singură secțiune de țesut, care a fost asamblată într-o secțiune coronală bidimensională (2D) folosind softWoRx (Scientific Imaging, Seattle, SUA) pentru continuarea reconstrucția așa cum este prezentată în Fig. 2. În al treilea rând, reconstrucția tridimensională (3D) (Fig. 3, Citarea datelor 1: Video online 1) a fost efectuată pentru o vizualizare anatomică îmbunătățită. Înregistrarea rigidă (rotație și translație rigidă) a fost aplicată pentru a alinia imaginile tăiate de inimă pe baza reperelor folosind TrakEM2 (ref. 2), un plug-in cu sursă deschisă în Fiji 3 . Feliile înregistrate au fost apoi reconstruite într-un singur fișier în format VTK folosind MATLAB (MATLAB®, Versiunea 8.3.0.532). Volumul 3D reconstruit final a fost de 561×866×48 pixeli și a fost vizualizat folosind Paraview (http://www.paraview.org/), o aplicație open source pentru analiza și vizualizarea datelor. Reconstrucția permite analize detaliate ale morfologiei, proiecțiilor și caracteristicilor celulare ale diferitelor tipuri de celule. Densitatea mare a reconstrucțiilor permite analize geometrice și topologice.

Imagini reprezentative ale secțiunii coronale și ale regiunilor selectate din secțiunea unei inimi de șoarece ChR2/tdTomato adult care arată fluorescența și morfologia celulelor pozitive ChR2/tdTomato. (A) O secțiune coronală reprezentativă dintr-o inimă de șoarece ChR2/tdTomato adult (b) inserții de vederi cu zoom care arată fluorescența tdTomato în diferite regiuni ale inimii, etichetarea inserțiilor indică locațiile corespunzătoare, așa cum sunt marcate în A. AVN: nodul atrioventricular ASEP: sept atrial LA: atriul stâng LV: ventricul stâng SAN: nodul sinoatrial VSEP: sept ventricular RA, atriul drept, RV: ventricul drept.

Setul de date și modelul reconstruit 3D prezentate aici oferă un mijloc de reutilizare și o bază pentru dezvoltarea ulterioară a modelelor funcționale ale inimii prin încorporarea datelor fiziologice în viitor.


Rezultate

Baza de date CellAge

Site-ul web CellAge poate fi accesat la http://genomics.senescence.info/cells/. Figura 1a prezintă principalul browser de date CellAge, care permite utilizatorilor să navigheze prin datele disponibile. Browserul include mai multe coloane cu informații care pot fi căutate și filtrate eficient. Utilizatorii pot căuta o listă de gene separate prin virgulă sau gene individuale. Odată selectată, se va deschide o pagină de introducere a genelor cu o descriere mai detaliată a contextului experimental.

A Baza de date CellAge a genelor CS. Browserul principal de date oferă funcționalitate pentru a filtra după mai mulți parametri, cum ar fi linia celulară și tipul de senescență, și pentru a selecta gene pentru a vedea detalii și legături cu alte gene legate de îmbătrânire pe site-ul web HAGR. b Defalcarea efectelor pe care toate cele 279 de gene CellAge le au asupra CS și a tipurilor de CS în care sunt implicate genele CellAge. Genele marcate ca „Neclare” induc și inhibă CS în funcție de contextul biologic. Numerele de deasupra barelor indică numărul total de gene care inhibă, induc sau au efecte neclare asupra CS. c Îmbogățirea funcțională a proceselor biologice neredundante care implică genele CellAge (p < 0,05, testul exact al lui Fisher cu corecție BH) (Fișier suplimentar 1: Tabelul S3). Termenii GO au fost grupați pe baza asemănărilor semantice

CellAge a fost compilat în urma unei căutări în literatura științifică a experimentelor de manipulare a genelor în linii celulare umane primare, imortalizate sau canceroase care au determinat celulele să inducă sau să inhibe CS. Prima construcție CellAge cuprinde 279 de gene CS distincte, dintre care 232 de gene afectează CS replicativ, 34 de gene afectează CS indus de stres și 28 de gene afectează CS indus de oncogene. Din totalul de 279 de gene, 153 de gene induc CS (

43,4%), iar cinci gene au efecte neclare, atât inducând cât și inhibând CS, în funcție de condițiile experimentale (

1,8%) (Fig. 1b). Genele din setul de date sunt, de asemenea, clasificate în funcție de contextul experimental utilizat pentru a determina aceste asocieri.

De asemenea, am efectuat o meta-analiză pentru a deriva o semnătură moleculară a CS replicativă și am găsit 526 de gene supraexprimate și 734 de gene subexprimate [32]. Aceste semnături ale genelor sunt disponibile și pe site-ul web CellAge. Din cele 279 de gene CellAge, 44 de gene au fost prezente în semnăturile CS (15,8%). Această suprapunere a fost semnificativă (p valoare = 1,62e−08, testul exact al lui Fisher). În timp ce 13 dintre inductorii CellAge ai CS s-au suprapus în mod semnificativ cu semnăturile supraexprimate ale CS (8,5%, p = 2.06e−06, testul exact al lui Fisher), doar 7 s-au suprapus cu semnăturile subexprimate (4,6%, p = 5.13e−01, testul exact al lui Fisher). Inhibitorii CellAge ai CS s-au suprapus semnificativ cu ambele semnături supraexprimate ale CS (n = 7, 5.8%, p = 4.08e−02, testul exact al lui Fisher) și semnături subexprimate ale CS (n = 17, 14%, p = 2.06e−06, testul exact al lui Fisher).

Funcțiile genei CellAge

Seturile de date curate de înaltă calitate permit analize computaționale sistematice [33, 34]. Deoarece suntem interesați să aflăm mai multe despre procesele de bază și funcționalitatea partajată de genele CS umane, am început prin a explora îmbogățirea funcțională în setul de date CellAge.

Folosind baza de date pentru adnotare, vizualizare și descoperire integrată - DAVID Versiunea 6.8 [35, 36], am descoperit că genele din CellAge sunt îmbogățite cu mai multe grupuri asociate cu Activitatea Protein Kinazei, Reglarea transcripției, legarea ADN-ului, repararea daunelor ADN și celulele. reglarea ciclului în cancer. În special, genele care induc senescența au fost mai mult asociate cu promovarea transcripției, în timp ce genele care inhibă senescența au fost mai mult asociate cu reprimarea transcripției. În plus, am descoperit că inductorii senescenței au fost asociați semnificativ cu căile de semnalizare VEGF și TNF (p < 0,01, testul exact al lui Fisher cu corecția Benjamini-Hochberg) (Fișier suplimentar 1: Tabelul S1 și S2). WebGestalt 2019 a fost folosit pentru a determina în ce procese biologice neredundante sunt implicate genele CellAge, iar REVIGO a fost folosit pentru a clusteriza procesele asociate (p < 0,05, testul exact al lui Fisher cu corecție BH) [37, 38]. Un total de 298 de categorii au fost îmbogățite și grupate în mod semnificativ: Transducția semnalului de către mediatorul clasei p53 Îmbătrânirea Localizarea proteinelor la nucleu Transcripția modelului ADN, inițierea Proliferarea celulelor epiteliale Creșterea celulară Procesul ritmic Metabolismul carbohidraților celulari Metabolismul speciilor reactive de oxigen Metabolismul citokinelor Termogeneza adaptivă Metabolismul compusului hidroxi organic Metilare Generarea de metaboliți precursori și energie (Fig. 1c Fișier suplimentar 1: Tabelul S3).

Conservarea evolutivă a genelor CellAge în organisme model

În continuare, ne-am uitat la conservarea genelor CellAge într-un număr de organisme model mamifere și non-mamifere cu ortologi la genele CellAge umane folosind Ensembl BioMart (Versiunea 96) [39] pentru a înțelege conservarea genetică a proceselor CS. A existat un număr semnificativ mai mare de ortologi umani pentru genele CellAge decât pentru alte gene care codifică proteine ​​la șoarece, șobolan și maimuță, în timp ce speciile non-mamifere nu au prezentat o conservare semnificativă a genelor CellAge (cu două cozi). z-test cu corecție BH) (Fișier suplimentar 1: Tabel S4 Fișier suplimentar 2: Fig. S1A). Interesant, studiile anterioare au descoperit că genele asociate longevității (LAG) sunt în mod substanțial suprareprezentate de la bacterii la mamifere și că efectul supraexprimării LAG în diferite organisme model a fost în mare parte același [40]. Rămâne neclar care este originea evolutivă a majorității genelor CellAge sau de ce nu sunt prezente în organisme mai îndepărtate din punct de vedere evolutiv. Presiunile evolutive unice ar fi putut juca un rol important în evoluția genelor CellAge la mamifere. Cu toate acestea, celulele somatice în C. elegans și Drosophila sunt post mitotice și nu au un proces CS echivalent, ceea ce ar putea explica de ce genele CellAge nu sunt conservate. Am comparat în continuare conservarea inductorilor CellAge și a inhibitorilor CS și am constatat că, în timp ce inductorii au fost conservați în mod semnificativ în organismele model de mamifere, inhibitorii nu au fost (fișier suplimentar 2: Fig. S1B).

Raportăm, de asemenea, numărul de gene CellAge ortologe prezente la 24 de specii de mamifere folosind algoritmul software OMA v. 2.3.1 [41] (Fișier suplimentar 2: Fig. S1C). Din 279 de gene CellAge, raportăm 271 de ortogrupuri (OG) (fișier suplimentar 3). Douăzeci și două de OG au fost conservate în cele 24 de mamifere, inclusiv următoarele gene: DEK, BRD7, NEK4, POT1, SGK1, TLR3, CHEK1, CIP2A, EWSR1, HDAC1, HMGB1, KDM4A, KDM5B, LATS1, MORC3, NR2E1, PTTG1, RAD21, NFE2L2, PDCD10, PIK3C2A, și SLC16A7 (Fișier suplimentar 1: Tabelul S5). În genomurile de mamifere cu viață lungă analizate (uman, elefant, șobolan aluniță gol, balenă arc și liliac maro mic), am găsit 128 de gene OG CellAge (genomi suplimentare din fișierul 3 disponibile în fișierul suplimentar 1: Tabelul S6). Cu toate acestea, găsirea OG-urilor depinde de calitatea genomului și de adnotări, iar genomurile de calitate superioară ar produce probabil mai multe OG.

Pentru distanțele evolutive, am constatat că speciile cu viață lungă au avut distanțe similare cu celelalte specii, ceea ce înseamnă că lungimile ramurilor pentru speciile cu viață lungă sunt distribuite pe tot parcursul filogeniei, așa cum era de așteptat, într-o distribuție aleatorie (fișierul suplimentar 2: Fig. S1D) . Acesta a fost cazul când am analizat arborele concatenat pentru cele 271 de OG CellAge, precum și atunci când am analizat cele 22 de gene CellAge individuale conservate printre toate cele 24 de specii de mamifere (fișier suplimentar 4).

CellAge vs ortologi umani ai genelor organismului model asociate longevității

Pentru a înțelege modul în care senescența este legată de genetica proceselor de îmbătrânire, ne-am uitat la intersecția dintre genele CellAge și cele 869 de gene din setul de date ortologi umane ale genelor asociate cu longevitatea (LAG) ale organismelor model, colectate pe baza modificărilor cantitative ale duratei de viață. 34]. La fel ca CellAge, unde genele sunt clasificate în funcție de faptul dacă reglarea lor ascendentă induce, inhibă sau are un impact necunoscut asupra CS, setul de date orthologues de longevitate oferă, de asemenea, informații despre efectul reglării genelor sale, și anume dacă promovează (pro, 421) sau inhibă (anti, 448) longevitatea (Fișier suplimentar 1: Tabelul S7 Fișier suplimentar 2: Fig. S2).

Inductorii CS s-au suprapus statistic cu genele anti-longevitate și nu cu genele pro-longevitate (anti: n = 9,

6%, p = 1,42e−02 pro: n = 6,

4%, p = 1,40e−01, testul exact al lui Fisher cu corecție BH). Am observat un rezultat invers cu inhibitorii CS, unde a existat o suprapunere mult mai mare între inhibitorii CellAge și genele pro-longevitate, rezultând cele mai mici p valoarea tuturor suprapunerilor (n = 18,

15%, p = 2,61e−10, testul exact al lui Fisher cu corecție BH). Cu toate acestea, a existat și o suprareprezentare semnificativă a genelor care inhibă procesul CS în genele anti-longevitate (n = 7,

6%, p = 2.41e−02, testul exact al lui Fisher cu corecția BH). Este posibil ca unele dintre căile inhibitorilor de CS să fie asociate cu creșterea longevității, în timp ce alte căi au efecte anti-longevitate. În general, aceste rezultate evidențiază o asociere semnificativă statistic între CS și procesul de îmbătrânire și sugerează o potențială relație inversă între CS și longevitate, cel puțin pentru unele căi. Suprapunerile de gene sunt disponibile în fișierul suplimentar 1: Tabelul S8.

Genele CellAge exprimate diferențial cu vârsta

Într-o altă lucrare, am efectuat o meta-analiză pentru a găsi semnături moleculare ale îmbătrânirii derivate de la oameni, șobolani și șoareci [42]. Pentru a investiga modul în care expresia genelor CellAge se modifică odată cu vârsta, am căutat gene CellAge care fie induc (153) fie inhibă (121) senescența în lista semnăturilor de îmbătrânire. Genele supraexprimate cu vârsta (449) au avut o suprapunere semnificativă cu genele CellAge (inductori CS: n = 17,

11%, p = 6,58e−07 inhibitori CS: n = 9,

7%, p = 6,35e−03, testul exact Fisher cu două cozi cu corecție BH), în timp ce genele subexprimate cu vârsta (162) nu au făcut-o (inductori CS: n = 0, p = 8,57e−01 inhibitori CS: n = 3,

3%, p = 1,64e−01). Semnăturile genetice supraexprimate ale CS replicativ (526) s-au suprapus, de asemenea, semnificativ cu semnăturile supraexprimate ale îmbătrânirii (n = 60,

11%, p = 1,18e−23), dar nu semnăturile subexprimate ale îmbătrânirii (n = 3,

1%, p = 8,79e−01). În cele din urmă, semnăturile subexprimate ale CS replicative (734) nu s-au suprapus în mod semnificativ cu cele supraexprimate (n = 18,

3%, p = 8,79e−01) sau subexprimat (n = 9,

1%, p = 3.26e−01) semnături de îmbătrânire.

Având în vedere că 112 (40%) gene CellAge au fost confirmate doar pentru a controla CS în fibroblaste, am repetat analizele de mai sus utilizând un subgrup de gene CellAge despre care s-a demonstrat că afectează CS în alte tipuri de celule. Un total de 91 de inductori CellAge ai CS și 72 de inhibitori au fost suprapusi cu semnăturile îmbătrânirii. Aceleași suprapuneri au fost încă semnificative după corectarea FDR, indicând faptul că expresia diferențială a genelor CellAge cu vârsta nu poate fi atribuită exclusiv idiosincraziilor fibroblastelor (inductorii CS au fost supraexprimați: n = 10,

11%, p = 1,50e−04 subexprimat: n = 0, p = 1. Inhibitori CS supraexprimați: n = 6,

8%, 1,34e−02 subexprimat: n = 2,

Folosind toate genele care codifică proteinele din meta-analiză ca listă de fundal [42], am examinat în continuare inductorii CS supraexprimați cu vârsta pentru îmbogățirea funcțională folosind WebGestalt 2019 pentru a determina dacă procesele biologice specifice au fost îmbogățite [38]. În paralel, am efectuat această analiză folosind genele care s-au suprapus între inhibitorii CellAge și genele supraexprimate cu vârsta. În total, 71 de termeni GO au fost semnificativ îmbogățiți pentru suprapunerea dintre inductorii de senescență CellAge și genele reglate în creștere (p < 0,05 Testul exact al lui Fisher cu corecție BH) (Fișier suplimentar 1: Tabelul S9). Deoarece mulți dintre termenii GO îmbogățiți au fost redundanți (de exemplu, vindecarea rănilor și răspunsul la vindecarea rănilor, reglarea producției de citokine și producția de citokine), aceștia au fost grupați pe baza scorurilor de similaritate semantică folosind REVIGO [37]. Am găsit grupuri îmbogățite pentru reglarea proceselor apoptotice, răspunsul la lipide, dezvoltarea epiteliului, procesul ritmic, ritmul circadian, metabolismul citokinelor și adeziunea celulă-substrat (fișier suplimentar 2: Fig. S3A). Un total de 71 de termeni GO îmbogățiți pentru semnăturile supraexprimate ale CS supraexprimate cu vârsta au fost grupați folosind REVIGO, rezultând termeni îmbogățiți referitori la exocitoza reglementată, îmbătrânirea, răspunsul la beta-amiloid și proliferarea celulară (Fișier suplimentar 1: Tabelul S10 Fișier suplimentar 2: Fig. S3B). Niciun termen GO nu a fost îmbogățit semnificativ pentru inductorii de CS subexprimați cu vârsta, inhibitorii de CS exprimați diferențial cu vârsta, semnăturile subexprimate ale CS exprimate diferențial cu vârsta sau semnăturile supraexprimate ale CS subexprimate cu vârsta.

Expresia genei CS specifice țesuturilor și expresia diferențială a genelor CS în țesuturile umane cu vârsta

Proiectul Genotype-Tissue Expression (GTEx) conține date de expresie din 53 de situsuri de țesut diferite colectate de la 714 donatori cu vârste cuprinse între 20 și 79 de ani, grupați în 26 de clase de țesut [43]. Am întrebat dacă genele CellAge și semnăturile exprimate diferențial ale CS au fost exprimate într-o manieră specifică țesutului [42] și am determinat modul în care expresia genei CS se modifică în diferite țesuturi odată cu vârsta [32].

Am examinat mai întâi expresia CS specifică țesuturilor și am constatat că genele CellAge au fost fie exprimate într-o manieră specifică țesutului, mai puțin decât se aștepta întâmplător, fie în conformitate cu așteptările, cu alte cuvinte, majoritatea genelor CellAge tindeau să fie exprimate în mai multe țesuturi ( Fișier suplimentar 1: Tabelul S11 Fișier suplimentar 2: Fig. S4A). Testiculul a fost singurul țesut cu diferențe semnificative între numărul real și cel așteptat de gene CellAge specifice țesuturilor exprimate (mai puține gene specifice țesuturilor decât se aștepta întâmplător, p < 0,05, testul exact al lui Fisher cu corecție BH). Semnăturile subexprimate ale CS au fost semnificativ mai puțin specifice țesuturilor în testicul și ficat, în timp ce semnăturile supraexprimate ale CS au fost semnificativ mai puțin specifice țesuturilor în creier, ficat, pituitar și piele și mai specifice țesuturilor în sânge. De asemenea, am comparat raportul dintre genele specifice țesutului și genele nespecifice țesutului din seturile de date CS cu toate genele care codifică proteine. In timp ce

25% din toate genele care codifică proteine ​​sunt exprimate doar într-o manieră specifică țesutului

11% din semnăturile CS sunt exprimate într-o manieră specifică țesutului (Fișier suplimentar 2: Fig. S4B), semnificativ mai puțin decât se aștepta întâmplător (p = 2,52e−12 și, respectiv, 3,93e−48, testul exact al lui Fisher cu corecția BH).

Apoi, am examinat expresia diferențială a genelor CS cu vârsta în diferite țesuturi. Folosind un set de gene generate anterior de gene exprimate diferențial (DEG) cu vârsta în 26 de țesuturi pe GTEx [32, 43], am găsit suprapuneri cu 268 de inductori CellAge și inhibitori ai CS prezenți în datele de exprimare a genei (Fig. 2a). Procesul de găsire a DEG cu vârsta filtrează genele slab exprimate, ceea ce explică lipsa celor 11 regulatori CellAge CS. În general, inductorii de senescență au fost supraexprimați în diferite țesuturi odată cu vârsta, deși niciuna dintre suprapuneri nu a fost semnificativă după corectarea FDR (testul exact al lui Fisher cu corecția BH, p < 0,05) (Fișier suplimentar 1: Tabelul S12). A existat o tendință opusă la inhibitorii de CS, unde a existat o supraexpresie semnificativ mai mică a inhibitorilor de CS odată cu vârsta, deși aceste suprapuneri nu au fost, de asemenea, semnificative după corectarea FDR. Un total de 1240 de semnături exprimate diferențial ale CS au fost, de asemenea, suprapuse cu DEG-urile de îmbătrânire GTEx în 26 de țesuturi umane, inclusiv 9 țesuturi analizate anterior (Fig. 2b) [32]. Semnăturile supraexprimate ale CS au fost semnificativ supraexprimate în mai multe țesuturi odată cu vârsta și doar semnificativ subexprimate cu vârsta în creier și uter (p < 0,05, testul exact al lui Fisher cu corecție BH) (Fișier suplimentar 1: Tabelul S13). În plus, semnăturile subexprimate ale CS au avut tendința de a fi supraexprimate mai puțin decât se aștepta întâmplător în mai multe țesuturi odată cu vârsta, deși aceste suprapuneri au fost semnificative numai după ajustarea FDR în colon și nerv, în timp ce semnăturile subexprimate ale CS au fost semnificativ supraexprimate mai mult decât se aștepta în uterul. În cele din urmă, semnăturile subexprimate ale CS au fost subexprimate cu vârsta mai mult decât se aștepta întâmplător în colon, plămâni și ovar și subexprimate cu vârsta mai puțin decât se aștepta întâmplător în creier. De asemenea, am comparat raportul dintre genele CS exprimate diferențial cu cele neexprimate diferențial în cel puțin un țesut cu vârsta cu raportul echivalent în toate genele care codifică proteine ​​(Fișier suplimentar 2: Fig. S5A și S5B) (vezi Analiza suprapunerii în metode) . Am aflat ca

64% din toate genele care codifică proteine ​​nu și-au schimbat semnificativ expresia odată cu vârsta în niciun țesut uman, în timp ce

19% erau supraexprimate şi

7% au fost atât supraexprimate, cât și subexprimate în mai multe țesuturi) (Fișier suplimentar 1: Tabelul S14 și S15). Pentru genele CellAge, numărul de inductori ai CS supraexprimați semnificativ cu vârsta în cel puțin un țesut a fost semnificativ mai mare decât media genomului (n = 50,

30%, p = 1,5e−3, testul exact al lui Fisher cu corecție BH). Inductorii CS subexprimați odată cu vârsta și inhibitorii CS exprimați diferențial odată cu vârsta nu au fost semnificativ diferiți de media care codifică proteine. De asemenea, am comparat numărul de semnături ale CS exprimat diferențial cu vârsta în cel puțin un țesut cu media genomului care codifică proteine. Semnăturile supraexprimate ale CS au fost exprimate diferențiat semnificativ cu vârsta în comparație cu toate genele care codifică proteine, în timp ce numărul de semnături subexprimate ale CS a fost subexprimat cu vârsta mai mult decât se aștepta întâmplător.

Expresie diferențială a A inductori CellAge și inhibitori ai CS și b semnături exprimate diferențiat ale CS în țesuturile umane cu vârsta. Valorile roșii indică faptul că au existat mai multe gene exprimate diferențial cu vârsta decât se aștepta întâmplător (-log2(p-val)). Valorile albastre indică faptul că au existat mai puține gene exprimate diferențial cu vârsta decât se aștepta întâmplător (log2(p-val)). Asteriscurile (*) indică țesuturi cu mult mai multe gene CS exprimate diferențial cu vârsta (p < 0,05, testul exact al lui Fisher cu corecție BH, abs(50*log2FC) > log2(1.5)) (Fișier suplimentar 1: Tabelul S12 și S13). c Comparația registrului median2FC și distribuția jurnalului2FC cu vârsta între genele CS și toate genele care codifică proteine ​​din țesuturile umane. Dale roșii indică faptul că jurnalul median2FC al genelor CellAge și CS este mai mare decât logul median2FC de toate genele care codifică proteine ​​pentru acel țesut, în timp ce plăcile albastre indică faptul că logul median2FC al genelor CS este mai mică decât logul median al genomului2FC. Asteriscurile (*) indică diferențe semnificative între jurnal2Distribuția FC cu vârsta genelor CS și log2Distribuția FC cu vârsta tuturor genelor care codifică proteine ​​pentru acel țesut (p < 0,05, testul sumei rangului Wilcoxon cu corecția BH) (Fișier suplimentar 1: Tabelul S16). d Gene CellAge exprimate diferențial în cel puțin două țesuturi odată cu vârsta. Plăcile gri sunt gene care au avut niveluri scăzute de expresie bazală în țesutul dat și au fost filtrate înainte ca analiza exprimării genice diferențiale să fie efectuată [32]. Placile colorate indică o expresie diferențială semnificativă cu vârsta (p < 0,05, moderat t-test cu corectie BH, abs(50*log2FC) > log2(1.5)). Numerele după numele genelor din paranteze indică numărul de țesuturi care exprimă în mod diferențial gena CellAge cu vârsta. Numele genelor roșii specifică faptul că gena CellAge a fost semnificativ supraexprimată odată cu vârsta în mai multe țesuturi decât se aștepta întâmplător, în timp ce numele genelor albastre arată că genele CellAge au fost semnificativ subexprimate odată cu vârsta în mai multe țesuturi decât se aștepta întâmplător (p < 0,05, simulări aleatorii de suprapunere a țesutului de expresie a genelor) (Fișier suplimentar 1: Tabelul S17 – S20). Ficatul, pancreasul, pituitara, splina, intestinul subțire și vaginul nu au avut CS DEG semnificative cu vârsta

Modificarea generală a pliului (FC) cu vârsta genelor CS a fost, de asemenea, comparată cu FC cu vârsta tuturor genelor care codifică proteine ​​pentru fiecare țesut din GTEx (Fig. 2c Fișier suplimentar 1: Tabelul S16). Jurnalul median2FC cu vârsta inductorilor CellAge CS și semnăturile supraexprimate ale CS a fost mai mare decât mediana genomului pentru majoritatea țesuturilor de pe GTEx, deși diferența de log2Distribuția FC odată cu vârsta între inductorii CS și toate genele care codifică proteine ​​a fost semnificativă doar în șapte țesuturi (testul sumei rangului Wilcoxon cu corecția BH, p < 0,05). Jurnalul median2FC cu vârsta inhibitorilor CellAge ai CS și semnăturile subexprimate ale îmbătrânirii a fost mai mică decât mediana genomului în majoritatea țesuturilor, prezentând tendința opusă inductorilor de CS și semnăturile supraexprimate ale CS. Cu toate acestea, singurele țesuturi cu distribuții semnificativ diferite de log2FC cu vârsta pentru inhibitorii de CS au fost pielea și esofagul, unde log median2Distribuția FC a fost semnificativ mai mică decât media genomului și glanda salivară, unde logul median2Distribuția FC a fost semnificativ mai mare decât media genomului. De asemenea, am constatat că distribuția log2FC cu vârsta semnăturilor exprimate diferențial ale CS sa schimbat semnificativ în direcții opuse cu vârsta în 14 țesuturi. Interesant, această tendință a fost prezentă chiar și în glanda suprarenală și uter, unde semnăturile CS s-au schimbat odată cu vârsta în direcția opusă majorității altor țesuturi.

Expresia majorității genelor CS nu se modifică odată cu vârsta (fișierul suplimentar 2: Fig. S5A), totuși un număr semnificativ de gene CS tind spre expresie diferențială odată cu vârsta în mai multe țesuturi la om (Fig. 2). Am efectuat 10.000 de simulări pe datele GTEx ARN-seq pentru a determina probabilitatea ca o genă CS să fie exprimată diferențial cu vârsta în mai mult de un țesut din întâmplare (vezi Simularea expresiei genei CS în îmbătrânirea umană în metode) (Fișier suplimentar 2: Fig. S5C Fișier suplimentar 5). Probabilitatea ca o genă CellAge să fie supraexprimată cu vârsta în mai mult de trei țesuturi și subexprimată odată cu vârsta în mai mult de două țesuturi din întâmplare a fost mai mică de 5% (simulări ale expresiei genei CS) (Fig. 2d Fișier suplimentar 1: Tabelul S17 Fișier suplimentar 2 : Fig. S5C). Inductorii CS au fost supraexprimați în semnificativ mai multe țesuturi odată cu vârsta decât se aștepta din întâmplare CDKN2A, NOX4, CPEB1, IGFBP3. ABI3, CDKN1A, CYR61, DDB2, MATK, PIK3R5, VENTX, HK3, SIK1, și SOX2, in timp ce PTTG1, DHCR24, IL8, și PIM1 au fost subexprimate în semnificativ mai multe țesuturi (Fișier suplimentar 1: Tabelul S18 Fișier suplimentar 2: Fig. S5D). ZMAT3 și EPHA3 au fost cei doi inhibitori de CS supraexprimați în semnificativ mai multe țesuturi cu vârsta decât se aștepta întâmplător, în timp ce CDK1, AURKA, IMC1, BRCA1, EZH2, FOXM1, HJURP, MAD2L1, SNAI1, și VEGFA au fost subexprimate în semnificativ mai multe țesuturi. De asemenea, am efectuat simulări pentru a determina probabilitatea ca semnăturile expresiei genice ale CS să fie exprimate diferențiat cu vârsta în mai multe țesuturi umane din întâmplare (fișier suplimentar 1: Tabelul S19): mai puțin de 5% din genele din semnăturile CS sunt de așteptat să fi supraexprimat cu vârsta în mai mult de trei țesuturi sau subexprimat odată cu vârsta în mai mult de două țesuturi. Un total de 46 de gene semnătură CS (29 supraexprimate, 17 subexprimate) au fost supraexprimate odată cu vârsta în semnificativ mai multe țesuturi decât se aștepta întâmplător, iar 139 de gene semnătură CS au fost subexprimate în mai multe țesuturi decât se aștepta întâmplător (26 de gene supraexprimate în CS, 113 subexprimate). gene în CS) (Fișier suplimentar 1: Tabelul S20).

Genele CS și longevitatea se asociază cu genele bolilor legate de îmbătrânire?

O lucrare anterioară [34] a grupat 769 de boli legate de îmbătrânire (ARD) în 6 clase NIH Medical Subject Heading (MeSH) [44] pe baza datelor din Genetic Association Database [45]: boli cardiovasculare (CVD), boli ale sistemului imunitar ( ISD), boli musculo-scheletice (MSD), boli nutriționale și metabolice (NMD), boli neoplazice (NPD) și boli ale sistemului nervos (NSD). Aceeași abordare a fost folosită pentru a construi instrumentul HAGR de selecție a genelor bolilor legate de îmbătrânire (http://genomics.senescence.info/diseases/gene_set.php), pe care l-am folosit pentru a obține genele ARD pentru fiecare clasă de boală și pentru a se suprapune cu Genele CellAge.

Au existat legături între genele CellAge și genele NPD, ceea ce este de așteptat având în vedere rolul antitumoral al senescenței (Fișier suplimentar 1: Tabelul S21). Fără a lua în considerare prejudecățile de publicare (adică, unele gene fiind mai studiate decât altele), toate clasele ARD sunt asociate în mod semnificativ cu genele CellAge, cu caracteristici mai scăzute cu bolile care afectează în principal țesutul neproliferant, cum ar fi NSD. Genele NPD sunt și mai suprareprezentate în setul de date umane GenAge, ceea ce ar putea sugera o asemănare între îmbătrânire și senescență prin căi legate de cancer. Sunt interesante atât asocierea puternică a genelor NPD cu GenAge și senescență, cât și legătura puternică dintre GenAge și toate clasele ARD. Într-adevăr, genele asociate longevității au fost legate de genele asociate cancerului în lucrările anterioare [46]. Având în vedere că vârsta este principalul factor de risc pentru ARD [47, 48], rezultatele de la GenAge susțin conjectura testată anterior că există (i) cel puțin câteva gene împărtășite de toate sau majoritatea claselor de ARD și (ii) acele gene sunt, de asemenea, legate de îmbătrânirea în general [34]. De asemenea, am căutat gene care sunt partajate în mai multe clase de boli și sunt, de asemenea, înregistrate ca gene CS. Genele CellAge partajate în mai multe clase ARD incluse VEGFA și IFNG (5 clase ARD), SERPINA1, MMP9, și AR (4 clase ARD) și CDKN2A (3 clase ARD). Rezultatele sunt rezumate în fișierul suplimentar 2: Fig. S6.

Sunt genele CS asociate cu genele cancerului?

Senescența celulară este considerată pe scară largă a fi un mecanism anti-cancer [49]. Prin urmare, inductorii și inhibitorii senescenței CellAge au fost suprapusi cu oncogene din baza de date a genei supresoare de tumori (TSG) (TSGene 2.0) (n = 1018) [50] și baza de date ONGene (n = 698) [51] (Fișier suplimentar 1: Tabel S22 – S27). Numărul de gene semnificative care se suprapun este prezentat în Fig. 3a, în timp ce cel semnificativ p valorile din analiza de suprapunere sunt prezentate în Fig. 3b (p < 0,05, testul exact al lui Fisher cu corecție BH).

A Suprapunerea între inductorii și inhibitorii CellAge și oncogene și genele de suprimare a tumorii. b Ajustat p valoarea și raportul cotelor analizei de suprapunere. Numărul de gene care se suprapun în fiecare categorie a fost semnificativ (p < 0,05, testul exact al lui Fisher cu corecție BH). p valorile sunt afișate cu scriere gri pentru fiecare comparație. Date disponibile în Fișierul suplimentar 1: Tabelul S22 – S27

Suprapunerea semnificativă dintre genele CellAge și cancer indică o relație strânsă între ambele procese. Mai exact, suprapunerea dintre inhibitorii CellAge și oncogene și suprapunerea dintre inductorii CellAge și TSG-uri au fost mai semnificative, cu mai puține p valori și cote mai mari (Fig. 3) [52]. Această analiză a fost repetată după filtrarea genelor CellAge despre care s-a demonstrat că doar induc senescența în fibroblaste. Suprapunerile au fost încă semnificative după corectarea FDR, indicând faptul că suprapunerea între CellAge și genele cancerului nu este specifică genelor care controlează CS în fibroblaste (inductori CS cu oncogene: n = 10, p = 9e−05 cu TSG-uri: n = 23, p = 4e−12. Inhibitori CS cu oncogene: n = 17, 1e−12 cu TSG-uri: n = 8, p = 9e−04, p < 0,05, testul exact al lui Fisher cu corecție BH) (Fișier suplimentar 2: Fig. S7).

Analizele de îmbogățire a ontologiei genelor (GO) au fost efectuate folosind WebGestalt pentru a identifica funcția genelor care se suprapun [38]. Genele suprapuse între inductorii de senescență CellAge și TSG-uri au fost îmbogățite în termeni GO legați de semnalizarea p53 și tranziția de fază a ciclului celular (fișier suplimentar 2: Fig. S8A). Funcțiile îmbogățite ale genelor care se suprapun între inductorii de senescență CellAge și oncogene au fost legate în principal de procesele sistemului imunitar și de răspunsul la stres (fișier suplimentar 2: Fig. S8B). Genele suprapuse între inhibitorii de senescență CellAge și TSG-uri au fost îmbogățite în doar 5 termeni, care sunt răspunsul celular la compusul care conține oxigen, reglarea pozitivă a organizării cromatinei și termenii referitori la diferențierea sexului feminin (Fișier suplimentar 2: Fig. S8C). În cele din urmă, genele care se suprapun între inhibitorii senescenței CellAge și oncogene au fost legate de procese precum reglarea negativă a transcripției modelate de acid nucleic, răspunsul celular la stres și proliferarea celulară (fișier suplimentar 2: Fig. S8D). Toate datele de îmbogățire funcțională pot fi găsite în fișierul suplimentar 1: Tabelul S28 – S31.

Analize de rețea

Genele CellAge formează atât rețele proteină-proteină, cât și rețele de co-expresie genică. Formarea unei rețele de interacțiune proteină-proteină (PPI) este semnificativă în sine, având în vedere doar asta

4% dintre genele dintr-un set de date ale genelor alese aleatoriu de dimensiuni similare sunt interconectate [53]. Pentru a avea o viziune mai holistică a CS, am fost interesați de parametrii topologici ai rețelelor pe care le formează genele CS. Pentru aceasta, au fost construite mai multe tipuri de rețele folosind genele CellAge ca semințe: rețeaua CS PPI, împreună cu două rețele de co-expresie a genei CS construite folosind date ARN-seq și microarray. Rețelele biologice au, în general, o topologie fără scară, în care majoritatea genelor (nodurilor) au puține interacțiuni (margini), în timp ce unele au mult mai multe interacțiuni, rezultând o distribuție a legii puterii a gradului nodului (numărul de interacțiuni per nod) [31, 54]. După cum era de așteptat, distribuția gradului de nod a rețelelor de mai sus confirmă o structură fără scară (fișier suplimentar 2: Fig. S9). Fișier suplimentar 1: Tabelul S32 prezintă statisticile rezumate ale rețelei pentru rețelele rezultate.

Parametrii de rețea pe care i-am analizat au fost următorii: grad, centralitate între apropiere (BC), centralitate apropiere (CC) și conectivitate crescută (IC).Gradul este numărul de interacțiuni per nod, iar nodurile cu scoruri de grad ridicat sunt denumite hub-uri de rețea. BC este o măsură a proporției celor mai scurte căi dintre toate perechile de noduri din rețea care traversează nodul în cauză. Nodurile cu BC mare sunt blocaje de rețea și pot conecta porțiuni mari ale rețelei care altfel nu ar comunica eficient sau pot monitoriza fluxul de informații din regiuni disparate din rețea [31]. CC este o măsură a cât de aproape este un anumit nod de toate celelalte noduri și este calculată cu inversul sumei celor mai scurte căi către toate celelalte noduri. Scorurile CC mai mici indică faptul că nodurile sunt mai centrale în rețea, în timp ce scorurile CC ridicate indică că nodul poate fi la periferia rețelei și, prin urmare, mai puțin central. IC pentru fiecare nod măsoară semnificația statistică pentru orice suprareprezentare a interacțiunilor dintre un anumit nod și un anumit subset de noduri (în cazul nostru proteine ​​CellAge) în comparație cu ceea ce este de așteptat întâmplător. Luate împreună, genele care au un scor ridicat pentru grad, BC, CC și IC în cadrul rețelelor de senescență sunt probabil regulatori importanți ai CS, chiar dacă până acum nu au fost identificate ca gene CS.

Privind topologia rețelelor CS, rețeaua PPI, rețeaua de co-expresie bazată pe microarray și rețeaua de co-expresie ARN-seq posedă toate structuri comparabile fără scară. Cu toate acestea, datele de co-expresie genică sunt mai puțin influențate de părtinirea publicării. Acest lucru este deosebit de important având în vedere că literatura publicată raportează adesea interacțiuni pozitive proteină-proteină față de interacțiunile proteinelor care nu există [55]. Lipsa rezultatelor negative pentru publicațiile privind interacțiunea proteinelor complică și mai mult interpretarea rețelelor PPI, deoarece absența marginilor în rețele nu înseamnă neapărat că acestea nu există. Pe de altă parte, datele de co-expresie ARN-seq și microarray, deși nu sunt influențate de părtinirea publicării, nu oferă indicații ale interacțiunilor reale demonstrate experimental (fizice sau genetice). În plus, numărul de citire a ARN nu se corelează direct cu numărul de proteine, studiile anterioare raportând că doar 40% din variația concentrației proteinei poate fi atribuită nivelurilor de ARNm, un aspect important de luat în considerare atunci când se interpretează datele ARN-seq [56]. În cele din urmă, rețeaua de microarray a fost construită folosind COXPRESdb (V6), care conține 73.083 de probe umane și a oferit un alt grad de validare [57]. Deși se pare că ARN-seq detectează mai multe DEG, inclusiv ARNnc [58], GeneFriends [59] conține 4133 de probe umane, mult mai puțin decât baza de date cu microarray de la COXPRESdb.

Rețeaua de interacțiune proteină-proteină asociată cu CS

Am folosit doar interacțiunile din proteine ​​umane pentru a construi rețeaua CellAge PPI. Rețeaua a fost construită luând genele CellAge, partenerii lor de prim ordin și interacțiunile dintre ei din baza de date BioGrid. Rețeaua CellAge PPI cuprindea 2487 de noduri în patru componente disjunse, dintre care trei constau doar din două noduri fiecare, iar componenta principală conținea 2481 de noduri.

Genele cu cele mai mari scoruri de grad au fost TP53, HDAC1, BRCA1, EP300, și MDM2. Aceste gene s-au clasat, de asemenea, în primele cinci CC. De așteptat, câteva dintre aceste gene au posedat și cel mai înalt BC: TP53, BRCA1, HDAC1, și MDM2 (cu SAC3, o genă cu un grad puțin mai mic tot în top 5). Pe de altă parte, genele clasate în top 5 IC au fost CCND1, CCND2, CDKN2A, SP1, și EGR1. De remarcat printre aceste noduri, EP300, MDM2, CCND2, și EGR1 nu erau deja prezente în CellAge. Fișierul suplimentar 2: Fig. S10 rezumă intersecția genelor în parametrii rețelei calculați, în timp ce Fișierul suplimentar 1: Tabelul S33 identifică potențialii regulatori de senescență care nu sunt deja prezenți în CellAge din rețeaua PPI. Am descoperit că din primii 12 candidați PPI, 11 s-a dovedit recent că reglează senescența în liniile celulare umane și vor fi adăugați la CellAge build 2.

În cadrul componentei principale de rețea PPI, o mare parte a genelor CS și partenerii lor au format un singur modul mare cu 1595 de noduri. Folosind versiunea DAVID 6.8, am găsit că termenii îmbogățiți în modulul primii cinci sunt: ​​transcripție, deteriorarea ADN-ului și repararea ADN-ului, ciclul celular, proteazomul și ubiquitina și calea ATP [35, 36] (fișier suplimentar 1: Tabelul S34). Aceste rezultate sunt toate în conformitate cu semnele distinctive descrise anterior ale senescenței celulare [60].

Este prudent de remarcat faptul că măsurile de centralitate în rețelele PPI trebuie interpretate cu prudență din cauza părtinirii de publicare care poate fi o parte inerentă a rețelei [61, 62]. Genele de top ale rețelei identificate din rețeaua PPI sunt susceptibile să fie puternic influențate de părtinirea publicării [63]. Privind mediile PubMed ale simbolului genei din titlu sau rezumat, a evidențiat un număr mediu de rezultate de aproximativ 2897 per genă, mult mai mare decât media genomului (136) sau genele CellAge existente (712) (Fișier suplimentar 2: Fig. S11) ).

Rețea de co-expresie ARN-Seq neponderată

Am folosit gene CellAge care induc și inhibă CS și partenerii lor de co-exprimare pentru a construi o rețea de co-expresie a senescenței celulare. Rețeaua constă dintr-o rețea principală conectată cu 3198 de noduri și un număr de „insule” mai mici care nu sunt conectate la rețeaua principală (Fig. 4a).

A Analiza cluster a rețelei de co-expresie neponderată ARN-Seq. Cele 171 de noduri de semințe obținute de la CellAge și interactorii lor de prim ordin. Culorile reprezintă defalcarea rețelei în grupuri. Algoritmul a dezvăluit 52 de clustere distincte, dintre care colorăm și ordonăm cele 19 clustere cu cele mai bune clasamente pentru modularitate sau, în cazul modulului 17–19, dimensiune. Nodurile CellAge sunt colorate în violet închis și apar în întreaga rețea. Nodurile mai mari au o centralitate mai mare. În ordinea descrescătoare a modularității, principalele grupuri de funcții ale modulelor au fost legate de Spermatogeneză (Modulul 1), Sinapsa (Modulul 2), Contracția mușchilor cardiaci (Modulul 3), Ciclul celular (Modulul 4), Secretat (Modulul 5), Tudor domeniu (Modulul 6), legarea ATP (Modulul 7), Symport (transportul ionilor de sodiu) (Modulul 8), deteriorarea și repararea ADN-ului (Modulul 9), peptidă de tranzit: mitocondrie (Modulul 10), Metabolismul steroizilor (Modulul 11), Reglarea transcripției (modulul 12), transportul proteinelor (modulul 13), mitocondria (modulul 14), biosinteza hemului (modulul 15), imunitatea înnăscută (modulul 16), peptida semnal (modulul 17), keratinocite (modulul 18) și reprimarea transcripției (Modulul 19) (Rezultă îmbogățirea în fișierul suplimentar 1: tabelul S35, genele în fișierul suplimentar 1: tabelul S36). b ARN-Seq Unweighted Co-expression Network, clustering local. Roșu/Portocaliu reprezintă nodurile cu coeficient de grupare ridicat, în timp ce verde pal reprezintă nodurile cu coeficient de grupare mai mic. Gradul este, de asemenea, ponderat folosind dimensiunea nodului. Nodurile CellAge sunt colorate în violet, iar nodurile GenAge Human sunt, de asemenea, afișate și evidențiate în verde strălucitor. Panoul din dreapta este o vedere mărită a panoului din stânga

Rețeaua principală interconectată includea 130 de gene CellAge. Dintre acestea, am constatat, de asemenea, că 14% dintre ele sunt și gene legate de îmbătrânirea umană, raportate în GenAge - Setul de date uman, în timp ce restul rețelelor mai mici constau doar din 1,6% gene de longevitate [64]. Apoi, ne-am uitat la o serie de parametri de centralitate pentru a vedea cum sunt caracterizate genele CellAge în comparație cu întreaga rețea. Genele CellAge au avut un BC mediu de 0,00363, în timp ce restul genelor au avut un BC de 0,00178, dezvăluind că, dacă genele CellAge sunt îndepărtate, modulele din rețea pot fi deconectate mai ușor. În timp ce nodurile care obțin scoruri ridicate pentru BC în rețelele PPI sunt probabil regulatori de blocaj ai expresiei genelor, acest lucru nu este neapărat adevărat pentru rețelele de co-expresie. În acest caz, nodurile pot avea, de asemenea, scoruri mari BC dacă sunt co-activate prin diferite căi de semnalizare. Deși numai BC nu este suficient pentru a determina care gene reglează CS, luarea în considerare a BC cu alți parametri topologici ai rețelei poate fi un bun indicator al funcției genei. În afară de BC ridicat, genele CellAge au avut, de asemenea, un coeficient de grupare local mai scăzut de 0,58, comparativ cu o medie de 0,76 în genele non-CellAge, ceea ce indică faptul că la nivel local, genele CellAge se conectează la alte gene mai puțin decât media pentru rețea. Acest lucru poate fi văzut și la nivel de grad, unde genele CellAge au avut în medie doar 53 de conexiuni, comparativ cu o medie de 103 conexiuni în genele non-CellAge. În cele din urmă, scorul CC mediu nu a fost semnificativ diferit între nodurile CellAge și alte gene din rețea (0,148 în CellAge vs 0,158). Prin urmare, genele CellAge au fost mai probabil să fie blocaje în semnalizarea diferitelor module și să ocupe zone localizate cu redundanță mai mică a rețelei, ceea ce sugerează că perturbările în exprimarea lor ar putea avea un impact mai mare asupra conectării diferitelor procese celulare subiacente.

Analiza topologică a componentei rețelei principale în ansamblu a relevat o topologie mai modulară decât rețeaua PPI, rezultând genele care tind să nu apară în mai multe măsuri de centralitate. Au existat 23 de noduri cu IC semnificative cu gene legate de senescență, inclusiv PTPN6, LAPTM5, CORO1A, CCNB2 și HPF1. Niciun nod din primele 5 IC nu a fost prezent în primele 5 gene cu BC, CC sau grad ridicat. În general, candidații principali de interes au inclus KDM4C, care a avut un IC semnificativ și a fost în top 1% din CC și top 5% din BC, împreună cu PTPN6, SASH3 și ARHGAP30, care toate au avut valori semnificative IC și se aflau în primele 5% din BC. Am aflat ca KDM4C și PTPN6 s-a demonstrat că reglează CS în liniile celulare umane și vor fi adăugate la construirea 2 din CellAge [65, 66].

Studiile anterioare au susținut că măsurile de centralitate sunt în general importante pentru a identifica componentele cheie ale rețelei, BC fiind una dintre cele mai comune măsuri. Cu toate acestea, s-a postulat și din punct de vedere matematic că BC intra-modular este mai important decât BC inter-modular [67]. Prin urmare, prin izolarea clusterelor de rețea de interes și identificarea genelor cu BC mare sau centralitate în submodule, ne propunem să identificăm noi regulatori de senescență din rețeaua de co-expresie.

Folosind aplicația CytoCluster (vezi Rețele în metode) [68], am găsit 54 de clustere în rețea, dintre care reprezentăm clusterele de sus colorate în funcție de modularitate (Modulul 1-16) sau dimensiunea (Modulul 17-19) (Fig. 4a). Îmbogățirea căii reactomului pentru toate grupurile principale a evidențiat termenii ciclului celular și ai sistemului imunitar în cele două mari grupuri [35, 36]. Cel mai mare grup de 460 de noduri (17 noduri CellAge, Modulul 4), a avut un scor de modularitate ridicat și a fost puternic asociat cu genele ciclului celular, incluzând următorii termeni generali: Ciclul celular Ciclul celular, Prometafaza mitotică mitotică Rezoluția coeziunii și ADN-ului cromatidei surori. Reparație. Al doilea cel mai mare grup (Modulul 16), totuși, avea o modularitate slabă (clasamentul 26), cuprindea 450 de noduri (19 noduri CellAge) și era îmbogățit pentru căi legate de imunitate, inclusiv: Sistemul imunitar adaptiv Sistemul imunitar înnăscut Interacțiunile imunoregulatoare dintre un limfoid și o celulă non-limfoide degranulare neutrofile și semnalizare citokină în sistemul imunitar. Clusterul 4 și Clusterul 5 nu au fost îmbogățiți pentru Reactome Pathways. O inspecție vizuală a arătat o serie de gene blocaj între Modulul 1 și Modulul 16, în concordanță cu rolul sistemului imunitar în eliminarea și supravegherea celulelor senescente și a secreției de imunomodulatori de către celulele senescente [69] (Fișier suplimentar 1: Tabelul S35) .

Ne-a interesat și vizualizarea zonelor din rețea cu un coeficient de clustering local ridicat, deoarece acest parametru reprezintă zone cu multe interacțiuni de vecinătate și, prin urmare, zone mai robuste din rețea. S-a descoperit că cele două grupuri de interes, îmbogățite pentru termeni de ciclu celular și termeni de sistem imunitar, s-au suprapus cu regiuni cu coeficient de grupare mai scăzut, implicând potențial părți ale sistemului biologic cu mai puțină redundanță în procesul de bază. Figura 4b ilustrează regiuni cu coeficient de grupare local ridicat în rețea (portocaliu) și regiuni mai puțin bine conectate local (verde).

Rețea de co-expresie microarray neponderată

Am realizat, de asemenea, o rețea de co-expresie de microarray neponderată construită din baza de date COXPRESdb a co-expresiei genelor de microarray (V6) [57] (Fișier suplimentar 2: Fig. S12). În comparație cu rețeaua de co-expresie ARN-seq, rețeaua de microarray este semnificativ mai mică și a inclus doar 34% din genele CellAge (fișier suplimentar 1: Tabelul S32). Cu toate acestea, am constatat că SMC4 a fost un blocaj important în rețeaua de microarray, fiind în top 5% CC și IC (Fișier suplimentar 2: Fig. S12D și S12E). SMC4 nu a fost asociat în mod independent cu senescența, în ciuda faptului că face parte din complexul de condensare II, care este legat de senescența celulară [70]. În plus, SMC4 este asociat cu progresia ciclului celular și repararea ADN-ului, două mecanisme antagoniste cheie ale dezvoltării senescenței celulare [71, 72]. SMC4 a fost legată de progresia ciclului celular, reglarea proliferării și repararea daunelor ADN, în conformitate cu cele mai semnificative grupuri funcționale evidențiate din modulul 2 și din întreaga rețea Microarray (Fișier suplimentar 1: Tabelul S39 și S40 Fișierul suplimentar 2: Fig. S13) [73, 74]. A existat o suprapunere limitată între rețeaua de co-expresie cu microarray și rețeaua de co-expresie ARN-seq, deși acest lucru nu este surprinzător având în vedere specificitatea și sensibilitatea mai ridicate și capacitatea de a detecta transcrierile cu abundență scăzută ale ARN-seq [75].

Validarea experimentală a candidaților la senescență

Ne-am propus să testăm dacă genele candidate din analizele noastre de rețea sunt într-adevăr inhibitori ai senescenței folosind o abordare bazată pe siRNA, prin care knockdown-urile permit inducerea căii de senescență p16 și/sau p21, conducând la senescență [76]. Am testat 26 de candidați potențiali inhibitori ai senescenței, dintre care 20 au fost aleși folosind GeneFriends, o bază de date de vinovăție prin asociere pentru a găsi gene co-exprimate [59]. Pentru aceasta, am folosit inhibitorii CellAge CS ca gene semințe, presupunând că genele co-exprimate cu inhibitorii senescenței ar inhiba, de asemenea, senescența și am generat o listă a celor mai bune gene co-exprimate cu inhibitorii CS pe baza datelor ARN-seq ( Fișier suplimentar 1: Tabelul S41). În plus, CellAge are mai multe moduri de partiționare a genelor, inclusiv tipul de senescență în care sunt implicate genele (Fig. 1b). Am decis să căutăm gene co-exprimate cu inhibitori ai senescenței premature induse de stres (SIPS). Am generat o listă de gene care sunt co-exprimate cu genele CellAge SIPS (Fișier suplimentar 1: Tabelul S42). Am ales să validăm cinci gene suplimentare care au fost ambele co-exprimate cu CellAge SIPS și sunt prezente ca subexprimate în semnătura noastră a CS [32]. În cele din urmă, am ales SMC4 din rețeaua de microarray datorită interacțiunii sale cu alte gene de senescență din cadrul rețelei, asocierii sale cu progresia ciclului celular și faptului că este subexprimată în celulele senescente, indicând că poate inhiba senescența în celulele care se replica. Genele alese, împreună cu rezultatele de validare experimentală sunt prezentate în Fig. 5, în timp ce justificarea validării noastre și scorurile Z sunt prezentate în fișierul suplimentar 1: Tabelul S43 și, respectiv, S44.

Validarea experimentală a 26 de candidați la senescență. a–e Imagini reprezentative ale fibroblastelor după transfecția cu ARNsi al ciclofilinei B (rândul de sus), ARNsi CBX7 (rândul din mijloc) sau ARNsi GFT3C4 (rândul de jos). A DAPI (albastru) și Ki67 (verde). b DAPI (albastru) și Cell Mask (roșu). c DAPI (albastru), p16 (verde) și p21 (roșu). d DAPI (albastru) și IL-6 (roșu). e Imagini de câmp luminos după colorarea pentru SA-β-galactozidază. Bară de mărime, 100 μm. f Harta termică a analizei multiparametrice a markerilor de proliferare (număr de celule și % Ki67 pozitiv), morfologie asociată senescenței (zonă celulară și nucleară) și markeri de senescență (% p16 pozitiv, intensitate p21, IL-6 perinuclear și SA-β-galactozidază perinucleară). Culorile ilustrează numărul de Z-scorurile siARN-ul experimental este de la media de control negativ al ciclofilinei B (cicloB). Datele sunt clasificate în funcție de faptul dacă ARNsi este sau nu un top hit (siRNA-uri între liniile orizontale groase), apoi după numărul de celule Z-Scor. Valorile roșii indică Z-scoruri care sunt „măsuri asociate senescenței”. Controlul pozitiv CBX7 este, de asemenea, prezentat pentru comparație. Datele prezentate provin din cel puțin două experimente independente efectuate fiecare cu cel puțin trei replici. Toate Z-scorurile sunt disponibile în fișierul suplimentar 1: Tabelul S44

Apoi, am efectuat transfecții tranzitorii de siARN ale fibroblastelor umane normale folosind cei 26 de candidați și am identificat acele siARN care au generat inducerea unui fenotip de senescență, utilizând analiza multiparametrică a măsurilor morfologice și un panou de markeri de senescență. Inducerea senescenței este asociată cu o pierdere a proliferării, măsurată prin scăderea indicelui Ki67 și a numărului de celule, și cu modificări ale morfologiei celulare, măsurate printr-o creștere a zonei celulare și nucleare. De asemenea, am cuantificat modificările în p16 și p21 (efectori cheie de senescență [76]), interleukina 6 (IL-6, un marker comun SASP) și SA-β-galactozidază. Doborârea lui ciclofilina B, o menajera, a actionat ca un control negativ [2], in timp ce knockdown of CBX7, un inhibitor puternic al senescenței, a fost inclus ca control pozitiv pentru inducerea senescenței [77]. Din cele 26 de gene testate, 80,7% (21/26) au dus la o scădere a nucleelor ​​pozitive Ki67 mai mare de 1 scor Z (adică, direcția schimbării observată și pentru CBX7 Control pozitiv siRNA, Fig. 5 Fișier suplimentar 1: Tabelul S44) 80,7% (21/26) a crescut p16 96,2% a crescut p21 (25/26) 65,4% crește IL-6 și 65,4% (17/26) crește SA-β -galactozidaza. Dintre siRNA-urile care au dus la o scădere a indicelui Ki67, 61,9% (13/21) au fost clasificate drept hit-uri de top, deoarece au scăzut concomitent numărul de celule și au modificat cel puțin o măsură morfologică. 92,3% (12/13) dintre hit-urile de top au activat atât calea p16, cât și p21, 84,6% (11/13) au suprareglat factorul SASP IL-6, în timp ce 61,5% (8/13) au generat o creștere a procentului de SA -celule pozitive pentru β-galactozidază. În general, am arătat puterea rețelelor în prezicerea funcției genelor, cu 13 „top hits” (GTF3C4, C9orf40, HAUS4, MCM7, TCEB3, CDC25A, CDCA4, CKAP2, MTHFD2, NEK2, IMMT, MYBL2 și NIPA2).


Cuprins

Metodele de secvențiere ADN utilizate în anii 1970 și 1980 au fost manuale, de exemplu secvențierea Maxam-Gilbert și secvențierea Sanger. Mai multe genomi bacteriofagi și virali animale întregi au fost secvențiați prin aceste tehnici, dar trecerea la metode de secvențiere mai rapide și automate în anii 1990 a facilitat secvențierea genomilor bacterieni și eucarioți mai mari. [10]

Primul organism care a avut întregul său genom secvențial a fost Haemophilus influenzae în 1995.[11] După aceasta, genomurile altor bacterii și ale unor arhee au fost pentru prima dată secvențiate, în mare parte datorită dimensiunii lor mici a genomului. H. influenzae are un genom de 1.830.140 de perechi de baze de ADN. [11] În schimb, eucariotele, atât unicelulare, cât și multicelulare, cum ar fi Amoeba dubia si oameni (Homo sapiens), respectiv, au genomi mult mai mari (vezi paradoxul valorii C). [12] Amoeba dubia are un genom de 700 de miliarde de perechi de nucleotide răspândite în mii de cromozomi. [13] Oamenii conțin mai puține perechi de nucleotide (aproximativ 3,2 miliarde în fiecare celulă germinativă - rețineți că dimensiunea exactă a genomului uman este încă în curs de revizuire) decât A. dubia cu toate acestea, dimensiunea genomului lor depășește cu mult dimensiunea genomului bacteriilor individuale. [14]

Primii genomi bacterieni și arheali, inclusiv cel al H. influenzae, au fost secvențiate prin secvențierea Shotgun. [11] În 1996, primul genom eucariot (Saccharomyces cerevisiae) a fost secvențial. S. cerevisiae, un organism model în biologie are un genom de numai aproximativ 12 milioane de perechi de nucleotide [15] și a fost primul unicelular eucariote pentru a avea întregul genom secvențiat. Primul pluricelular eucariote și animale, pentru a avea întregul genom secvențiat a fost viermele nematod: Caenorhabditis elegans în 1998. [16] Genoamele eucariote sunt secvențiate prin mai multe metode, inclusiv secvențierea Shotgun a fragmentelor scurte de ADN și secvențierea clonelor mai mari de ADN din biblioteci de ADN, cum ar fi cromozomii artificiali bacterieni (BAC) și cromozomii artificiali de drojdie (YAC). [17]

În 1999, a fost publicată întreaga secvență de ADN a cromozomului uman 22, cel mai scurt autozom uman. [18] Până în anul 2000, a fost secvențiat al doilea animal și al doilea genom de nevertebrat (încă prima insectă) - cel al muștei fructelor. Drosophila melanogaster - o alegere populară de organism model în cercetarea experimentală. [19] Primul genom al plantei - cel al organismului model Arabidopsis thaliana - a fost, de asemenea, secvențiat complet până în 2000. [20] Până în 2001, a fost publicată o versiune preliminară a întregii secvențe a genomului uman. [21] Genomul șoarecelui de laborator Mus musculus a fost finalizat în 2002. [22]

În 2004, Human Genome Project a publicat o versiune incompletă a genomului uman. [23] În 2008, un grup din Leiden, Țările de Jos, a raportat secvențierea primului genom uman feminin (Marjolein Kriek).

Celulele utilizate pentru secvențierea Edit

Aproape orice probă biologică care conține o copie completă a ADN-ului - chiar și o cantitate foarte mică de ADN sau ADN antic - poate furniza materialul genetic necesar pentru secvențierea completă a genomului. Astfel de probe pot include salivă, celule epiteliale, măduvă osoasă, păr (atâta timp cât părul conține un folicul de păr), semințe, frunze de plante sau orice altceva care conține celule care conțin ADN.

Secvența genomului unei singure celule selectate dintr-o populație mixtă de celule poate fi determinată folosind tehnici de secvențierea genomului unicelular. Acest lucru are avantaje importante în microbiologia mediului în cazurile în care o singură celulă dintr-o anumită specie de microorganisme poate fi izolată dintr-o populație mixtă prin microscopie pe baza caracteristicilor sale morfologice sau a altor caracteristici distinctive. În astfel de cazuri, pașii în mod normal necesari de izolare și creștere a organismului în cultură pot fi omiși, permițând astfel secvențierea unui spectru mult mai mare de genomi ai organismului. [24]

Secvențierea genomului cu o singură celulă este testată ca metodă de diagnostic genetic preimplantare, în care o celulă din embrionul creat prin fertilizarea in vitro este prelevată și analizată înainte de transferul embrionului în uter. [25] După implantare, ADN-ul fetal fără celule poate fi prelevat prin puncție venoasă simplă de la mamă și utilizat pentru secvențierea întregului genom al fătului. [26]

Tehnici timpurii Edit

Secvențierea aproape unui întreg genom uman a fost realizată pentru prima dată în 2000, parțial prin utilizarea tehnologiei de secvențiere cu pușcă. În timp ce secvențierea completă a genomului pentru genomi mici (4000–7000 de perechi de baze) era deja utilizată în 1979, [27] o aplicație mai largă a beneficiat de secvențierea finală pe perechi, cunoscută colocvial ca secvențierea puștilor cu două țevi. Pe măsură ce proiectele de secvențiere au început să preia genomuri mai lungi și mai complicate, mai multe grupuri au început să realizeze că informații utile ar putea fi obținute prin secvențierea ambelor capete ale unui fragment de ADN. Deși secvențierea ambelor capete ale aceluiași fragment și urmărirea datelor pereche a fost mai greoaie decât secvențierea unui singur capăt a două fragmente distincte, cunoașterea faptului că cele două secvențe erau orientate în direcții opuse și aveau aproximativ lungimea unui fragment în afară de fiecare. altele a fost valoroasă în reconstruirea secvenței fragmentului țintă original.

Prima descriere publicată a utilizării capetelor pereche a fost în 1990, ca parte a secvențierii locusului HPRT uman, [28], deși utilizarea capetelor pereche a fost limitată la închiderea golurilor după aplicarea unei abordări tradiționale de secvențiere a puștilor. Prima descriere teoretică a unei strategii pure de secvențiere finală în perechi, presupunând fragmente de lungime constantă, a fost în 1991. [29] În 1995 a fost introdusă inovația de utilizare a fragmentelor de dimensiuni diferite [30] și a demonstrat că o secvențiere finală pură în perechi strategia ar fi posibilă pe ținte mari. Strategia a fost adoptată ulterior de Institutul de Cercetări Genomice (TIGR) pentru a secvenționa întregul genom al bacteriei. Haemophilus influenzae în 1995, [31] și apoi de către Celera Genomics pentru a secvenționa întregul genom al muștei fructelor în 2000, [32] și, ulterior, întregul genom uman. Applied Biosystems, numită acum Life Technologies, a fabricat secvențierele capilare automate utilizate atât de Celera Genomics, cât și de The Human Genome Project.

Tehnici actuale Edit

În timp ce secvențierea capilară a fost prima abordare pentru a secvența cu succes un genom uman aproape complet, este încă prea scumpă și durează prea mult în scopuri comerciale. Din 2005, secvențierea capilară a fost înlocuită progresiv de tehnologiile de secvențiere cu randament ridicat (fostă „generația următoare”), cum ar fi secvențierea coloranților Illumina, pirosecvențierea și secvențierea SMRT. [33] Toate aceste tehnologii continuă să folosească strategia de bază a puștilor, și anume paralelizarea și generarea de șablon prin fragmentarea genomului.

Alte tehnologii sunt în curs de dezvoltare, inclusiv tehnologia nanoporilor. Deși tehnologia de secvențiere a nanoporilor este încă în curs de perfecționare, portabilitatea și capacitatea sa potențială de a genera citiri lungi sunt relevante pentru aplicațiile de secvențiere a întregului genom. [34]

Analiză Edit

În principiu, secvențierea completă a genomului poate furniza secvența brută de nucleotide a ADN-ului unui organism individual. Cu toate acestea, trebuie efectuate analize suplimentare pentru a oferi semnificația biologică sau medicală a acestei secvențe, cum ar fi modul în care aceste cunoștințe pot fi utilizate pentru a ajuta la prevenirea bolii. Metodele de analiză a datelor de secvențiere sunt în curs de dezvoltare și perfecționare.

Deoarece secvențierea generează o mulțime de date (de exemplu, există aproximativ șase miliarde de perechi de baze în fiecare genom diploid uman), producția sa este stocată electronic și necesită o cantitate mare de putere de calcul și capacitate de stocare.

Deși analiza datelor WGS poate fi lentă, este posibil să accelerați acest pas prin utilizarea hardware-ului dedicat. [35]

O serie de companii publice și private concurează pentru a dezvolta o platformă completă de secvențiere a genomului, care este robustă din punct de vedere comercial atât pentru cercetare, cât și pentru uz clinic, [36] inclusiv Illumina, [37] Knome, [38] Sequenom, [39] 454 Life Sciences, [40] Pacific Biosciences, [41] Complete Genomics, [42] Helicos Biosciences, [43] GE Global Research (General Electric), Affymetrix, IBM, Intelligent Bio-Systems, [44] Life Technologies, Oxford Nanopore Technologies, [45] ] și Institutul de Genomică din Beijing. [46] [47] [48] Aceste companii sunt puternic finanțate și susținute de capitaliști de risc, fonduri speculative și bănci de investiții. [49] [50]

O țintă comercială la care se face referire în mod obișnuit pentru costul de secvențiere până la sfârșitul anilor 2010 a fost de 1.000 USD, cu toate acestea, companiile private lucrează pentru a atinge o nouă țintă de doar 100 USD. [51]

Editare de stimulente

În octombrie 2006, X Prize Foundation, lucrând în colaborare cu J. Craig Venter Science Foundation, a înființat Archon X Prize for Genomics, [52] intenționând să acorde 10 milioane de dolari „primei echipe care poate construi un dispozitiv și îl poate folosi. pentru a secvenția 100 de genomi umani în 10 zile sau mai puțin, cu o acuratețe de cel mult o eroare la fiecare 1.000.000 de baze secvențiate, cu secvențe care acoperă cu exactitate cel puțin 98% din genom și la un cost recurent de cel mult 1.000 USD per genom ". [53] Premiul Archon X pentru genomică a fost anulat în 2013, înainte de data sa oficială de începere. [54] [55]

Editare istorie

În 2007, Applied Biosystems a început să vândă un nou tip de secvenționar numit SOLiD System. [56] Tehnologia a permis utilizatorilor să ordoneze 60 de gigabaze pe rulare. [57]

În iunie 2009, Illumina a anunțat că își lansează propriul serviciu personal de secvențiere completă a genomului la o adâncime de 30× pentru 48.000 USD per genom. [58] [59] În august, fondatorul Helicos Biosciences, Stephen Quake, a declarat că folosind Single Molecule Sequencer al companiei și-a secvențiat propriul genom complet pentru mai puțin de 50.000 USD. [60] În noiembrie, Complete Genomics a publicat o lucrare revizuită de colegi în Ştiinţă demonstrându-și capacitatea de a secvenția un genom uman complet pentru 1.700 USD. [61] [62]

În mai 2011, Illumina și-a redus serviciul de secvențiere completă a genomului la 5.000 USD per genom uman, sau 4.000 USD dacă comanda 50 sau mai mult. [63] Helicos Biosciences, Pacific Biosciences, Complete Genomics, Illumina, Sequenom, ION Torrent Systems, Halcyon Molecular, NABsys, IBM și GE Global par să se înfrunte cap la cap în cursa pentru a comercializa secvențierea completă a genomului. [33] [64]

Odată cu scăderea costurilor de secvențiere, o serie de companii au început să susțină că echipamentul lor va atinge în curând genomul de 1.000 USD: aceste companii au inclus Life Technologies în ianuarie 2012, [65] Oxford Nanopore Technologies în februarie 2012, [66] și Illumina în februarie 2014. 67] [68] În 2015, NHGRI a estimat costul obținerii unei secvențe a întregului genom la aproximativ 1.500 USD. [69] În 2016, Veritas Genetics a început să vândă secvențierea întregului genom, inclusiv un raport cu privire la unele dintre informațiile din secvențiere pentru 999 USD. [70] În vara anului 2019, Veritas Genetics a redus costul pentru WGS la 599 USD. [71] În 2017, BGI a început să ofere WGS pentru 600 USD. [72]

Cu toate acestea, în 2015, unii au remarcat că utilizarea eficientă a secvențierii întregii gene poate costa considerabil mai mult de 1000 USD. [73] De asemenea, se pare că au rămas părți ale genomului uman care nu au fost complet secvențiate până în 2017. [74] [75] [76]

Microarrays ADN Edit

Secvențierea completă a genomului oferă informații despre un genom care este cu ordine de mărime mai mare decât cel al matricelor ADN, liderul anterior în tehnologia de genotipizare.

Pentru oameni, matricele de ADN furnizează în prezent informații genotipice despre până la un milion de variante genetice, [77] [78] [79] în timp ce secvențierea completă a genomului va oferi informații despre toate cele șase miliarde de baze din genomul uman sau de 3.000 de ori mai multe date. Din acest motiv, secvențierea completă a genomului este considerată o inovație perturbatoare pentru piețele matricei ADN, deoarece acuratețea ambelor variază de la 99,98% la 99,999% (în regiunile ADN nerepetitive), iar costul consumabilelor lor de 5000 USD per 6 miliarde de perechi de baze este competitiv. (pentru unele aplicații) cu matrice ADN (500 USD per 1 milion de perechi de baze). [40]

Frecvențe de mutație Editare

Secvențierea întregului genom a stabilit frecvența mutațiilor pentru genomurile umane întregi. Frecvența mutațiilor în întregul genom între generații pentru oameni (de la părinte la copil) este de aproximativ 70 de noi mutații pe generație. [80] [81] S-a găsit un nivel și mai scăzut de variație comparând secvențierea întregului genom în celulele sanguine pentru o pereche de centenari monozigoți (gemeni identici) de 100 de ani. [82] Au fost găsite doar 8 diferențe somatice, deși variațiile somatice care apar în mai puțin de 20% din celulele sanguine ar fi nedetectate.

În regiunile care codifică în mod specific proteinele ale genomului uman, se estimează că există aproximativ 0,35 mutații care ar schimba secvența proteinei între generațiile părinte/copil (mai puțin de o proteină mutantă pe generație). [83]

În cancer, frecvențele mutațiilor sunt mult mai mari, din cauza instabilității genomului. Această frecvență poate depinde în continuare de vârsta pacientului, de expunerea la agenți care dăunează ADN-ului (cum ar fi iradierea UV sau componentele fumului de tutun) și de activitatea/inactivitatea mecanismelor de reparare a ADN-ului. [ citare necesară ] În plus, frecvența mutațiilor poate varia între tipurile de cancer: în celulele germinale, ratele de mutație apar la aproximativ 0,023 mutații pe megabază, dar acest număr este mult mai mare în cancerul de sân (1,18-1,66 mutații somatice pe Mb), în cancerul pulmonar (17,7) sau în melanoame (≈33). [84] Deoarece genomul uman haploid constă din aproximativ 3.200 de megabaze, [85] aceasta se traduce în aproximativ 74 de mutații (mai ales în regiuni necodante) în ADN-ul germinativ pe generație, dar 3.776-5.312 mutații somatice per genom haploid în cancerul de sân, 56,640 în cancer pulmonar și 105.600 în melanoame.

Distribuția mutațiilor somatice în genomul uman este foarte neuniformă, [86] astfel încât regiunile bogate în gene, cu replicare timpurie, primesc mai puține mutații decât heterocromatina săracă în gene, cu replicare târzie, probabil din cauza activității diferențiale de reparare a ADN-ului. [87] În special, modificarea histonelor H3K9me3 este asociată cu frecvențe de mutație ridicate, [88] și H3K36me3 cu frecvențe scăzute de mutație. [89]

Studii de asociere la nivelul genomului Edit

În cercetare, secvențierea întregului genom poate fi utilizată într-un studiu de asociere la nivelul genomului (GWAS) - un proiect care urmărește să determine varianta sau variantele genetice asociate cu o boală sau un alt fenotip. [90]

Utilizare pentru diagnostic Editare

În 2009, Illumina a lansat primele sale secvențiere întregi a genomului care au fost aprobate pentru utilizare clinică, nu numai pentru cercetare, iar medicii din centrele medicale academice au început să le folosească în liniște pentru a încerca să diagnosticheze ce era în neregulă cu oamenii pe care abordările standard nu reușiseră să îi ajute. [91] În 2009, o echipă din Stanford condusă de Euan Ashley a efectuat interpretarea clinică a unui genom uman complet, cel al bioinginerului Stephen Quake. [92] În 2010, echipa lui Ashley a raportat autopsia moleculară a întregului genom [93] și, în 2011, a extins cadrul de interpretare la o familie complet secvențiată, familia West, care a fost prima familie care a fost secvențiată pe platforma Illumina. [94] Prețul pentru secvențierea unui genom în acel moment era de 19.500 USD, care era facturat pacientului, dar de obicei plătit dintr-o bursă de cercetare, o persoană la acel moment solicitase rambursare de la compania de asigurări. [91] De exemplu, un copil avea nevoie de aproximativ 100 de operații până la vârsta de trei ani, iar medicul său a apelat la secvențierea întregului genom pentru a determina problema necesară unei echipe de aproximativ 30 de oameni, care includea 12 experți în bioinformatică, trei secvențieri. tehnicieni, cinci medici, doi consilieri genetici și doi eticieni pentru a identifica o mutație rară în XIAP care provoca probleme pe scară largă. [91] [95] [96]

Datorită reducerilor recente ale costurilor (vezi mai sus) secvențierea întregului genom a devenit o aplicație realistă în diagnosticarea ADN-ului. În 2013, consorțiul 3Gb-TEST a obținut finanțare de la Uniunea Europeană pentru a pregăti sistemul de sănătate pentru aceste inovații în diagnosticarea ADN. [97] [98] Trebuie să existe scheme de evaluare a calității, evaluarea tehnologiei sănătății și orientări. Consorțiul 3Gb-TEST a identificat analiza și interpretarea datelor secvenței ca fiind cel mai complicat pas în procesul de diagnosticare. [99] La reuniunea consorțiului de la Atena din septembrie 2014, consorțiul a inventat cuvântul genotraducere pentru acest pas crucial. Acest pas duce la un așa-numit genoreport. Sunt necesare linii directoare pentru a determina conținutul necesar al acestor rapoarte.

Genomes2People (G2P), o inițiativă a Spitalului Brigham and Women și a Școlii de Medicină Harvard a fost creată în 2011 pentru a examina integrarea secvențierii genomice în îngrijirea clinică a adulților și copiilor. [100] Directorul G2P, Robert C. Green, a condus anterior studiul REVEAL – Evaluarea riscurilor și educația pentru boala Alzheimer – o serie de studii clinice care explorează reacțiile pacienților la cunoașterea riscului lor genetic pentru boala Alzheimer. [101] [102]

În 2018, cercetătorii de la Institutul Rady pentru Medicină Genomică pentru Copii din San Diego, CA au stabilit că secvențierea rapidă a întregului genom (rWGS) poate diagnostica tulburările genetice la timp pentru a schimba managementul medical sau chirurgical acut (utilitate clinică) și pentru a îmbunătăți rezultatele la sugarii bolnavi acut. . Cercetătorii au raportat un studiu de cohortă retrospectiv al sugarilor bolnavi acut într-un spital regional de copii din iulie 2016-martie 2017. Patruzeci și două de familii au primit rWGS pentru diagnosticul etiologic al tulburărilor genetice. Sensibilitatea diagnostică a rWGS a fost de 43% (optsprezece din 42 de sugari) și 10% (patru din 42 de sugari) pentru testele genetice standard (P = 0,0005). Rata de utilitate clinică a rWGS (31%, treisprezece din 42 de sugari) a fost semnificativ mai mare decât pentru testele genetice standard (2%, unul din 42 P = 0,0015). Unsprezece (26%) sugari cu rWGS diagnostic au evitat morbiditatea, unul a avut o reducere cu 43% a probabilității de mortalitate și unul a început îngrijiri paliative. La șase dintre cei unsprezece sugari, modificările în management au redus costul spitalizării cu 800.000-2.000.000 USD. Aceste constatări reproduc un studiu anterior al utilității clinice a rWGS la sugarii bolnavi acut și demonstrează rezultate îmbunătățite și economii nete de asistență medicală. rWGS merită luat în considerare ca un test de prim nivel în acest context. [103]

Studiu de asociere variante rare Edit

Studiile de secvențiere a întregului genom permit evaluarea asocierilor dintre trăsăturile complexe și variantele rare de codificare și necodificare (frecvența alelelor minore (MAF) < 1%) în întregul genom. Analizele cu o singură variantă au în mod obișnuit o putere scăzută de a identifica asocieri cu variante rare, iar testele setului de variante au fost propuse pentru a testa în comun efectele unor seturi date de mai multe variante rare. [104] Adnotările SNP ajută la prioritizarea variantelor funcționale rare, iar încorporarea acestor adnotări poate crește efectiv puterea asocierii genetice a analizei variantelor rare a studiilor de secvențiere a întregului genom. [105]

Introducerea secvențierii întregului genom poate avea implicații etice. [106] Pe de o parte, testarea genetică poate diagnostica boli care pot fi prevenite, atât la individul supus testării genetice, cât și la rudele acestora. [106] Pe de altă parte, testarea genetică are potențiale dezavantaje, cum ar fi discriminarea genetică, pierderea anonimatului și efecte psihologice, cum ar fi descoperirea non-paternității. [107]

Unii eticieni insistă că intimitatea persoanelor supuse testării genetice trebuie protejată. [106] Într-adevăr, problemele de confidențialitate pot fi deosebit de îngrijorătoare atunci când minorii sunt supuși testelor genetice.[108] CEO-ul Illumina, Jay Flatley, a susținut în februarie 2009 că „până în 2019 va fi devenit o rutină să cartografieze genele sugarilor atunci când aceștia se vor naște”. [109] Această utilizare potențială a secvențierii genomului este foarte controversată, deoarece este în contradicție cu normele etice stabilite pentru testarea genetică predictivă a minorilor asimptomatici care au fost bine stabilite în domeniile geneticii medicale și consilierii genetice. [110] [111] [112] [113] Ghidurile tradiționale pentru testarea genetică au fost dezvoltate de-a lungul mai multor decenii de când a devenit posibil pentru prima dată testarea markerilor genetici asociați cu boală, înainte de apariția rentabilității, screening genetic complet.

Când un individ este supus secvențierii întregului genom, ei dezvăluie informații nu numai despre propriile secvențe de ADN, ci și despre secvențele probabile de ADN ale rudelor lor genetice apropiate. [106] Aceste informații pot dezvălui în continuare informații predictive utile despre riscurile actuale și viitoare ale rudelor pentru sănătate. [114] Prin urmare, există întrebări importante cu privire la ce obligații, dacă există, sunt datorate membrilor de familie ai persoanelor care sunt supuse testării genetice. În societatea occidentală/europeană, indivizii testați sunt de obicei încurajați să împărtășească informații importante despre orice diagnostic genetic cu rudele lor apropiate, deoarece importanța diagnosticului genetic pentru descendenți și alte rude apropiate este de obicei unul dintre motivele pentru a căuta un test genetic în primul loc. [106] Cu toate acestea, o dilemă etică majoră se poate dezvolta atunci când pacienții refuză să împărtășească informații cu privire la un diagnostic care este făcut pentru o tulburare genetică gravă care este foarte prevenibilă și unde există un risc mare pentru rudele care poartă aceeași mutație a bolii. În astfel de circumstanțe, clinicianul poate bănui că rudele ar prefera să cunoască diagnosticul și, prin urmare, clinicianul se poate confrunta cu un conflict de interese în ceea ce privește confidențialitatea pacient-medic. [106]

Problemele legate de confidențialitate pot apărea și atunci când secvențierea întregului genom este utilizată în studiile de cercetare științifică. Cercetătorii trebuie adesea să pună informații despre genotipurile și fenotipurile pacienților în baze de date științifice publice, cum ar fi bazele de date specifice locusurilor. [106] Deși numai datele anonime ale pacienților sunt transmise bazelor de date specifice locației, pacienții ar putea fi totuși identificabili de rudele lor în cazul găsirii unei boli rare sau a unei mutații rare missense. [106] Discuția publică cu privire la introducerea tehnicilor criminalistice avansate (cum ar fi căutarea familială avansată folosind site-uri web publice de origine ADN și abordări de fenotipizare ADN) a fost limitată, dezarticulată și nefocalată. Pe măsură ce genetica criminalistică și genetica medicală converg către secvențierea genomului, problemele legate de datele genetice devin din ce în ce mai conectate și ar putea fi necesar să se stabilească protecții legale suplimentare. [115]

Primii genomi umani aproape complet secvențiați au fost doi americani de ascendență predominant nord-vest europeană în 2007 (J. Craig Venter la o acoperire de 7,5 ori, [116] [117] [118] și James Watson la 7,4 ori). [119] [120] [121] Aceasta a fost urmată în 2008 de secvențierea unui chinez Han anonim (la 36 de ori), [122] a unui bărbat yoruban din Nigeria (la 30 de ori), [123] a unei femei clinice. genetician (Marjolein Kriek) din Țările de Jos (de 7 până la 8 ori) și o pacientă caucazienă cu leucemie (cu o acoperire de 33 și 14 ori pentru tumori și țesuturi normale). [124] Steve Jobs a fost printre primii 20 de oameni care au avut întregul genom secvențial, se pare că a costat 100.000 USD. [125] În iunie 2012 [actualizare], existau 69 de genomi umani aproape complet disponibile public. [126] În noiembrie 2013, o familie spaniolă și-a pus la dispoziție public datele personale de genomică sub o licență de domeniu public Creative Commons. Lucrarea a fost condusă de Manuel Corpas și datele obținute prin testarea genetică directă către consumator cu 23andMe și Institutul de Genomică din Beijing). Se crede că acesta este primul astfel de set de date Public Genomics pentru o întreagă familie. [127]


Discuţie

Prin analiza lui Tabula Muris date cu o singură celulă, am identificat EC în 10 organe și am găsit semnăturile moleculare specifice fiecărui organ. De asemenea, am găsit toate EC limfatice grupate, indiferent de țesuturile rezidente. În EC cardiace, am identificat EC endocardice, EC vasculare coronariene și EC specifice aortei. În plus, prin analiza integrată a celulelor de aortă din trei studii, am identificat populațiile conservate de EC și genele marker ale acestora.

Analiza corelației EC la diferite țesuturi a constatat că EC creierul și ficatul au cea mai scăzută corelație cu alte țesuturi, iar EC din mezoderm și organele derivate din endoderm preferă să se grupeze pe straturi germinale (16). În mod constant, analiza profilurilor de microarray EC capilare a constatat, de asemenea, că majoritatea țesuturilor mezoderme, inclusiv rinichi, inimă, mușchi, splină și măduvă osoasă sunt strâns corelate între ele, în timp ce EC din ficat, testicul și creier au cele mai scăzute corelații cu alte țesuturi. (4). Pe lângă straturile germinale, credem că și alți factori ar putea contribui la corelațiile tisulare. De exemplu, profilul transcripțional al EC este remodelat semnificativ de funcția lor fiziologică și de mediul tisular în stadiile adulte. Organele cu funcție similară sau locații anatomice apropiate pot avea profile de expresie genetică corelate. De exemplu, EC din inimă par cel mai asemănătoare cu EC pulmonar, posibil datorită poziției lor anatomice adiacente.. În plus, fiecare organ are mai multe tipuri de EC, cum ar fi EC din arteră, venă și capilare, despre care se știe că au diferite funcții, forme de celule și markeri moleculari. Locația anatomică și procentul de celule ale acestor CE sunt, de asemenea, foarte adaptate la țesuturile subiacente, iar aceste diferențe au fost observate între paturile vasculare din inimă, plămâni, rinichi și ficat. (5). Nivelul de corelație dintre organe va fi afectat semnificativ de procentul real al fiecărui tip de CE și de procentul care au fost capturate cu succes de abordările cu o singură celulă.

În camerele inimii, au fost identificate două populații EC. Unul este EC vasculare coronariene, iar celălalt este EC endocardice. Aceste două tipuri de celule au început să se dezvolte în stadiile timpurii de dezvoltare (17). Este interesant de văzut cum profilurile lor transcripționale s-au schimbat de-a lungul procesului de dezvoltare. În acest studiu, am făcut o analiză integrată a EC endocardice în trei stadii de dezvoltare și am descoperit că celulele neonatale și adulte sunt diferite de celulele din stadiul embrionar prin reducerea dramatică a genelor ciclului celular. Pentru EC vasculare coronare, am comparat anterior celulele în stadii E12.5 cu celulele adulte, am descoperit că celulele arterei embrionare erau cel mai asemănătoare cu celulele arteriale adulte, iar celulele plexului vasului coronar embrionar erau cel mai asemănătoare cu celulele adulte venoase și capilare. , sugerând că fiecare tip de celulă în stadiul embrionar și stadiul adult au fost în general potriviți (23). Cu toate acestea, am identificat, de asemenea, gene, inclusiv Notch1, care s-au exprimat diferențial în populațiile de artere în aceste două etape, sugerând că profilurile transcripționale ale EC vasculare coronariene au fost, de asemenea, remodelate semnificativ de la stadiile embrionare la stadiile adulte.

Printr-o analiză integrată a EC aortei din trei studii, am găsit diferite populații de celule și gene marker moleculare în fiecare set de date. Aceste diferențe pot fi cauzate de diferite motive. Datele aortei de la Tabula Muris proiectul a fost profilat cu o metodă SMART-seq2 bazată pe FACS, iar celelalte două seturi de date au fost generate cu soluții 10x Genomics. Fiecare dintre cele două metode are propriile preferințe de dimensiune a celulelor și ar putea captura diferite populații de celule. În plus, fiecare metodă se bazează pe propriii reactivi specifici care ar putea avea sensibilitate diferită în detectarea expresiei genelor. În plus, vârsta șoarecelui ar putea avea, de asemenea, un impact asupra populației celulare și asupra expresiei genelor, deși șoarecii C57BL/6 au fost utilizați în toate cele trei studii. Vârsta șoarecelui în Lukowski și colab. studiul nu a fost specificat, iar Tabula Muris şi Kalluri şi colab. (21) au folosit șoareci de 3 luni și, respectiv, 12 săptămâni. În cele din urmă, diferențele în disecția țesuturilor și preparatele cu o singură celulă pot avea, de asemenea, un impact direct asupra diferențelor de rezultat.

Prin analiza datelor de secvențiere a ARN-ului unicelular disponibile public, am identificat un set de gene noi în fiecare populație EC în acest studiu. Următorul nostru pas va fi să analizăm funcția lor în dezvoltarea liniei EC și homeostazia. Factorii de transcripție și factorii epigenetici ca regulatori importanți ai liniei pot fi eliminati în mod specific în EC cu tehnici de editare a genomului, cum ar fi CRISPR/Cas9. În plus, va fi interesant să se analizeze interacțiunile celulă-celulă dintre EC și alte tipuri de celule din fiecare organ. De exemplu, deoarece EC endocardice din inimă s-a raportat că limitează proliferarea cardiomiocitelor în stadiile incipiente de dezvoltare prin mecanisme autonome non-celulare (19), va fi interesant să se testeze dacă există un rol inhibitor al EC endocardice asupra diviziunii cardiomiocitelor în stadiile adulte. .


Disponibilitatea datelor și materialelor

Codul MichiGAN este disponibil la un depozit de atribuire DOI Zenodo (https://doi.org/10.5281/zenodo.4728278) [82] și la GitHub (https://github.com/welch-lab/MichiGAN) [83] sub licența publică generală GNU v3.0. Documentația detaliată și un caiet Jupyter care demonstrează modul de utilizare a pachetului sunt disponibile pe pagina GitHub.

Datele tabula muris [65] care susțin concluziile acestui articol sunt disponibile în depozitul tabula-muris Python GitHub, https://github.com/czbiohub/tabula-muris. Datele mari sci-Plex [67] sunt disponibile pe GEO (GSM4150378, https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM4150378). Setul de date de endocrinogeneza pancreasului [66], precum și timpul de latenție al celulelor sale și scorurile ciclului celular pentru fazele G2M și S sunt disponibile din exemplele pachetului scVelo [75] la https://scvelo.readthedocs.io/Pancreas.html .

Splatter-ul pachetului R este implementat pe versiunea R 3.6.1. Pachetul PROSSTT este disponibil la https://github.com/soedinglab/prosstt. Modelele generative profunde și valorile de performanță se bazează pe TensorFlow versiunea 1.14.0 și Python 3.6.


5. CONCLUZIE

În concluzie, raportăm aici noi diferențe transcriptomice între CTSC de la inima neonatală, adultă și în vârstă. CTSC posedă un profil metabolic specializat atunci când sunt izolate din inima neonatală datorită exprimării ridicate a UCP2, care are ca rezultat creșterea fluxului glicolitic și fosforilarea oxidativă redusă, fenotip mitocondrial imatur. Cu toate acestea, odată cu vârsta, expresia UCP2 scade, modificând metabolismul de la glicoliză la fosforilarea oxidativă. În plus, identificăm un rol critic pentru UCP2 în menținerea caracteristicilor CTSC neonatale care sunt modificate odată cu pierderea UCP2 care poate afecta proteinele mitocondriale împreună cu proliferarea celulară și căile de semnalizare de supraviețuire.


7 Discuție

SSBD este o bază de date pentru stocarea și partajarea datelor de dinamică biologică cantitativă pentru obiecte biologice de diferite scale, de la molecule individuale la organisme. Peste 310 seturi de date cantitative ale dinamicii biologice pot fi reutilizate în format BDML (Kyoda et al., 2015) și prin API-ul SSBD REST. Ca exemplu de reutilizare a datelor în SSBD, am examinat modelele de proliferare dependente de timp în timpul embriogenezei în mai multe organisme model. Datele pot fi de asemenea reutilizate pentru analize comparative. De exemplu, putem compara direct datele din laboratoare diferite atunci când datele se referă la aceleași fenomene biologice în același organism model. Mai mult, putem compara datele obținute de la specii înrudite sau diferite pentru a dezvălui caracteristici similare și diferite (Zhao et al., 2008). În plus, am putea combina diferite tipuri de date, cum ar fi morfologia celulară și datele despre activitatea proteinelor (Tsukada et al., 2008) pentru a explora relația dintre schimbările biofizice și biochimice subiacente.

Stocăm rezultatele simulării în SSBD, permițând compararea directă cu datele cantitative extrase din experimente biologice. Comparația dintre datele extrase sub perturbarea genelor și rezultatele simulării cu parametrii perturbați poate oferi o perspectivă mecanică asupra funcției genelor (Kimura și Onami, 2007). Cu toate acestea, este dificil de determinat ce tip de rezultate de simulare ar trebui să fie stocate și partajate, deoarece un număr infinit de rezultate de simulare poate fi generat prin variarea fiecărui parametru dintr-un model matematic. Poate fi oportun să stocați și să partajați programele de calculator și modelele matematice care produc rezultatele în viitor. Între timp, intenționăm să stocăm rezultate de simulare care sunt costisitoare de produs, de exemplu, simulări care durează luni de zile pentru a rula pe un supercomputer. Aceste rezultate nu pot fi reproduse cu ușurință în laboratoarele individuale ale cercetătorilor.

Controlul calității datelor este o problemă majoră în majoritatea bazelor de date biologice, iar SSBD se confruntă cu aceeași problemă. Cu toate acestea, SSBD este diferit de alte baze de date, cum ar fi bazele de date despre genomul și expresia genelor, deoarece stochează și imaginile originale de microscopie din care au fost obținute datele de dinamică biologică cantitativă. Prin verificarea vizuală a datelor cantitative cu datele originale ale imaginii de microscopie, se poate evalua direct calitatea datelor cantitative. Instrumentele de vizualizare online și offline sunt disponibile în SSBD, permițând evaluarea ușoară a calității datelor.

Imaginile de microscopie stocate în SSBD pot oferi noi oportunități pentru biologii computaționali, în special pentru cei din domeniul informaticii bioimagine. Este posibil să se dezvolte noi metode pentru extragerea datelor cantitative ale noilor obiecte biologice din imaginile microscopice existente, deoarece aceste imagini conțin adesea informații pe care studiul original nu s-a concentrat sau nu le-a folosit. Alte posibilități includ dezvoltarea unor metode noi sau îmbunătățite pentru extragerea datelor cantitative ale acelorași obiecte biologice examinate în studiul original. Performanța acestor noi metode poate fi apoi evaluată prin compararea rezultatelor lor cu datele stocate în SSBD. Colecția Broad Bioimage Benchmark (BBBC Ljosa et al., 2012) este o bază de date pentru stocarea seturilor de imagini de microscopie adnotate pentru testarea metodelor de procesare a imaginilor. Fiecare set de imagini este furnizat cu datele cantitative corespunzătoare, cum ar fi contururile obiectelor biologice extrase prin analiza imaginii. BBBC își propune să îmbunătățească algoritmii de procesare a imaginilor pentru microscopia biologică, în timp ce SSBD își propune să ofere resurse biologice cantitative pentru bioinformaticienii și biologii computaționali pentru a avansa în continuare cercetarea biologică. Ar putea fi posibil ca proiectele BBBC și SSBD să colaboreze și să partajeze o platformă software similară pentru a îmbunătăți algoritmii de procesare a imaginilor, precum și pentru a oferi resurse de date cantitative pentru biologi în viitor.

Am distribuit o versiune open-source a SSBD, OpenSSBD, ca platformă software pentru gestionarea datelor de dinamică biologică cantitativă. Are funcțiile esențiale ale SSBD cu un vizualizator 4D interactiv simplu bazat pe browser și același API REST pentru accesarea datelor. Mai multe grupuri au dezvoltat platforme open-source care pot gestiona informațiile numerice ale dinamicii biologice. Platforma OMERO a fost dezvoltată în primul rând pentru a gestiona imaginile de microscopie, dar poate gestiona și date cantitative referitoare la regiunile de interes (ROI) pe baza modelelor geometrice 2D din OME ( Allan et al., 2012). Cu toate acestea, o limitare a OMERO este că nu poate utiliza modele geometrice 3D, cum ar fi sferele și fețele în BDML. Platforma openBIS a fost dezvoltată pentru a gestiona datele de cercetare biologică, inclusiv imaginile de microscopie și informațiile numerice din screening-ul cu conținut ridicat (Bauch et al., 2011). Cu toate acestea, openBIS nu este potrivit pentru gestionarea informațiilor spațio-temporale despre dinamica biologică. Toate aceste alte platforme nu oferă un vizualizator 4D interactiv pentru date cantitative, deoarece nu sunt specializate pentru stocarea și partajarea datelor cantitative. Prin urmare, OpenSSBD este o platformă software unică pentru gestionarea datelor de dinamică biologică cantitativă.

OpenSSBD permite grupurilor de cercetare să-și dezvolte propriile baze de date pentru a stoca și a partaja datele lor cantitative. Distribuția OpenSSBD ar putea duce la accelerarea partajării datelor prin abordarea „bazarului de date” (Poldrack și Gorgolewski, 2014), deși ar putea duce și la împrăștierea datelor pe internet. Pentru a evita o astfel de împrăștiere a datelor, un efort bazat pe comunitate pentru gestionarea integrării datelor este indispensabil, de exemplu, o bază de date centrală ar putea fi utilizată pentru a stoca și a partaja cel puțin metainformațiile despre toate datele cantitative, inclusiv site-urile lor de descărcare. Dacă toate datele cantitative sunt gestionate sub controlul comunității, serviciile de stocare, procesare și descărcare a datelor pot fi dispersate în bazele de date gestionate de grupurile de cercetare din comunitate. SSBD poate fi privit ca o abordare „fabrica de date” (Poldrack și Gorgolewski, 2014). În prezent, utilizează o bază de date centrală pentru a stoca și a partaja toate datele cantitative de dinamică biologică create de comunitatea științifică japoneză. Cu toate acestea, este necesar un efort internațional bazat pe comunitatea pentru un schimb de date eficient, eficient și durabil în era științei deschise.

Pentru ca funcționarea SSBD să fie sustenabilă pentru viitor, intenționăm să dezvoltăm un sistem de înregistrare care să permită cercetătorilor și utilizatorilor să se înregistreze și apoi să își încarce datele originale în format BDML. În plus, politica actuală a SSBD este de a stoca numai datele publicate în reviste revizuite de colegi pentru a se asigura că datele au fost revizuite. Această politică oferă o încredere adecvată în acuratețea datelor stocate în SSBD. Cu toate acestea, este posibil să schimbăm această politică în viitor pentru a accepta date cantitative înainte de publicare. Acest lucru va permite autorilor să facă referire la datele din lucrarea lor nepublicată și va permite editorilor și recenzenților să acceseze aceste date înainte de publicare. SSBD va trebui să introducă conceptul de număr de acces, care oferă un identificator alfanumeric unic pentru fiecare set de date. O soluție posibilă este utilizarea bdmlID (Kyoda et al., 2015). SSBD va avea nevoie, de asemenea, de un nou atribut pentru a indica starea publicării datelor pentru a se asigura că utilizatorii pot avea încredere în acuratețea datelor. În viitorul apropiat, SSBD va juca un rol mai mare ca depozit public pentru datele de dinamică biologică cantitativă.


Această lucrare a fost susținută de Fundația Națională pentru Științe Naturale din China (grant nr. 31861133013, 31970601 și 31771443), de Programul de știință și tehnologie Shenzhen (grant nr.: KQTD20180411143432337) și de Comisia pentru inovare în domeniul științei și tehnologiei municipale din Shenzhen. (Nr. grant: JCYJ20170307105752508 și JCYJ20180504165804015). Analiza bioinformatică a fost susținută de Centrul pentru Știință și Inginerie Computațională al Universității de Știință și Tehnologie de Sud. Le mulțumim Dr. Jean Jaubert și Dr. Xavier Montagutelli de la Institutul Pasteur pentru furnizarea de șoareci hibrizi F1, și Dr. Claude Libert și Dr. Tino Hochepied de la Vlaams Instituut voor Biotechnologie (VIB) pentru celule stem embrionare hibride F1. Y.S.Li a fost susținută de Consiliul chinez de burse.

WC a conceput și proiectat proiectul. YL și MZ au efectuat experimentele de secvențiere cu ajutorul WS, YH, YL și LF. WL a cultivat celulele stem embrionare. YL și BS au analizat datele cu ajutorul XZ, FH, BZ, GL, JZ și YH. YL, BS și WC au scris manuscrisul. Toți autorii au citit și au aprobat manuscrisul final.


Priveste filmarea: Covid-19 and the Athlete: The Road to Recovery Webinar (Iunie 2022).


Comentarii:

  1. Abdul-Bari

    În opinia mea, el greșește. Sunt sigur. Trebuie să discutăm. Scrie -mi în pm, îți vorbește.

  2. Vuk

    probabil da

  3. Gold

    This message is incomparable,))), it is interesting to me :)

  4. Wazir

    Îmi împărtășesc pe deplin opinia ta. Există ceva în asta și cred că este o idee grozavă.

  5. Pyrrhus

    placut la ochi ..........

  6. Kagarisar

    Această idee excelentă trebuie să fie intenționată

  7. Wazir

    Există ceva în asta. Mulțumesc pentru explicație, cred și că cu atât mai simplu cu atât mai bine ...

  8. Zion

    Îmi pare rău, dar cred că greșești. Să discutăm acest lucru. Trimiteți -mi un e -mail la pm.



Scrie un mesaj