Az Ensembl az Európai Bioinformatikai Intézet központi genetikai erőforrást genetikusoknak, molekuláris biológusoknak és más, az ember, más gerincesek és modellszervezetek genomját kutató kutatóknak biztosító tudományos projektje.[1][2][3] Az Ensembl a számos genominformációk kinyerésére használt genomböngésző egyike.
A humán genom 3,1 milliárd bázispárból és 20 000–25 000 génből áll. Azonban a genom önmagában kevéssé hasznos, kivéve ha az egyes gének helye és kapcsolatai azonosíthatók. Az egyik lehetőség a kézi jelölés, ahol a géneket tudományos folyóiratokból és nyilvános adatbázisokból származó kísérleti adatokkal határozzák meg a kutatók. Ez azonban lassú. A másik lehetőség az automatikus jelölés, itt számítógépeket használnak a fehérje DNS-hez való megfeleltetéséhez.[4][5] Az Ensembl 1999-ben indult el a humángenom-projekt közelgő befejezése miatt, kezdeti céljai a humán genom automatikus jelölése, ennek elérhető biológiai adatokkal való integrációja és nyilvános elérhetősége.[1]
Az Ensembl-projektben szekvenciaadatok kerülnek a Perlben írt szoftverfutószalagokból álló génjelölő rendszerbe, mely előrejelzett génhelyeket ad ki és ment el MySQL-adatbázisban elemzésre és megjelenítésre. Az Ensembl ezen adatokat nyilvánosan elérhetővé teszi. Az Ensembl összes adata és kódja letölthető,[6] ezenkívül a távoli hozzáférést lehetővé tevő nyilvánosan elérhető adatbázisszerver is van. Ezenkívül az Ensembl sok adatot számítógéppel generált vizuális megjelenítéssel is megmutat.
Idővel a projekt további fajokkal bővült (például fontos modellszervezetekkel, amilyenek az egér, a Drosophila melanogaster és a zebradánió) és több genomikai adatot is elkezdett megjeleníteni, például genetikai variációkat és szabályzófunkciókat. 2009 áprilisában az Ensembl Genomes testvérprojekt az Ensembl fókuszát kiterjesztette gerinctelen állatokra, növényekre, gombákra, baktériumokra és protisztákra is a gének taxonómiai és evolúciós kontextusához, míg az eredeti projekt továbbra is a gerincesekre fókuszál.[7][8]
2020-ban az Ensembl több mint 50 000 genomot tartalmazott az Ensembl és Ensembl Genomes adatbázisokban, új funkciói jelentek meg, például a Rapid Release,[9] mely a genomjelölési adatokat gyorsabban elérhetővé teszi, valamint a SARS-CoV-2-referenciagenom oldalával.[10]
Genomadatok megjelenítése
Az Ensemblben fontos a génelrendeződés és más genomikai adatok automatikus grafikus megjelenítése referenciagenomhoz viszonyítva. Ezek adatsávként jelennek meg, és az egyes sávok be- és kikapcsolhatók, lehetővé téve a megjelenés kutatási céloknak megfelelő egyedítését. A felület lehetővé teszi továbbá egy régió nagyítását vagy a genomban való mozgást.
Másutt különböző felbontásokban jelennek meg az adatok a teljes kariotípusoktól a DNS- és aminosav-szekvenciák szöveges megjelenítéséig, vagy más megjelenítési típust mutatnak, például hasonló (homológ) gének fáit számos fajban. Ezeket füles megjelenés egészíti ki, és gyakran közvetlenül a lapról exportálhatók több szabványos fájlformátumban, például FASTA-fájlként.
A kívülről létrejött adatok megfelelő támogatott formátumú (például BAM, BED vagy PSL) fájl feltöltésével.
A grafikus megjelenítést a GD-n, a Perl standard grafikus megjelenítő könyvtárán alapuló modulok hozzák létre.
Alternatív elérési módszerek
A weblapon kívül az Ensembl rendelkezik REST- és Perl-API-val,[11] mely biológiai objektumokat modellez, lehetővé téve egyszerű szkriptek írását a fontos adatok kigyűjtéséhez. Ezek részei a mag-, a compara- (összehasonlító genomikai adatokhoz), a variáció- (SNP-k, SNV-k, CNV-k stb. adataihoz) és a funkcionális genomikai API (szabályzási adatokhoz). Az Ensembl weblapja az API-telepítéshez és -használathoz sok információt nyújt.[12]
E szoftver használható a nyilvános MySQL-adatbázis eléréséhez, így nem szükséges nagy adatbázisok letöltése. A felhasználók közvetlen SQL-lekérdezésekkel is szerezhetnek adatot, de ez az adatbázisséma ismeretét igényli.
Nagy adatbázisok érhetők el a BioMarttal. Ez webes felületet biztosít az összetett lekérdezésekhez szükséges adatbázis-letöltéshez.
Végül teljes MySQL-adatbázisok és más formátumban elérhető adathalmazok letöltésére használatos FTP-szerver is van.[13]
Fajok
A jelölt genomok a legtöbb teljesen szekvenált gerincest és bizonyos modellszervezeteket tartalmaznak. Ezek mind eukarióták. 2024-ben 318 faj szerepelt, például:[14]
Az Ensembl-projekt minden adata nyilvánosan elérhető, minden szoftver nyílt forrású, szabadon elérhető a tudományos közösség számára CC BY 4.0 licenc alatt. Jelenleg 4 különböző helyen van tükrözés a szolgáltatás javításához.
↑Ruffier, Magali (2017. január 1.). „Ensembl core software resources: storage and programmatic access for DNA sequence and genome annotation”. Database2017 (1), bax020. o. DOI:10.1093/database/bax020. PMID28365736. PMC5467575.
↑Species List. uswest.ensembl.org . [2022. augusztus 6-i dátummal az eredetiből archiválva]. (Hozzáférés: 2022. augusztus 5.)
Fordítás
Ez a szócikk részben vagy egészben az Ensembl című angol Wikipédia-szócikk ezen változatának fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.