UniProt
A UniProt szabadon elérhető fehérjeszekvencia- és -funkciósinformáció-adatbázis, sok bejegyzése genomszekvenálási projektekből származik. Sok információt tartalmaz a fehérjék biológiai funkciójáról a szakirodalomban. A UniProt-konzorcium tartja fenn, mely két európai bioinformatikai szervezetből és egy Washington, DC-ben (Amerikai Egyesült Államok) működő alapítványból áll. A UniProt-konzorciumA UniProt-konzorcium tagjai az Európai Bioinformatikai Intézet (EBI), a Svájci Bioinformatikai Intézet (SIB) és a Protein Information Resource (PIR). A Wellcome Trust Genome Campusben (Hinxton, Egyesült Királyság) lévő EBI számos bioinformatikai erőforrást és szolgáltatást nyújt. A Genfben működő SIB tartja fenn az ExPASy (Expert Protein Analysis System) szervereit, melyek a proteomikai eszközök és adatbázisok központi erőforrása. A National Biomedical Research Foundation (NBRF) által a Georgetowni Egyetem Orvosi Központjában működtetett PIR a legrégebbi fehérjeszekvencia-adatbázisnak, Margaret Dayhoff először 1965-ben kiadott Atlas of Protein Sequence and Structure-jének utódja.[1] 2002-ben az EBI, a SIB és a PIR megalapították a UniProt-konzorciumot.[2] A UniProt-adatbázis alapjaiA konzorcium tagjai a fehérjeadatbázis-fenntartásában és jelölésében szerepet játszik. 2003-ig az EBI és a SIB a Swiss-Prot és TrEMBL adatbázisokat, míg a PIR a Protein Sequence Database-t (PIR-PSD) működtette.[3][4][5] Ezen adatbázisok együtt léteztek eltérő fehérjeszekvencia-lefedettséggel és jelölési prioritásokkal. A Swiss-Protot 1986-ban hozta létre Amos Bairoch doktori munkája során, a Svájci Bioinformatikai Intézet fejlesztette, később az Európai Bioinformatikai Intézetnél dolgozó Rolf Apweiler fejlesztette tovább.[6][7][8] A Swiss-Prot célja megbízható fehérjeszekvenciák biztosítása magas szintű jelöléssel (például a fehérje funkciójának, doménszerkezetének, poszttranszlációs módosulásainak, változatainak stb. leírásával), minél kisebb redundancia és minél nagyobb integráció mellett. Felismerve, hogy a szekvenciaadat a Swiss-Prot által kezelhetőnél gyorsabban keletkezett, létrehozták a TrEMBL-t (Translated EMBL Nucleotide Sequence Data Library) az automatikus jelölésekhez a Swiss-Protban nem szereplő fehérjéknek. Közben a PIR kezelte a PIR-PSD-t és kapcsolódó adatbázisait, például az iProClasst, mely szekvenciák és családok adatbázisa. A konzorcium tagjai a UniProtot 2003 decemberében indították el.[9] SzerveződésA UniProt 4 magadatbázist tartalmaz, ezek a UniProtKB (részei a Swiss-Prot és a TrEMBL), a UniParc, a UniRef és a Proteome. UniProtKBA UniProt-tudásbázis (UniProtKB) részben szakértők által ellenőrzött fehérje-adatbázis, mely két részből áll, ezek a UniProtKB/Swiss-Prot (ellenőrzött, kézzel jelölt bejegyzésekkel) és a UniProtKB/TrEMBL (ellenőrizetlen, automatikusan jelölt bejegyzésekkel).[10] A UniProtKB/Swiss-Prot 2023_05 verziója 570 420 szekvenciát tartalmaz 206 321 560 aminosavval, 295 467 hivatkozásból. A UniProtKB/TrEMBL 2023_05 kiadása 251 131 639 szekvenciát tartalmaz, 88 223 298 202 aminosavval.[11] UniProtKB/Swiss-ProtA UniProtKB/Swiss-Prot kézzel ellenőrzött, nem redundáns fehérjeszekvecia-adatbázis. Tudományos irodalomból és biokurátor által kiértékelt számítógépes analízisből áll. Célja egy adott fehérjéről való összes ismert információ bemutatása. A jelölés gyakran van ellenőrizve a tudományos irodalomnak megfelelően. A kézi jelölés a fehérjeszekvencia és a tudományos irodalom részletes elemzését tartalmazza.[12] Azonos gén és faj szekvenciái azonos bejegyzésbe kerülnek. A szekvenciák különbségei azonosítva, okuk (például alternatív splicing, természetes variáció, nem megfelelő iniciációs helyek, nem megfelelő exonhatár, kereteltolódás vagy azonosítatlan konfliktus) dokumentálva van. Számos szekvenciaelemző eszköz használatos a UniProtKB/Swiss-Prot-bejegyzések jelölésére. A számítógépes előrejelzések elemzése, a releváns eredmények kiválasztása kézzel történik. Előrejelzések például a poszttranszlációs módosulások, a transzmembrán domének, a topológia, a jelzőpeptidek, a doménazonosítás és a fehérjecsalád-besorolás.[12][13] A releváns publikációk kereső adatbázisok, például a PubMed révén azonosíthatók. A tanulmányok teljes szövegét olvassák, információit kivonják, és a bejegyzéshez adják. A tudományos irodalomból származó jelölés például:[9][12][13]
A jelölt elemek minőség-ellenőrzésen mennek át a UniProtKB/Swiss-Protba kerülés előtt. Új adat elérhetővé válásakor a bejegyzések frissülnek. UniProtKB/TrEMBLA UniProtKB/TrEMBL magas minőségű számítógépesen elemzett rekordokat tartalmaz, automatikus jelöléssel. A megnövekedett adatáramlás miatt jött létre, mivel a kézi jelölési folyamat nem volt kiszélesíthető minden elérhető fehérjeszekvencia bevételére.[9] A jelölt kódoló szekvenciák az EMBL-Bank/GenBank/DDBJ nukleotidszekvencia-adatbázisban automatikusan feldolgozásra kerülnek és bekerülnek a UniProtKB/TrEMBL-be. A UniProtKB/TrEMBL tartalmaz még a PDB-ből és génelőrejelzésből, például Ensemblből, RefSeqből és CCDS-ből származó fehérjéket is.[14] 2021. július 22. óta tartalmaz az AlphaFold által előrejelzett harmadlagos és az Alphafold-multimer által előrejelzett negyedleges szerkezeteket is.[15][16] UniParcA UniProt Archive (UniParc) nem redundáns adatbázis az összes nyilvánosan elérheő fehérjeszekvencia-adatbázisból származó fehérjeszekvenciával.[17] A fehérjék számos eltérő forrásadatbázisban létezhetnek különböző példányokban egy adatbázisban. A redundancia elkerülése végett a UniParc minden szekvenciát egyszer tárol. Az azonos szekvenciák egybe tartoznak, függetlenül attól, mely fajhoz tartoznak. Minden szekvenciához stabil, egyedi azonosító (UPI) tartozik, lehetővé téve azonos fehérje eltérő forrásadatbázisokból való azonosítását. A UniParc jelöletlen fehérjeszekvenciákat tartalmaz. Az adatbázis-kereszthivatkozások lehetővé teszik a fehérjéről szóló további információ szerzését a forrásadatbázisokból. Ha a szekvenciaadat megváltozik a forrásban, ezt a UniParc követi, és a változások története archiválásra kerül. ForrásadatbázisokJelenleg az alábbi nyilvános adatbázisokból tartalmaz a UniParc szekvenciákat:
UniRefA UniProt Reference Clusters (UniRef) 3 UniProtKB- és UniParc-rekordokból álló fehérjeszekvencia-csoportokból álló adatbázisból áll.[20] A UniRef100 adatbázis azonos szekvenciákat és szekvenciarészeket egy UniRef-bejegyzésbe tesz. Egy fehérje szekvenciája, az egyesült elemek hozzáférési száma és a megfelelő UniProtKB- és UniParc-rekordok hivatkozásai találhatók meg. A UniRef100-szekvenciák a CD-HIT algoritmussal vannak csoportosítva a UniRef90-hez és UniRef50-hez.[20][21] Ezek a leghosszabb szekvenciához legalább 90%-ban, illetve 50%-ban hasonló szekvenciákat csoportosítanak. A csoportosítás csökkenti az adatbázisméretet, lehetővé téve gyorsabb szekvenciakereséseket. TámogatásA UniProtot a National Human Genome Research Institute, a National Institutes of Health (NIH), az Európai Bizottság, a svájci kormány (az oktatási és tudományos minisztériumon keresztül), a NIC-caBIG és az amerikai védelmi minisztérium támogatják.[10] Jegyzetek
További információk |