GenBank
GenBank és una base de dades pública que conté seqüències de nucleòtids i anotacions bibliogràfiques i biològiques de suport. Va ser creada pel Laboratori Nacional Los Álamos i és distribuïda pel Centre Nacional per la Informació de Biotecnologia (NCBI), una divisió de la Biblioteca Nacional de Medicina dels Estats Units (NLM). GenBank forma part de la Col·laboració Internacional de Bases de Dades de Seqüències de Nucleòtids (International Nucleotide Sequence Database Collaboration, INSDC) i intercanvia dades amb l'Arxiu Europeu de Nucleòtids (ENA) i el DNA DataBank del Japó (DDBJ) diàriament.[1] L’objectiu de Genbank és garantir que hi hagi una col·lecció uniforme i completa d’informació de seqüències a tot el món. L’NCBI posa a disposició les dades de GenBank sense cap cost a través d’una àmplia gama de serveis de recuperació, entre ells Internet i FTP.[2] NCBI construeix GenBank principalment a partir d’enviaments de dades de seqüències de laboratoris individuals, a més de contribucions massives de centres de seqüenciació de gran escala. GenBank i els seus col·laboradors reben seqüències de més de 100,000 organismes diferents produïdes a laboratoris arreu del món.[1] La base de dades va ser creada el 1979 en el Laboratori Nacional de Los Alamos (LANL), a Nou Mèxic, EEUU, per Walter Goad. GenBank ha esdevingut una base de dades important per a la recerca en camps biològics i en els darrers anys ha crescut a un índex exponencial, doblant el número de dades cada 12 mesos.[1] La versió 240, publicada a l’octubre del 2020, conté més de 650 mil milions de parells de bases, en més de 200 milions de seqüències. GenBank és construït amb contribucions de laboratoris individuals, així com d’enviaments massius de centres de seqüenciació a gran escala.[3] Les seqüències obtingudes de GenBank es poden utilitzar per fer estudis d'alineament de seqüències mitjançant el programa informàtic BLAST (Basic Local Alignment Search Tool).[4] HistòriaGenBank es va crear el 1979 al Laboratori Nacional Los Alamos i es va anomenar Los Alamos Sequence Database. El projecte va ser impulsat per Walter Goad, físic nuclear del grup de Biologia i Biofísica Teòrica, i el seu equip amb l’objectiu de crear un projecte pilot per a recollir seqüències de nucleòtids que es podrien utilitzar per a l'anàlisi.[5][6] El 1982 Los Alamos Sequence Database va prendre el nom de GenBank i es va convertir en una base de dades pública. Aquest fet coincideix amb l’adjudicament d’un contracte de dos anys per 5 milions de dòlars, per establir i operar la base de dades al LANL.[5] El finançament va ser proporcionat pels Instituts Nacionals de Salut (NIH), la Fundació Nacional de Ciències (NSF), el Departament d'Energia (DOE), i el Departament de Defensa (DOD).[7] A més, el projecte GenBank va iniciar grups de notícies BIOSCI/Bionet per promoure comunicacions d'accés obert entre biocientífics.[7]A mitjans dels anys vuitanta, el projecte va ser gestionat juntament amb Intelligenetics, empresa de la Universitat Stanford. Aquest va ser un dels primers projectes comunitaris de bioinformàtica a Internet, amb la finalitat d’aconseguir comunicacions lliures entre els científics.[5]Entre el 1989 i el 1992, GenBank va passar a la recentment creada NCBI, una divisió de la Biblioteca Nacional de Medicina (NLM), situada al campus dels Instituts Nacionals de Salut dels Estats Units (Bethesda, Maryland).L’any 1993 l’NCBI comença a acceptar presentacions directes a GenBank.[5] ContribucionsAl GenBank només es poden entregar seqüències originals. Els investigadors envien les dades a GenBank o a les bases de dades col·laboradores (ENA i DDBJ). Les dades s’intercanvien diàriament entre aquestes tres bases de dades, de manera que les actualitzacions diàries dels servidors NCBI incorporen les dades de seqüència més recentment disponibles de totes les fonts.[8] Les contribucions poden ser enviades de manera electrònica. Moltes revistes científiques requereixen que els autors amb dades de seqüència les enviïn a una base de dades de seqüències pública com a condició de publicació. Les dades de seqüència es poden enviar a través de diferents portals:[8][9]
Organització de la base de dadesDivisionsGenBank assigna cada registre de seqüència a una divisió segons la taxonomia d’origen o l'estratègia de seqüenciació utilitzada per obtenir les dades. Hi ha dotze divisions taxonòmiques (BCT, ENV, INV, MAM, PHG, PLN, PRI, ROD, SYN, UNA, VRL, VRT) i cinc divisions d’alt rendiment (EST, GSS, HTC, HTG, STS).[1][10] A part, trobem altres tipus de divisions classificades individualment: [10]
La mida i el creixement d’aquestes divisions (en parells de bases) i de GenBank en general es mostren a la següent taula.
aMesura relativa a la versió 227 (agost 2018). Respecte els notables augments de l’últim any, a la taula s’inclouen la presentació de les 57 construccions cromosòmiques sintètiques i la presentació d’unes 60 seqüències eucariotes a escala cromosòmica de la divisió VRT.[1] Taxonomia basada en seqüènciesLes seqüències de la base de dades es classifiquen i es poden consultar mitjançant una taxonomia basada en seqüències desenvolupada pel NCBI. GenBank compta amb 420.000 espècies descrites. Es mostren el nombre de parells de bases de les principals espècies (sense incloure les de les divisions WGS i TSA) a la següent taula:[10]
bVersió 227 (agost 2018). Exclou seqüències de cloroplasts, mitocondris, metagenomes, organismes no cultivats, WGS, TSA i la divisió CON. RegistresLa informació de cada seqüència està continguda en un registre de GenBank, accessible mitjançant el cercador de la pàgina web de GenBank. Cada registre per a cada seqüència conté, entre d’altres, la seqüència, el locus, el número d’accés, la versió, la descripció, els comentaris, els autors i l’organisme i taxonomia.[11] Genbank ofereix un exemple de registre a la seva pàgina web. Identificador de seqüènciaUn cop enviada la seqüència, a cada registre GenBank se li assigna un identificador únic anomenat número d’accés. Aquest número és compartit amb les tres bases de dades col·laboradores (GenBank, DDBJ, ENA). El número d’accés es mantindrà igual encara que hi hagi un canvi en la seqüència o l’anotació. Quan hi ha canvis en les dades de la seqüència s’identifica com una nova versió d’aquesta, afegint el número de la versió darrere del número d’accés.[10]Existeix un informe de l’historial de revisions que resumeix les diverses actualitzacions d’un registre determinat, incloent tots els canvis, també els que no són de seqüència.[7] Els identificadors de seqüències WGS, TSA i TLS funcionen diferent. Aquestes dades són enviades com a part de grans grups de projectes, i cada projecte compta amb un registre que agrupa enllaços a les seqüències individuals. Cada seqüència individual dins un projecte tindrà un número d’accés que comença amb l’identificador del projecte (número d’accés principal).[7] El número d’accés d’una seqüència amb la versió corresponent, a més de ser l’identificador principal d’un registre de seqüències GenBank, també és la forma més eficient i fiable de citar un registre de seqüències en publicacions. La cerca amb un número d’accés a GenBank (sense el sufix de versió) recuperarà la versió més recent d’un registre, que pot haver canviat des de la publicació del document.[7] Procés de verificació de genomes i publicacióDe mitjana, el personal de GenBank triga dos dies a assignar un número d’accés a un enviament de seqüències. No obstant, aquest temps pot variar en funció de la complexitat de l'enviament, els genomes complets solen requerir més temps. El personal de GenBank assigna aproximadament 3.500 accessos al dia. Els enviaments directes reben una revisió de garantia de qualitat. En la revisió es fa èmfasi en comprovacions de la contaminació de vectors genètics, la traducció adequada de les regions de codificació, la taxonomia correcta i les citacions bibliogràfiques correctes. L’autor rep un esborrany del registre GenBank perquè el revisi abans que entri a la base de dades. Els autors poden sol·licitar que les seqüències es mantinguin confidencials fins al moment de la publicació. Les contribucions són llavors publicades a la base de dades pública, on les entrades estan disponibles via Entrez i es poden descarregar per FTP.[1] Seqüències no verificadesEn el cas de que el personal de Genbank no pugui confirmar la precisió de les dades o anotacions de la seqüència presentada durant el procés de revisió estàndard, aquesta seqüència es podrà etiquetar com a no verificada.[1] Fins que l'emissor no pugui resoldre aquests problemes, al registre apareixerà la seqüència com a no verificada i s’inclourà una breu descripció dels problemes. A més, les seqüències no verificades no s’inclouran a les bases de dades de BLAST.[10] Informació addicional
Referències
Enllaços externs |