2. MATERIALES Y MÉTODOS
2.1. Bases de datos
2.1.1. UniProt
El nombre de esta base de datos proviene del nombre en inglés Universal Protein. Es una de las bases de datos más importantes que existen sobre fichas proteicas, creada a partir de Swiss-Prot, TrEMBL y PIR. Para acceder a cada una de las fichas rellenamos el campo “Query” con el “GeneName” o nombre de la proteína de estudio y, pinchando en el botón “Fields” seleccionamos el campo “Organism [OS]” y ponemos el nombre del organismo que queramos en el campo “Term”. En cada entrada de UniProt aparece gran cantidad de información minuciosa sobre proteínas. Esta base de datos ha sido usada durante todo el trabajo. Dentro de toda esta información contenida en las fichas se pueden destacar varios apartados importantes como “general annotation” para la búsqueda de características moleculares y funciones biológicas y biotecnológicas; “sequence annotation” para la búsqueda de información de secuencia; “Sequences” para visualizar la secuencia aminoacídica de la proteína y descargarla en formato FASTA (aparece un botón con este nombre), que permite usarla en herramientas bioinformáticas; “References” para obtener bibliografía de ampliación; y “cross-reference”, que provee de referencias cruzadas hacia otras bases de datos como GeneID, Ensembl o GenBank. Las secuencias de cada proteína a estudian han sido descargadas en formato FASTA y puestas en formato multiFASTA para facilitar su uso en los distintos programas bioinformáticas utilizados. Esta base de datos también puede usarse para obtener homólogos de nuestra proteína de estudio, utilizando la herramienta Blast, que compara las secuencias de aminoácidos en formato FASTA y muestra todos los posibles organismos con secuencias homólogas para esta proteína. También hemos podido obtener una ficha de estructura 3D de un modelo proteico, con estructura aproximada a la de lacZ para llevar a cabo el análisis de estructura proteica, así como información general sobre los dominios presentes en las proteínas.

2.1.2. GeneBank
Esta base de datos se encuentra en el sitio web del NCBI (Nacional Center for Biotechnology Information) y es la base de datos de secuencias genéticas del NIH (Nacional Institute of Health), que proporciona una completa información sobre secuencias nucleotídicas. También contiene estructuras 3D, secuencias aminoacídicas y muchas referencias cruzadas hacia UniProt. Además, permite visualizar información sobre la estructura génica del gen, con la región promotora, la región poliA, exones e intrones. La hemos usado gracias a las referencias cruzadas de UniProt para obtener las secuencias nucleotícas de las proteínas estudiadas (CDSs), dentro del campo “Features” de la ficha, pinchando en el botón CDS de cada una de las fichas, permitiendo obtener el ORF del gen en formato FASTA. Además, ofrece la posibilidad de buscar las secuencias 5´ no codificantes, aunque en nuestra proteína de estudio no aparece, así como proporciona información sobre las secuencias de DNA.
2.1.3. Pfam
Pfam es una base de datos que permite buscar los posibles dominios y motivos de nuestra proteína de estudio. Además, nos sirve para conseguir los alineamientos múltiples de la familia de proteínas que contengan esos dominios y motivos. Cada uno de estos consiste en un conjunto de aminoácidos que tienen una función concreta y que se encuentran muy conservados en la evolución. Para la búsqueda en esta base de datos sencillamente rellenamos el campo “Jump to” de la página principal con el identificador (ID) de nuestra proteína P81650, obteniendo todos los dominios encontrados en esta secuencia. En su pestaña “Summary” podemos estudiar el esquema que proporciona información sobre la localización aminoacídica de los dominios. Para consultar la información de Pfam debemos pulsar cada dominio del esquema o los nombres del recuadro.
2.1.4. InterPro y Prosite
Estas base de datos también proporcionan información sobre dominios y motivos, siendo muy completas, aunque con una interfaz más complicada desde nuestro punto de vista. Sin embargo, en el caso de Prosite, permite integrar otras muchas bases de datos. Al haber obtenido buenos resultados con la base de datos Pfam, tan sólo usamos estas dos para confirmar los resultados obtenidos, aunque Interpro nos confirma mejor los resultados obtenidos.


2.1.5. PDB
El sitio PDB es una base de datos que contiene información sobre estructuras tridimensionales de proteínas y ácidos nucleicos determinadas experimentalmente. Tan sólo hemos usado esta base de datos para la búsqueda infructuosa de nuestra proteína.


2.1.6. ModBase
Esta base de datos contiene modelos de estructuras de proteínas anotados y comparados, y de los recursos asociados. Los modelos que aquí se encuentran derivan del programa ModPipe, que construtye estos modelos basándose en las herramientas PSI-BLAST y MODELLER. Esta base de datos también contiene alineamientos y asignación de dominios sobre los que se basan los modelos. Estos modelos son calculados teóricamente, por tanto, pudiendo tener algún error, ya que estas estructuras no han sido determinadas experimentalmente. Por ello, debemos dar importancia a la validez del modelo antes de usarlo. También contiene información sobre posibles sitios de unión de ligandos y anotaciones de SNP y de interacciones entre proteínas. En nuestro caso, hemos accedido al modelo de nuestra proteína, el cual será usado en el análisis estructural de la misma, a partir de la referencia cruzada “ModBase” que se encuentra en la ficha de UniProt de nuestra proteína. De esta forma, elegimos el molde estructural en PDB de la betagalactosidasa de E. coli formando un complejo con la galactosa (1jz7).

2.1.7.
CATH

Esta base de datos está muy relacionada con la PDB y permite la búsqueda de jerarquías o estructuras encontradas previamente, clasificando las proteínas en cuatro niveles: Clase, Arquitectura, Topología y superfamilia Homológa. Sin embargo, no tiene anotadas todas las proteínas de la base de datos anterior y, por tanto, es muy restrictiva en los resultados. Para acceder a nuestra ficha, rellenamos el campo de la secuencia con la secuencia de nuestra proteína y elegimos la estructura con un e-value menor.

2.1.8.
ArrayExpress
Esta última base de datos es un buscador de EMBL-EBI usado para buscar experimentos de análisis de expresión génica mediante microarray relacionados con nuestra proteína de estudio. No se obtienen resultados en esta base de datos al introducir el nombre de nuestro gen en el campo “Gene” y pulsar “Query”.

2. Software bioinformáticas
2.2.1. BLAST
El algoritmo BLAST (Basic Local Alignment Search Tool) es una herramienta de búsqueda básica de alineamiento local entre secuencias que determina el porcentaje de similitud entre ellas. Se encuentra alojada en el NCBI y en UniProt. Usamos esta herramienta porque sus implementaciones son muy eficaces y permiten trabajar con resultados rápidos en las búsquedas de secuencias en los servidores gratuitos. En nuestro caso usamos el blastp, basada en una matriz de intercambio de aminoácidos para puntuar los alineamientos locales que se realizan entre la proteína de referencia introducida y todas las entradas presentes en la base de datos UniProt, introduciendo la secuencia aminoacídica de la proteína betagalactosidasa. Así, podemos buscar organismos homólogos que contengan una secuencia similar a nuestra proteína, basándonos en una medida de e-value (indica la probabilidad de que la similitud que se encuentre sea debida al azar), p-value significativos (entendiendo por significativos los alineamientos que arrojen un e-value menor o igual a 0,02) y % de similitud o identidad. Además, hemos usado también un algoritmo tipo BLAST llamado bl2seq para la búsqueda de similitud entre dos secuencias de entrada. Las secuencias presumiblemente homólogas a nuestra proteína se recogen en formato FASTA, creando un archivo multiFASTA.
Hemos usado la matriz de intercambio BLOSUM 62 (BLOcks of Amino Acid SUbstitution Matrix) con porcentaje de identidad mínimo de 62%, que viene por defecto en el BLAST del NCBI. De esta forma, determinamos un grado de exigencia tal que todas las familias de proteínas que tengan un 62% de identidad se agrupan como un único representante en el análisis. Si usáramos un porcentaje de identidad mayor, obtendríamos proteínas con una relación evolutiva más estrecha.
Con este programa podemos realizar una rápida búsqueda de similitud contra una base de datos completa, permitiéndonos variar ciertos parámetros de búsqueda y obtener gran fiabilidad en los resultados obtenidos.

2.2.2.
BioEdit Sequence Alignment Editor
Es un programa empleado para mostrar alineamientos de secuencia con mucha manejabilidad. Permite colorear cada uno de los aminoácidos o bases nucleotídicas de un color y muestra la posición de cada residuo en el alineamiento. Además, con él podemos resaltar las posiciones conservadas y guardar los alineamientos en formato de texto rico.
Se utiliza para la realización de las matrices de puntos, gracias a su herramienta de Dot Plot, dando como información en nuestro caso las secuencias nucleotídicas en formato FASTA desde el CDS de las proteínas a compara, ya que no existe la secuencia nucleotídica de la región 5´ del gen lacZ de Pseudoalteromonas haloplanktis. Generamos un gráfico que coloca en cada eje una de las secuencias a comparar y dibuja un punto en el lugar donde encuentra coincidencias. Al realizar las tres matrices desde los ORFs, hemos tenido que dividir en cada secuencia en dos mitades de 1500 pb porque el tamaño máximo de la matriz es de 2000x2000 nucleótidos. Para dibujar los puntos en la matriz, el programa permite la modificación de varios parámetros como el tamaño de ventana o la identidad mínima en ella, para controlar y filtrar los resultados de la matriz. Nosotros hemos utilizado una ventana de 15 y una identidad mínima de 10 nucleótidos (o desapareamiento máximo de 5). En las matrices obtendremos regiones de similitud entre las dos secuencias comparadas, siendo las de mayor interés las destacadas como diagonales sobre el ruído de fondo. Al realizarse con los ORFs, la mayor parte de las diagonales serán centradas y largas, indicando amplias regiones de similitud entre secuencias. En nuestro caso, debemos fijarnos en estas diagonales centradas, así como en las diagonales interrumpidas, símbolo de desapareamientos e introducción de intrones (en la comparación de nuestra secuencia procariota con una perteneciente a un organismo eucariota) y en las diagonales solapantes una encima de otra, que determinan que se han producido repeticiones de la secuencia.
Por las características del programa, también lo usaremos para el estudio de los alineamientos múltiples generados en ClustalX, con extensión .aln.


2.2.3. ClustalX
Es una aplicación que realiza alineamientos múltiples de proteínas y secuencias nucleotídicas desde secuencias que se encuentran en los archivos multiFASTA creados anteriormente. Se basa en la utilización del algoritmo Clustal de alineamientos progresivos, que agrupa secuencias y realiza alineamientos por pares para generar matrices de distancia en los que se puede estudiar el % de identidad entre cada par de secuencias. A partir de éstas, se elaboran árboles filogenéticos que agrupan los grupos creados según su relación evolutiva. Los tres tipos de archivos son .aln, .pim y .dnd, respectivamente. El archivo .aln será abierto y analizado con Bioedit, el archivo .pim será abierto con el bloc de notas y el .dnd será estudiado gracias al programa TreeView.
En nuestro trabajo, damos al programa como información de entrada las secuencias aminoacídicas y nucleotídicas en formato multiFASTA, para obtener verificación de que los homólogos de lacZ obtenidos con BLAST son correctos y para determinar la presencia de dominios en nuestra familia proteica de estudio. Hemos tenido que realizar un alineamiento general para luego ir eliminando candidatos no válidos, a fin de encontrar un buen alineamiento múltiple.

2.2.4.
TreeView
Éste es un programa cliente que permite abrir los archivos .dnd para el estudio de la filogenia de la familia proteica. Nos permite visualizar y comparar los árboles filogenéticos obtenidos desde los alineamientos de las secuencias de aminoácidos y nucleótidos. Permite ver el árbol de tres formas distintas: árbol sin raíz, cladograma o filograma. Además permite enraizar el árbol y ordenar las secuencias, ya que podemos definir un grupo externo, que se encuentre más alejado evolutivamente del resto de proteínas.


2.2.5. RasMol
Es una aplicación que genera un modelo gráfico tridimensional de una proteína a partir de su ficha PDB. Así, permite visualizar la estructura de la proteína de referencia y marcar regiones o aminoácidos de interés para el estudio posicional de cada uno. También podemos cambiar la orientación, el tamaño, el color de regiones, etc.
Nosotros hemos encontrado la ficha PDB de lacZ de E. coli, un homólogo muy similar a nuestra proteína de estudio, ya que no aparece la ficha PDB de nuestra proteína, a través de la base de datos Mod Base. (Ficha llamada 1jZ7).


Muy bien