3. RESULTADOS Y DISCUSIÓN

3.1. Búsqueda de secuencias de lacZ de Pseudoalteromonas haloplanktis y homólogos en bases de datos moleculares
Entramos en la base de datos proteica UniProt e introducimos como palabra de búsqueda el nombre del gen lacZ, buscando tanto las secuencias aminoacídicas y nucleotídicas de nuestra proteína como de varios organismos coincidentes en el GeneName que, posiblemente sean homólogos de nuestra proteína.
La información encontrada en UniProt acerca del gen lacZ de P. haloplanktis es:

Accession: P81650
Entry name: BGAL_PSEHA
Protein name: Beta-galactosidase o Beta-gal (EC=3.2.1.23)
Gene name: lacZ
Length: 1039 aminoácidos
Para la búsqueda de homólogos con el mismo GeneName pulsamos “Browse by taxonomy” y buscamos esta secuencia en organismos alejados filogenéticamente. Sin embargo, parece que este gen se encuentra muy conservado en procariotas, sobre todo bacterias, y algunos eucariotas sencillos, pero nada conservado en organismos más complejos. El gráfico siguiente determina el número de organismos de cada dominio que poseen este gen (Gráfico 1):


Dibujo1.jpg

Gráfico 1: Muestra el número de organismos que poseen una secuencia similar a la del gen de referencia lacZ de Pseudoalteromonas haloplanktis
Elegimos algunos de estos organismos al azar, teniendo en cuenta la elección de, por lo menos, un organismo eucariota que sirva como organismo más alejado filogenéticamente y que, más tarde, nos ayude en el enraizamiento de los árboles filogenéticos. A continuación se detalla una tabla resumen con los organismos elegidos en esta parte del trabajo (Tabla 1):


Organismo
Nombre del gen
Longitud aminoacídica
Número de acceso
Dominio
Kluyveromyces lactis
LAC4
1025
P00723
Eucariota
Thermotoga maritima
lacZ
1084
Q56307
Bacteria
Escherichia coli (strain K12)
lacZ
1024
P00722
Bacteria

Tabla 1: Muestra los organismos elegidos para obtener las secuencias de estudio que usaremos en el trabajo, con ciertas características del gen.

Obtuvimos las secuencias de aminoácidos y el CDS como se explica en los materiales y métodos, en formato FASTA. Nuestra proteína de referencia no constaba de secuencias 5´ no codificantes, por lo que el posterior análisis de matrices de puntos será realizado con los CDSs de las proteínas a comparar.

La búsqueda de homólogos basándonos en el GeneName de la secuencia a estudiar en nuestro caso es efectiva, debido a que ésta se encuentra muy conservada a lo largo de la evolución procariota y eucariota. Este hecho puede deberse a que tiene una función muy concreta como es la hidrólisis de un sustrato para obtener energía, tras su posterior degradación, por lo que las bacterias, sobre todo, han mantenido su secuencia a lo largo de la evolución. Sin embargo, nunca podemos tener la completa certeza de que el nombre del gen proporciona homólogos para su secuencia.


3.2. Búsqueda de secuencias homólogas usando la herramienta de búsqueda de similitud BLAST

La búsqueda de secuencias homólogas a nuestra proteína con la herramienta BLAST del NCBI arroja muy buenos resultados en cuanto a proteínas de bacterias se refiere, existiendo incluso alguna proteína eucariota con alto porcentaje de similitud. Como ya se comenta anteriormente, este hecho puede ser debido a la alta conservación funcional de la proteína en bacterias y algunos eucariotas. Por ello, hemos podido encontrar sin problemas homólogos de nuestra proteína con una matriz de puntuación BLOSUM 62. Así, no tuvimos por que usar matrices de puntuación más bajas, que servirían para los alineamientos más divergentes. Debemos tener cuidado también con las longitudes de las secuencias: Si la secuencia problema y la de la base de datos tienen una longitud similar y un valor de significación bajo, probablemente estaremos ante dos proteínas homólogas; pero si el alineamiento con la secuencia de la base de datos no abarca parte de la secuencia problema, la homología podría estar restringida sólo a un dominio y no a toda la proteína de partida y, por tanto, no pueden considerarse como la misma proteína. bien
En nuestro caso hemos elegido dos secuencias muy conservadas con nuestra proteína (pero no las más conservadas de todas, para poder así obtener mejores resultados en los alineamientos posteriores y en la búsqueda de dominio) y otras dos de organismos mucho más evolucionados que parecen tener cierta similitud en ciertos dominios proteicos, pero no serán homólogos completos de la betagalactosidasa. Mientras que las dos primeras presentan una similitud total con la proteína de estudio, las dos últimas sólo presentan una similitud parcial (tal y como muestra el esquema inferior, gráfico 2). Sin embargo, fueron los únicos organismos más alejados filogenéticamente que presentaban alguna similitud mencionable y con un e-value relativamente bajo pues, habiendo comparado con muchos otros grupos animales e incluso con organismos particulares, todos los alineamientos resultaban con un e-value muy alto, reflejando que cualquier similitud era azarosa:
- No hemos encontrado similitud con invertebrados (Por ejemplo: Caenorhabditis elegans
à E-value = 3). El e-value más bajo encontrado para invertebrados fue en artrópodos y aun asi era muy alto. (E-value = 0,02).
- Tampoco encontramos similitud con anfibios (El E-value más bajo con un anfibio era de 0,43).
- Buscando específicamente en Danio rerio obteníamos un e-value de 2,2.
- Buscando específicamente en peces teleósteos obtuvimos un e-value de 3.

A continuación se detallan en la siguiente tabla (Tabla 2) los organismos elegidos para proseguir la caracterización de nuestra proteína, así como la imagen comparativa del BLAST entre las secuencias obtenidas (Imagen 2):


Organismo
Nombre del gen
Número de acceso
Expect (E-value)
% Identidad
Photobacterium profumdum
lacZ
Q6LL68
0.0
631/1033 (61%)
Vibrio vulnificus
lacZ
Q8D4H3
0.0
629/1037 (60%)
Sus scrofa
GUSB
Q4FAT7
3 e-31
123/508 (24%)
Homo sapiens
GUSB
P08236.2
1 e-28
101/419 (24%)

Tabla 2: Muestra los organismos elegidos para obtener las secuencias de estudio que usaremos en el trabajo usando la herramienta de comparación BLAST y BLOSUM 62, con sus respectivos valores de similitud.

Dibujo2.jpg

external image clip_image004.jpgGráfico 2: Comparación de los alineamientos entre las secuencias elegidas por parecida identidad, con una BLOSUM 62, usando la herramienta BLAST.

Debemos hacer mención a que hemos usado las secuencias de aminoácidos para las secuencias homólogas y no los CDSs, por la degeneración del código genético, que podría eliminar organismos homólogos. Las secuencias aminoacídicas y nucleotídicas de estas proteínas han sido descargadas en formato multiFASTA para su posterior uso en el resto del trabajo. No pudimos encontrar las secuencias nucleotídicas (CDSs) de las proteínas de Sus scrofa y Homo sapiens, aunque sí sus secuencias de nucleótidos. Los 4 organismos fueron seleccionados por su alto grado de similitud y, en el caso de las secuencias de proteínas de cerdo y humano, por su distancia evolutiva con la secuencia de estudio. Tras la búsqueda de secuencias homólogas podemos verificar que nuestra proteína se encuentra muy conservada en organismos simples como bacterias, donde la evolución prácticamente no ha actuado en la modificación de su secuencia, aunque se encuentra muy alejada de otros organismos filogenéticamente lejanos, no existiendo prácticamente conservación. Podemos empezar a determinar una de las conclusiones del trabajo: nuestra proteína de estudio es una proteína de organismos simples, unicelulares.
muy bien

A continuación, las secuencias resultantes de la búsqueda de homólogos y de la búsqueda en bases de datos:



3.3. Análisis del CDS de nuestra proteína por medio de matrices de puntos

El análisis de secuencias 5´ no traducidas de nuestra proteína, comparándola con las proteínas homólogas encontradas, permite discutir la conservación de regiones importantes para la regulación de la expresión de nuestra proteína por medio de su promotor. Sin embargo, en nuestro caso no pudimos obtener las regiones 5´ no codificantes de la betagalactosidasa de Pseudoalteromonas haloplanktis, debido a que no existía en la ficha UniProt ninguna referencia cruzada a GeneID ni a Ensembl. Además, al no encontrarse el genoma de este organismo secuenciado, no pudimos referirnos a ninguna base de datos de genomas para buscar estas secuencias. Debido a las imposibilidades rmencionadas, los resultados de este análisis nos darán idea de la conservación de nuestro gen. Por tanto, hemos sustituido este apartado por una comparación mediante matrices de puntos (DotPlot) de los CDS de tres de los homólogos frente a nuestro organismo de referencia. Con el fin de enriquecer el análisis de secuencias codificantes de los genes estudiados, se eligió un organismo homólogo procariota (Escherichia coli), que se encuentra en una posición cercana en la evolución al organismo de referencia, un organismo homólogo procariota (Thermotoga maritima) más alejado filogenéticamente y un organismo eucariota (Kluyveromyces lactis), muy alejado evolutivamente de nuestro organismo de estudio.
Los resultados y la discusión de las comparaciones por pares de los CDS de los organismos antes mencionados se encuentran a continuación. En todos los casos hemos dividido las secuencias completas de los CDS de cada proteína analizada en 1540 y 1580 pb aproximadamente. La razón por la que no eliminamos ningún nucleótido de las secuencias para facilitar el estudio es que, en el momento en el que realizamos los análisis con la herramienta BLAST, determinamos que la secuencia de la proteína se encontraba muy conservada en los organismos de estudio. Por tanto, una delección de parte de la secuencia eliminaría posibles resultados y conclusiones sobre las matrices de puntos resultantes. De esta forma, las matrices de puntos que se muestran debajo se corresponden con las secuencias completas de los genes.

Los archivos de los CDS divididos en dos se encuentran en los siguientes enlaces:



Pseudoalteromonas haloplanktis vs. Escherichia coli

- Primeras 1540 pb de Pseudoalteromonas haloplanktis

Dibujo3.jpg

- Últimas 1580 pb de Pseudoalteromonas haloplanktis
Dibujo4.jpg

Según la información que tenemos a priori, la comparación entre las secuencias proteicas? de estos dos organismos por medio de una matriz de puntos debe arrojar un resultado consistente en una diagonal centrada y casi continua. Tras el análisis, obtenemos que la diagonal predicha existe en las matrices de puntos, en un plano centrado, infímamente desplazado hacia la derecha. Sin embargo, existen zonas prácticamente vacías de puntos, hecho indicativo de que estos fragmentos de secuencias no se encuentran conservados en la evolución. Además, al estar ante la comparación de dos secuencias semejantes, esta matriz se caracteriza por diagonales rotas, indicando la región interrumpida la localización de desapareamientos de las secuencias. Parecen existir tres zonas bien diferenciadas de similitud entre secuencias al principio de la matriz, al final de las primeras 1540 pb y al principio de las últimas 1580 pb, y al final de las últimas 1580 pb. En concreto y, según la información contenida en la base de datos proteica UniProt, estas zonas de conservación parecen corresponderse con los dominios proteicos importantes de la proteína, caracterizados en la base de datos de dominios y motivos de secuencia Pfam.

Pseudoalteromonas haloplanktis vs. Thermotoga maritima

- Primeras 1540 pb de Pseudoalteromonas haloplanktis

Dibujo5.jpg



- Últimas 1580 pb de Pseudoalteromonas haloplanktis
Dibujo6.jpg


En este caso, al ser un organismo más alejado filogenéticamente del organismo de estudio, desaparecen algunas de las diagonales que obteníamos en el caso anterior, con un organismo más cercano en la evolución. Para estas dos secuencias lejanamente relacionadas obtenemos más ruñido de fondo, observándose agrupaciones diagonales de puntos, paralelas a la diagonal central, separadas por una distancia que representa las inserciones necesarias para poner las secuencias en correcta concordancia. En concreto, la diagonal inicial de las primeras 1540 pb parece que se conserva, pero en menor similitud. Tan sólo aparecen algunas diagonales discretas para el posible dominio proteico conservado que se encontraría al final de la matriz de las primeras 1540 pb y el principio de la matriz de las últimas 1580 pb. Según los resultados del final de la matriz de las últimas 1580 pb, no se intuye prácticamente la presencia de la diagonal que antes se visualizaba. Aún así, estos resultados son normales cuando se estudian proteínas más alejadas en la evolución. Además, no podemos descartar la degeneración del código genético que provoca que distintas secuencias nucleotídicas puedan generar, tras su expresión, la misma secuencia de aminoácidos.


Pseudoalteromonas haloplanktis vs. Kluyveromyces lactis

- Primeras 1540 pb de Pseudoalteromonas haloplanktis
Dibujo7.jpg

- Últimas 1580 pb de Pseudoalteromonas haloplanktis

Dibujo8.jpg
En esta última comparación entre CDS por medio de matrices de puntos nos encontramos con los resultados que, teóricamente, han sido descritos durante este estudio de comparación por DotBlots. Al ser un organismo eucariota y, por tanto, muy alejado evolutivamente del organismo de referencia, cada vez aparecen menos conservadas las diagonales entre secuencias. Además, debemos tener en cuenta que, por su condición de eucariota, que esta proteína puede poseer intrones que desaparearían las secuencias y trasladarían las diagonales hacia la secuencia del organismo eucariota. Sin embargo, tras el estudio de las anotaciones moleculares del gen LAC4 de Kluyveromyces lactis, podemos confirmar que está codificado por un único exón y, por tanto, nuestra matriz no presenta esta característica. Nótese en las matrices como se conserva bastante en la evolución la diagonal del principio de la matriz de puntuación de las primeras 1540 pb y parte de la diagonal del final de la matriz de las primeras 1540 pb. Sin embargo, puede destacarse como, a excepción de alguna pequeña diagonal del principio de la matriz de las últimas 1580 pb, el resto del DotPlot no muestra ninguna diagonal característica de la conservación evolutiva de secuencias entre estas dos proteínas. En este caso, al igual que antes, no debemos olvidar la influencia de la degeneración del código genético a la hora de estudiar la conservación de dominios proteicos en nuestras proteínas de estudio. El análisis de alineamientos posterior arrojará luz sobre la verdadera conservación de la secuencia proteica y de los dominios que hemos podido intuir en este estudio.
Comentar por último que, en nuestro caso, al no haber podido obtener las secuencias 5´ UTR no codificantes de la proteína de estudio, no hemos llevado a cabo el estudio de secuencias de unión de factores de transcripción enfrentando alguna secuencia nucleotídica contra la base de datos JASPAR.

3.4. Alineamientos múltiples y filogenia

Este estudio consiste en la comparación de secuencias de aminoácidos y nucleótidos de las distintas proteínas obtenidas en pasos anteriores del trabajo. Para ello, se realiza un alineamiento múltiple entre las secuencias desde los archivos multiFASTA con el programa bioinformática ClustalX, pudiendo así localizar todas las posiciones y regiones con relevancia en la función molecular y estructural de la proteína betagalactosidasa de Pseudoalteromonas haloplanktis. De esta forma, vamos a descubrir cuáles de estas proteínas teóricamente homólogas lo son realmente y a deducir las regiones que la evolución ha conservado por su importancia en la funcionalidad de la proteína. Además, un estudio filogenético de nuestras proteínas permitirá conocer la relación evolutiva existente entre ellas.

3.4.1. Alineamientos de secuencias aminoacídicas

En un principio realizamos un alineamiento múltiple con las secuencias de las proteínas homólogas obtenidas, tanto por GeneName como por búsqueda de similitud con BLAST. Debemos mencionar que el análisis de los resultados obtenidos en los alineamientos múltiples son complicados debido al gran tamaño de la proteína, que se encuentra codificada por 1039 aminoácidos. El resultado de este alineamiento se muestra a continuación:

alineamientos_residuos.jpg
Muy completo
Los archivos obtenidos de los alineamientos se encuentran en los siguientes enlaces:



Para determinar las posiciones importantes en la proteína de referencia se realiza un análisis de las anotaciones de secuencia de nuestra proteína, de la base de datos UniProt. Este análisis permite determinar la existencia de:
- Una región de unión al sustrato entre los aminoácidos 536 y 539 (Figura 1).
- Los aminoácidos del sitio activo en las posiciones 460 (Donador de protones) y 536 (Sitio nucleófilo) (Figura 2 y 3).
- Residuo de unión a sodio (posiciones 201 y 603) (Figura 4 y 5).
- Residuos de unión a un primer magnesio (posiciones 415, 417 y 460) y a un segundo magnesio (posición 596), que actúan como cofactores de la enzima (Figura 6 y 7).
- Un residuo de unión a sodio, vía óxido carbónico (posición 600) (Figura 8).
- Residuo de estabilización de la estructura en el estado de transición en las posiciones 356 y 390 (Figura 9).

Dibujo9.jpg
Figura 1: Conservación de los residuos EYAH para la unión de la enzima a su sustrato. (excepto en mamíferos)


Dibujo10.jpg
Figura 2: Residuo glutamínico que funciona como donador de protones del sitio activo totalmente conservado.

Dibujo11.jpg
Figura 3: Residuo glutamínico que funciona como aminoácido nucleófilo.

Dibujo12.jpg
Figura 4: Residuo de ácido aspártico conservado en las proteínas para la unión del cofactor sodio

Dibujo13.jpg
Figura 5: Residuo de unión a sodio
Dibujo14.jpg
Figura 6: Aminoácidos de unión de un cofactor de magnesio.

Dibujo15.jpg
Figura 7: Aminoácido responsable de la unión de un segundo magnesio a la proteína.

Dibujo16.jpg
Figura 8: Conservación de residuos aromáticos de unión de sodio, vía óxido carbónico.
Dibujo17.jpg
Figura 9
: Gran conservación de los residuos estabilizadores de la estructura




Aunque obtenemos un alineamiento bastante pobre en similitud entre los distintos residuos aminoacídicos, podemos observar que existe conservación de todas las anotaciones anteriores. La razón de que aparezca este pésimo alineamiento entre secuencias está en la existencia de dos proteínas poco relacionadas con la proteína de referencia, provenientes del cerdo y del humano. Aunque estas dos proteínas son de menor tamaño que el resto de proteínas comparadas y, a priori, parecen tener poco que ver con nuestra proteína de estudio, podemos comprobar como los residuos y secuencias anteriormente comentados aparecen conservados casi en su totalidad. La razón de esta conservación se encuentra en que las dos proteínas, Aunque alejadas filogenéticamente de nuestro organismo, poseen función de hidrólisis de un sustrato como la beta-D-glucoronidasa, su estructura es un homotetrámero y pertenece a la familia de las glicosilhidrolasas 2, características similares a nuestra proteína de estudio. Muy bien
La región de unión a sustrato (Figura 1) debe estar conservada para que la especificidad de éste siga existiendo durante el proceso evolutivo y no se pierda la función principal de la proteína. Estos residuos se encuentran conservados en las proteínas procariotas y en Kluyveromyces lactis como secuencia consenso EY[AG]H, pero desaparecen en las proteínas de cerdo y hombre debido a que el sustrato utilizado por estas dos enzimas es distinto. La sustitución de Ala por Gly es irrelevante en el caso de la levadura, debido a que la sustitución se realiza entre aminoácidos de tamaño pequeño, que participan normalmente en el reconocimiento de sustratos.
Además, el sitio activo debe estar completamente conservado para llevar a cabo la reacción catalítica que convierte el sustrato, debido a que la reacción de hidrólisis es común a todas las proteínas estudiadas en este alineamiento. Por ello, el Glu460 (E), que actúa como donador de protones (Figura 2) se encuentra conservado, así como los aminoácidos que lo rodean. Se puede observar que la existencia de gaps cercanos a esta región son producidos por desapareamientos entre las secuencias de estudios con las secuencias de los dos organismos eucariotas más evolucionados que, al codificar una enzima con actividad diferente, aunque parecida a la de la enzima de referencia, tendrán una conformación distinta del sitio activo.
Nos damos cuenta que, al contrario de lo que podríamos pensar en un principio, el Glu536 (E) nucleófilo no se encuentra en todas las secuencias analizadas, estando ausente en las secuencias de proteínas de cerdo y humano (Figura 3). Este nuevo resultado indica que este aminoácido no es importante a la hora de realizar la hidrólisis de la beta-D-glucoronidasa, pero si de la beta-D-galactosidasa. Quizás estas proteínas poseen otro aminoácido nucleófilo que permita el ataque del sustrato para su hidrólisis.
Respecto a los cofactores de sodio y magnesio son conservados por su importancia en la actividad proteica, sin los cuáles no podría tener lugar.
- En el caso del sodio (Figura 4 y 5), se encuentra conservado el Asp201 (D) y sólo conservada la Asn603 (N) de los procariotas, aunque los eucariotas contienen en esta posición residuos similares en estructura como el ácido aspártico (D) de Kluyveromyces lactis (con mayor parecido a la asparragina de los procariotas, debido a su mayor cercanía evolutiva con estos) y el ácido glutámico (E) de los otros dos eucariotas más evolucionados y, por tanto, con mayor divergencia de secuencias con la proteína de referencia. En las dos regiones que rodean a estos aminoácidos encontramos una conservación del ambiente, posiblemente por las necesidades estéricas necesarias para la interacción del cofactor con la proteína, siendo ésta más acusada para el primer residuo analizado que, recordemos, era el más conservado.
- En el caso del primer magnesio (Figura 6) que se une a la proteína obtenemos una gran conservación del aminoácido Glu460 (E). Sin embargo, puede visualizarse como los otros dos residuos responsables de la unión del primer cofactor de magnesio no se encuentran totalmente conservados. En el caso del Glu415 (E) la conservación desaparece para las dos proteínas de hombre y cerdo, siendo este hecho representativo de su poca determinación a la hora de la unión del magnesio. Asimismo, el residuo de His417 (H), sólo está conservado en los procariotas y en la levadura, siendo importante en la unión de ligandos, y se encuentra sustituido en las dos proteínas eucariotas complejas en el alineamiento por prolina (P), un aminoácido de características distintas de la histidina, que participa en los giros. Esta sustitución indica que, en las proteínas eucariotas complejas, esta posición es irrelevante para la unión del cofactor. Estos resultados referentes a la unión del primer magnesio indican que la unión de este ligando es necesaria para la actividad de las proteínas procariotas y eucariotas menos evolucionadas, y que no tienen importancia en las proteínas de eucariotas superiores, posiblemente porque su plegamiento es algo distinto y no necesita la interacción de estos residuos. Destacar también que existe conservación aminoacídica alrededor de los aminoácidos estudiados, siendo necesaria para el correcto plegamiento y el mantenimiento de la estructura en las proteínas mencionadas que unen el magnesio.
- En el caso del segundo magnesio (Figura 7), el aminoácido Asn596 (N) de la proteína de referenecia se encuentra conservado en todos los procariotas. Para Kluyveromyces se produce su sutitución por histidina (H), comprobándose que es un aminoácido que actúa normalmente de ligando que, en este caso, uniría magnesio. La conservación está ausente para las proteínas de cerdo y hombre, existiendo una sustitución por un aminoácido de características contrarias a la asparragina como la isoleucina (I).
La conservación de residuos para la unión de sodio vía óxido carbónico (Figura 8) no es total. Para los procariotas y la levadura, el aminoácido Phe600 (F) está conservada, mientras que, como viene siendo habitual en este análisis, para las proteínas eucariotas superiores, este residuo ha sido sustituido por tirosina (Y). Sin embargo, se ha producido un cambio entre aminoácidos aromáticos, lo que indica la conservación de la unión de sodio. Seguramente, estos residuos aromáticos de gran tamaño también tienen un papel fundamental en la estructura tridimensional de la proteína.
También los residuos de estabilización del estado de transición (Figura 9) se encuentran conservados en la evolución (His356 e His390), ya que son fundamentales para garantizar la estructura proteica durante la catálisis enzimática que se lleva a cabo. Además, existe mucha similitud entre las secuencias comparadas alrededor de estos aminoácidos, con las consiguientes implicaciones estructurales que ello conlleva.
Los resultados obtenidos muestran una gran conservación aminoacídica si nos referimos a procariotas y, determinan que estas conservaciones son extrapolables al organismo Kluyveromyces lactis. Sin embargo, para las proteínas de cerdo y humano, al tratarse de proteínas distintas, el alineamiento múltiple determina que existen ciertas conservaciones del residuo donador de protones y algún residuo de unión a cofactores, las cuales pueden ser debidas a una divergencia evolutiva ausente en estos residuos. No obstante, los malos resultados referentes a estas dos proteínas en la comparación entre secuencias las invalidan como homólogos de nuestra familia proteica.

Después del estudio anterior hemos eliminado del alineamiento múltiple las secuencias proteicas de humano y cerdo, con vistas a obtener un mejor alineamiento que nos permita dilucidar algunas otras conservaciones que antes no pudimos determinar, como dominios y regiones de mayor tamaño importantes para la estructura y/o función de la proteína. El alineamiento se muestra a continuación, junto con una leyenda que indica los posibles dominios y regiones conservadas en la evolución:
Dibujo18.jpg
Dibujo19.jpg

Dibujo20.jpg
Figura 10
: Alineamiento múltiple entre proteinas homólogas, señalándose las regiones más importantes del alineamiento.


El alineamiento obtenido a partir de estas secuencias (Figura 10) permite obtener unos resultados mucho mejores que los obtenidos anteriormente. Se comprueba, por tanto, que estas secuencias se encuentran muy conservadas a lo largo de la evolución, encontrándose todas las conservaciones concretas de las que hablamos anteriormente. Además, este nuevo alineamiento permite una visión global de los dominios proteicos de los que está compuesta nuestra proteína.
Según la base de datos Pfam, nuestra proteína contiene dos dominos con actividad proteica que parece que se conservan en la evolución de la betagalactosidasa:
- Hacia el dominio N-terminal de la proteína no existe prácticamente conservación hasta el residuo Ser49 (S) de la betagalactosidasa de Pseudoalteromonas, donde comienza la conservación. Esta conservación puede deberse a la existencia de un dominio proteico llamado Glyco Hydro 2N (que pertenece a un dominio Glyco Hydro 2) y se caracteriza por un alto número de aminoácidos hidrofobos ramificados como la isoleucina, la valina y la leucina, que permiten la ramificación de la estructura. Llama la atención la existencia de varias prolinas conservadas en este dominio que restringen el movimiento de la estructura, por imposibilidad de rotación del enlace N-Cα, aunque produce un giro en la estructura. Sin embargo y, como comentaremos en el análisis de la estructura, nuestra proteína cumple con el característico bajo porcentaje de prolinas de las proteínas psicrófilas, las cuales impedirían la flexibilidad de éstas para adaptarse al frío. Además, existe un amplio número de aminoácidos aromáticos (Tirosina, fenilalanina y triptófano) que, por su mayor tamaño, suelen encontrarse hacia fuera en la proteína plegada. También destacar la existencia de varios aminoácidos de unión externa hacia el final de este dominio (ácido aspártico y glutámico), que unen el dominio Glyco Hydro 2 N con el siguiente dominio Glyco Hydro 2. Asimismo, la mayor conservación hacia el final de este dominio coincide con el lugar de unión de sodio comentado anteriormente. Por las consideraciones anteriores, podemos concluir que nuestra proteína posee un dominio Glyco Hydro 2 N que se encontrará hacia afuera en la estructura tridimensional de la proteína.
- Entre el dominio Glyco Hydro 2 N y el Glyco Hydro 2 (posición Ser220) existe una inserción de una lisina en la proteína de la levadura, determinando esto la separación entre estos dos dominios. De esta forma, esta inserción no tiene importancia en la estructura y función de la proteína. Además, es un residuo de unión externo.
- En la posición Ser220 supuestamente comienza un dominio Glyco Hydro 2 (parte central del dominio). Sin embargo, hasta el aminoácido Pro297 no se aprecia una conservación resaltable. Este resultado puede ser debido a que esta parte de la proteína no se encuentra muy conservada en la evolución debido a que no contiene ningún aminoácido con actividad catalítica, de unión a sustrato, de unión de ligandos o de estabilización de la proteína. Además, los residuos más conservados consisten en aminoácidos aromáticos e hidrofobos ramificados, que serán importantes para la conformación estructural de la proteína. Este hecho puede comprobarse gracias a que existe una inserción de aminoácidos en la secuencia de Kluyveromyces lactis tras la posición Glu265 de 8 aminoácidos. Los sitios de inserción de aminoácidos puden marcar la separación entre dominios o puden ser regiones poco conservadas en la evolución, que serán más fáciles de mutar. Nuestra secuencia, por tanto, se encuentra en el segundo caso.
- Siguiendo la secuencia proteica hacia el extremo terminal, pasamos hasta la parte terminal del dominio Glyco Hydro 2 (Glyco Hydro N terminal). Esta secuencia se encuentra muy conservada debido a que es aquí donde se encuentran varias regiones importantes para la actividad de hidrólisis de la proteína. Las regiones conservadas se dividen en dos partes separadas por una inserción aminoacídica en la secuencia de la levadura de 23 aminoácidos. Esta inserción separa el sitio de estabilización de la estructura en su estado de transición del sitio de unión de uno de los ligandos de magnesio que une la proteína y del centro activo propiamente dicho. Se observa una secuencia consenso muy conservada alrededor de los dos aminoácidos del centro activo: la secuencia WSLGE alrededor del residuo Glu460, que actúa como donador de protones; y la secuencia consenso ILCEYAHAMGN alrededor del residuo Glu536, que actúa como sitio nucleófilo, atacando en primera instancia al sustrato para su hidrólisis. Además, esta segunda región consenso determina el sitio de unión del sustrato. En esta parte del dominio nos encontramos una segunda inserción de aminoácidos en la secuencia de Kluyveromyces lactis, que separa una alta proporción de aminoácidos aromáticos. De esta forma, tanto el sitio de unión de magnesio como el centro activo se encuentran separados del resto de la proteína. El dominio Glyco Hydro 2 terminaría en el residuo 628.
- Existe una región sin conservación en nuestra proteína, que parece separar el dominio completa Glyco Hydro 2 del dominio Bgal Small N. Al no codificar ningún aminoácido con función importante en la proteína, esta secuencia está sujeta a un mayor número de mutaciones en su secuencia, así como a inserciones de aminoácidos, en el caso de la levadura. La existencia de este sitio de no conservación puede ser debida a su actuación como unión de dominios distintos. Podemos hipotetizar que los dominios Glyco Hydro 2 se encontraban en la proteína ancestral y tenían función de hidrólisis, y que se produjo la unión del dominio Bgal Small N durante la evolución para proveer a los organismos de una enzima que fuera capaz de hidrolizar (por el dominio Glyco Hydro 2) la galactosa y sustratos parecidos (gracias al dominio Bgal Small N).
- Hacia el extremo C-terminal nos encontramos con un supuesto dominio Bgal Small N al final de la proteína. Se observa una conservación algo menos acusada que en el dominio anterior. Sin embargo, podemos estar ante un verdadero dominio Bgal Small, debido a que éste tan sólo actúa protegiendo el centro activo con sus giros en la estructura que bien pueden ser provistos por los aminoácidos aromáticos conservados en esta parte de la proteína. Podemos adelantar desde el análisis de familias y motivos que este dominio no muestra mucha conservación en la evolución. Además, podemos observar que la conservación no es total entre nuestras proteínas: realizamos un alineamiento de secuencias de aminoácidos entre las proteínas procariotas de Vibrio y Photobacterium, obteniendo un muy buen resultado, que determinaba la conservación de este dominio. Sin embargo, al realizar el alineamiento con E. coli, Pseudoalteromonas y Vibrio, obtuvimos un alineamiento parecido al que se encuentra más arriba. De esta forma, podemos concluir que la secuencia Bgal Small N en Vibrio y Photobacterium se encuentra muy conservada por su cercanía evolutiva, estando la secuencia de estas dos proteínas diferenciada del resto de procariotas. Más adelante realizaremos una búsqueda de dominios para validar nuestra hipótesis. Este dominio se encontraría
entre los residuos 796 y 949.
- Por último, destacar la diferencia de tamaño de la betagalactosidasa de Thermotoga maritima, que posee una cola desapareadas del resto de secuencias. Esto nos puede dar una idea de su mayor evolución respecto al resto de organismos procariotas, de forma que ha podido ganar esta cola de aminoácidos sin función concreta.
- se determina en todo el alineamiento una sustitución masiva de argininas para evitar la formación de puentes salinos y puentes de hidrógeno que eliminen flexibilidad a la enzima, debido a que las enzimas psicrófilas la necesitan para poder actuar a bajas temperaturas.

Los archivos usados en este estudio se incluyen en el enlace siguiente:



No se incluye el análisis de alineamientos múltiples de secuencias codificantes debido a que no aporta información posicional adicional a lo ya comentado y proporcionado por el alineamiento de secuencias aminoacídicas. Estos alineamientos fueron realizados a partir de las secuencias CDS de todos los organismos procariotas y la levadura, debido a que no pudimos obtener la secuencia nucleotídica de cerdo y hombre (aparte de que estaban descartados a partir del alineamiento de aminoácidos). Estos alineamientos no dan mucha información debido a la degeneración del código genético y las diferencias en los codones más utilizados por cada organismo para cada aminoácido. De esta forma, aunque nuestros organismos mayoritarios sean procariotas, estos se encuentran algo alejados evolutivamente y cualquier similitud podrá ser debida al azar. A partir de este alineamiento podemos apreciar poca conservación a nivel de secuencia de nuestras proteínas, hecho que en un principio esperábamos. Sin embargo, se observa cierta similitud entre posiciones del mismo dominio y nula en las regiones interdominios comentadas antes. Estos resultados ofrecen una validación sobre la discusión de las matrices de puntos realizadas a partir de los CDS de proteínas. A continuación aparecen los alineamientos realizados:




3.4.2. Árboles filogenéticos

Tras el alineamiento múltiple generado a partir de las secuencias en formato multiFASTA de los organismos de estudio, tanto de aminoácidos como de nucleótidos, con el programa ClustalX, obtuvimos varios árboles filogenéticos que determinan la distancia evolutiva entre los OTUs analizados. En este caso, también se incluye un árbol filogenético en el que incluímos las secuencias aminoacídicas del cerdo y el hombre, para terminar de determinar su lejanía evolutiva con la secuencia de nuestra proteína. Los árboles se encuentran enraizados según el organismo más alejado en la evolución: En el caso de los alineamientos de aminoácidos, están enraizados por el hombre y, en la CDS, por la levadura estudiada. Se emplea como representación de la filogenia molecular el filograma, que aporta información sobre la distancia relativa entre las especies, observando la distancia entre ramas, que indican el grado de separación en la evolución correspondiente a cada OTU u Operacional Taxonomic Unit. A continuación aparecen los distintos árboles filogenéticos obtenidos:

FILOGENIA A PARTIR DE LAS SECUENCIAS DE AMINOÁCIDOS
Figura 11

Dibujo21.jpg

FILOGENIA A PARTIR DE LAS SECUENCIAS DE NUCLEÓTIDOS

Dibujo22.jpg

Figura 12

En estos árboles filogenéticos existen grandes diferencias, debido a las diferencias existentes entre los alineamientos múltiples de aminoácidos y nucleótidos. A priori, estas diferencias son debidas a la degeneración del código genético y al uso de distintos codones para cada aminoácido que usa cada uno de los organismos representados. Sin embargo, ambas filogenias coinciden en agrupar por un lado a los eucariotas y, por otro lado, a los procariotas, a excepción de Photobacterium profundum, que se encuentra más cercano evolutivamente a Kluyveromyces lactis, si observamos el árbol obtenido del alineamiento de los CDS (Figura 12). Según los resultados propuestos a lo largo del ensayo, son más veraces los resultados del primer árbol filogenético (Figura 11), que agrupa a Photobacterium y Vibrio en un mismo grupo, más cercanos a nuestro organismo de referencia por tener características extremófilas. También se comprueba que nuestra proteína se encuentra más cercana en la evolución a la de E. coli y más alejada de la proteína de Thermotoga, en cuanto a procariotas se refiere. Además, este último organismo se separó en la evolución de la rama de E. coli y, por tanto, mostrará mayores desapareamientos de secuencia con la proteína de referencia.

3.4.3. Matrices de distancia

El programa ClustalX también permite obtener matrices de identidad entre organismos, que permiten comparar las relaciones evolutivas entre ellos. Así, podemos observar el porcentaje de identidad entre cada par de secuencias. A continuación se muestran las matrices generadas:

MATRIZ DE IDENTIDAD DE SECUENCIAS AMINOACÍDICAS



1: Photobacterium profundum
100
78
61
54
39
18
18
33
2: Vibrio vulnificus
78
100
61
53
37
18
18
32
3: Pseudoalteromonas haloplanktis
61
61
100
51
38
17
18
31
4: Escherichia coli
54
53
51
100
36
19
20
31
5: Thermotoga maritima
39
37
38
36
100
17
18
33
6: Homo sapiens
18
18
17
19
17
100
82
16
7: Sus scrofa
18
18
18
20
18
82
100
17
8: Kluyveromyces lactis
33
32
31
31
33
16
17
100



MATRIZ DE IDENTIDAD DE CDS



1: Escherichia coli
100
60
55
49
43
32
2: Vibrio vulnificus
60
100
61
50
45
37
3: Pseudoalteromonas haloplanktis
55
61
100
50
46
36
4: Thermotoga maritima
49
50
50
100
46
32
5: Kluyveromyces lactis
43
45
46
46
100
36
6: Photobacterium profundum
32
37
36
32
36
100



Los resultados arrojados por las matrices de identidad, que determinan la distancia filogenético entre los organismos se corresponde con los resultados comentados durante todo el análisis de secuencias y alineamientos. Se comprueba que
Pseudoalteromonas haloplanktis se encuentra más cercana evolutivamente a Vibrio vulnificus, según los resultados de la matriz de secuencias aminoacídicas. Además, se determina una estrecha relación filogenéticoa entre éste y Photobacterium profundum, teniendo entre sí una identidad del 78%. Así también, Escherichia coli es el tercer organismo más cercano a nuestro organismo de referencia y las secuencias de eucariotas se encuentran más alejadas, siendo el alejamiento muy acusado con las secuencias de los dos organismos eucariotas superiores. Obsérvese también que la matriz de identidad de CDS, al igual que el árbol filogenético creado desde estas secuencias hace, determina una mayor cercanía evolutiva entre Photobacterium y Kluyveromyces, hecho erróneo demostrado, debido a la degeneración del código genético. Como era de esperar, los organismos más evolucionados se encuentran a menor distancia evolutiva y reflejan mayores porcentajes de identidad entre ellos. También podemos observar como los porcentajes obtenidos a partir del alineamiento de proteínas son mayores que los porcentajes de la matriz realizada a partir de secuencias codificantes. De esta forma, se comprueba la hipótesis formulada varias veces sobre la degeneración del código genético y la utilización de distintos codones para cada aminoácido. Entendemos, por tanto que, aunque el CDS ha evolucionado en nuestras proteínas, esta evolución ha sido hacia la conservación de los aminoácidos que codifican, de manera que los cambios en las secuencias nucleotídicas no afectaran a la codificación proteica conservada, necesaria para que estas enzimas pudieran cumplir su función catalítica de forma correcta. Esta conclusión tiene sentido, ya que cualquier variación de la secuencia de nucleótidos que provocara un cambio en los aminoácidos codificados podrían llevar a una pérdida de residuos importantes para la catálisis y la estructura de la proteína.

3.5. Búsqueda de dominios y motivos conservados en nuestra proteína de estudio

El análisis de dominios y motivos a través de la base de datos Pfam permite determinar los dominios proteicos presentes en nuestra proteína y validar los resultados obtenidos en los alineamientos múltiples anteriores. a partir de la información contenida en la ficha de nuestra proteína de Uniprot se estableció la presencia de un hipotético dominio Glyco Hydro 2 entre las posiciones 49 y 628, dividido en tres subdominios distintos (Glyco Hydro 2N, Glyco Hydro 2 y Glyco Hydro 2 C), y de un dominio Bgal Small N entre los residuos 796 y 949 de nuestra proteína de referencia, que se encontraban relativamente conservados en el alineamiento múltiple.
Tras acceder a la ficha de nuestra proteína en la base de datos Pfam, escribiendo el número de acceso (P81650) de nuestra proteína en el campo “Jump to”, hemos obtenido una serie de resultados que validan nuestra hipótesis de partida. En concreto, se obtiene un esquema de las posibles familias incluidas en nuestra proteína de estudio, junto con una tabla PfamA que enmarca los dominios proteicos. Según esta base de datos, se obtiene la existencia de un superdominio de hidrólisis, formado a su vez por tres dominios, y otro dominio conservado en las betagalactosidasas.
A continuación aparece un esquema (Figura 13) que representa: un dominio Glyco Hydro 2 N en posición N-terminal, un dominio Glyco Hydro 2 en posición C-terminal respecto de3l anterior, un dominio Glyco Hydro 2 C que le sigue y un dominio Bgal Small N hacia el extremo C-terminal de la proteína (Los colores usados en este esquema se usarán durante el resto de la práctica para colorear estructuras).
Dibujo23.jpg
Figura 13: Esquema de la organización de dominios en la betagalactosidasa de Pseudoalteromonas haloplanktis.

En nuestra ficha de UniProt no aparece la existencia de ningún dominio en nuestra proteína en las anotaciones de secuencia, aunque determina que esta proteína pertenece a la familia de las Glyco Hydro 2. De esta forma, las posiciones que nosotros habíamos determinado mediante el estudio de los alineamientos múltiples que conservaban cierta similitud son validados por estos resultados en la base de datos Pfam. En concreto, enmarcan el dominio Glyco Hydro 2 N entre las posiciones 44 y 218, el dominio Glyco Hydro 2 entre las posiciones 220 y 332, el dominio Glyco Hydro 2 C entre las posiciones 334 y 628, y el dominio Bgal Small N entre las posiciones 760 y 1034 (ver dominios en estructuras). Las posiciones a las que se refieren enmarcan una serie de fragmentos proteicos algo mayores que los determinados con los alinemaientos múltiples, aunque las posiciones determinadas por este método se encuentran en el interior de los dominios que proporciona Pfam. A continuación aparece la tabla resumen de los dominios proteicos (Tabla 3):

Dibujo24.jpgexternal image clip_image048.jpg





Tabla 3
: Localización de cada dominio en la secuencia de la betagalactosidasa de Pseudoalteromonas haloplanktis.


Los dominios obtenidos se encuentran muy conservados en la evolución para este tipo de enzimas con función hidrolasa. Todos los posibles dominios estudiados contienen una gran conservación en las estructuras proteicas estudiadas, mantenidos en todos los organismos que contienen una proteína homóloga a la de referenecia, tanto procariotas como eucariotas. Para comprobarlo se realizó un alineamiento múltiple de las secuencias proteicas que enmarcaban los dominios proteicos y se comprobó que existía gran conservación en las secuencias, excepto, como adelantábamos en el apartado de alineamientos, al principio del dominio Bgal Small N (hacia el extremo N-terminal) por motivo de la existencia en el alineamiento de las secuencias de Vibrio y Photobacterium. De esta forma, se comprueba que dichos dominios son importantes para la actividad enzimática y se encuentran conservados en la evolución hasta eucariotas simples, no existiendo divergencia apreciable a lo largo de la evolución de estas secuencias. Como predijimos, los fragmentos proteicos sin conservación pertenecían a zonas interdominios que no deben conservarse. Así, existen evidencias que implican una conservación total de estos dominios sin los cuáles las proteínas no podrían ejercer su función catalítica de forma correcta.
Para asegurarnos de que estos dominios se conservaban en la evolución, hemos buscado en Pfam las proteínas estudiadas, homólogas de la de referencia y hemos obtenido que la arquitectura de la proteína es la misma en todas, aunque, como decíamos, existe una rotura del dominio Bgal Small N hacia el extremo N-terminal en los organismos Vibrio y Photobacterium. A continuación, en la figura 14, se muestra la arquitectura de estas proteínas:



Dibujo25.jpg
Figura 14: Esquemas de la organización de los dominios en todas las secuencias aminoacídicas de las proteínas de estudio. Aparecen los nombres de los distintos organismos a los que pertenece cada esquema en la esquina superior izquierda.

Puede observarse la cola característica de la proteína de Thermotoga maritima no conservada, debido a que existió una divergencia evolutiva distinta a la proteína del organismo de referencia. Este hecho puede observarse en el árbol filogenético de proteínas del estudio anterior. También se observa la existencia de una rotura del dominio Bgal Small N en las proteínas de Photobacterium y Vibrio, que evolucionaron desde el organismo de referencia. Por ello, aunque relacionados, esta región se ganó debido a que debe proveer de cierta ventaja evolutiva para la función de la proteína. Tal como hipotetizamos en el alineamiento múltiple, paece que la proteína ancestral tan sólo poseía el dominio Glyco Hydro 2 y que fue la evolución la que determinó la ganancia del dominio Bgal Small N para poder hidrolizar sustratos como la galactosa, que serían mayoritarios en el ambiente donde vivían estos organismos. Además, podemos observar como los aminoácidos catalíticos marcados en el dominio Glyco Hydro 2 C se conservan en todas las proteínas.
En las estructuras aparecen representados estos dominios de color verde, rojo, amarillo y rosa respectivamente, con objeto de obtener su localización estructural en la proteína.

Ahora procedemos al estudio de cada uno de los dominios proteicos obtenidos, especialmente, el dominio Glyco Hydro 2 C, que contiene los aminoácidos funcionales más importantes de nuestra proteína.

- Dominio Glyco Hydro2 N
Pertenece a la familia 2 de las glicosil hidrolasas (PF02837), de unión a azúcar. Posee proteínas con actividad betagalactosidasa, betamanosidasa y betaglucoronidasa (de aquí proviene la similitud parcial de las proteínas de cerdo y humano). Conforman un amplio grupo de enzimas que hidrolizan el enlace glucosídico entre dos o más carbohidratos o entre un carbohidrato y un residuo no glucídico.
- Dominio Glyco Hydro 2
Pertenece a la familia 2 de las glicosil hidrolasas (PF00703), como dominio parecido a la conformación de sándwich de las inmunoglobulinas beta. Posee proteínas con actividad betagalactosidasa, betamanosidasa y betaglucoronidasa. Conforman un amplio grupo de enzimas que hidrolizan el enlace glucosídico entre dos o más carbohidratos o entre un carbohidrato y un residuo no glucídico.

- Dominio Bgal Small N
Es un dominio encontrado en proteínas que poseen una cadena pequeña betagalactosidasa (PF02929). Se encuentra en betagalactosidasas diméricas y monoméricas. En nuestro caso se trata de un homotetrámero formado por cuatro monómeros iguales con actividad betagalactosidasa por sí mismos. Conforman un amplio grupo de enzimas que hidrolizan el enlace glucosídico entre dos o más carbohidratos o entre un carbohidrato y un residuo no glucídico. Así, las betagalactosidasas pertenecen a la familia de las glicosil hidrolasas como podemos comprobar en nuestra estructura.

- Dominio Glyco Hydro 2 C
Pertenece a la familia 2 de las glicosil hidrolasas (PF02836), como dominio en forma de barril TIM. Posee proteínas con actividad betagalactosidasa, betamanosidasa y betaglucoronidasa. Conforman un amplio grupo de enzimas que hidrolizan el enlace glucosídico entre dos o más carbohidratos o entre un carbohidrato y un residuo no glucídico. Esta familia posee un residuo conservado de ácido glutámico, que funciona como sitio catalítico ácido/base del centro activo de la proteína. Este resultado concuerda con todos los análisis realizados para esta proteína, en cuanto a la conservación del aminoácido nucleófilo. Además, se sabe que suele encontrarse en beta galactosidasas que se encuentran en estructura de tetrámero.
La organización de este dominio en las proteínas de la familia, obtenida a partir de la ficha Pfam, determina que suele encontrarse unido a los dominios Glyco Hydro 2 N y Glyco Hydro 2 (371 secuencias muestran esta arquitectura), así como unido a estos dos dominios y al dominio Bgal Small N (290 secuencias muestran esta arquitectura). Se comprueba así que esta organización de dominios sigue conservada a lo largo de la evolución, debido a su importancia para proceder con la activiada. En concreto, la actividad enzimática se encuentra en el superdominio formado por los tres dominios de la familia de las glicosil hidrolasas, mientras que el dominio Bgal Small N sólo se encuentra en proteínas de tipo betagalactosidasas, por su necesidad para una posible estabilización de la molécula, para la unión de sustrato y para permitir una apropiada conversión del sustrato a producto. La figura 15 muestra los resultados comentados:
Dibujo26.jpg
Figura 15: Muestra los resultados de la organización de dominios más frecuente en las proteínas de la familia a la que pertenece el dominio Glyco Hydro 2 C.

El alineamiento encontrado en la base de datos Pfam de una muestra de todas las proteínas de la familia a la que pertenece la proteína de referencia abarca únicamente el dominio Glyco Hydro 2 C de la proteína. No se encuentra en esta muestra nuestra proteína de referencia, pero podemos hacer uso de la secuencia de E. coli o Kluyveromyces, ya q1ue se ha demostrado que son homólogos de nuestra proteína y, por tanto, las conclusiones obtenidas, pueden extrapolarse a la proteína de estudio. Elegimos la proteína de E. coli por encontrarse muy cercana en la evolución, tal y como muestra la figura 11, perteneciente al árbol filogenético de proteínas. En este alineamiento aparece la secuencia de E. coli entre las posiciones 336 y 630 del alineamiento múltiplerealizado con ClustalX. En esta secuencia se encuentra bastante coincidencia en la zona conservada comentada en el apartado de alineamientos, que permitía obtener una secuencia consenso WSLGNE, alrededor del residuo Glu462 de E. coli, que actúa como donador de protones catalítico en el centro activo (Figura 16). Además, también se encuentra conservación de la secuencia consenso ILCEYAHAMGN alrededor del aminoácido Glu 538 de E. coli, que participa en el centro activo como sitio nucleófilo de ataque al sustrato (Figura 17). De esta forma, la diada catalítica se encuentra conservada a lo largo de la evolución, comprobándose en estos alineamientos de familia de proteínas.

Dibujo27.jpg
Figura 16: Secuencia consenso conservada alrededor del Glu460 del sitio activo de Pseudoalteromonas haloplanktis.

Dibujo28.jpg
Figura 17: Secuencia consenso conservada alrededor del Glu536 del sitio activo de Pseudoalteromonas haloplanktis.

El alineamiento múltiple en formato logo (Figura 18) muestra la zona de mayor conservación de la información de la secuencia. Así, la posición más alta en el gráfico se corresponde con los aminoácidos Triptófano (W), Asparragina (N) y ácido glutámico (E). Estos aminoácidos se corresponden con la secuencia consenso mencionada más arriba y pertenecen a las posicones 455, 459 y 460 de la proteína del organismo de referencia. Estos aminoácidos pertenecen al sitio catalítico de la proteína, hecho a estas alturas totalmente comprobado. Por ello, se encuentran altamente conservados en la evolución de este dominio.
Dibujo29.jpg

Figura 18: Alineamiento múltiple en formato logo que muestra la conservación de la secuencia consenso WSLGNE alrededor del aminoácido donador de protones del sitio activo.












Hemos puesto el árbol filogenético del dominio de la proteína (semilla), aunque no aparece nuestro organismo de referencia (Figura 19). Aún así, se observa un árbol parecido a nuestro árbol (Figura 11) de secuencias aminoacídicas. Podemos tomar de referencia para su estudio la enzima de E. coli. Se concluye tras el estudio que la evolución separa los organismos procariotas de los eucariotas y, estos de los eucariotas superiores. Obsérvese como la proteína de E. coli pertenece al mismo ancestro que la de Kluyveromyces, aunque se alejaron hace tiempo en la evolución y están separadas en el árbol. Además, podemos visualizar la unión de las betaglucoronidasas de humanosy ratones con la de E. coli, siendo esto característico del hecho que las betagalactosidasas y las betaglucoronidasas proceden de un ancestro común del que se separaron para terminar evolucionando y tener funciones similares pero no iguales.
external image clip_image060.jpg

Dibujo30.jpg
Figura 19: Árbol filogenético desde el alineamiento del dominio Glyco Hydro 2 C de varias proteínas con actividad hidrolítica, de varios organismos.


El estudio de dominios se continua en la base de datos InterPro. Realizamos la búsqueda sobre la proteína de referencia usando la herramienta InterProScan. De esta forma, en la tabla 4, encontramos las cuatro entradas a los cuatro dominios determinados en Pfam y dos entradas para dos fichas de Prosite (PS). La primera ficha de la base de datos Prosite, con identificador PS00608, ofrece información sobre el sitio catalítico donador de protones y determina el patrón que nosotros hemos ido caracterizando a lo largo de la práctica, con los residuos Asn 459 y Glu460 muy conservados. Este patrón se encuentra en todas las proteínas de la familia de las glicosil hidrolasas. El patrón es el siguiente:
[DENQLF]-[KRVW]-N-[HRY]-[STAPV]-[SAC]-[LIVMFS]-[LIVMFSA]-[LIVMFS]-W- [GSV]-x(2,3)-N-E
El otro patrón encontrado en la segunda ficha de Prosite (con identificador PS00719) pertenece a otro fragmento de la secuencia conservado, hacia el extremo N-terminal, alrededor del aminoácido 415. Esta conservación tiene sentido ya que, como pudimos comprobar en los alineamientos múltiples, existía un sitio de unión de magnesio muy conservado en la evolución. El patrón es el siguiente:
N-x-[LIVMFYWD]-R-[STACN](2)-H-Y-P-x(4)-[LIVMFYWS](2)-x(3)-[DN]-x(2)- G-[LIVMFYW](4)

external image clip_image062.jpg

Dibujo31.jpg
Tabla 4: Resultados de la búsqueda de nuestra secuencia de referencia en la base de datos de dominios y motivos Prosita.
3.6. Estructura tridimensional de la proteína de estudio

Para realizar el análisis estructural de nuestra proteína, hemos comenzado comprobando el actual estado de predicción de estructura tridimensional de la misma, revisando su ficha Uniprot. En el campo de referencias cruzadas (Cross–references) de esta ultima no aparece ningún enlace a la base de datos PDB, en su defecto se recoge un enlace HSSP que nos envía a la ficha 1BGL de la base de datos PDB, ficha que muestra la estructura tetramérica de la β-galactosidasa de E.coli para las cadenas A-H, confirmando una vez más la homología entre ambas y su pertenencia a la misma familia. Corroboramos así lo que ya habíamos leído en la bibliografía: actualmente no está disponible la estructura tridimensional de nuestra proteína de estudio.
Por ello, como segundo paso, intentamos realizar una predicción de estructura 3D por homología, utilizando el método Swiss-Model. El resultado de la predicción fue negativo incluso utilizando como molde cada uno de los monómeros de la ficha PDB referenciada en el enlace HSSP (cadenas A-H).
El tercer paso, por tanto, fue realizar un análisis manual: buscamos la plantilla realizando un BLAST contra la base de datos PDB, el resultado de la cual señalaba sin ninguna duda, como indica la figura, que la mejor plantilla era la estructura recogida en la ficha PDB 1-BGLA (cadena A de la β-galactosidasa de E.coli), el primer molde con el que hicimos la predicción con Swiss-Model y resultó negativa. Aún así, continuamos y originamos el alineamiento con ClustalX entre nuestra proteína y la plantilla indicada por el Blast, realizando con el mismo el análisis manual con Swiss-Model (“Aligment Interface”). Increiblemente, de nuevo la predicción no resolvió ningún modelo.

external image clip_image064.jpg

Dibujo32.jpg
Tabla 5: Muestra los resultados de la predicción en Swiss-Model.

Dados todos los pasos anteriores, nos dirigimos al segundo enlace que muestra el campo de referencias cruzadas de la ficha Uniprot de nuestra proteína, un enlace a las base de datos ModBase que sí recoge una predicción de estructura para nuestra proteína en estudio la cual ha sido realizada utilizando como molde la estructura recogida en la ficha 1jz7 de la base de datos PDB (beta-galactosidasa de E. coli formando un complejo con la galactosa). Utilizamos esta estructura para continuar el análisis de nuestra proteína, confiando en que se trata de una correcta predicción pues uno de los artículos científicos revisados como bibliografía utilizaba este mismo molde para predecir la estructura tridimensional de nuestra proteína (Referencia bibliográfica 4)

El estudio de los aminoácidos presumiblemente conservados, así como de los dominios desenmascarados en los pasos anteriores nos proporcionarán el resto de razones para poder validar el estudio sobre nuestra proteína y determinar si, la homología determinada durante el análisis realizado se debe al azar o a una conservación evolutiva y funcional.

Para comenzar nuestro análisis, observaremos la estructura proteica de nuestro modelo de estudio proteico, a fin de determinar las implicaciones de los plegamientos y estructuras generales de la proteína. Mostramos a continuación la estructura tridimensional (Figura 20) de plegamiento del monómero de la betagalactosidasa de Pseudoalteromonas haloplanktis:

external image clip_image065.gif

Dibujo33.jpg
Figura 20: Estructura tridimensional de uno de los monómeros de la proteína de referencia.

La estructura de nuestra proteína se caracteriza por poseer un mayor número de láminas β (98) que de hélices α (23). Este resultado comienza a darnos los primeros datos a discutir, debido a que, al ser una proteína de un organismo psicrófilo (adaptado a las bajas temperaturas), debe disminuir las estructuras en hebras que provocan una mayor rigidez en la proteína. Además, aparecen muchos giros (123) que, como hemos comentado anteriormente y veremos más tarde, se corresponden con un alto número de aminoácidos ramificados que provocan un giro en la estructura (

external image clip_image067.jpgDibujo34.jpgTabla 6: Resultados del programa Rasmol sobre el número de estructuras tridimensionales de nuestra proteína.

Debemos destacar que nuestro modelo se corresponde con uno de los monómeros que forman el homotetrámero de la proteína. Sin embargo, este hecho no empaña los resultados, debido a que cada uno de ellos actúa de forma independiente y contiene los sitios catalíticos, de unión a sustratato, de unión a ligandos, etc.
Según la 5 , una comparación entre la estructura modelizada de la betagalactosidasa psicrófila de nuestro organismo con la estructura de su homóloga mesofílica de E. coli, muestra el desapareamiento entre dos pares de iones, así como un cluster hidrófobo de 14 residuos, en el nivel a lo largo de la enzima psicrófila, los cuáles son responsables de la dimerización. En el nivel de la superficie activa, el cual induce la formación del tetrámero y es responsable de la actividad proteica, el número de enlaces por puentes de hidrógenos decrece en 5 veces, eliminándose también un cluster estructural hidrofóbico. Esta reducción del número de interacciones estabilizadoras entre subunidades en la enzima de referencia puede ser la responsable de su baja estabilidad.

Ahora, llevamos a cabo un estudio sobre el centro activo de la proteína y las regiones conservadas en la proteína, usando el programa RasMol para colorear los aminoácidos implicados en la catálisis, la unión a ligandos y sitios estabilizadores de la estructura. La figura 21 muestra la estructura del sitio activo. La figura 22 muestra la estructura del centro activo, los sitios de unión a ligando, los sitios estabilizadores de la estructura, etc. La leyenda de colores se resume de la siguiente forma:

- Uniones de sodio
à Verde (Residuos 201, 600 y 603)
- Uniones de magnesio
àNaranja (Residuos 415, 417, 460 y 596)
- Sitio para la apropiada conversión de lactosa o alolactosa
à Azul (Residuo 1012)
- Sitios estabilizadores del estado de transición enzimática
à Amarillo (Residuos 356 y 390)
- Aminoácido donador de protones del centro activo
à Rosa intenso (Residuo 460)
- Aminoácido nucleófilo del centro activo
à Lila claro (Residuo 536)
- Sitio de unión al sustrato
à Lila oscuro (Residuos 536-539)

external image clip_image068.gif

Dibujo35.jpg
Figura 21: Estructura proteica con los dos aminoácidos catalíticos marcados de diferente color. El residuo Glu460 de color rosa intenso y el residuo Glu536 de lila claro.
Como puede determinarse visualmente, el centro activo conforma un bolsillo activo en el que los aminoácidos importantes para la catálisis se acercan, a fin de interaccionar a la vez con el sustrato de la reacción enzimática que lleva a cabo la proteína de estudio. En concreto, se produce una cercanía palpable entre el residuo
Glu460, que actúa como donador de protones en la catálisis, de forma que ataca de forma ácido/base al sustrato; y el residuo Glu536, que actúa como sitio nucléfilo, atacando en primera instancia al sustrato para hidrolizar el enlace beta-D-1,4 entre los dos monómeros glucídicos que conforman la galactosa. Estos dos residuos se encuentran muy conservados en las proteínas procariotas y en la proteína de Kluyveromyces lactis, debido a su importancia para la función proteica, y forman la diada catalítica. Su ausencia eliminaría la actividad catalítica o modificaría la proteína hacia otro tipo de reacción. Para poder determinar las implicaciones del centro activo de la proteína y de los residuos importantes que lleva ésta, vamos a observar al detalle todas los residuos importantes estudiados durante el análisis de nuestra proteína, marcados cada tipo con un color distinto.

external image clip_image069.gif

Dibujo36.jpg
Figura 22: Estructura proteica de la betagalactosidasa con los aminoácidos importantes y conservados en la evolución marcados de diferente color.

En la figura superior se puede observar como todos los residuos importantes y conservados en la evolución se encuentran dispuestos cercanos al centro activo de la proteína. Parece formarse un bolsillo activo catalítico que necesita de la participación de estos residuos conservados para actuar de manera correcta. Las uniones de sodio (verde) se disponen cercanas para poder interaccionar fuertemente con este ligando. También nos encontramos en el mismo caso con los residuos de unión a magnesio (naranja), observándose una cercanía clara entre los residuos que unen el primer magnesio (415, 417 y 460). En este caso, que el residuo 460 actúe a la vez como sitio de unión de magnesio y como donador de protones del sitio activo implica que este cofactor es esencial para la correcta actividad proteica. Esto se comprueba experimentalmente con la adición de EDTA, un quelante de iones divalentes que secuestra el magnesio del medio, impidiéndose así la acción de la enzima, que se inhibe totalmente. Para el segundo magnesio, su sitio de unión (596) se encuentra algo más alejado del centro activo. El sitio de unión a sustrato (lila oscuro), comprende el aminoácido nucleófilo de ataque al sustrato, encontrándose muy conservados también en la evolución como se predijo en los alineamientos múltiples. Los sitios estabilizadores del estado de transición se encuentran orientados hacia el centro activo, estando su implicación conservacional marcada por las necesidades de estabilizar a la enzima durante el proceso de catálisis, en el que las interacciones entre el sustrato y el centro activo, y la participación de los ligandos pueden aumentar mucho la entropía de la molécula. No se encontrói en el alineamiento múltiple ninguna conservación del residuo 1012, necesario para la correcta conversión de la lactosa/alolactosa, posiblemente, porque los sustratos enzimáticos pueden ir variando o modificándose a lo largo de la evolución, según el ambiente cambie. Así, la mayor parte de organismos que poseen esta enzima son procariotas o eucariotas unicelulares muy sujetos a los cambios ambientales. Por tanto, deben poder tener gran versatilidad, que se traduce en una adaptación al medio.

También vamos a realizar un estudio sobre los dominios que comprobamos anteriormente que poseía nuestra proteína, para dilucidar sus posibles implicaciones estructurales. Para ello, coloreamos, del mismo color que nos da la ficha Pfam de nuestra proteína, los dominios identificados. Los resultados se muestran en la figura 23. El dominio Glyco Hydro 2 N está en verde, el dominio Glyco Hydro 2 está en rojo, el dominio Glyco Hydro 2 C está en amarillo y el dominio Bgal Small N está en rosa.


external image clip_image071.jpg

Dibujo37.jpg
Figura 23: Estructura tridimensional de un monómero de nuestra proteína de referencia con los dominios resaltados en diferentes colores.

Tras un estudio de los dominios proteicos, podemos concluir que parecen estar restringidos cada uno de los dominios a una configuración espacial determinada. Nótese también que la región en gris se corresponde con la parte de la secuencia proteica que se encontraba poco conservada en el alineamiento múltiple. Como comentamos anteriormente, el dominio Glyco Hydro 2 N contiene muchos giros y estructuras hacia el exterior de la proteína debido a su alto porcentaje de aminoácidos aromáticos y ramificados. Además, la alta presencia de prolinas en esta parte de la proteína (y sólo en esta parte) implica varios giros de la estructura proteicas que pueden observarse. Más abajo realizaremos un análisis de las prolinas de nuestra proteína. Respecto al dominio Glyco Hydro 2 podemos resaltar la presencia de multitud de láminas β, determinadas por un alto porcentaje de aminoácidos de pequeño tamaño como la glicina (más tarde analizaremos la existencia de glicinas en nuestra proteína). El dominio Glyco Hydro 2 C es el que posee un mayor número de hélices α y se encuentra centrado y protegido del ambiente, debido a que es en este dominio donde se encuentran los aminoácidos catalíticos importantes para la función proteica, formando el mencionado bolsillo activo en su estructura. Por último, el dominio Bgal Smasl N es el que se encuentra más hacia el exterior de la proteína y el más sujeto a cambios en su secuencia, estando sus residuos menos conservados que en el resto de la proteína. Este resultado parece validar la hipótesis propuesta de ganancia del dominio Bgal Small N en la proteína ancestral que poseía actividad hidrolasa, para poder utilizar sustratos parecidos a la galactosa.

Como avanzamos anteriormente, vamos a llevar a cabo un análisis más exhaustivo del contenido de prolinas de nuestra proteína. Las enzimas psicrofílicas suelen mostrar un contenido de prolina más bajo que sus homólogos mesófilas. La estructura cíclica de la prolina restringe severamente las rotaciones alrededor de su enlace N-Cα y reduce enormemente el número de posibles conformaciones locales de un polipéptido, disminuyendo la entropía del estado no plegado del mismo. Por ello, los residuos de prolina en las enzimas adaptadas al frío aparecen deleccionados o bien sustituidos por aminoácidos pequeños, principalmente alanina.
Para comprobar esta tendencia, hemos comparado el alineamiento de las secuencias aminoacídicas de nuestra proteína psicrófila de referencia con la de su homóloga mesófila de E.coli en busca de residuos prolina sustituidos y/o deleccionados, pudiendo observar que, efectivamente, el 37,1% de las prolinas en E.coli (23 de 62) aparecen sustituidas en P. haloplanktis por aminoácidos pequeños, principalmente alanina, serina, glicina y ácido aspártico. Además, las 39 prolinas restantes no sustituidas se muestran como residuos altamente conservados en todos los homólogos procariotas encontrados.
En la figura 24 se encuentran marcados en color verde en la estructura de nuestra proteína cada uno de estos 23 residuos de prolina, puede observarse claramente primero, que la sustitución ha tenido lugar en todos los caso por residuos acíclicos y segundo, que estas sustituciones, tal y como recoge la bibliografía, ocurre esencialmente dentro de lazos y giros y favorece la flexibilidad de cadenas que conectan estructuras secundarias adyacentes.

external image clip_image073.jpg

Dibujo38.jpg
Figura 24: Estructura tridimensional del monómero de la betagalactosidasa estudiada con los residuos de prolina marcados en verde.

También, como avanzamos anteriormente, vamos a llevar a cabo un análisis más exhaustivo del contenido de glicinas de nuestra proteína. Como regla general, el contenido de glicina de las enzimas psicrófilas no es significativamente diferente al de otras proteínas. Sin embargo, frecuentemente se ha observado un característico acúmulo de residuos de glicina muy cercano a dominios funcionales de algunas de estas proteínas. En el caso de la β-galactosidasa de P. haloplanktis ocurre esto último, pues se han identificado un total de 15 residuos glicina rodeando al residuo catalítico Glu 460 (donador de H+). Las referencias bibliográficas sugieren que estos acúmulos de glicina rodeando residuos catalíticos mejoran la flexibilidad del sitio activo, y con ello la accesibilidad de la cavidad catalítica.
En la figura 25 adjunta se observa el residuo catalítico 460 de color azul ampliamente rodeado por residuos aminoácidos glicina, en color amarillo.

external image clip_image074.gif

Dibujo39.jpg
Figura 25: Estructura tridimensional de un monómero de nuestra proteína de referencia con las glicinas marcadas en amarillo y el aminoácido catalítico Glu460 de color azul.
Así, parece que los residuos de glicina, de pequeño tamaño proporcionan movilidad a las proteínas que necesitan gran flexibilidad, como es el caso de las enzimas psicrófilas.

Por último, llevamos a cabo el estudio de nuestra estructura proteica a partir de la base de datos CATH. Introducimos la secuencia de la proteína de estudio y obtenenemos la siguiente ficha con un e-value más bajo, correspondiente a la estructura de nuestra proteína:

Dibujo40.jpg

Este resultado posibilita afirmar tajantemente que nuestra proteína pertenece a la superfamilia homóloga de las glicosidasas como predecíamos anteriormente. además, como podíamos saber por la estructura del dominio Glyco Hydro 2, posee topología de barril TIM. Pertenece a las proteínas con arquitectura de barril alfa-beta y a la clase alfa-beta. con estos resultados podemos concluir que nuestra proteína parece conservar la estructura que hemos predicho con el modelo obtenido de la base de datos de ModBase. Además, el esquema de dominios parece indicar los mismos dominios que ya habíamos predicho.

3.6. Análisis de la expresión génica de la proteína de referencia

Para este análisis usamos la base de datos ArrayExpress, que proporciona multitud de experimentos sobre la expresión de genes. Introducimos el nombre del gen lacZ en el campo “Gene” y pulsamos sobre “Query”. Aparece una página en blanco que determina la no existencia de experimentos de expresión génica con nuestra proteína. Éste es un resultado esperable, debido a que nuestro gen pertenece a un organismo procariota y, por tanto, no tiene tanta relevancia la desregulación de su expresión. Según la bibliografía, para aumentar la expresión de este gen, éste se clona en el procariota modelo y más fácilmente utilizable (E. coli) y se produce una producción heteróloga de la proteína, clonando este gen tras un promotor fuerte e inducible.


Muy completo y bien discutido