Una métrica sobre grafos ponderados como medida de similitud molecular
Los objetivos de este trabajo fueron proponer una métrica que permitiera comparar grafos ponderados con diferente numero de vértices, y que tuviera en cuenta no solo los vértices en los que se diferencian un par de grafos, sino también los vértices con los que se relacionan, y evaluar la similitud m...
- Autores:
-
Melo Ospina, Jenny Adriana
- Tipo de recurso:
- Fecha de publicación:
- 2011
- Institución:
- Universidad Nacional de Colombia
- Repositorio:
- Universidad Nacional de Colombia
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.unal.edu.co:unal/10867
- Acceso en línea:
- https://repositorio.unal.edu.co/handle/unal/10867
http://bdigital.unal.edu.co/8126/
- Palabra clave:
- 54 Química y ciencias afines / Chemistry
Similitud molecular
métrica
grafo
análisis de agrupamiento
QSAR / Molecular Similarity
Metric
Graph
Clustering
- Rights
- openAccess
- License
- Atribución-NoComercial 4.0 Internacional
Summary: | Los objetivos de este trabajo fueron proponer una métrica que permitiera comparar grafos ponderados con diferente numero de vértices, y que tuviera en cuenta no solo los vértices en los que se diferencian un par de grafos, sino también los vértices con los que se relacionan, y evaluar la similitud molecular por medio de la métrica propuesta. Para hacerlo se propuso una función d◊ : G x G →R, donde G es el conjunto de todos los grafos sin vértices aislados unido a un conjunto que contiene al grafo de un solo vértice K1, y R son los números reales, luego se demostró que esta función es una métrica. Posteriormente se construyeron los grafos moleculares de 21 esteroides y a partir de ellos se generó un supergrafo que fue etiquetado por medio de un algoritmo propuesto por Balaban et al.[1]. Las etiquetas asignadas se usaron para los vértices de los grafos moleculares. Usando Microsoft Excel Solver [2], se hizo la ponderación de los vértices de los grafos moleculares, haciendo que la matriz de similitud obtenida al comparar los grafos moleculares de los esteroides tuviera la mayor correlación posible con las matrices de similitud experimentales, obtenidas a partir de la afinidad de los esteroides por la globulina fijadora de corticosteroides CBG y por la globulina fijadora de testosterona TeBG. Se hicieron análisis de agrupamiento UPGMA usando grafos no ponderados, y ponderados con respecto a la afinidad por la CBG y la TeBG. Del dendrograma obtenido para el primer caso, se puede afirmar que la métrica es capaz de codificar las diferencias estructurales de los esteroides. En los dendrogramas obtenidos a partir de los grafos ponderados, se observó que el entrenamiento de los vértices efectivamente enriquece a los grafos con información sobre la actividad del compuesto que representan. Por último se construyeron cinco modelos QSAR: dos para predecir la afinidad por la CBG y tres para predecir la afinidad por la TeBG. Los dos modelos para predecir la afinidad por la CBG y uno de los modelos para predecir la afinidad por la TeBG tienen buenos ajustes, sin estar sobreajustados, son robustos y hacen predicciones estadísticamente significativas. / Abstract. One of the goals of this work was to propose a metric useful to compare weighted graphs with different number of vertices, and that it takes into account not only vertices that make two graphs different, but also vertices which are related to them. The other goal was to evaluate molecular similarity using the proposed metric. To do so, d◊ : G x G →R a function was proposed, with G the set of all graphs without isolated vertices union a set containing the one-vertex graph K1, and R, the real numbers. Then it was proved that this function is a metric. Later, molecular graphs from 21 steroids were made, and from them, a supergraph was generated. It was labeled using an algorithm proposed by Balaban et al.[1]. Labels asigned to supergraph's vertices were used to molecular graph's vertices. Molecular graph's vertex weighting was done using Microsoft Excel Solver [2], making similarity matrix obtained from molecular graph comparison to have the greatest possible correlation with experimental similarity matrices, obtained from the binding affinities of the steroids with the corticosteroid binding globulin CBG and the testosterone binding globulin. UPGMA Clustering was done using non-weighted and weighted graphs, with respect to affinity with CBG and with TeBG. From the dendrogram obtained in the first case, it can be stated that the metric is able to codify structural differences among steroids. In the dendrograms obtained from weighted graphs, it was observed that vertex training really enrich graphs with information about the activity of the compounds they represent. At last, five QSAR models were developed: two to predict the affinity with CBG and three to predict the affinity with TeBG. Both models to predict affinity with CBG and one of the models to predict affinity with TeBG have satisfactory good-ness-of-fit, are not over-of- fit, are robust and make statistically significant predictions |
---|