Que é Linked Open Data?

 
Antes de pasar a detallar as catro bases de datos definiremos brevemente o concepto de Linked Open Data. Este termo xorde da web semántica, como parte ou desenvolvemento desta.
 
Trátase dun método para publicar datos estruturados de tal forma que poida ser enlazado de forma interna e polo tanto ser máis útil. Xorde da idea de que hai información dispoñible que non está accesible cos actuais métodos de busca.

 

O científico da computación Tim Berners Lee estableceu este concepto, resaltando a necesidade de utilizar URIs (Enlaces que non varían co tempo, e polo tanto son duradeiros), aproveitar a tecnoloxía Http para localizar a información, e incluír enlaces a outras URI relacionadas de forma que se potencie o descubrimento de información en rede.
 
lod-cloud_colored.png


Fig 1. Representación dos recursos Linked Open Data presentes en Internet. As ligazóns permiten chegar a calquer parte desta "nube". Pode ver a imaxe a maior tamaño nesta ligazón.
 
Para que un recurso cumpra co Linked Open Data debe...
 
  • Estar na web: Utiliza o protocolo Http, non é necesario crear un novo protocolo ou usar algo máis complicado.
  • Constituír datos que unha máquina poida procesar.
  • Ser un formato non propietario.
  • Cumprir os estándares RDF (Modelo de datos para metadatos)
  • Incluír enlaces RDF utilizando os mencionados enlaces URI.

Poderás encontrar máis información sobre Linked Open Data ao final do Bibliotema, na sección de enlaces.

 
Tras definilo, imos repasar catro bases de datos que cumpren con este método de publicación. O concepto de información en aberto chega ata o punto de que nos ofrecen a posibilidade de descargarnos a base de datos ao completo, ademais de consultala online:
 
Uniprot
 
A misión de Uniprot é prover a comunidade científica cunha ferramenta sobre as secuencias de proteínas con información funcional, accesible, de alta calidade e libre. Familiarizarse con esta ferramenta é moi sinxelo grazas aos seus titoriais en vídeo.
https://www.youtube.com/user/uniprotvideos
 
Uniprot significa "Universal Protein Resource", e componse das seguintes bases de datos:
 
·         "UniProt Knowledgebase" (UniProtKB): Esta interface permítenos buscar nunha colección de información funcional sobre proteínas con abundantes anotacións. Ademais de ofrecer os campos crave de información: Secuencia de aminoácidos, nome da proteína e descrición, información taxonómica e citacións), engádese información adicional como ontoloxías biolóxicas, clasificacións e referencias cruzadas.
·         "UniProt Reference Clusters" (UniRef): Ofrece conxuntos agrupados de secuencias de Uniprot KB, incluíndo as isoformas das proteínas e rexistros seleccionados de UniParc para obter unha cobertura completa da secuencia de sucesión en varias resolucións ocultando secuencias redundantes (pero non a súa descrición).

 

·         "UniProt Archive" (UniParc): Completa e non redundante base de datos que contén a maior parte da información pública sobre secuencias de proteínas no mundo.Es capaz de omitir as secuencias repetidas ao extraelas de diversas bases de datos.
 233333.png

Fig. 2 Bases de datos e cifras de Uniprot

 

Linkedct
O proxecto Linked Clinical Trials (Linkedct) ten por obxectivo construír a primeira fonte de información sobre ensaios clínicos en forma de web semántica aberta. A información que se xera en Linkedct procésase do seguinte xeito:

 

1- Transfórmase información existente sobre ensaios clínicos en RDF.

 

2- Introdúcense enlaces entre os rexistros da información dos ensaios clínicos e outras fontes de información.
 
 
333333333.png

Fig. 3 Ensaios clínicos filtrados por “Estado”

 

 
 
 
Pubchen
Lanzado no ano 2004, ofrece información sobre a actividade biolóxica das pequenas moléculas. Está organizada como tres bases de datos enlazadas que son a seguintes: PubChem Substance, PubChem Compound, e PubChem BioAssay. Tamén dispón dunha ferramenta de busca rápida de similitudes químicas estruturais e un visor tanto 2D coma 3D das estruturas químicas.
 
4933333.png

 
Fig. 4 Visor 3D e comparador

 

 

 

Linked Life Data

 Acceso a Linked Life Data

 
Prové acceso a 25 bases de datos biomédicas dende un punto de acceso, o que permite a consulta de 10 billóns de resumos en RDF. Podemos buscar utilizando facetas como xenes, proteínas, interacción molecular, obxectivos, fármacos, ensaios clínicos e efectos secundarios. A interface é intuitiva e móstranos suxestións sobre o que buscamos.
 
533333.png

Fig. 5 Búsqueda por facetas
 
Ligazóns:
 
·         Wiki Linked Open Data

​Imaxe representación Liked Open Data:  Linking Open Data cloud diagram 2014, by Max Schmachtenberg, Christian Bizer, Anja Jentzsch and Richard Cyganiak. http://lod-cloud.net/

 

BTicon.png