Los problemas de la Web semántica

Publicado el: 10/06/2013

Tim Berners Lee, inventor de la Web, desde un principio quiso que ésta fuera semántica y formara una base de datos global del conocimiento humano, en la que la información pudiese ser consultada por todo el mundo y entendida por las máquinas, para generar nuevo conocimiento, responder preguntas y crear inteligencias artificiales capaces de pasar el Test de Turing. Esta idea empieza a materializarse, no sin antes encontrarse con varias dificultades que voy a exponer a continuación.

La idea básica de la Web semántica, Web 3.0 o Linked Data, es que si la Web original está formada por enlaces entre documentos, la Web semántica está formada por enlaces entre datos (los llamados enlaces RDF). Si queréis saber mejor como funcionan estos enlaces sin tener que leeros cientos de páginas de documentos del W3C, en el blog de Human Level Communications, donde colaboro, he publicado una entrada donde explico en detalle los enlaces RDF y la Web semántica.

Ahora veamos por qué la Web semántica todavía no va a permitir que Skynet tome vida:

No se ha vendido bien la idea: la visión que divulga Tim Berners Lee de la Web semántica es puramente altruista, que es algo que no está nada mal, pero el hecho de formar parte de una Web de datos global no motiva a los propietarios de las Webs a usar tecnologías semánticas. A ellos les interesa más saber cómo las tecnologías semánticas pueden atraer tráfico a su Web y qué pueden aportar éstas a la hora de que los usuarios lleguen a cumplir los objetivos de monetización. No se trata sólo de poder obtener beneficios que amorticen el gasto de desarrollo necesario para implementar tecnologías semánticas, si no de que puedan también aportar valor y ganancias extras a sus negocios.

Complejidad y heterogeneidad de tecnologías: actualmente, hay tantas tecnologías semánticas distintas y tan complejas, que muchas de las cuales desaparecerán para dejar paso a aquellas más fáciles de usar o que cuenten con herramientas para usarlas fácilmente y que se integren con la Web actual. Algunas de estas tecnologías, sólo en lo que se refiere a lenguajes, son: RDFS, RDF, RDFa, N3, Turtle, OWL, SKOS, Microdatos, Microformatos, Hypernotation, JSON-LD, RDF/JSON y GRDDL.

Coste computacional de consulta elevado: para obtener información del grafo global que forma la Web de los datos, podemos navegar por los enlaces uno a uno o usar el lenguaje de consulta SPARQL. El problema es que estas consultas pueden requerir saltar de un servidor a otro realizando la operación más costosa en las bases de datos relacionales, la unión de datos relacionados (join). Por ejemplo, si tenemos que en un documento el concepto A esta relacionado con el concepto B, normalmente necesitaremos ver con qué otros conceptos está relacionado el concepto B para resolver una consulta. Si ese concepto B se encuentra definido en otro documento de otro servidor, habrá que analizarlo para encontrar donde se nombra el concepto B. Si extraemos datos de cientos de nodos de esta manera, puede que una consulta tarde varias horas, por eso actualmente las tecnologías de bases de datos de grafos tratan de guardar en memoria el grafo más grande que puedan abarcar de las fuentes de datos más relevantes. Para intentar resolver el problema, se están intentando aplicar las tecnologías Big Data como Hadoop, ya que éstas están pensadas para trabajar con grandes cantidades de datos y resolver consultas en paralelo con la arquitectura Map-Reduce. Sin embargo, esta aproximación todavía tiene que evolucionar, por lo que los buscadores todavía no pueden usar la parte de la Web que es semántica como una base de datos global.

SPAM: el SPAM va a ser uno de los grandes problemas de la Web semántica, ya que es fácil introducir enlaces RDF que establezcan relaciones falsas para, por ejemplo, llevar al usuario a comprar algo. Una solución propuesta a este problema, es que se indique la procedencia del enlace, ya que la tecnología permite hacerlo y de esta forma podremos saber si viene de una fuente fiable. El problema es qué hacer cuando esta información es falsa o no aparece.

Fiabilidad y calidad de los datos: en los enlaces RDF podemos definir que un concepto es igual a otro definido en distinto sitio. Esto está muy bien por si aparece el mismo concepto descrito desde diferentes puntos de vista, el problema es que este enlace puede ser incorrecto. Por ejemplo, el enlace puede definir algo que se llame igual pero tenga otro significado o incluso puede que no tenga nada que ver con dicho enlace, por lo que, en el caso de analizarlo una inteligencia artificial, tendrá que usar algoritmos de desambiguación del significado de las palabras para tratar de descartar la información falsa. Veamos otro ejemplo, si tenemos que definir el concepto “Hidrógeno” que tiene un enlace que dice que su símbolo químico es la “H”, y nos encontramos otro enlace que dice que es “Hi”, ¿qué valor cogería una máquina? Si el vocabulario que usa el enlace está bien definido, la máquina sabrá que el Hidrógeno sólo puede tener un símbolo, pero aún así deberá poseer algún algoritmo que le ayude a decidir qué dato descartar. Probablemente, la mejor estrategia sea mirar en más fuentes para analizar cuál es la información correcta, aunque esta estrategia también puede fallar.

En una rama de la inteligencia artificial llamada procesamiento del lenguaje natural (NPL), se han venido usando, desde la aparición de esta disciplina, modelos de representación del conocimiento. La Web semántica es un modelo más de representación del conocimiento que lo único que puede aportar, a lo ya conocido, son cantidades enormes de información no fiable, que actualmente necesitan mucho tiempo para poder ser consultadas. Por lo tanto, no parece probable que la Web semántica vaya a ser el modelo de representación del conocimiento definitivo, ni que vaya a resolver todos los problemas de los algoritmos de procesamiento del lenguaje natural. Tampoco quiero decir que no sirva para nada, simplemente que hay que tener en cuenta la naturaleza ambigua de un sistema de representación del conocimiento global, en el que todo el mundo puede colaborar y dar sus propias explicaciones, estén equivocadas o no. Por lo tanto, para inferir nuevo conocimiento, a partir de la Web de los datos, serán preferibles algoritmos de lógica difusa. Este conocimiento, será cierto con cierta probabilidad, y no se podrá usar lógica de primer orden ni otras técnicas de razonamiento que establezcan que el conocimiento inferido sea cierto al 100%. No, al menos, sobre toda la Web, sino sólo sobre partes de ésta que contengan fuentes fiables, como ya se puede hacer con varios frameworks de desarrollo.

Pensamientos (0): Comentar