La brecha semántica caracteriza la diferencia entre dos descripciones de un objeto mediante diferentes representaciones lingüísticas, por ejemplo, lenguajes o símbolos. Según Andreas Hein, la brecha semántica se puede definir como "la diferencia de significado entre constructos formados dentro de diferentes sistemas de representación". [1] En informática , el concepto es relevante siempre que las actividades, observaciones y tareas humanas ordinarias se transfieran a una representación computacional. [2] [3] [1]
Más precisamente, la brecha significa la diferencia entre la formulación ambigua del conocimiento contextual en un lenguaje poderoso (por ejemplo, lenguaje natural ) y su representación sonora, reproducible y computacional en un lenguaje formal (por ejemplo , lenguaje de programación ). La semántica de un objeto depende del contexto en el que se considera. Para la aplicación práctica, esto significa que cualquier representación formal de las tareas del mundo real requiere la traducción del conocimiento experto contextual de una aplicación (alto nivel) en las operaciones elementales y reproducibles de una máquina de computación (bajo nivel). Dado que el lenguaje natural permite la expresión de tareas imposibles de computar en un lenguaje formal, no existen medios para automatizar esta traducción de manera general. Además, el examen de los idiomas dentro de la jerarquía de Chomsky indica que no existe una forma formal y, en consecuencia, automatizada de traducir de un idioma a otro por encima de cierto nivel de poder expresivo.
Antecedentes teóricos
La tesis de Church-Turing, aún no probada pero comúnmente aceptada , establece que una máquina de Turing y todos los lenguajes formales equivalentes, como el cálculo lambda, realizan y representan todas las operaciones formales, respectivamente, aplicadas por un humano informático. Sin embargo, la selección de operaciones adecuadas para el cálculo correcto en sí no es formalmente deducible, además depende de la capacidad de cálculo del problema subyacente. Las tareas, como el problema de la detención , pueden formularse de manera integral en lenguaje natural, pero la representación computacional no terminará o no proporcionará un resultado utilizable, lo cual está probado por el teorema de Rice . La expresión general de limitaciones para la deducción basada en reglas por el teorema de incompletitud de Gödel indica que la brecha semántica nunca debe cerrarse por completo. Estos son enunciados generales, considerando los límites generalizados de computación en el nivel más alto de abstracción donde se manifiesta la brecha semántica . Sin embargo, hay muchos subconjuntos de problemas que pueden traducirse automáticamente, especialmente en los niveles más altos de la jerarquía de Chomsky.
Lenguajes formales
Las tareas del mundo real se formalizan mediante lenguajes de programación, que se ejecutan en computadoras basadas en la arquitectura de von Neumann . Dado que los lenguajes de programación son solo representaciones cómodas de la máquina de Turing, cualquier programa en una computadora de von Neumann tiene las mismas propiedades y limitaciones que la máquina de Turing o su representación equivalente. En consecuencia, cada lenguaje de programación, como el código de máquina a nivel de CPU, el ensamblador o cualquier lenguaje de programación de alto nivel, tiene el mismo poder de expresión que la máquina de Turing subyacente es capaz de calcular. No existe una brecha semántica entre ellos ya que un programa es transferido del lenguaje de alto nivel al código de la máquina por un programa, por ejemplo, un compilador que se ejecuta en una máquina de Turing sin ninguna interacción del usuario. En realidad, se abre la brecha semántica entre la selección de las reglas y la representación de la tarea.
Consecuencias practicas
La selección de reglas para representaciones formales de aplicaciones del mundo real corresponde a escribir un programa. La escritura de programas es independiente del lenguaje de programación real y básicamente requiere la traducción del conocimiento específico del dominio del usuario a las reglas formales que operan una máquina de turing. Es esta transferencia del conocimiento contextual a la representación formal la que no puede automatizarse con respecto a las limitaciones teóricas de la computación. En consecuencia, cualquier mapeo de aplicaciones del mundo real a aplicaciones informáticas requiere una cierta cantidad de conocimientos técnicos previos por parte del usuario, donde la brecha semántica se manifiesta.
Es una tarea fundamental de la ingeniería de software cerrar la brecha entre el conocimiento específico de la aplicación y la formalización técnicamente factible. Para este propósito, el conocimiento específico del dominio (alto nivel) debe transferirse a un algoritmo y sus parámetros (bajo nivel). Esto requiere el diálogo entre el usuario y el desarrollador. Aim es siempre un software que permite al usuario representar su conocimiento como parámetros de un algoritmo sin conocer los detalles de la implementación, e interpretar el resultado del algoritmo sin la ayuda del desarrollador. Para ello, las interfaces de usuario juegan un papel clave en el diseño de software, mientras que los desarrolladores cuentan con el apoyo de marcos que ayudan a organizar la integración de la información contextual.
Ejemplos de
Recuperación de documentos
Se puede formular un ejemplo simple como una serie de consultas en lenguaje natural cada vez más difíciles para localizar un documento de destino que puede o no existir localmente en un sistema informático conocido.
Consultas de ejemplo :
- 1) Busque cualquier archivo en el directorio conocido "/ usr / local / funny".
- 2) Busque cualquier archivo en el que aparezca la palabra "gracioso" en el nombre del archivo.
- 3) Busque cualquier archivo de texto donde aparezca la palabra "gracioso" o la subcadena "humor" en el texto.
- 4) Busque cualquier archivo mp3 en el que aparezca "gracioso", "cómic" o "humor" en los metadatos.
- 5) Busque cualquier archivo de cualquier tipo relacionado con el humor.
- 6) Busque cualquier imagen que pueda hacer reír a mi abuela.
La dificultad progresiva de estas consultas está representada por el creciente grado de abstracción de los tipos y la semántica que definen la arquitectura del sistema (directorios y archivos en una computadora conocida) a los tipos y la semántica que ocupan el ámbito del discurso humano ordinario (temas como " humor "y entidades como" mi abuela "). Además, esta disparidad de dominios se complica aún más por abstracciones con fugas , como es común en el caso de la consulta 4), donde el documento de destino puede existir, pero puede no encapsular los "metadatos" de la manera esperada por el usuario, ni el diseñador del sistema de procesamiento de consultas.
Análisis de imagen
El análisis de imágenes es un dominio típico para el que se requiere un alto grado de abstracción de los métodos de bajo nivel y donde la brecha semántica afecta inmediatamente al usuario. Si el contenido de la imagen debe identificarse para comprender el significado de una imagen, la única información independiente disponible son los datos de píxeles de bajo nivel. Las anotaciones textuales siempre dependen del conocimiento, la capacidad de expresión y el lenguaje específico del anotador y, por lo tanto, no son confiables. Para reconocer las escenas mostradas a partir de los datos brutos de una imagen, los algoritmos de selección y manipulación de píxeles deben combinarse y parametrizarse de manera adecuada y finalmente vincularse con la descripción natural. Incluso la simple representación lingüística de la forma o el color, como la ronda o el amarillo, requiere métodos de formalización matemática completamente diferentes, que no son ni intuitivos ni únicos y sólidos.
Sistemas estratificados
En muchos sistemas estratificados , surgen algunos conflictos cuando los conceptos con un alto nivel de abstracción deben traducirse en artefactos inferiores y más concretos . Este desajuste a menudo se denomina brecha semántica .
Bases de datos
Los defensores de OODBMS (sistema de gestión de bases de datos orientado a objetos) a veces afirman que estas bases de datos ayudan a reducir la brecha semántica entre el dominio de la aplicación ( minimundo ) y los sistemas RDBMS tradicionales. [4] Sin embargo, los proponentes relacionales postularían exactamente lo contrario, porque, por definición, las bases de datos de objetos fijan los datos que se registran en una única abstracción vinculante.
Ver también
Referencias
Este artículo se basa en material extraído del Diccionario gratuito de informática en línea antes del 1 de noviembre de 2008 e incorporado bajo los términos de "renovación de licencias" de la GFDL , versión 1.3 o posterior.
- ↑ a b Hein, AM (2010). "Identificación y superación de brechas semánticas en el contexto de la ingeniería multidominio" . Resúmenes del Foro 2010 de Filosofía, Ingeniería y Tecnología. Colorado .
- ^ Smeulders, AWM; et al. (2000). "Recuperación de imágenes basada en contenido al final de los primeros años". IEEE Trans Pattern Anal Mach Intell . 22 (12): 1349–80. doi : 10.1109 / 34.895972 .
- ^ Dorai, C .; Venkatesh, S. (2003). "Cerrar la brecha semántica con la estética de los medios computacionales". IEEE MultiMedia . 10 (2): 15-17. doi : 10.1109 / MMUL.2003.1195157 . hdl : 10536 / DRO / DU: 30044313 .
- ^ Schlatter, M .; et al. (1994). "El Sistema de Gestión de Objetos de Negocio". Revista de sistemas de IBM . 33 (2): 239–263. doi : 10.1147 / sj.332.0239 .