Árbol M

M-árboles son estructuras de datos de árboles que son similares a R-árboles y los árboles B . Se construye utilizando una métrica y se basa en la desigualdad del triángulo para consultas de rango eficiente y k vecino más cercano (k-NN). Si bien los árboles M pueden funcionar bien en muchas condiciones, el árbol también puede tener una gran superposición y no existe una estrategia clara sobre cómo evitar la superposición. Además, solo se puede usar para funciones de distancia que satisfacen la desigualdad del triángulo, mientras que muchas funciones avanzadas de disimilitud utilizadas en la recuperación de información no satisfacen esto. ^[1]

Descripción general

M-Tree 2D visualizado usando ELKI . Cada esfera azul (hoja) está contenida en una esfera roja (nodos de directorio). Las hojas se superponen, pero no demasiado; los nodos de directorio se superponen mucho más aquí.

Como en cualquier estructura de datos basada en árboles, M-Tree se compone de nodos y hojas. En cada nodo hay un objeto de datos que lo identifica de forma única y un puntero a un subárbol donde residen sus hijos. Cada hoja tiene varios objetos de datos. Para cada nodo hay un radio ${\ Displaystyle r}$ que define una bola en el espacio métrico deseado. Por lo tanto, cada nodo ${\ Displaystyle n}$ y hoja ${\ Displaystyle l}$ residiendo en un nodo en particular ${\ Displaystyle N}$ está a la mayor distancia ${\ Displaystyle r}$ de ${\ Displaystyle N}$ y cada nodo ${\ Displaystyle n}$ y hoja ${\ Displaystyle l}$ con el padre del nodo ${\ Displaystyle N}$ mantén la distancia de él.

Construcción M-Tree

Componentes

Un M-Tree tiene estos componentes y subcomponentes:

Nodos no foliares
1. Un conjunto de objetos de enrutamiento N _RO .
2. Puntero al objeto padre de Node O _p .
Nodos de hoja
1. Un conjunto de objetos N _O .
2. Puntero al objeto padre de Node O _p .
Objeto de enrutamiento
1. (Valor de característica de) objeto de enrutamiento O _r .
2. Radio de cobertura r (O _r ).
3. Puntero para cubrir el árbol T (O _r ).
4. Distancia de O _r desde su objeto padre d (O _r , P (O _r ))
Objeto
1. (Valor de característica del) objeto O _j .
2. Identificador de objeto oid (O _j ).
3. Distancia de O _j de su objeto padre d (O _j , P (O _j ))

Insertar

La idea principal es primero encontrar un nodo hoja $N$ al que pertenece el nuevo objeto $O.$ Si $N$ no es completa, entonces simplemente adjuntarlo a $N$ . Si $N$ es completa, entonces invocar un método para dividir $N$ . El algoritmo es como sigue:

Inserto de algoritmo Entrada: Nodo  $N$  de M-Tree  $MT$  , Entrada ${\ Displaystyle O_ {n}}$  Resultado: Una nueva instancia de  $MT que$  contiene todas las entradas en  $MT$  original más ${\ Displaystyle O_ {n}}$

  ${\ Displaystyle N_ {e} \ obtiene N}$ enruta objetos u objetos si   $N$  no es una hoja, entonces { / * Busque entradas en las que encaja el nuevo objeto * / dejar  ${\ Displaystyle N_ {in}}$  estar enrutando objetos desde  ${\ Displaystyle N_ {e}}$ conjunto de objetos de enrutamiento  ${\ Displaystyle N_ {RO}}$  tal que  ${\ Displaystyle d (O_ {r}, O_ {n}) \ leq r (O_ {r})}$  Si  ${\ Displaystyle N_ {in}}$ no está vacío entonces { / * Si hay una o más entradas, busque una entrada más cercana al nuevo objeto * /  ${\ Displaystyle O_ {r} ^ {*} \ obtiene \ min _ {O_ {r} \ in N_ {in}} d (O_ {r}, O_ {n})}$  } demás { / * Si no hay tal entrada, busque un objeto con una distancia mínima de * /  / * el borde de su radio de cobertura hasta el nuevo objeto * /  ${\ Displaystyle O_ {r} ^ {*} \ obtiene \ min _ {O_ {r} \ in N_ {in}} d (O_ {r}, O_ {n}) - r (O_ {r})}$  / * Actualiza los nuevos radios de la entrada * /  ${\ Displaystyle r (O_ {r} ^ {*}) \ obtiene d (O_ {r} ^ {*}, O_ {n})}$  } / * Continuar insertando en el siguiente nivel * / retorno inserto ${\ Displaystyle T (O_ {r} ^ {*}), O_ {n}}$ );  demás { / * Si el nodo tiene capacidad, simplemente inserte el nuevo objeto * / si   $N$  no está lleno, entonces { store ( ${\ Displaystyle N, O_ {n}}$ ) } / * El nodo está a plena capacidad, entonces es necesario hacer una nueva división en este nivel * / else { dividir ( ${\ Displaystyle N, O_ {n}}$ ) } }

"←" denota asignación . Por ejemplo, " más grande ← artículo significa" que el valor de los mayores cambios en el valor del elemento .
" return " termina el algoritmo y genera el siguiente valor.

Separar

Si el método de división llega a la raíz del árbol, elige dos objetos de enrutamiento de $N$ , crea dos nuevos nodos que contienen todos los objetos en $N$ original y los almacena en la nueva raíz. Si los métodos divididos llegan a un nodo $N$ que no es la raíz del árbol, el método elige dos nuevos objetos de enrutamiento de $N$ , reorganiza cada objeto de enrutamiento en $N$ en dos nuevos nodos ${\ Displaystyle N_ {1}}$ y ${\ Displaystyle N_ {2}}$ y almacenar estos nuevos nodos en el nodo principal ${\ Displaystyle N_ {p}}$ de original de $N$ . La división debe repetirse si ${\ Displaystyle N_ {p}}$ no tiene suficiente capacidad para almacenar ${\ Displaystyle N_ {2}}$ . El algoritmo es el siguiente:

División de algoritmo Entrada: Nodo  $N$  de M-Tree  $MT$  , Entrada ${\ Displaystyle O_ {n}}$  Resultado: una nueva instancia de  $MT que$  contiene una nueva partición.

 / * Los nuevos objetos de enrutamiento ahora son todos los del nodo más el nuevo objeto de enrutamiento * / sean  $NN$  entradas de ${\ Displaystyle N \ cup O}$  si   $N$  no es la raíz, entonces { / * Obtener el nodo principal y el objeto de enrutamiento principal * / dejar  ${\ Displaystyle O_ {p}}$ ser el objeto de enrutamiento padre de  $N$   let ${\ Displaystyle N_ {p}}$ ser el nodo padre de  $N$  } / * Este nodo contendrá parte de los objetos del nodo a dividir * / Crea un nuevo nodo  $N '$  / * Promocionar dos objetos de enrutamiento del nodo para que se dividan, para que sean nuevos objetos de enrutamiento * / Crea nuevos objetos  ${\ Displaystyle O_ {p1}}$  y  ${\ Displaystyle O_ {p2}}$ .  Promover( ${\ Displaystyle N, O_ {p1}, O_ {p2}}$ ) / * Elija qué objetos del nodo que se está dividiendo actuarán como nuevos objetos de enrutamiento * / Dividir( ${\ Displaystyle N, O_ {p1}, O_ {p2}, N_ {1}, N_ {2}}$ ) / * Almacenar entradas en cada nuevo objeto de enrutamiento * / Tienda  ${\ Displaystyle N_ {1}}$ entradas en  $N$  y ${\ Displaystyle N_ {2}}$ 's entradas en  $N'$   si   $N$  es la raíz actual, entonces { / * Cree un nuevo nodo y configúrelo como nueva raíz y almacene los nuevos objetos de enrutamiento * / Crea un nuevo nodo raíz  ${\ Displaystyle N_ {p}}$  Tienda  ${\ Displaystyle O_ {p1}}$  y  ${\ Displaystyle O_ {p2}}$  en  ${\ Displaystyle N_ {p}}$  } demás { / * Ahora use el objeto de enrutamiento padre para almacenar uno de los nuevos objetos * / Reemplazar entrada  ${\ Displaystyle O_ {p}}$  con entrada  ${\ Displaystyle O_ {p1}}$  en  ${\ Displaystyle N_ {p}}$  Si  ${\ Displaystyle N_ {p}}$ no está lleno entonces { / * El segundo objeto de enrutamiento se almacena en el padre solo si tiene capacidad libre * / Tienda  ${\ Displaystyle O_ {p2}}$  en  ${\ Displaystyle N_ {p}}$  } demás { / * Si no hay capacidad libre, divida el nivel hacia arriba * / separar( ${\ Displaystyle N_ {p}, O_ {p2}}$ ) } }

"←" denota asignación . Por ejemplo, " más grande ← artículo significa" que el valor de los mayores cambios en el valor del elemento .
" return " termina el algoritmo y genera el siguiente valor.

Consultas de árbol M

Consulta de rango

Una consulta de rango es donde se especifica un valor mínimo de similitud / distancia máxima. Para un objeto de consulta determinado ${\ Displaystyle Q \ in D}$ y una distancia máxima de búsqueda ${\ Displaystyle r (Q)}$ , el rango de consulta rango (Q, r (Q)) selecciona todos los objetos indexados ${\ Displaystyle O_ {j}}$ tal que ${\ Displaystyle d (O_ {j}, Q) \ leq r (Q)}$ . ^[2]

El algoritmo RangeSearch comienza desde el nodo raíz y atraviesa de forma recursiva todas las rutas que no pueden excluirse de conducir a objetos calificados.

Rango de algoritmoEntrada: Nodo  $N$  de M-Tree MT,  $Q$  : objeto de consulta, ${\ Displaystyle r (Q)}$ : radio de búsqueda

Salida: todos los objetos DB tales que ${\ Displaystyle d (Oj, Q) \ leq r (Q)}$

{ dejar  ${\ Displaystyle O_ {p}}$  ser el objeto padre del nodo  $N$  ; si   $N$  no es una hoja, entonces { para cada  entrada ( ${\ Displaystyle O_ {r}}$ ) en   $N$   hacer { si  ${\ Displaystyle | d (O_ {p}, Q) -d (O_ {r}, O_ {p}) | \ leq r (Q) + r (O_ {r})}$  luego { Compute ${\ Displaystyle d (O_ {r}, Q)}$ ;  Si  ${\ Displaystyle d (O_ {r}, Q) \ leq r (Q) + r (O_ {r})}$  luego  RangeSearch (* ptr ( ${\ Displaystyle T (O_ {r}}$ )),  $Q$  , ${\ Displaystyle r (Q)}$ );  } } } else { para cada  entrada ( ${\ Displaystyle O_ {j}}$ ) en   $N$   hacer { si  ${\ Displaystyle | d (O_ {p}, Q) -d (O_ {j}, O_ {p}) | \ leq r (Q)}$  luego { Compute ${\ Displaystyle d (O_ {j}, Q)}$ ;  Si  ${\ Displaystyle d (O_ {j}, Q)}$  ≤  ${\ Displaystyle r (Q)}$  luego  agrega ${\ Displaystyle oid (O_ {j})}$  al resultado; } } }}

"←" denota asignación . Por ejemplo, " más grande ← artículo significa" que el valor de los mayores cambios en el valor del elemento .
" return " termina el algoritmo y genera el siguiente valor.

${\ Displaystyle oid (O_ {j})}$ es el identificador del objeto que reside en un archivo de datos separado.
${\ Displaystyle T (O_ {r})}$ es un subárbol - el árbol que cubre de ${\ Displaystyle O_ {r}}$

consultas k-NN

K La consulta del vecino más cercano (k-NN) toma la cardinalidad del conjunto de entrada como parámetro de entrada. Para un objeto de consulta dado Q ∈ D y un entero k ≥ 1, la consulta k-NN NN (Q, k) selecciona los k objetos indexados que tienen la distancia más corta de Q, de acuerdo con la función de distancia d. ^[2]

Ver también

Árbol de segmentos
Árbol de intervalo: un árbol R degenerado para una dimensión (generalmente tiempo).
Jerarquía de volumen delimitador
Índice espacial
Esencia

Referencias

^ Ciaccia, Paolo; Patella, Marco; Zezula, Pavel (1997). "M-tree un método de acceso eficiente para la búsqueda de similitudes en espacios métricos" (PDF) . Actas de la 23a Conferencia VLDB Atenas, Grecia, 1997 . IBM Almaden Research Center: Very Large Databases Endowment Inc. págs. 426–435. p426 . Consultado el 7 de septiembre de 2010 .
^ ^a ^b P. Ciaccia; M. Patella; F. Rabitti; P. Zezula. "Indexación de espacios métricos con árbol M" (PDF) . Departamento de Ingeniería y Ciencias de la Computación . Universidad de Bolonia. pag. 3 . Consultado el 19 de noviembre de 2013 .

[p426-1] Ciaccia, Paolo; Patella, Marco; Zezula, Pavel (1997). "M-tree un método de acceso eficiente para la búsqueda de similitudes en espacios métricos" (PDF) . Actas de la 23a Conferencia VLDB Atenas, Grecia, 1997 . IBM Almaden Research Center: Very Large Databases Endowment Inc. págs. 426–435. p426 . Consultado el 7 de septiembre de 2010 .

[Univ_Bologna_Range-2] P. Ciaccia; M. Patella; F. Rabitti; P. Zezula. "Indexación de espacios métricos con árbol M" (PDF) . Departamento de Ingeniería y Ciencias de la Computación . Universidad de Bolonia. pag. 3 . Consultado el 19 de noviembre de 2013 .

[1]