Rango de página


De Wikipedia, la enciclopedia libre
  (Redirigido desde el algoritmo de Google )
Saltar a navegación Saltar a búsqueda
Los PageRanks matemáticos para una red simple se expresan como porcentajes. (Google usa una escala logarítmica ). La página C tiene un PageRank más alto que la página E, aunque hay menos enlaces a C; el único enlace a C proviene de una página importante y, por lo tanto, es de gran valor. Si los internautas que comienzan en una página aleatoria tienen una probabilidad del 82,5% de elegir un enlace aleatorio de la página que están visitando actualmente, y una probabilidad del 17,5% de saltar a una página elegida al azar de toda la web, llegarán a la página E 8.1% del tiempo. (El 17,5% de probabilidad de saltar a una página arbitraria corresponde a un factor de amortiguacióndel 82,5%.) Sin la amortiguación, todos los navegantes web acabarían llegando a las páginas A, B o C, y todas las demás páginas tendrían PageRank cero. En presencia de amortiguación, la página A enlaza efectivamente con todas las páginas de la web, aunque no tiene enlaces salientes propios.

PageRank ( PR ) es un algoritmo utilizado por Google Search para clasificar las páginas web en los resultados de sus motores de búsqueda . Lleva el nombre del término "página web" y del cofundador Larry Page . PageRank es una forma de medir la importancia de las páginas del sitio web. Según Google:

PageRank funciona contando el número y la calidad de los enlaces a una página para determinar una estimación aproximada de la importancia del sitio web. La suposición subyacente es que es probable que los sitios web más importantes reciban más enlaces de otros sitios web. [1]

Actualmente, PageRank no es el único algoritmo que utiliza Google para ordenar los resultados de búsqueda, pero es el primer algoritmo que utilizó la empresa, y es el más conocido. [2] [3] A partir del 24 de septiembre de 2019, PageRank y todas las patentes asociadas expiraron. [4]

Descripción

Caricatura que ilustra el principio básico de PageRank. El tamaño de cada cara es proporcional al tamaño total de las otras caras que apuntan hacia ella.

PageRanks es un algoritmo de análisis de enlaces y asigna una ponderación numérica a cada elemento de un conjunto de documentos con hipervínculos , como la World Wide Web , con el propósito de "medir" su importancia relativa dentro del conjunto. El algoritmo se puede aplicar a cualquier colección de entidades con citas y referencias recíprocas . El peso numérico que asigna a cualquier elemento E dado se denomina PageRank de E y se denota por

Un PageRank es el resultado de un algoritmo matemático basado en el webgraph , creado por todas las páginas de la World Wide Web como nodos e hipervínculos como bordes, teniendo en cuenta los centros de autoridad como cnn.com o mayoclinic.org . El valor de clasificación indica la importancia de una página en particular. Un hipervínculo a una página cuenta como un voto de apoyo. El PageRank de una página se define de forma recursiva y depende del número y la métrica de PageRank de todas las páginas que la enlazan (" enlaces entrantes "). Una página a la que están vinculadas muchas páginas con un PageRank alto recibe una clasificación alta en sí misma.

Se han publicado numerosos artículos académicos sobre PageRank desde el artículo original de Page y Brin. [5] En la práctica, el concepto de PageRank puede ser vulnerable a la manipulación. Se han realizado investigaciones para identificar clasificaciones de PageRank influenciadas falsamente. El objetivo es encontrar un medio eficaz para ignorar enlaces de documentos con PageRank influenciado falsamente. [6]

Otros algoritmos de clasificación basados ​​en enlaces para páginas web incluyen el algoritmo HITS inventado por Jon Kleinberg (utilizado por Teoma y ahora Ask.com ), el proyecto IBM CLEVER , el algoritmo TrustRank y el algoritmo Hummingbird . [7]

Historia

El problema de los valores propios fue sugerido en 1976 por Gabriel Pinski y Francis Narin, quienes trabajaron en la clasificación de las revistas científicas de cienciometría , [8] en 1977 por Thomas Saaty en su concepto de Proceso de Jerarquía Analítica que ponderaba las opciones alternativas, [9] y en 1995 por Bradley Love y Steven Sloman como modelo cognitivo de conceptos, el algoritmo de centralidad. [10] [11]

Un motor de búsqueda llamado " RankDex " de IDD Information Services, diseñado por Robin Li en 1996, desarrolló una estrategia para calificar sitios y clasificar páginas. [12] Li se refirió a su mecanismo de búsqueda como "análisis de enlaces", que implicaba clasificar la popularidad de un sitio web en función de cuántos otros sitios se habían vinculado a él. [13] RankDex, el primer motor de búsqueda con algoritmos de clasificación de páginas y puntuación de sitios, se lanzó en 1996. [14] Li patentó la tecnología en RankDex, con su patente presentada en 1997 y concedida en 1999. [15] Más tarde lo usó cuando fundó Baidu en China en 2000. [16] [17] El fundador de Google, Larry Pagehizo referencia al trabajo de Li como una cita en algunas de sus patentes estadounidenses para PageRank. [18] [14] [19]

Larry Page y Sergey Brin desarrollaron PageRank en la Universidad de Stanford en 1996 como parte de un proyecto de investigación sobre un nuevo tipo de motor de búsqueda. Una entrevista con Héctor García-Molina : profesor de Ciencias de la Computación de Stanford y asesor de Sergey [20] proporciona antecedentes sobre el desarrollo del algoritmo de rango de página. [21] Sergey Brin tenía la idea de que la información en la web podría ordenarse en una jerarquía por "popularidad de enlaces": una página ocupa un lugar más alto a medida que hay más enlaces a ella. [22] El sistema fue desarrollado con la ayuda de Scott Hassan y Alan Steremberg, quienes fueron citados por Page y Brin como críticos para el desarrollo de Google. [5] Rajeev Motwani y Terry Winograd fueron coautores con Page y Brin del primer artículo sobre el proyecto, que describe PageRank y el prototipo inicial del motor de búsqueda de Google , publicado en 1998. [5] Poco después, Page y Brin fundaron Google Inc. , el empresa detrás del motor de búsqueda de Google. Si bien es solo uno de los muchos factores que determinan la clasificación de los resultados de búsqueda de Google, PageRank continúa proporcionando la base para todas las herramientas de búsqueda web de Google. [23]

El nombre "PageRank" juega en el nombre del desarrollador Larry Page, así como en el concepto de una página web . [24] [25] La palabra es una marca comercial de Google y el proceso de PageRank ha sido patentado ( patente de EE . UU . 6.285.999 ). Sin embargo, la patente está asignada a la Universidad de Stanford y no a Google. Google tiene derechos de licencia exclusivos sobre la patente de la Universidad de Stanford. La universidad recibió 1,8 millones de acciones de Google a cambio del uso de la patente; vendió las acciones en 2005 por $ 336 millones. [26] [27]

PageRank fue influenciado por el análisis de citas , desarrollado por Eugene Garfield en la década de 1950 en la Universidad de Pensilvania, y por Hyper Search , desarrollado por Massimo Marchiori en la Universidad de Padua . En el mismo año en que se introdujo PageRank (1998), Jon Kleinberg publicó su trabajo en HITS . Los fundadores de Google citan a Garfield, Marchiori y Kleinberg en sus artículos originales. [5] [28]

Algoritmo

El algoritmo PageRank genera una distribución de probabilidad que se utiliza para representar la probabilidad de que una persona que haga clic aleatoriamente en los enlaces llegue a una página en particular. PageRank se puede calcular para colecciones de documentos de cualquier tamaño. En varios artículos de investigación se asume que la distribución se divide uniformemente entre todos los documentos de la colección al comienzo del proceso computacional. Los cálculos de PageRank requieren varias pasadas, llamadas "iteraciones", a través de la colección para ajustar los valores de PageRank aproximados para reflejar más de cerca el valor real teórico.

Una probabilidad se expresa como un valor numérico entre 0 y 1. Una probabilidad de 0.5 se expresa comúnmente como una "probabilidad del 50%" de que algo suceda. Por lo tanto, un documento con un PageRank de 0.5 significa que hay un 50% de probabilidad de que una persona que haga clic en un enlace aleatorio sea dirigida a dicho documento.

Algoritmo simplificado

Supongamos que un pequeño universo de cuatro páginas web: A , B , C , y D . Los enlaces de una página a sí misma se ignoran. Varios enlaces salientes de una página a otra se tratan como un solo enlace. PageRank se inicializa con el mismo valor para todas las páginas. En la forma original de PageRank, la suma de PageRank en todas las páginas era el número total de páginas en la web en ese momento, por lo que cada página en este ejemplo tendría un valor inicial de 1. Sin embargo, las versiones posteriores de PageRank y el En el resto de esta sección, suponga una distribución de probabilidad entre 0 y 1. Por tanto, el valor inicial para cada página en este ejemplo es 0,25.

El PageRank transferido desde una página determinada a los destinos de sus enlaces salientes en la siguiente iteración se divide por igual entre todos los enlaces salientes.

Si los únicos enlaces del sistema fueran de las páginas B , C y D a A , cada enlace transferiría 0,25 PageRank a A en la siguiente iteración, para un total de 0,75.

Supongamos, en cambio, que la página B tiene un enlace a las páginas C y A , la página C tiene un enlace a la página A y la página D tiene enlaces a las tres páginas. Por lo tanto, en la primera iteración, página B transferiría la mitad de su valor existente, o 0.125, a la página A y la otra mitad, o 0.125, a la página C . Página C transferiría la totalidad de su valor existente, 0,25, a la única página que conecta, A . Dado que D tenía tres enlaces salientes, transferiría un tercio de su valor existente, o aproximadamente 0.083, a A. Al finalizar esta iteración, la página A tendrá un PageRank de aproximadamente 0,458.

En otras palabras, el PageRank conferido por un enlace saliente es igual a la propia puntuación del PageRank del documento dividida por el número de enlaces salientes L () .

En el caso general, el valor de PageRank para cualquier página u se puede expresar como:

,

es decir, el valor de PageRank para una página u depende de los valores de PageRank para cada página v contenida en el conjunto B u (el conjunto que contiene todas las páginas que enlazan con la página u ), dividido por el número L ( v ) de enlaces de la página v .

Factor de amortiguamiento

La teoría de PageRank sostiene que un internauta imaginario que hace clic aleatoriamente en enlaces dejará de hacer clic. La probabilidad, en cualquier paso, de que la persona continúe es un factor de amortiguación d . Varios estudios han probado diferentes factores de amortiguación, pero generalmente se supone que el factor de amortiguación se establecerá alrededor de 0,85. [5]

El factor de amortiguación se resta de 1 (y en algunas variaciones del algoritmo, el resultado se divide por el número de documentos ( N ) en la colección) y este término se suma al producto del factor de amortiguación y la suma de los puntuaciones de PageRank entrantes. Es decir,

Por lo tanto, el PageRank de cualquier página se deriva en gran parte de los PageRanks de otras páginas. El factor de amortiguación ajusta el valor derivado hacia abajo. Sin embargo, el artículo original daba la siguiente fórmula, lo que ha provocado cierta confusión:

La diferencia entre ellos es que los valores de PageRank en la primera fórmula de la suma a uno, mientras que en la segunda fórmula cada PageRank se multiplica por N y la suma se convierte en N . Una declaración en el artículo de Page y Brin de que "la suma de todos los PageRanks es uno" [5] y las afirmaciones de otros empleados de Google [29] respaldan la primera variante de la fórmula anterior.

Page y Brin confundieron las dos fórmulas en su artículo más popular "La anatomía de un motor de búsqueda web hipertextual a gran escala", donde afirmaron erróneamente que la última fórmula formaba una distribución de probabilidad en las páginas web. [5]

Google recalcula las puntuaciones de PageRank cada vez que rastrea la Web y reconstruye su índice. A medida que Google aumenta la cantidad de documentos en su colección, la aproximación inicial de PageRank disminuye para todos los documentos.

La fórmula utiliza un modelo de un internauta aleatorio que llega a su sitio objetivo después de varios clics y luego cambia a una página aleatoria. El valor de PageRank de una página refleja la posibilidad de que un usuario aleatorio llegue a esa página haciendo clic en un enlace. Puede entenderse como una cadena de Markov en la que los estados son páginas y las transiciones son los enlaces entre páginas, todos los cuales son igualmente probables.

Si una página no tiene enlaces a otras páginas, se convierte en un sumidero y, por lo tanto, finaliza el proceso de navegación aleatoria. Si el usuario aleatorio llega a una página de destino, elige otra URL al azar y continúa navegando de nuevo.

Al calcular el PageRank, se supone que las páginas sin enlaces salientes enlazan con todas las demás páginas de la colección. Por lo tanto, sus puntuaciones de PageRank se dividen uniformemente entre todas las demás páginas. En otras palabras, para ser justos con las páginas que no son sumideros, estas transiciones aleatorias se agregan a todos los nodos de la Web. Esta probabilidad residual, d , generalmente se establece en 0.85, estimada a partir de la frecuencia con la que un internauta promedio usa la función de marcador de su navegador. Entonces, la ecuación es la siguiente:

dónde están las páginas en consideración, es el conjunto de páginas que enlazan , es el número de enlaces salientes en la página y es el número total de páginas.

Los valores de PageRank son las entradas del autovector derecho dominante de la matriz de adyacencia modificada reescalada para que cada columna sume una. Esto hace que PageRank sea una métrica particularmente elegante: el vector propio es

donde R es la solución de la ecuación

donde la función de adyacencia es la relación entre el número de enlaces salientes de la página j a la página i al número total de enlaces salientes de la página j. La función de adyacencia es 0 si la página no se vincula a , y se normaliza de tal manera que, para cada j

,

es decir, los elementos de cada columna suman 1, por lo que la matriz es una matriz estocástica (para obtener más detalles, consulte la sección de cálculo a continuación). Por lo tanto, esta es una variante de la medida de centralidad del vector propio que se usa comúnmente en el análisis de redes .

Debido a la gran brecha propia de la matriz de adyacencia modificada anterior, [30] los valores del vector propio de PageRank se pueden aproximar con un alto grado de precisión en solo unas pocas iteraciones.

Los fundadores de Google, en su artículo original, [28] informaron que el algoritmo PageRank para una red que consta de 322 millones de enlaces (dentro y fuera) converge dentro de un límite tolerable en 52 iteraciones. La convergencia en una red de la mitad del tamaño anterior tomó aproximadamente 45 iteraciones. A través de estos datos, concluyeron que el algoritmo se puede escalar muy bien y que el factor de escala para redes extremadamente grandes sería aproximadamente lineal en , donde n es el tamaño de la red.

Como resultado de la teoría de Markov , se puede demostrar que el PageRank de una página es la probabilidad de llegar a esa página después de una gran cantidad de clics. Esto pasa a ser igual , donde es la expectativa de que el número de clics (o saltos al azar) requerido para llegar desde la parte de atrás página a sí mismo.

Una de las principales desventajas de PageRank es que favorece las páginas más antiguas. Una página nueva, incluso una muy buena, no tendrá muchos enlaces a menos que sea parte de un sitio existente (un sitio es un conjunto de páginas densamente conectadas, como Wikipedia ).

Se han propuesto varias estrategias para acelerar el cálculo de PageRank. [31]

Se han empleado varias estrategias para manipular el PageRank en esfuerzos concertados para mejorar la clasificación de los resultados de búsqueda y monetizar los enlaces publicitarios. Estas estrategias han impactado severamente la confiabilidad del concepto de PageRank, [ cita requerida ] que pretende determinar qué documentos son realmente muy valorados por la comunidad web.

Desde diciembre de 2007, cuando comenzó a penalizar activamente a los sitios que venden enlaces de texto pagados, Google ha combatido las granjas de enlaces y otros esquemas diseñados para inflar artificialmente el PageRank. La forma en que Google identifica las granjas de enlaces y otras herramientas de manipulación de PageRank es uno de los secretos comerciales de Google .

Cálculo

PageRank se puede calcular de forma iterativa o algebraica. El método iterativo puede verse como el método de iteración de potencia [32] [33] o el método de potencia. Las operaciones matemáticas básicas realizadas son idénticas.

Iterativo

En , se supone una distribución de probabilidad inicial, generalmente

.

donde N es el número total de páginas y es la página i en el momento 0.

En cada paso de tiempo, el cálculo, como se detalla anteriormente, produce

donde d es el factor de amortiguación,

o en notación matricial

donde y es el vector de columna de longitud que contiene solo unos.

La matriz se define como

es decir,

,

donde denota la matriz de adyacencia del gráfico y es la matriz diagonal con los grados exteriores en la diagonal.

El cálculo de probabilidad se realiza para cada página en un punto de tiempo, luego se repite para el siguiente punto de tiempo. El cómputo termina cuando por algunos pequeños

,

es decir, cuando se asume la convergencia.

Método de potencia

Si la matriz es una probabilidad de transición, es decir, columna estocástica y es una distribución de probabilidad (es decir , donde es la matriz de todos unos), entonces la ecuación ( 2 ) es equivalente a

Por tanto, PageRank es el vector propio principal de . Una forma rápida y fácil de calcular esto es usando el método de potencia : comenzando con un vector arbitrario , el operador se aplica en sucesión, es decir,

,

hasta

.

Tenga en cuenta que en la ecuación ( 3 ) la matriz del lado derecho entre paréntesis se puede interpretar como

,

donde es una distribución de probabilidad inicial. n el caso actual

.

Finalmente, si tiene columnas con solo valores cero, deben reemplazarse con el vector de probabilidad inicial . En otras palabras,

,

donde la matriz se define como

,

con

En este caso, los dos cálculos anteriores que utilizan solo dan el mismo PageRank si sus resultados están normalizados:

.

Implementación

Scala / Apache Spark

Un ejemplo típico es el uso de la programación funcional de Scala con Apache Spark RDD para calcular de forma iterativa los rangos de página.[34] [35]

object  SparkPageRank  {  def  main ( args :  Array [ String ])  {  val  spark  =  SparkSession  . constructor  . appName ( "SparkPageRank" )  . getOrCreate () val  iters  =  if  ( args . length  >  1 )  args ( 1 ). toInt  else  10  val  lines  =  chispa . leer . archivo de texto ( args ( 0 )). rdd  val  links  =  líneas . mapa {  s  =>  val  partes  =  s . split ( "\\ s +" )  ( partes ( 0 ), partes ( 1 ))  }. distinto (). groupByKey (). caché () var  ranks  =  links . mapValues ( v  =>  1.0 ) para  ( i  <-  1  a  iters )  {  val  contribs  =  links . unirse ( filas ). valores . flatMap {  case  ( urls ,  rank )  =>  val  size  =  urls . URL de tamaño  . mapa ( url => ( url , rango / tamaño )) } ranks = contribs . reduceByKey         ( _  +  _ ). mapValues ( 0.15  +  0.85  *  _ )  } val  salida  =  rangos . recoger ()  salida . foreach ( tup  =>  println ( tup . _1  +  "tiene rango:"  +  tup . _2  +  "." )) chispa . detener ()  } }

MATLAB / Octava

% Matriz de adyacencia del parámetro M donde M_i, j representa el enlace de 'j' a 'i', tal que para todo 'j'% suma (i, M_i, j) = 1% Parámetro d factor de amortiguación% Error cuadrático del parámetro v_quadratic_error para v% De retorno v, un vector de rangos tal que v_i es el i-ésimo rango de [0, 1]función  [v] = rango2 ( M, d, v_quadratic_error )  N = tamaño ( M , 2 ); % N es igual a cualquier dimensión de M y al número de documentos    v = rand ( N , 1 );   v = v ./ norma ( v , 1 ); % Esto es ahora L1, no L2      last_v = unos ( N , 1 ) * inf ;     M_hat = ( re . * M ) + ((( 1 - re ) / N ) . * Unidades ( N , N ));             while ( norma ( v - last_v , 2 ) > v_quadratic_error )      last_v = v ;  v = M_hat * v ;     % eliminó la norma L2 del PR iteradofinfunción% final 

Ejemplo de código que llama a la función de rango definida anteriormente:

M = [ 0 0 0 0 1 ; 0,5 0 0 0 0 ; 0,5 0 0 0 0 ; 0 1 0,5 0 0 ; 0 0 0,5 1 0] ;                              rango2 ( M , 0,80 , 0,001 )  

Pitón

"" "Algoritmo de PageRank con número explícito de iteraciones.Devuelve ------- clasificación de nodos (páginas) en la matriz de adyacencia"" "importar  numpy  como  npdef  pagerank ( M ,  num_iterations :  int  =  100 ,  d :  float  =  0.85 ):  "" "PageRank: El algoritmo del billón de dólares. Parámetros  ----------  M: matriz de  adyacencia de matriz numérica donde M_i, j representa el enlace de 'j' a 'i', de modo que para todo 'j'  sum (i, M_i, j) = 1  num_iterations: int,  número opcional de iteraciones, por defecto 100  d: float,  factor de amortiguación opcional , por defecto 0.85 Devuelve  -------  matriz numpy  un vector de rangos tal que v_i es el i-ésimo rango de [0, 1],  v sumas a 1 """  N  =  M . Forma [ 1 ]  v  =  np . Aleatorio . Rand ( N ,  1 )  v  =  v  /  np . Linalg . Norma ( v ,  1 )  M_hat  =  ( d  *  M  +  ( 1  -  d )  /  N )  para  i  en el  rango ( num_iteraciones ): v  =  M_hat  @  v  return  vM  =  np . matriz ([[ 0 ,  0 ,  0 ,  0 ,  1 ],  [ 0.5 ,  0 ,  0 ,  0 ,  0 ],  [ 0.5 ,  0 ,  0 ,  0 ,  0 ],  [ 0 ,  1 ,  0.5 ,  0 ,  0 ] ,  [ 0 ,  0 ,  0.5 ,  1 ,  0]]) v  =  pagerank ( M ,  100 ,  0.85 )

Este ejemplo necesita ≈13 iteraciones para converger.

Variaciones

PageRank de un gráfico no dirigido

El PageRank de un gráfico no dirigido está estadísticamente cerca de la distribución de grados del gráfico , [36] pero generalmente no son idénticos: If es el vector de PageRank definido anteriormente y es el vector de distribución de grados

donde denota el grado del vértice , y es el conjunto de aristas del gráfico, entonces, con , [37] muestra que:

es decir, el PageRank de un gráfico no dirigido es igual al vector de distribución de grados si y solo si el gráfico es regular, es decir, cada vértice tiene el mismo grado.

Generalización de la centralidad de PageRank y autovector para clasificar objetos de dos tipos

Daugulis describió una generalización de PageRank para el caso de clasificar dos grupos de objetos que interactúan. [38] En las aplicaciones, puede ser necesario modelar sistemas que tengan objetos de dos tipos donde se define una relación ponderada en pares de objetos. Esto lleva a considerar gráficos bipartitos . Para tales gráficos se pueden definir dos matrices irreductibles positivas o no negativas relacionadas correspondientes a conjuntos de particiones de vértice. Se pueden calcular clasificaciones de objetos en ambos grupos como vectores propios correspondientes a los valores propios positivos máximos de estas matrices. Los vectores propios normalizados existen y son únicos según el teorema de Perron o Perron-Frobenius. Ejemplo: consumidores y productos. El peso de la relación es la tasa de consumo del producto.

Algoritmo distribuido para el cálculo de PageRank

Sarma y col. describen dos algoritmos distribuidos aleatorios basados ​​en recorridos para calcular el PageRank de nodos en una red. [39] Un algoritmo toma rondas con alta probabilidad en cualquier gráfico (dirigido o no dirigido), donde n es el tamaño de la red y es la probabilidad de reinicio ( que se llama factor de amortiguación) utilizada en el cálculo de PageRank. También presentan un algoritmo más rápido que realiza rondas en gráficos no dirigidos. En ambos algoritmos, cada nodo procesa y envía una cantidad de bits por ronda que son polilogarítmicos en n, el tamaño de la red.

Barra de herramientas de Google

La barra de herramientas de Google tenía durante mucho tiempo una función de PageRank que mostraba el PageRank de una página visitada como un número entero entre 0 (menos popular) y 10 (más popular). Google no había revelado el método específico para determinar el valor de PageRank de la barra Google, que debía considerarse solo una indicación aproximada del valor de un sitio web. El "Pagerank de la barra Google" estaba disponible para los mantenedores de sitios verificados a través de la interfaz de Herramientas para webmasters de Google. Sin embargo, el 15 de octubre de 2009, un empleado de Google confirmó que la empresa había eliminado PageRank de su sección Herramientas para webmasters y dijo que "hemos estado diciendo a las personas durante mucho tiempo que no deberían centrarse tanto en PageRank. Muchos sitios los propietarios parecen pensar que es la métrica más importantepara que lo rastreen, lo cual simplemente no es cierto ". [40]

El "Pagerank de la barra de herramientas" se actualizó con muy poca frecuencia. Se actualizó por última vez en noviembre de 2013. En octubre de 2014 Matt Cutts anunció que no llegaría otra actualización visible del pagerank. [41] En marzo de 2016, Google anunció que dejaría de ser compatible con esta función y que la API subyacente dejaría de funcionar pronto. [42] El 15 de abril de 2016, Google desactivó oficialmente la visualización de PageRank Data en la barra Google. [43] Google seguirá utilizando la puntuación de PageRank al determinar cómo clasificar el contenido en los resultados de búsqueda. [44]

Rango SERP

La página de resultados del motor de búsqueda (SERP) es el resultado real devuelto por un motor de búsqueda en respuesta a una consulta de palabra clave. El SERP consiste en una lista de enlaces a páginas web con fragmentos de texto asociados. El rango SERP de una página web se refiere a la ubicación del enlace correspondiente en el SERP, donde una ubicación más alta significa un rango SERP más alto. El rango SERP de una página web es una función no solo de su PageRank, sino de un conjunto de factores relativamente grande y continuamente ajustado (más de 200). [45] La optimización de motores de búsqueda (SEO) tiene como objetivo influir en el rango SERP para un sitio web o un conjunto de páginas web.

El posicionamiento de una página web en las SERP de Google para una palabra clave depende de la relevancia y la reputación, también conocidas como autoridad y popularidad. PageRank es la indicación de Google de su evaluación de la reputación de una página web: no es específica de una palabra clave. Google utiliza una combinación de autoridad de página web y sitio web para determinar la autoridad general de una página web que compite por una palabra clave. [46] El PageRank de la página de inicio de un sitio web es la mejor indicación que ofrece Google para la autoridad del sitio web. [47]

Después de la introducción de Google Places en el SERP orgánico convencional, muchos otros factores, además del PageRank, afectan la clasificación de una empresa en los resultados de negocios locales. [48] Cuando Google elaboró ​​los motivos de la desaprobación de PageRank en la sesión de preguntas y respuestas de marzo de 2016, anunciaron los enlaces y el contenido como los principales factores de clasificación. RankBrain había sido anunciado a principios de octubre de 2015 como el factor de clasificación número 3, por lo que Google confirmó oficialmente los 3 factores principales. [49]

PageRank del directorio de Google

El PageRank de Google Directory era una medida de 8 unidades. A diferencia de la barra de herramientas de Google, que muestra un valor numérico de PageRank al pasar el mouse sobre la barra verde, el directorio de Google solo muestra la barra, nunca los valores numéricos. Google Directory se cerró el 20 de julio de 2011. [50]

PageRank falso o falsificado

En el pasado, el PageRank que se muestra en la barra de herramientas se manipulaba fácilmente. La redirección de una página a otra, ya sea mediante una respuesta HTTP 302 o una metaetiqueta "Actualizar" , hizo que la página de origen adquiriera el PageRank de la página de destino. Por lo tanto, una nueva página con PR 0 y ningún enlace entrante podría haber adquirido PR 10 al redirigir a la página de inicio de Google. Esta técnica de suplantación de identidad era una vulnerabilidad conocida. Generalmente, la suplantación de identidad se puede detectar realizando una búsqueda en Google de una URL de origen; Si la URL de un sitio completamente diferente se muestra en los resultados, la última URL puede representar el destino de una redirección.

Manipulación de PageRank

Para fines de optimización de motores de búsqueda , algunas empresas ofrecen vender enlaces de PageRank altos a los webmasters. [51] Dado que se cree que los enlaces de páginas de relaciones públicas más altas son más valiosos, tienden a ser más costosos. Puede ser una estrategia de marketing eficaz y viable comprar anuncios de enlaces en páginas de contenido de calidad y sitios relevantes para generar tráfico y aumentar la popularidad del enlace de un webmaster. Sin embargo, Google ha advertido públicamente a los webmasters que si están vendiendo o se descubre que están vendiendo enlaces con el fin de conferir PageRank y reputación, sus enlaces serán devaluados (ignorados en el cálculo de los PageRanks de otras páginas). La práctica de comprar y vender [52] es objeto de un intenso debate en la comunidad de webmasters. Google aconseja a los webmasters que utilicen la Valor de atributo HTML nofollow en enlaces patrocinados. Según Matt Cutts , Google está preocupado por los webmasters que intentan engañar al sistema y, por lo tanto, reducen la calidad y relevancia de los resultados de búsqueda de Google. [51] A pesar de que el PageRank se ha vuelto menos importante para fines de SEO, la existencia de vínculos de retroceso de sitios web más populares continúa impulsando una página web hacia arriba en los rankings de búsqueda. [53]

Modelo de surfista dirigido

Un internauta más inteligente que probablemente salta de una página a otra según el contenido de las páginas y los términos de consulta que busca el internauta. Este modelo se basa en una puntuación de PageRank dependiente de la consulta de una página que, como sugiere el nombre, también es una función de la consulta. Cuando se le da una consulta de múltiples términos , el internauta selecciona un de acuerdo con alguna distribución de probabilidad , y usa ese término para guiar su comportamiento para una gran cantidad de pasos. Luego selecciona otro término de acuerdo con la distribución para determinar su comportamiento, y así sucesivamente. La distribución resultante entre las páginas web visitadas es QD-PageRank. [54]

Componentes sociales

Katja Mayer ve a PageRank como una red social, ya que conecta diferentes puntos de vista y pensamientos en un solo lugar. [55] La gente va a PageRank en busca de información y recibe muchas citas de otros autores que también tienen una opinión sobre el tema. Esto crea un aspecto social donde todo se puede discutir y recopilar para provocar el pensamiento. Existe una relación social que existe entre PageRank y las personas que lo utilizan, ya que se adapta y cambia constantemente a los cambios en la sociedad moderna. Ver la relación entre el PageRank y el individuo a través de la sociometría permite una mirada en profundidad a la conexión que resulta.

[56] Matteo Pasquinelli reconoce que la base de la creencia de que el PageRank tiene un componente social radica en la idea de economía de la atención.. Con la economía de la atención, se valora los productos que reciben una mayor cantidad de atención humana y los resultados en la parte superior del PageRank obtienen una mayor atención que los de las páginas siguientes. Por lo tanto, los resultados con el PageRank más alto entrarán en la conciencia humana en mayor medida. Estas ideas pueden influir en la toma de decisiones y las acciones del espectador tienen una relación directa con el PageRank. Poseen un mayor potencial para atraer la atención de un usuario, ya que su ubicación aumenta la economía de atención adjunta al sitio. Con esta ubicación, pueden recibir más tráfico y su mercado en línea tendrá más compras. El PageRank de estos sitios permite que se confíe en ellos y pueden aprovechar esta confianza para aumentar el negocio.

Otros usos

Las matemáticas de PageRank son completamente generales y se aplican a cualquier gráfico o red en cualquier dominio. Por lo tanto, PageRank ahora se usa regularmente en bibliometría, análisis de redes sociales y de información, y para la predicción y recomendación de enlaces. Incluso se utiliza para el análisis de sistemas de redes de carreteras, así como para biología, química, neurociencia y física. [57]

Investigación científica y academia

PageRank se ha utilizado recientemente para cuantificar el impacto científico de los investigadores. Las redes de citación y colaboración subyacentes se utilizan junto con el algoritmo de pagerank con el fin de crear un sistema de clasificación para publicaciones individuales que se propaga a autores individuales. Se ha demostrado que el nuevo índice conocido como pagerank-index (Pi) es más justo en comparación con el índice h en el contexto de muchos inconvenientes que presenta el índice h. [58]

Para el análisis de redes de proteínas en biología, PageRank también es una herramienta útil. [59] [60]

En cualquier ecosistema, se puede utilizar una versión modificada de PageRank para determinar las especies que son esenciales para la salud continua del medio ambiente. [61]

Un nuevo uso similar de PageRank es clasificar los programas académicos de doctorado en función de sus registros de colocación de sus graduados en puestos de profesores. En términos de PageRank, los departamentos académicos se vinculan entre sí contratando a sus profesores entre sí (y entre ellos mismos). [62]

Recientemente se propuso una versión de PageRank como reemplazo del factor de impacto tradicional del Instituto de Información Científica (ISI) , [63] y se implementó tanto en Eigenfactor como en SCImago . En lugar de simplemente contar el total de citas de una revista, la "importancia" de cada cita se determina según el PageRank.

En neurociencia , se ha encontrado que el PageRank de una neurona en una red neuronal se correlaciona con su tasa de activación relativa. [64]

Uso de internet

Twitter utiliza el PageRank personalizado para presentar a los usuarios otras cuentas que deseen seguir. [sesenta y cinco]

El producto de búsqueda de sitios de Swiftype crea un "PageRank que es específico para sitios web individuales" al observar las señales de importancia de cada sitio web y priorizar el contenido en función de factores como el número de enlaces desde la página de inicio. [66]

Un rastreador web puede utilizar PageRank como una de las métricas de importancia que utiliza para determinar qué URL visitar durante un rastreo de la web. Uno de los primeros documentos de trabajo [67] que se utilizaron en la creación de Google es Rastreo eficiente mediante el ordenamiento de URL , [68] que analiza el uso de diversas métricas de importancia para determinar la profundidad y la extensión de un sitio en Google. se arrastrará. PageRank se presenta como una de estas métricas de importancia, aunque se enumeran otras, como el número de enlaces entrantes y salientes de una URL y la distancia desde el directorio raíz de un sitio a la URL.

El PageRank también se puede utilizar como una metodología para medir el impacto aparente de una comunidad como la Blogosfera en la Web en general. Por lo tanto, este enfoque utiliza el PageRank para medir la distribución de la atención en el reflejo del paradigma de red sin escala . [ cita requerida ]

Otras aplicaciones

En 2005, en un estudio piloto en Pakistán, Structural Deep Democracy, SD2 [69] [70] se utilizó para la selección de liderazgo en un grupo de agricultura sostenible llamado Contact Youth. SD2 utiliza PageRank para el procesamiento de los votos transitivos por poder, con las limitaciones adicionales de exigir al menos dos poderes iniciales por votante, y todos los votantes son candidatos por poder. Se pueden construir variantes más complejas sobre SD2, como agregar proxies especializados y votos directos para problemas específicos, pero SD2 como el sistema paraguas subyacente, exige que siempre se utilicen proxies generalistas.

En el deporte, el algoritmo PageRank se ha utilizado para clasificar el rendimiento de: equipos de la National Football League (NFL) de EE. UU. [71] jugadores de fútbol individuales; [72] y atletas de la Liga Diamante. [73]

PageRank se ha utilizado para clasificar espacios o calles para predecir cuántas personas (peatones o vehículos) llegan a los espacios o calles individuales. [74] [75] En semántica léxica se ha utilizado para realizar la desambiguación del sentido de la palabra , [76] la similitud semántica , [77] y también para clasificar automáticamente los sintetizadores de WordNet de acuerdo con la fuerza con la que poseen una propiedad semántica determinada, como la positividad o negatividad. [78]

no seguir

A principios de 2005, Google implementó un nuevo valor, " nofollow ", [79] para el atributo rel del enlace HTML y los elementos de anclaje, de modo que los desarrolladores de sitios web y los blogueros puedan crear enlaces que Google no considerará para los propósitos de PageRank. enlaces que ya no constituyen un "voto" en el sistema PageRank. La relación nofollow se agregó en un intento de ayudar a combatir el spamdexing .

Por ejemplo, las personas podían crear previamente muchas publicaciones en foros con enlaces a su sitio web para inflar artificialmente su PageRank. Con el valor nofollow, los administradores del tablero de mensajes pueden modificar su código para insertar automáticamente "rel = 'nofollow'" en todos los hipervínculos en las publicaciones, evitando así que PageRank se vea afectado por esas publicaciones en particular. Sin embargo, este método de evasión también tiene varios inconvenientes, como la reducción del valor del enlace de los comentarios legítimos. (Ver: Spam en blogs # nofollow )

En un esfuerzo por controlar manualmente el flujo de PageRank entre páginas dentro de un sitio web, muchos webmasters practican lo que se conoce como PageRank Sculpting [80], que es el acto de colocar estratégicamente el atributo nofollow en ciertos enlaces internos de un sitio web para canalizar PageRank hacia aquellas páginas que el webmaster consideró más importantes. Esta táctica se ha utilizado desde el inicio del atributo nofollow, pero puede que ya no sea eficaz desde que Google anunció que bloquear la transferencia de PageRank con nofollow no redirige ese PageRank a otros enlaces. [81]

Ver también

  • Atención desigualdad
  • CheiRank
  • Autoridad de dominio
  • EigenTrust : un algoritmo de PageRank descentralizado
  • Bomba de Google
  • Google Hummingbird
  • Matriz de Google
  • Google Panda
  • Google Penguin
  • Búsqueda de Google
  • Algoritmo Hilltop
  • Centralidad de Katz : un esquema de 1953 estrechamente relacionado con el pagerank
  • Construcción de enlaces
  • Optimización de motores de búsqueda
  • SimRank : una medida de similitud de objeto a objeto basada en un modelo de navegación aleatoria
  • TrustRank
  • VisualRank : la aplicación de PageRank de Google para la búsqueda de imágenes
  • Webgraph

Referencias

Citas

  1. ^ "Hechos sobre Google y la competencia" . Archivado desde el original el 4 de noviembre de 2011 . Consultado el 12 de julio de 2014 .
  2. Sullivan, Danny (26 de abril de 2007). "¿Qué es el PageRank de Google? Una guía para buscadores y webmasters" . Search Engine Land . Archivado desde el original el 3 de julio de 2016.
  3. ^ Cutts, Matt. "Los algoritmos clasifican los resultados relevantes más altos" . Archivado desde el original el 2 de julio de 2013 . Consultado el 19 de octubre de 2015 .
  4. ^ "US7058628B1 - Método para la clasificación de nodos en una base de datos vinculada - Patentes de Google" . Patentes de Google . Archivado desde el original el 16 de enero de 2020 . Consultado el 14 de septiembre de 2019 .
  5. ^ a b c d e f g Brin, S .; Page, L. (1998). "La anatomía de un motor de búsqueda web hipertextual a gran escala" (PDF) . Redes informáticas y sistemas ISDN . 30 (1–7): 107–117. CiteSeerX 10.1.1.115.5930 . doi : 10.1016 / S0169-7552 (98) 00110-X . ISSN 0169-7552 . Archivado (PDF) desde el original el 27 de septiembre de 2015.   
  6. ^ Gyöngyi, Zoltán; Berkhin, Pavel; García-Molina, Héctor; Pedersen, Jan (2006), "Detección de spam de enlaces basada en estimaciones masivas", Actas de la 32ª Conferencia Internacional sobre Bases de Datos Muy Grandes (VLDB '06, Seúl, Corea) (PDF) , págs. 439–450, archivado (PDF ) del original el 03/12/2014 .
  7. ^ "Preguntas frecuentes: todo sobre el nuevo algoritmo" Hummingbird "de Google" . Search Engine Land . 26 de septiembre de 2013. Archivado desde el original el 23 de diciembre de 2018 . Consultado el 18 de diciembre de 2018 .
  8. ^ Gabriel Pinski y Francis Narin (1976). "Influencia de citas para agregados de revistas de publicaciones científicas: teoría, con aplicación a la literatura de la física". Tratamiento y gestión de la información . 12 (5): 297–312. doi : 10.1016 / 0306-4573 (76) 90048-0 .
  9. ^ Thomas Saaty (1977). "Un método de escalado de prioridades en estructuras jerárquicas". Revista de Psicología Matemática . 15 (3): 234-281. doi : 10.1016 / 0022-2496 (77) 90033-5 . hdl : 10338.dmlcz / 101787 .
  10. ^ Bradley C. Love y Steven A. Sloman. "La mutabilidad y los determinantes de la transformabilidad conceptual" (PDF) . Actas de la decimoséptima conferencia anual de la Cognitive Science Society . págs. 654–659. Archivado (PDF) desde el original el 23 de diciembre de 2017 . Consultado el 23 de diciembre de 2017 .
  11. ^ "Cómo un estudiante de CogSci inventó el PageRank tres años antes que Google" . bradlove.org. Archivado desde el original el 11 de diciembre de 2017 . Consultado el 23 de diciembre de 2017 .
  12. ^ Li, Yanhong (6 de agosto de 2002). "Hacia un buscador cualitativo". Computación por Internet IEEE . 2 (4): 24-29. doi : 10.1109 / 4236.707687 .
  13. ^ "El ascenso de Baidu (que es chino para Google)" . The New York Times . 17 de septiembre de 2006. Archivado desde el original el 27 de junio de 2019 . Consultado el 16 de junio de 2019 .
  14. ^ a b "Acerca de: RankDex" Archivado el 25 de mayo de 2015 en la Wayback Machine , RankDex ; consultado el 3 de mayo de 2014.
  15. ^ USPTO, "Sistema y método de recuperación de documentos de hipertexto" Archivado 2011-12-05 en Wayback Machine , número de patente estadounidense: 5920859, Inventor: Yanhong Li, fecha de presentación: 5 de febrero de 1997, fecha de emisión: 6 de julio de 1999
  16. ^ Greenberg, Andy, "The Man Who's Beating Google" Archivado el 8 demarzo de 2013en la Wayback Machine ,revista Forbes , 05 de octubre de 2009
  17. ^ "Acerca de: RankDex" Archivado el 2 de febrero de 2012 en WebCite , rankdex.com
  18. ^ "Método para la clasificación de nodos en una base de datos vinculada" . Patentes de Google. Archivado desde el original el 15 de octubre de 2015 . Consultado el 19 de octubre de 2015 .
  19. ^ Altucher, James (18 de marzo de 2011). "10 cosas inusuales sobre Google" . Forbes . Archivado desde el original el 16 de junio de 2019 . Consultado el 16 de junio de 2019 .
  20. ^ Greg Wientjes. "Héctor García-Molina: profesor de informática de Stanford y asesor de Sergey" . pp. minutos 25.45-32.50, 34.00-38.20 . Consultado el 6 de diciembre de 2019 .
  21. ^ Page, Larry, "PageRank: Traer orden a la Web" . Archivado desde el original el 6 de mayo de 2002 . Consultado el 11 de septiembre de 2016 ., Proyecto de la Biblioteca Digital de Stanford, charla. 18 de agosto de 1997 (archivado en 2002)
  22. ^ Estudio de 187 páginas de la Universidad de Graz, Austria Archivado el 16 de enero de 2014 en Wayback Machine , incluye la nota de que también se utilizan cerebros humanos para determinar el rango de página en Google.
  23. ^ "Nuestros productos y servicios" . Archivado desde el original el 23 de junio de 2008 . Consultado el 27 de mayo de 2011 .
  24. ^ David Vise y Mark Malseed (2005). La historia de Google . pags. 37 . ISBN 978-0-553-80457-7.
  25. ^ "Centro de prensa de Google: hechos divertidos" . Archivado desde el original el 15 de julio de 2001.
  26. ^ Lisa M. Krieger (1 de diciembre de 2005). "Stanford gana $ 336 millones de acciones de Google" . Noticias de San José Mercury . Archivado desde el original el 8 de abril de 2009 . Consultado el 25 de febrero de 2009 , vía citado por redOrbit.
  27. ^ Richard Brandt. "Iniciando. Cómo Google consiguió su ritmo" . Revista de Stanford. Archivado desde el original el 10 de marzo de 2009 . Consultado el 25 de febrero de 2009 .
  28. ^ a b Page, Lawrence ; Brin, Sergey ; Motwani, Rajeev ; Winograd, Terry (1999). El ranking de citas de PageRank: Poner orden en la Web (Informe). Archivado desde el original el 27 de abril de 2006., publicado como informe técnico el 29 de enero de 1998 PDF Archivado 2011-08-18 en Wayback Machine
  29. ^ Blog de Matt Cutts : Directamente de Google: Lo que necesita saber Archivado el 7 de febrero de 2010 en Wayback Machine , consulte la página 15 de sus diapositivas.
  30. ^ Taher Haveliwala y Sepandar Kamvar (marzo de 2003). "El segundo valor propio de la matriz de Google" (PDF) . Informe técnico de la Universidad de Stanford : 7056. arXiv : math / 0307056 . Código Bibliográfico : 2003math ...... 7056N . Archivado (PDF) desde el original el 17 de diciembre de 2008.
  31. ^ Gianna M. Del Corso; Antonio Gullí; Francesco Romani (2005). Cálculo rápido de PageRank a través de un sistema lineal disperso . Matemáticas de Internet . Apuntes de clases en Ciencias de la Computación. 2 . págs. 118-130. CiteSeerX 10.1.1.58.9060 . doi : 10.1007 / 978-3-540-30216-2_10 . ISBN  978-3-540-23427-2. Archivado desde el original el 9 de febrero de 2014.
  32. ^ Arasu, A. y Novak, J. y Tomkins, A. y Tomlin, J. (2002). "El cálculo del PageRank y la estructura de la web: experimentos y algoritmos". Actas de la undécima Conferencia Internacional World Wide Web, Poster Track . Brisbane, Australia. págs. 107-117. CiteSeerX 10.1.1.18.5264 . CS1 maint: varios nombres: lista de autores ( enlace )
  33. ^ Massimo Franceschet (2010). "PageRank: De pie sobre los hombros de gigantes". arXiv : 1002.2858 [ cs.IR ].
  34. ^ "Implementación de Spark Page Rank | Github" . GitHub . Archivado desde el original el 18 de agosto de 2020 . Consultado el 21 de marzo de 2020 .
  35. ^ "Comprender el algoritmo de Page Rank y la implementación de Spark | Por ejemplo" . GitHub . 10 de septiembre de 2021.
  36. ^ Nicola Perra y Santo Fortunato; Fortunato (septiembre de 2008). "Medidas de centralidad espectral en redes complejas". Phys. Rev. E . 78 (3): 36107. arXiv : 0805.3322 . Código Bibliográfico : 2008PhRvE..78c6107P . doi : 10.1103 / PhysRevE.78.036107 . PMID 18851105 . S2CID 1755112 .  
  37. ^ Vince Grolmusz (2015). "Una nota sobre el PageRank de gráficos no dirigidos". Cartas de procesamiento de información . 115 (6–8): 633–634. arXiv : 1205.1960 . doi : 10.1016 / j.ipl.2015.02.015 . S2CID 9855132 . 
  38. ^ Peteris Daugulis; Daugulis (2012). "Una nota sobre una generalización de la centralidad de vector propio para gráficos y aplicaciones bipartitas". Redes . 59 (2): 261–264. arXiv : 1610.01544 . doi : 10.1002 / net.20442 . S2CID 1436859 . 
  39. ^ Atish Das Sarma; Anisur Rahaman Molla; Gopal Pandurangan; Eli Upfal (2015). "Cálculo de PageRank distribuido rápido". Informática Teórica . 561 : 113–121. arXiv : 1208.3071 . doi : 10.1016 / j.tcs.2014.04.003 . S2CID 10284718 . 
  40. ^ Susan Moskwa. "Distribución de PageRank eliminada de WMT" . Archivado desde el original el 17 de octubre de 2009 . Consultado el 16 de octubre de 2009 .
  41. Bartleman, Wil (12 de octubre de 2014). "La actualización de Page Rank de Google no llegará" . Administrador gestionado. Archivado desde el original el 2 de abril de 2015 . Consultado el 12 de octubre de 2014 .
  42. ^ Schwartz, Barry (8 de marzo de 2016). "Google ha confirmado que está eliminando el PageRank de la barra Google" . Search Engine Land . Archivado desde el original el 10 de marzo de 2016.
  43. ^ Schwartz, Barry (18 de abril de 2016). "El PageRank de la barra Google se oscurece oficialmente" . Search Engine Land . Archivado desde el original el 21 de abril de 2016.
  44. Southern, Matt (19 de abril de 2016). "Google PageRank cierra oficialmente sus puertas al público" . Revista del motor de búsqueda . Archivado desde el original el 13 de abril de 2017.
  45. ^ Piel de pescado, Rand ; Jeff Pollard (2 de abril de 2007). "Factores de clasificación de motores de búsqueda - Versión 2" . seomoz.org. Archivado desde el original el 7 de mayo de 2009 . Consultado el 11 de mayo de 2009 .[ fuente no confiable? ]
  46. ^ Dover, D. Secretos de optimización de motores de búsqueda Indianapolis. Wiley. 2011.
  47. ^ Viniker, D. La importancia de la detección de dificultad de palabras clave para SEO . Ed. Schwartz, M. Guía digital Volumen 5. Prensa de noticias. p 160-164.
  48. ^ "Ranking de listados: Ranking - Ayuda de Google Places" . Archivado desde el original el 26 de mayo de 2012 . Consultado el 27 de mayo de 2011 .
  49. ^ Clark, Jack. "Google convirtiendo su búsqueda web lucrativa en máquinas de IA" . Bloomberg. Archivado desde el original el 25 de marzo de 2016 . Consultado el 26 de marzo de 2016 .
  50. ^ Directorio de Google # Directorio de Google
  51. ^ a b "Cómo informar enlaces pagados" . mattcutts.com/blog. 14 de abril de 2007. Archivado desde el original el 28 de mayo de 2007 . Consultado el 28 de mayo de 2007 .
  52. ^ "Esquemas de enlaces de Google" Archivado el 21 de mayo de 2020 en losenlaces de Wayback Machine
  53. ^ "Entonces ... Crees que SEO ha cambiado" . 19 de marzo de 2014. Archivado desde el original el 31 de marzo de 2014.
  54. ^ Matthew Richardson y Pedro Domingos, A. (2001). El surfista inteligente: combinación probabilística de enlace e información de contenido en PageRank (PDF) . págs. 1441–1448. Archivado (PDF) desde el original el 4 de marzo de 2016.
  55. ^ Mayer, Katja (2009). Búsqueda profunda: la política de la búsqueda más allá de Google, sobre la sociometría de los motores de búsqueda . Studien Verlag.
  56. ^ Pasquinelli, Matteo (2009). Búsqueda profunda: la política de la búsqueda más allá de Google, diagrama del capitalismo cognitivo y el rentista del intelecto común . Studien Verlag.
  57. ^ Gleich, David F. (enero de 2015). "PageRank más allá de la Web". Revisión SIAM . 57 (3): 321–363. arXiv : 1407.5107 . doi : 10.1137 / 140976649 . S2CID 8375649 . 
  58. ^ Senanayake, Upul; Piraveenan, Mahendra; Zomaya, Albert (2015). "El índice de Pagerank: ir más allá de las cuentas de citas en la cuantificación del impacto científico de los investigadores" . PLOS ONE . 10 (8): e0134794. Código bibliográfico : 2015PLoSO..1034794S . doi : 10.1371 / journal.pone.0134794 . ISSN 1932-6203 . PMC 4545754 . PMID 26288312 .   
  59. ^ G. Ivan y V. Grolmusz (2011). "Cuando la Web se encuentra con la célula: utilizando PageRank personalizado para analizar redes de interacción de proteínas" . Bioinformática . 27 (3): 405–7. doi : 10.1093 / bioinformatics / btq680 . PMID 21149343 . 
  60. ^ D. Banky y G. Ivan y V. Grolmusz (2013). "Igualdad de oportunidades para los nodos de red de bajo grado: un método basado en PageRank para la identificación de objetivos de proteínas en gráficos metabólicos" . PLOS ONE . 8 (1): 405–7. Código bibliográfico : 2013PLoSO ... 854204B . doi : 10.1371 / journal.pone.0054204 . PMC 3558500 . PMID 23382878 .  
  61. Burns, Judith (4 de septiembre de 2009). "El truco de Google rastrea las extinciones" . BBC News . Archivado desde el original el 12 de mayo de 2011 . Consultado el 27 de mayo de 2011 .
  62. ^ Benjamin M. Schmidt y Matthew M. Chingos (2007). "Ranking de los programas de doctorado por ubicación: un nuevo método" (PDF) . PD: Ciencia política y política . 40 (julio): 523–529. CiteSeerX 10.1.1.582.9402 . doi : 10.1017 / s1049096507070771 . S2CID 6012229 . Archivado (PDF) desde el original el 13 de febrero de 2015.   
  63. ^ Johan Bollen, Marko A. Rodríguez y Herbert Van de Sompel .; Rodríguez; Van De Sompel (diciembre de 2006). Estado de la revista . Cienciometría . 69 . págs. 669–687. arXiv : cs.GL/0601030 . Código Bibliográfico : 2006cs ........ 1030B . doi : 10.1145 / 1255175.1255273 . ISBN 9781595936448. S2CID  3115544 .CS1 maint: varios nombres: lista de autores ( enlace )
  64. ^ Fletcher, Jack McKay y Wennekers, Thomas (2017). "De la estructura a la actividad: uso de medidas de centralidad para predecir la actividad neuronal". Revista internacional de sistemas neuronales . 28 (2): 1750013. doi : 10.1142 / S0129065717500137 . PMID 28076982 . CS1 maint: varios nombres: lista de autores ( enlace )
  65. ^ Gupta, Pankaj; Goel, Ashish; Lin, Jimmy; Sharma, Aneesh; Wang, Dong; Zadeh, Reza (2013). "WTF: el servicio a quién seguir en Twitter" . Actas de la 22ª Conferencia Internacional sobre World Wide Web . ACM. págs. 505–514. doi : 10.1145 / 2488388.2488433 . ISBN 9781450320351. S2CID  207205045 . Consultado el 11 de diciembre de 2018 .
  66. Ja, Anthony (8 de mayo de 2012). "Swiftype respaldado por Y Combinator crea una búsqueda en el sitio que no apesta" . TechCrunch . Archivado desde el original el 6 de julio de 2014 . Consultado el 8 de julio de 2014 .
  67. ^ "Documentos de trabajo sobre la creación de Google" . Google . Archivado desde el original el 28 de noviembre de 2006 . Consultado el 29 de noviembre de 2006 .
  68. ^ Cho, J., García-Molina, H. y Page, L. (1998). "Rastreo eficiente a través del pedido de URL" . Actas de la Séptima Conferencia sobre World Wide Web . Brisbane, Australia. Archivado desde el original el 3 de junio de 2008.CS1 maint: varios nombres: lista de autores ( enlace )
  69. ^ "Grupos de Yahoo!" . Groups.yahoo.com. Archivado desde el original el 4 de octubre de 2013 . Consultado el 2 de octubre de 2013 .
  70. ^ "CiteSeerX - sistemas de información autopoyéticos en organizaciones modernas". CiteSeerX 10.1.1.148.9274 .  Citar diario requiere |journal=( ayuda )
  71. ^ Zack, Laurie; Cordero, Ron; Ball, Sarah (31 de diciembre de 2012). "Una aplicación del PageRank de Google a las clasificaciones de la NFL" . Involve, una revista de matemáticas . 5 (4): 463–471. doi : 10.2140 / involucre.2012.5.463 . ISSN 1944-4184 . 
  72. ^ Peña, Javier López; Touchette, Hugo (28 de junio de 2012). "Un análisis de la teoría de redes de las estrategias de fútbol". arXiv : 1206.6904 [ math.CO ].
  73. ^ Beggs, Clive B .; Pastor, Simon J .; Emmonds, Stacey; Jones, Ben (2 de junio de 2017). Zhou, Wei-Xing (ed.). "Una nueva aplicación de PageRank y algoritmos de preferencia del usuario para evaluar el rendimiento relativo de los atletas de pista en la competencia" . PLOS ONE . 12 (6): e0178458. Código bibliográfico : 2017PLoSO..1278458B . doi : 10.1371 / journal.pone.0178458 . ISSN 1932-6203 . PMC 5456068 . PMID 28575009 .   
  74. ^ B. Jiang (2006). "Ranking de espacios para predecir el movimiento humano en un entorno urbano". Revista Internacional de Ciencias de la Información Geográfica . 23 (7): 823–837. arXiv : física / 0612011 . Código Bibliográfico : 2006physics..12011J . doi : 10.1080 / 13658810802022822 . S2CID 26880621 . 
  75. ^ Jiang B .; Zhao S. y Yin J. (2008). "Caminos naturales autoorganizados para predecir el flujo del tráfico: un estudio de sensibilidad". Revista de Mecánica Estadística: Teoría y Experimento . P07008 (7): 008. arXiv : 0804.1630 . Código bibliográfico : 2008JSMTE..07..008J . doi : 10.1088 / 1742-5468 / 2008/07 / P07008 . S2CID 118605727 . 
  76. ^ Roberto Navigli, Mirella Lapata. "Un estudio experimental de conectividad gráfica para desambiguación de sentido de palabras sin supervisión" Archivado el 14 de diciembre de 2010 en la Wayback Machine . Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas (TPAMI), 32 (4), IEEE Press, 2010, págs. 678–692.
  77. ^ MT Pilehvar, D. Jurgens y R. Navigli. Alinear, desambiguar y caminar: un enfoque unificado para medir la similitud semántica. Archivado el 1 de octubre de 2013 en la Wayback Machine . Proc. de la 51ª Reunión Anual de la Asociación de Lingüística Computacional (ACL 2013), Sofía, Bulgaria, 4 al 9 de agosto de 2013, págs. 1341-1351.
  78. ^ Andrea Esuli y Fabrizio Sebastiani. "Synsets de PageRanking WordNet: una aplicación a las propiedades relacionadas con la opinión" (PDF) . En Actas de la 35ª Reunión de la Asociación de Lingüística Computacional, Praga, CZ, 2007, págs. 424–431 . Archivado (PDF) desde el original el 28 de junio de 2007 . Consultado el 30 de junio de 2007 .
  79. ^ "Prevención de spam en comentarios" . Google . Archivado desde el original el 12 de junio de 2005 . Consultado el 1 de enero de 2005 .
  80. ^ "Escultura de PageRank: análisis del valor y los beneficios potenciales de esculpir PR con Nofollow" . SEOmoz. Archivado desde el original el 14 de mayo de 2011 . Consultado el 27 de mayo de 2011 .
  81. ^ "Escultura de PageRank" . Mattcutts.com. 2009-06-15. Archivado desde el original el 11 de mayo de 2011 . Consultado el 27 de mayo de 2011 .

Fuentes

  • Altman, Alon; Moshe Tennenholtz (2005). "Sistemas de clasificación: los axiomas de PageRank" (PDF) . Actas de la 6ª conferencia de la ACM sobre comercio electrónico (EC-05) . Vancouver, BC . Consultado el 29 de septiembre de 2014 .
  • Cheng, Alice; Eric J. Friedman (11 de junio de 2006). "Manipulabilidad de PageRank bajo Sybil Strategies" (PDF) . Actas del primer taller sobre la economía de los sistemas en red (NetEcon06) . Ann Arbor, Michigan. Archivado (PDF) desde el original el 21 de agosto de 2010 . Consultado el 22 de enero de 2008 .
  • Farahat, Ayman; LoFaro, Thomas; Miller, Joel C .; Rae, Gregory; Ward, Lesley A. (2006). "Ranking de autoridad de HITS, PageRank y SALSA: existencia, singularidad y efecto de la inicialización". Revista SIAM de Computación Científica . 27 (4): 1181–1201. CiteSeerX  10.1.1.99.3942 . doi : 10.1137 / S1064827502412875 .
  • Haveliwala, Taher; Jeh, Glen; Kamvar, Sepandar (2003). "Una comparación analítica de enfoques para personalizar PageRank" (PDF) . Informe técnico de la Universidad de Stanford . Archivado (PDF) desde el original el 16 de diciembre de 2010 . Consultado el 13 de noviembre de 2008 .
  • Langville, Amy N .; Meyer, Carl D. (2003). "Encuesta: PageRank interior más profundo". Matemáticas de Internet . 1 (3).
  • Langville, Amy N .; Meyer, Carl D. (2006). PageRank de Google y más: la ciencia de las clasificaciones de motores de búsqueda . Prensa de la Universidad de Princeton. ISBN 978-0-691-12202-1.
  • Richardson, Matthew; Domingos, Pedro (2002). "El internauta inteligente: combinación probabilística de enlace e información de contenido en PageRank" (PDF) . Actas de avances en sistemas de procesamiento de información neuronal . 14 . Archivado (PDF) desde el original el 28 de junio de 2010 . Consultado el 18 de septiembre de 2004 .

Patentes relevantes

  • Patente de Estados Unidos de PageRank original: método para clasificar los nodos en una base de datos vinculada : número de patente 6.285.999: 4 de septiembre de 2001
  • PageRank Patente de EE. UU.: Método para calificar documentos en una base de datos vinculada : número de patente 6.799.176: 28 de septiembre de 2004
  • PageRank Patente de EE. UU.: Método para la clasificación de nodos en una base de datos vinculada : número de patente 7.058.628: 6 de junio de 2006
  • PageRank Patente de EE. UU. — Documentos de puntuación en una base de datos vinculada — Número de patente 7,269,587 — 11 de septiembre de 2007

enlaces externos

  • Algoritmos de Google
  • Nuestros productos y servicios de Google
  • Cómo Google encuentra su aguja en el pajar de la Web por la American Mathematical Society

(Google usa una escala logarítmica).

Obtenido de " https://en.wikipedia.org/w/index.php?title=PageRank&oldid=1058274873 "