El Webalizer es software de análisis de registro de la tela , que genera páginas web de análisis , desde el acceso y uso de registros. Es una de las herramientas de administración de servidores web más utilizadas. Fue iniciado por Bradford L. Barrett en 1997. Las estadísticas comúnmente reportadas por Webalizer incluyen visitas, visitas, referencias, los países de los visitantes y la cantidad de datos descargados. Estas estadísticas pueden verse gráficamente y presentarse por diferentes marcos de tiempo, como por día, hora o mes.
Autor (es) original (es) | Bradford L. Barrett |
---|---|
Versión inicial | 1997 |
Lanzamiento estable | 2.23-08 / 26 de agosto de 2013 |
Escrito en | C |
Sistema operativo | Multiplataforma |
Disponible en | Más de 30 idiomas |
Tipo | Analista de la red |
Licencia | Licencia pública general GNU |
Sitio web | www.webalizer.org |
Descripción general
El análisis del tráfico del sitio web se produce agrupando y agregando varios elementos de datos capturados por el servidor web en forma de archivos de registro mientras el visitante del sitio web está navegando por el sitio web. Webalizer analiza los archivos de registro del servidor web, extrayendo elementos como direcciones IP del cliente, rutas de URL, tiempos de procesamiento, agentes de usuario, referencias, etc. y agrupándolos para producir informes HTML.
Los servidores web registran el tráfico HTTP utilizando diferentes formatos de archivo. Los formatos de archivo comunes son el formato de registro común (CLF), el formato de registro personalizado de Apache y el formato de archivo de registro extendido. A continuación se muestra un ejemplo de una línea de registro CLF.
192.168.1.20 - - [26 / Dic / 2006: 03: 09: 16 -0500] "GET HTTP / 1.1" 200 1774
El formato de registro personalizado de Apache se puede personalizar para registrar la mayoría de los parámetros HTTP, incluido el tiempo de procesamiento de la solicitud y el tamaño de la solicitud en sí. El formato de un registro personalizado está controlado por la línea de formato. A continuación se muestra una configuración típica de formato de registro de Apache.
LogFormat "% a% l \"% u \ "% t% m \"% U \ "\"% q \ "% p%> s% b% D \"% {Referer} i \ "\"% { Usuario-Agente} i \ "" my_custom_log CustomLog logs / access_log my_custom_log
El servidor web de Internet Information Services (IIS) de Microsoft registra el tráfico HTTP en el formato de archivo de registro extendido W3C. De manera similar al formato de registro personalizado de Apache, los registros de IIS pueden configurarse para capturar parámetros extendidos como el tiempo de procesamiento de solicitudes. Los registros extendidos de W3C pueden reconocerse por la presencia de una o más líneas de formato, como la que se muestra a continuación.
# Campos: fecha hora s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs (User-Agent) cs (Referer) sc-status sc-bytes cs-bytes time -tomado
Webalizer puede procesar archivos de registro CLF, Apache y W3C Extended, así como archivos de registro de proxy HTTP producidos por servidores Squid . Otros formatos de archivo de registro generalmente se convierten a CLF para poder analizarlos. Además, los registros comprimidos con GZip (.gz) o BZip2 (.bz2) se pueden procesar directamente sin la necesidad de descomprimirlos antes de usarlos.
Línea de comando
Webalizer es una aplicación de línea de comandos y se inicia desde el indicador de shell del sistema operativo . A continuación se muestra un comando típico.
webalizer -p -F clf -n en.wikipedia.org -o informa archivos de registro / access_log
Este comando indica a The Webalizer que analice el archivo de registro access_log, lo ejecute en modo incremental (-p), interprete el registro como un archivo de registro CLF (-F), use el nombre de dominio en.wikipedia.org para los enlaces de informes (-n ) y genera el subdirectorio de salida del directorio actual. Utilice la opción -h para ver la lista completa de opciones de la línea de comandos.
Configuración
Además de las opciones de la línea de comandos, el Webalizer se puede configurar a través de los parámetros de un archivo de configuración. Por defecto, The Webalizer lee el archivo webalizer.conf e interpreta cada línea como una instrucción de procesamiento. Alternativamente, se puede proporcionar un archivo especificado por el usuario usando la opción -c.
Por ejemplo, si el webmaster desea ignorar todas las solicitudes realizadas desde un grupo particular de hosts, puede usar el parámetro IgnoreSite para descartar todos los registros de registro con la dirección IP que coincida con el patrón especificado:
IgnoreSite 192.168.0. *
Hay más de cien parámetros de configuración disponibles, lo que convierte a The Webalizer en una aplicación de análisis de tráfico web altamente configurable. Para obtener una lista completa de los parámetros de configuración, consulte el archivo README que se envía con cada fuente o distribución binaria.
Informes
De forma predeterminada, The Webalizer produce dos tipos de informes: un informe de resumen anual y un informe mensual detallado, uno para cada mes analizado.
El informe de resumen anual proporciona información como el número de visitas, solicitudes de archivos y páginas, hosts y visitas, así como promedios diarios de estos contadores para cada mes. El informe va acompañado de un gráfico de resumen anual.
Cada uno de los informes mensuales se genera como una sola página HTML que contiene un informe de resumen mensual (enumerando el número total de visitas, solicitudes de archivos y páginas, visitas, hosts, etc.), un informe diario (agrupando estos contadores para cada uno de los días del mes), un informe horario agregado (agrupando los contadores de la misma hora de cada día), un informe de URL (agrupando la información recopilada por URL), un informe de host (por dirección IP), informes de URL de entrada y salida del sitio web (que muestran URL de primera y última visita más comunes), un informe de referencia (que agrupa las URL de terceros de referencia que llevan al sitio web analizado), un informe de cadena de búsqueda (que agrupa elementos por términos de búsqueda utilizados en motores de búsqueda como Google), un informe de agente de usuario (agrupación por tipo de navegador) y un informe de país (agrupación por país de origen del anfitrión).
Cada uno de los informes HTML estándar descritos anteriormente enumera solo las entradas principales para cada elemento (por ejemplo, 20 URL principales). El número real de líneas para cada uno de los informes se controla mediante la configuración. El Webalizer también se puede configurar para producir un informe separado para cada uno de los elementos, que enumerará todos los elementos, como todos los visitantes del sitio web, todas las URL solicitadas, etc.
Además de los informes HTML, The Webalizer puede configurarse para producir archivos de volcado delimitados por comas, que enumeran todos los datos del informe en un archivo de texto sin formato. Los archivos de volcado se pueden importar a aplicaciones de hoja de cálculo o bases de datos para un análisis más detallado.
Internacionalización
Los informes HTML pueden producir informes en más de 30 idiomas, incluidos catalán, croata, checo, danés, holandés, inglés, estonio, finlandés, francés, gallego, alemán, griego, húngaro, islandés, indonesio, italiano, japonés, coreano, letón, Malayo, noruego, polaco, portugués, portugués (Brasil), rumano, ruso, serbio, chino simplificado, eslovaco, esloveno, español, sueco, turco, ucraniano.
Para generar informes en un idioma alternativo se requiere un binario webalizer separado compilado específicamente para ese idioma.
Crítica
- Las estadísticas generadas no distinguen entre visitantes humanos y robots. Como resultado, todas las métricas informadas son más altas que las debidas solo a las personas. Muchos webmasters afirman que webalizer produce cifras de visitas muy poco realistas, que a veces son entre un 200% y un 900% más altas que los datos producidos por las estadísticas web basadas en Javascript, como Google Analytics o StatCounter .
- Los hits notificados son demasiado altos para los administradores de descargas con descargas segmentadas; cada 206 "Contenido parcial" se informa como un acierto.
- Sin análisis de cadenas de consulta. Los sitios web generados dinámicamente no se pueden enumerar por separado (por ejemplo, páginas PHP con argumentos).
Ver también
enlaces externos
- Sitio web oficial [ enlace muerto ]