Un servidor de noticias es una colección de software que se utiliza para manejar artículos de Usenet . [1] También puede referirse a una computadora en sí que se utiliza principal o exclusivamente para manejar Usenet. El acceso a Usenet solo está disponible a través del proveedor del servidor de noticias.
Los usuarios finales suelen utilizar el término "publicación" para referirse a un solo mensaje o archivo publicado en Usenet. Para artículos que contienen texto sin formato, esto es sinónimo de artículo. Para contenido binario como imágenes y archivos, a menudo es necesario dividir el contenido entre varios artículos. Por lo general, mediante el uso de encabezados de Asunto: numerados, el lector de noticias vuelve a ensamblar automáticamente las publicaciones de varios artículos en una sola unidad . La mayoría de los servidores no distinguen entre publicaciones de una y varias partes, y se ocupan únicamente de los artículos de componentes individuales. [2]
Cada artículo de noticias contiene un conjunto completo de líneas de encabezado, pero en el uso común el término "encabezados" también se usa cuando se hace referencia a la base de datos de Resumen de noticias . [2] La descripción general es una lista de los encabezados utilizados con más frecuencia e información adicional, como el tamaño de los artículos, que suele recuperar el software cliente mediante el comando NNTP XOVER . Las descripciones generales hacen que la lectura de un grupo de noticias sea más rápida tanto para el cliente como para el servidor al eliminar la necesidad de abrir cada artículo individual para presentarlos en forma de lista.
Si se requieren encabezados que no sean de descripción general, como cuando se usa un archivo de interrupción , aún puede ser necesario usar el método más lento de leer todos los encabezados de artículos completos. [1] Muchos clientes no pueden hacer esto y limitan el filtrado a lo que está disponible en los resúmenes. [2]
Entre los operadores y usuarios de servidores comerciales de noticias, las preocupaciones comunes son el aumento continuo de los requisitos de capacidad de almacenamiento y de red y sus efectos. [2] Finalización (la capacidad de un servidor para recibir con éxito todo el tráfico), retención (la cantidad de tiempo que los artículos están disponibles para los lectores) y rendimiento general del sistema. Con las crecientes demandas, es común que los roles de servidor de tránsito y lector se subdividan aún más en sistemas de numeración, almacenamiento y front-end. Estas granjas de servidores son monitoreadas continuamente tanto por personas internas como externas, y los consumidores a menudo utilizan las mediciones de estas características al elegir un servicio comercial de noticias.
La velocidad, en relación con Usenet, es la rapidez con la que un servidor puede entregar un artículo al usuario. El servidor al que se conecta el usuario suele ser parte de una granja de servidores que tiene muchos servidores dedicados a múltiples tareas. La rapidez con la que se pueden mover los datos en esta granja es lo primero que afecta la velocidad de entrega. [ cita requerida ]
La velocidad de los datos que viajan por la granja puede verse seriamente obstaculizada por las operaciones del disco duro. Recuperar el artículo y la información general puede causar un estrés masivo en los discos duros. [ cita requerida ] Para combatir esto, se han desarrollado tecnología de almacenamiento en caché y sistemas de almacenamiento de archivos cilíndricos. [ cita requerida ]
Una vez que la granja puede entregar los datos a la red, el proveedor tiene un control limitado sobre la velocidad para el usuario. Dado que la ruta de la red para cada usuario es diferente, algunos usuarios tendrán buenas rutas y los datos fluirán rápidamente. Otros usuarios tendrán enrutadores sobrecargados entre ellos y el proveedor, lo que provocará retrasos. Casi todo lo que un proveedor puede hacer en ese caso es intentar mover el tráfico por una ruta diferente. Si el ISP tiene una conectividad limitada a la red, los cambios de enrutamiento pueden tener poco efecto.
Con frecuencia, un usuario puede reducir el impacto de los problemas de red mediante el uso de múltiples conexiones. Algunos servidores permiten hasta 60 conexiones simultáneas, pero esto varía mucho según el proveedor. [3]
Los tamaños de los artículos están limitados a lo que aceptará cada servidor de noticias. Cuanto mayor sea el tamaño del artículo, más espacio ocupará y, por tanto, menos artículos en cada servidor. Esto generalmente significa que un servidor puede ejecutarse con menos gastos generales, lo que lo convierte en un servidor más eficiente, pero ofrece menos artículos para que los usuarios accedan. [ cita requerida ]
La retención se define simplemente como el tiempo que el servidor conserva los artículos. [4] Históricamente, la mayoría de los usuarios quieren que la retención sea lo suficientemente larga para no tener que acceder al servidor todos los días, pero no una retención demasiado larga que pueda abrumar a los usuarios con computadoras lentas o conexiones de red. [1] En la era moderna, las conexiones de alta velocidad, la gran capacidad de almacenamiento y las herramientas de búsqueda avanzada permiten a los usuarios utilizar una retención extensa sin inconvenientes.
La retención generalmente se cita por separado para artículos de texto y binarios, aunque también puede variar entre diferentes grupos dentro de estas categorías. Los tiempos varían mucho según la cantidad de almacenamiento disponible en los servidores y el tráfico en constante aumento. A partir de 2009, es común que los proveedores de noticias promedio tengan una retención de texto de más de 1000 días y una retención binaria de más de 200 días. [ cita requerida ] Los grandes proveedores de noticias ofrecen retención de texto hasta 2480 días y retención binaria de 850 días o más. [ cita requerida ]Es importante comprender que el tiempo de retención varía entre diferentes grupos de noticias dentro de las categorías de texto y binarias. HW Media de Omicron es actualmente el servidor Usenet con la mayor cantidad de retención binaria, mientras que Google es el servidor Usenet con la mayor cantidad de retención de texto. [ cita requerida ]
Puede resultar difícil para los usuarios finales medir con precisión la retención de un servidor. Un método común es examinar los artículos más antiguos de un grupo y examinar la fecha, pero esto no siempre es exacto. Algunos artículos de un grupo pueden conservarse durante más tiempo que otros, los artículos de servidores remotos no siempre llegan con prontitud y, en ocasiones, los encabezados de fecha son simplemente incorrectos. Se requiere una muestra de muchos o todos los artículos, preferiblemente en más de un grupo de noticias, para detectar tales anomalías.
Los servidores de noticias no tienen almacenamiento ilimitado y, debido a este hecho, solo pueden retener publicaciones durante un período de tiempo antes de que deban eliminarlas para dejar espacio para nuevas publicaciones. Este es un problema particular para los grupos de noticias binarios que transmiten grandes volúmenes de artículos.
Para los servidores de noticias proporcionados por los proveedores de servicios de Internet como parte del paquete de suscripción de un usuario, las tasas de retención típicas suelen ser de solo 2 a 4 días. [ cita requerida ] Para hacer frente al aumento del tráfico de Usenet, muchos proveedores recurren a un sistema híbrido, en el que los artículos antiguos que no se encuentran en el servidor del proveedor solicitarán el artículo de otro servidor con una retención más prolongada.
Dada la gran cantidad de artículos transferidos entre servidores y el gran tamaño de los artículos individuales, no se garantiza su propagación completa a cualquier granja de servidores. El término "finalización" se utiliza para describir qué tan bien un servicio se mantiene al día con el tráfico. [ cita requerida ]
El principal obstáculo para calcular el porcentaje de finalización es cuántos artículos se publicaron. Mirando un solo servidor, no se puede saber cuántos artículos se insertaron realmente en la red. [ cita requerida ] Es posible que los artículos nunca salgan del servidor de origen o que no encuentren el camino hacia la nube de tránsito. Los artículos muy grandes se caen con frecuencia y tienden a propagarse menos que los más pequeños. [ cita requerida ]
Una forma de medir la finalización es acceder a varios servidores y recuperar listas de artículos. Debido a que los encabezados de Message-ID: son nominalmente únicos en toda la red, la comparación de las listas es principalmente una tarea sencilla. Las limitaciones prácticas de este tipo de medición incluyen la imposibilidad de obtener listas de todos los servidores en todo el mundo, el hecho de que muchos servidores filtran el correo no deseado o emplean la pena de muerte de Usenet , y que algunos servidores enmascaran el estado incompleto al ocultar conjuntos binarios de varias partes con artículos faltantes. [ cita requerida ] También es necesario tener en cuenta los tiempos de propagación y retención; es posible que un artículo simplemente no haya llegado todavía a un servidor determinado, o que haya estado presente pero ya haya caducado. [cita requerida ]
Todos los servidores de Usenet se emparejan con uno o más servidores para intercambiar artículos. De vez en cuando, aparecen nuevos servidores. Aunque existen varios recursos web que pueden ayudar a encontrar compañeros, un mejor recurso es el grupo de noticias news.admin.peering (portal de Grupos de Google). [ cita requerida ]
A partir de 2020, las fuentes de texto generalmente se pueden obtener de forma gratuita, mientras que las fuentes binarias completas pueden ser gratuitas o de pago (según la cantidad de artículos que cada servidor envía al otro). Debido a la gran cantidad de datos en un feed de Usenet binario completo + texto (puede ser de hasta 30 terabytes al día) y los altos costos de transmitir esos datos a través de un proveedor de tránsito IP como Cogent , Telia o Zayo , la mayoría de los proveedores de Usenet lo harán solo participan en peering binario cuando están interconectados en un intercambio de Internet como AMS-IX , SIX o DeCIX .
Cuando el servidor almacena el cuerpo de un artículo, lo coloca en un área de almacenamiento en disco denominada genéricamente "spool". [2] Hay varias formas comunes de organizar el carrete:
Un servidor de lectura proporciona una interfaz para leer y publicar artículos, generalmente con la ayuda de un cliente de noticias . Un servidor de tránsito intercambia artículos con otros servidores. La mayoría de los servidores pueden proporcionar ambas funciones.
Los servidores de tránsito modernos suelen utilizar NNTP para intercambiar noticias continuamente a través de Internet y conexiones siempre activas similares. En el pasado, los servidores normalmente empleaban el protocolo UUCP , que fue diseñado para conexiones de acceso telefónico intermitentes. Otros protocolos ad hoc , incluido el correo electrónico , se ven con menos frecuencia. Los servidores de noticias normalmente se conectan con varios pares, y la redundancia ayuda a distribuir las cargas y garantiza que los artículos no se pierdan. Los sitios más pequeños, llamados nodos hoja , están conectados a otro servidor principal. [2]
Los artículos se enrutan según la información que se encuentra en las líneas de encabezado definidas en RFC 1036. [ cita requerida ] De particular interés para un servidor de tránsito son:
En la mayoría de los casos, el servidor de envío controla el proceso de transferencia de artículos. Compara los grupos de noticias y la distribución de cada artículo recién llegado con un conjunto de patrones llamados fuentes de noticias , enumerando cada servidor remoto y los grupos de noticias que su operador desea recibir. Algunos remitentes también examinan la Ruta; si el servidor receptor aparece en esta línea, no se ofrece. También se pueden agregar otras reglas locales. El remitente transmite los ID de mensaje de los artículos coincidentes al servidor receptor. El receptor indica qué ID de mensaje aún no ha almacenado localmente y esos artículos se envían. [2]
El servidor receptor examina los artículos entrantes. Un mensaje normalmente se descarta si el ID del mensaje está duplicado por un artículo ya recibido (es decir, otro servidor lo envió mientras tanto), las líneas Fecha o Caducidad indican que el artículo es demasiado antiguo, la sintaxis del encabezado parece no ser válida, falta el encabezado Aprobado para un grupo de noticias moderado, o las reglas locales adicionales no lo permiten. [ cita requerida ] La mayoría de los servidores también mantienen una lista de grupos de noticias activos. Si el encabezado de los grupos de noticias de un artículo nuevo no coincide con la lista activa, se puede descartar o colocar en un grupo de noticias especial "basura". Una vez que se almacena el artículo, el servidor intenta retransmitirlo a cualquier servidor de su propia lista de suministro de noticias. [2]
Los artículos con líneas de control reciben un tratamiento especial. Por lo general, se archivan en grupos de noticias de "control" especiales y pueden hacer que el servidor lleve a cabo automáticamente acciones excepcionales. Los comandos newgroup
y rmgroup
pueden hacer que se creen o eliminen grupos de noticias; checkgroups
se puede utilizar para conciliar la lista activa local con un conjunto comúnmente aceptado; y los cancel
comandos se utilizan para solicitar la eliminación de un artículo específico. ihave
ya sendme
veces se utilizan con UUCP para transmitir listas de ID de mensajes ofrecidos y deseados. Otros comandos ( version
, sendsys
y uuname
) son solicitudes de detalles de configuración del servidor. Una vez que se usaron para crear mapas de red, ahora son generalmente obsoletos. [2]
Un servidor lector es aquel que hace que los artículos estén disponibles en el formato de directorio de disco jerárquico originado por B News 2.10, u ofrece los comandos NNTP o IMAP , para que los utilicen los lectores de noticias. Por lo general, un servidor de lectura también funciona como servidor de tránsito, pero puede funcionar de forma independiente o servir como una interfaz alternativa a un foro de Internet . Al recibir noticias, este tipo de servidor debe realizar los pasos adicionales de archivar artículos en grupos de noticias y asignar números secuenciales dentro de cada grupo. Una XrefPor lo general, se agrega una línea que enumera todos los grupos donde aparece el mensaje y los números de secuencia. A diferencia de los ID de mensaje, los números y el orden de los artículos diferirán en cada servidor; pero los servidores relacionados pueden forzar el acuerdo operando en modo esclavo, reutilizando las líneas Xref de sus hermanos. Los servidores de lectura también suelen mantener una base de datos de Resumen de noticias (NOV) que permite a los lectores de noticias obtener rápidamente resúmenes de mensajes y presentar mensajes en forma de hilos. [2]
La mayoría de los servidores de lectura admiten la publicación, ya sea a través de NNTP o un programa especial de inews . [ cita requerida ] Cuando se publica un artículo, el proceso es muy similar al de un servidor de tránsito que recibe noticias, pero con controles adicionales. Para la publicación, el servidor normalmente completará las líneas de Ruta e ID de mensaje que faltan y verificará la sintaxis de los encabezados destinados a lectores humanos, como De y Asunto . Si el artículo se publica en un grupo moderado, el servidor intentará enviarlo por correo al moderador del grupo de noticias si el encabezado Aprobado está ausente. En este punto también se suelen aplicar controles y filtros de identidad adicionales. [2]
Los sitios más pequeños con ancho de banda de red limitado pueden operar servidores de "succión" o caché . Estos realizan la misma función de servidor de lectores que los servidores de noticias convencionales, pero ellos mismos actúan como lectores de noticias para intercambiar artículos con otros servidores de lectores. [ cita requerida ] Los servidores híbridos permiten una mayor flexibilidad para el operador del servidor en el sentido de que los grupos recibidos se pueden ajustar sin la intervención manual de los operadores. También pueden ser el único medio disponible para obtener artículos de servidores remotos que no ofrecen alimentación convencional.
Dado que los servidores híbridos suelen utilizar la función de publicación para enviar noticias, la función de publicación cambia el formato de los encabezados de los artículos y se puede perder la información de seguimiento. Además, el proceso de succión retrasado puede resultar en un exceso de actividad en los servidores de lectores remotos. Por estas razones, el uso de servidores híbridos a menudo se desaconseja o no se permite sin un acuerdo previo. [2]