Botón de apagado de emergencia del bot
Administradores : use este botón si el bot no funciona correctamente. ( enlace directo )
Los no administradores pueden un bot que funciona mal a Wikipedia: Tablón de anuncios de administradores / Incidentes .
Este usuario es un bot | |
---|---|
( hablar · contribuciones ) | |
Operador | Cobi (t) , Crispy1989 (t) ( más información ) |
Aprobado ? | Sí, BRFA . |
¿ Marcado ? | Si. |
Tareas) | Revertir el vandalismo . |
Editar tasa | Más de 9.000 EPM. |
Editar período (s) | Continuamente |
¿Automático o manual? | Automático |
Lenguaje (s) de programación | C , C ++ , PHP , Python , Bash y Java ( más información ) |
¿ Cumple con la exclusión ? | sí |
¿Cumple con el cierre de emergencia? | sí |
Otra información | ClueBot NG se ejecuta desde los servidores ClueNet y la infraestructura Wikimedia Cloud VPS. |
Cierre de emergencia del administrador
Los administradores pueden apagar el bot cambiando esta página a 'Falso'.
Cumple con la exclusión
Este bot es un bot compatible con la exclusión .
Resumen
ClueBot NG es un bot antivandálico que intenta detectar y revertir el vandalismo de forma rápida y automática.
Equipo
- Christopher Breneman - Crispy1989 ( talk · contribs ) - escribió y mantiene el motor de detección del núcleo y la configuración del núcleo.
- Cobi Carter - Cobi ( talk · contribs ) - escribió y mantiene el código de la interfaz de Wikipedia y la interfaz de revisión .
Agradecimientos especiales a:
- Tim - Tim1357 ( talk · contribs ): para escribir el código de descarga del conjunto de datos original y proporcionar el conjunto de datos original.
- Methecooldude ( talk · contribs ): para proporcionar recursos de servidor en ClueNet .
- DamianZaremba ( hablar · contribuciones ), SnoFox ( hablar · contribuciones ), H3llkn0wz ( hablar · contribuciones ) y b930913 ( hablar · contribuciones ) - Para ayudar con problemas menores, las pruebas y la gente-manejo.
- Todos los usuarios que han contribuido a la interfaz de revisión de conjuntos de datos.
- Todos los que han hecho una sugerencia útil y útil.
Preguntas, comentarios, contribuciones y sugerencias sobre:
- el motor central, los algoritmos y la configuración deben dirigirse a Crispy1989 ( talk · contribs ).
- la interfaz del bot a Wikipedia y la interfaz de revisión del conjunto de datos deben dirigirse a Cobi ( talk · contribs ).
- El conjunto de datos original del bot debe dirigirse a Tim1357 ( talk · contribs ).
Interfaz de revisión de conjuntos de datos
Para que el bot sea eficaz, es necesario ampliar el conjunto de datos. Nuestro conjunto de datos actual tiene cierto grado de sesgo, así como algunas inexactitudes. Necesitamos voluntarios para ayudar a revisar las ediciones y clasificarlas como vandalismo o constructivas. Esperamos eventualmente reemplazar completamente nuestro conjunto de datos actual con una muestra aleatoria de ediciones, revisadas y clasificadas por voluntarios. Las instrucciones más detalladas sobre cómo usar la interfaz, y la interfaz en sí, se encuentran en la interfaz de revisión del conjunto de datos (actualmente rota).
Las estadísticas ampliadas sobre los contribuyentes, incluidos los recuentos de revisiones de edición y la precisión, están disponibles aquí .
Para aquellos que ayudan con la interfaz de revisión y contribuyen a ella, hay una casilla de usuario disponible para usted:
Este usuario revisa las ediciones del conjunto de datos de ClueBot NG para ayudar a revertir automáticamente el vandalismo masivo en Wikipedia. |
Úselo con:
{{Usuario: ClueBot NG / Revisar carpeta de usuario}}
Estadísticas
Como ClueBot NG requiere un conjunto de datos para funcionar, el conjunto de datos también se puede utilizar para proporcionar estadísticas bastante precisas sobre su precisión y funcionamiento. Se utilizan diferentes partes del conjunto de datos para el entrenamiento y la prueba, por lo que estas estadísticas no están sesgadas.
Las estadísticas exactas cambian y mejoran con frecuencia a medida que actualizamos el bot. Actualmente:
- Al seleccionar un umbral para optimizar la precisión total, el bot clasifica correctamente más del 90% de las ediciones.
- Al seleccionar un umbral para mantener falsos positivos a una tasa máxima de 0.1% (configuración actual) , el bot detecta aproximadamente el 40% de todo el vandalismo.
- Al seleccionar una tasa de falsos positivos del 0,25% (configuración anterior), el robot detecta aproximadamente el 55% de todo el vandalismo.
Actualmente, el conjunto de datos de prueba que se utiliza para generar estas estadísticas es una muestra aleatoria de ediciones, cada una revisada por al menos dos humanos, por lo que las estadísticas son precisas.
Nota: estas estadísticas se calculan antes de los filtros de posprocesamiento. Los filtros de posprocesamiento reducen principalmente la tasa de falsos positivos (es decir, la cantidad real de falsos positivos será menor que la indicada aquí), pero también pueden reducir ligeramente la tasa de captura.
Preguntas frecuentes
Consulte las preguntas frecuentes .
Algoritmo de detección de vandalismo
ClueBot NG utiliza un método completamente diferente para clasificar el vandalismo que todos los bots antivandálicos anteriores, incluido el ClueBot original. Los bots antivandálicos anteriores han utilizado una lista de heurísticas simples y palabras en la lista negra para determinar si una edición es vandalismo. Si un cierto número de heurísticas coincidía, la edición se clasificaba como vandalismo. Este método da como resultado bastantes falsos positivos, porque muchas de las heurísticas tienen usos legítimos en algunos contextos, y solo una tasa de captura de vandalismo del 5% al 10%, porque la mayoría de los actos de vandalismo no pueden detectarse mediante estas simples heurísticas.
ClueBot NG utiliza una combinación de diferentes métodos de detección que utilizan el aprendizaje automático en su núcleo. Estos se describen a continuación.
Conceptos básicos del aprendizaje automático
En lugar de una lista predefinida de reglas que genera un ser humano, ClueBot NG aprende lo que se considera vandalismo automáticamente al examinar una gran lista de ediciones que están preclasificadas como constructivas o vandalismo. Su concepto de lo que se considera vandalismo se aprende de los luchadores contra el vandalismo humanos. Esta lista de ediciones se denomina corpus o conjunto de datos. La precisión del bot depende en gran medida del tamaño y la calidad del conjunto de datos. Si el conjunto de datos es pequeño, contiene ediciones clasificadas incorrectamente o no contiene una muestra aleatoria de ediciones, el rendimiento del bot se ve gravemente afectado. Lo mejor que pueden hacer tú y otros wikipedistas para ayudar al bot es mejorar el conjunto de datos. Si está interesado en ayudar, consulte la sección Interfaz de revisión de conjuntos de datos.
Clasificadores Bayesianos
En ClueBot NG se utilizan algunos clasificadores bayesianos diferentes. El más básico funciona en unidades de palabras. Esencialmente, para cada palabra, se cuentan el número de ediciones constructivas que agregan la palabra y el número de ediciones de vandalismo que agregan la palabra. Esto se usa para formar una probabilidad de vandalismo para cada palabra agregada en una edición. Las probabilidades se combinan de tal manera que no solo se usan palabras comunes en el vandalismo, sino que también las palabras que son poco comunes en el vandalismo pueden reducir la puntuación.
Esto difiere de una simple lista de palabras en la lista negra en que los pesos de las palabras se determinan exactamente como óptimos, y también hay una gran "lista blanca" de palabras, también con pesos óptimos, que contribuyen.
Actualmente, también hay un clasificador bayesiano separado que funciona en unidades de frases de 2 palabras. Podemos agregar incluso más clasificadores bayesianos en el futuro que funcionen en diferentes unidades de palabras, o palabras en diferentes contextos.
Las puntuaciones de los clasificadores bayesianos por sí solos no se utilizan. En cambio, se alimentan a la red neuronal como entradas simples. Esto permite que la red neuronal reduzca los falsos positivos debido a palabras simples incluidas en la lista negra y detecte el vandalismo que agrega palabras desconocidas.
Red neuronal artificial
El componente principal del algoritmo de detección de vandalismo de ClueBot NG es la red neuronal. Una red neuronal artificial es una técnica de aprendizaje automático que puede reconocer patrones en un conjunto de datos de entrada que son más complejos que simplemente determinar pesos. La entrada a la ANN utilizada en ClueBot NG se compone de una serie de estadísticas diferentes calculadas a partir de la edición, que incluyen, entre muchas otras cosas, los resultados de los clasificadores bayesianos. Cada estadística debe escalarse a un número entre cero y uno antes de ingresar a la red neuronal.
La salida de la red neuronal se utiliza como la principal puntuación de vandalismo para ClueBot NG. Al igual que con otras técnicas de aprendizaje automático, la precisión de la puntuación depende del tamaño y la precisión del conjunto de datos de entrenamiento.
Cálculo de umbral
La ANN genera una puntuación de vandalismo entre 0 y 1, donde 1 es 100% seguro de vandalismo. Para clasificar algunas ediciones como vandalismo y otras como constructivas, se debe aplicar un umbral a la puntuación. Las puntuaciones por encima del umbral se clasifican como vandalismo y las puntuaciones por debajo del umbral se clasifican como constructivas.
El umbral no lo elige un humano al azar, sino que se calcula para que coincida con una tasa de falsos positivos determinada. Al realizar una detección real de vandalismo, es importante minimizar los falsos positivos a un nivel muy bajo. Un humano selecciona una tasa de falsos positivos, que es el porcentaje de ediciones constructivas clasificadas incorrectamente como vandalismo. Se calcula un umbral para tener una tasa de falsos positivos igual o inferior a este porcentaje, al tiempo que se maximiza la tasa de captura. La tasa de falsos positivos la establece un humano, y el bot se mantiene en esa tasa de falsos positivos o por debajo de ella, mientras detecta tanto vandalismo como sea posible. La tasa de falsos positivos no es fija, pero es ajustable.
Para asegurarse de que el umbral y las estadísticas sean precisos y no proporcionen estadísticas inexactas o una tasa de falsos positivos más alta de lo esperado, la parte del conjunto de datos utilizada para los cálculos de umbral se mantiene separada del conjunto de entrenamiento y no se usa para entrenamiento. Además, solo las partes más precisas del conjunto de datos (actualmente, las que son revisadas por humanos desde la interfaz de revisión) se utilizan para este cálculo. Esto asegura que todas las estadísticas proporcionadas aquí sean precisas y que los falsos positivos no excedan la tasa indicada.
Filtros de posprocesamiento
Una vez que el núcleo hace su determinación principal de vandalismo, los datos se envían a la interfaz de Wikipedia. La interfaz de Wikipedia contiene una lógica simple diseñada para reducir los falsos positivos. Aunque también reduce la tasa de captura de vandalismo en una pequeña cantidad, también reduce la tasa de falsos positivos, y algunos de estos son obligatorios por la política de Wikipedia.
Los dos primeros raramente reducen la tasa de captura, pero ambos previenen un buen número de falsos positivos. Nota: La tasa de falsos positivos (y la tasa de captura) se calculan en el núcleo, antes de los filtros de posprocesamiento. Esto significa que la tasa real de falsos positivos será menor que la de falsos positivos declarados, a menudo por un factor significativo.
- Lista blanca de usuarios: si una edición realizada por un usuario que está en una lista blanca se clasifica como vandalismo, la edición no se revierte.
- Recuento de ediciones: si un usuario tiene más de un umbral de número de ediciones y menos de un porcentaje de umbral de advertencias, la edición no se revierte.
- 1RR: la misma combinación de usuario / página no se revierte más de una vez al día, a menos que la página esté en la lista de reversión enojada .
Noticias / Estado de desarrollo
Motor central
- La versión actual funciona bien.
- Actualmente se está escribiendo un analizador de marcado de wiki dedicado para obtener métricas específicas de contexto de marcado más precisas. (Ningún analizador alternativo existente es lo suficientemente completo o rápido)
Interfaz de revisión de conjuntos de datos
- El código para importar ediciones a la base de datos está terminado.
- Actualmente cambia la lógica que determina el resultado final de una edición.
Estado del conjunto de datos
- Descubrimos que el descargador de conjuntos de datos de Python que usamos para generar el conjunto de datos de entrenamiento no genera datos idénticos al descargador en vivo. Es posible que esto esté reduciendo en gran medida la efectividad del bot en vivo. Estamos trabajando en escribir código compartido para la descarga en vivo y la generación de conjuntos de datos para poder regenerar el conjunto de datos.
- Esto se ha solucionado y el bot se volvió a capacitar. Ahora está funcionando mucho mejor.
- Actualmente obteniendo más datos de la interfaz de revisión.
Idiomas
- C / C ++ : el núcleo está escrito en C / C ++ desde cero.
- PHP : el bot shell (interfaz de Wikipedia) está escrito en PHP y comparte algo de código con el ClueBot original.
- Java : la interfaz de revisión del conjunto de datos está escrita en Java utilizando el marco de la aplicación de Google.
- Bash : algunos scripts para facilitar el entrenamiento y el mantenimiento del bot son los scripts Bash.
- Python : algunas de las herramientas originales de administración y descarga de conjuntos de datos se escribieron en Python.
Código fuente
El código fuente del bot es público y se puede encontrar en github . Solicite acceso a los desarrolladores. Si desea ejecutar el bot por sí mismo en su propia wiki, debe discutir con los desarrolladores todos los factores involucrados para que funcione correctamente. También debe tener en cuenta que solo se ejecutará en un sistema Linux / UNIX, y el código fuente puede ser bastante difícil de compilar (muchas dependencias) a menos que tenga experiencia con los sistemas Linux / UNIX.
Feeds de IRC de ClueBot NG
ClueBot NG mantiene una alimentación basada en IRC de sus datos, principalmente destinada a ser utilizada por otras herramientas automatizadas, ubicada en # wikipedia-en-cbngfeed en la red freenode . Es esencialmente una copia del feed de Wikipedia RC, pero con los datos de análisis de ClueBot NG agregados. Incluye todo lo que hace el feed de Wikipedia RC, con la adición de la puntuación ClueBot NG y si se revirtió o no. El formato es edit line \003 # score # reason # Reverted or Not reverted
.
Tenga en cuenta que las ediciones en el feed pueden no estar necesariamente en un orden preciso, porque ClueBot NG las procesa en paralelo. Las ediciones no revertidas generalmente se procesan en menos de un segundo. Las ediciones revertidas a veces pueden tardar hasta 10 segundos o más en procesarse debido al retraso de la API al revertir.
Información sobre falsos positivos
ClueBot NG no es una persona, es un robot automático que intenta detectar el vandalismo y mantener limpia Wikipedia. Un falso positivo es cuando una edición que no es vandalismo se clasifica incorrectamente como vandalismo.
El bot no está predispuesto contra usted, su edición o su punto de vista (a menos que su edición sea vandalismo). Los falsos positivos son raros, pero ocurren. Al manejar bien los falsos positivos sin enojarse, está ayudando a este bot a detectar casi la mitad de todo el vandalismo en Wikipedia y mantener la wiki limpia para todos nosotros.
Los falsos positivos con ClueBot NG son (esencialmente) inevitables. Para que sea eficaz en la captura de una gran cantidad de vandalismo, se capturan algunas ediciones constructivas (o al menos, bien intencionadas). Hay muy pocos falsos positivos, pero ocurren. Si una de sus ediciones se identifica incorrectamente como vandalismo, simplemente vuelva a realizar la edición, elimine la advertencia de su página de discusión y, si lo desea, informe el falso positivo. ClueBot NG no es (todavía) consciente: es un robot automatizado, y si revierte incorrectamente su edición, no significa que su edición sea mala, o incluso deficiente; es solo un error aleatorio en la clasificación del bot, al igual que el correo electrónico Los filtros de spam a veces clasifican incorrectamente los mensajes como spam.
La razón por la que los falsos positivos son necesarios se debe al funcionamiento del bot. Utiliza un algoritmo interno complejo llamado Red Neural Artificial que genera una probabilidad de que una edición dada sea vandalismo. La probabilidad suele ser bastante cercana, pero a veces puede ser significativamente diferente de lo que debería ser. Si una edición se clasifica o no como vandalismo se determina aplicando un umbral a esta probabilidad. Cuanto más alto es el umbral, menos falsos positivos, pero también se detecta menos vandalismo. Se selecciona un umbral asumiendo una tasa fija de falsos positivos (porcentaje de ediciones constructivas clasificadas incorrectamente como vandalismo) y optimizando la cantidad de vandalismo detectado en base a eso. Esto significa que siempre habrá algunos falsos positivos y siempre será aproximadamente el mismo porcentaje de ediciones constructivas. La configuración actual de la tasa de falsos positivos se enumera en Estadísticas anteriores.
Cuando se producen falsos positivos, es posible que no se trate de ediciones de mala calidad y es posible que ni siquiera exista una razón aparente. Si informa el falso positivo, los encargados del mantenimiento del bot lo examinarán, intentarán determinar por qué ocurrió el error y, si es posible, mejorarán la precisión del bot para futuras ediciones similares. Si bien no evitará los falsos positivos, puede ayudar a reducir la cantidad de ediciones de buena calidad que son falsos positivos. Además, si la precisión del bot mejora tanto que la tasa de falsos positivos puede reducirse sin una caída significativa en la tasa de detección de actos de vandalismo, es posible que podamos reducir el número total de falsos positivos.
Si desea ayudar a mejorar significativamente la precisión del bot, puede marcar la diferencia contribuyendo a la interfaz de revisión. Esto debería ayudarnos a determinar con mayor precisión un umbral, detectar más actos de vandalismo y, finalmente, reducir los falsos positivos.
Para informar un falso positivo o para ver una lista completa de todos los falsos positivos, consulte aquí .
Cuadro de usuario
Para aquellos que ayudan con la interfaz de falso positivo y contribuyen a ella, hay una casilla de usuario disponible para usted:
Este usuario revisa los informes falsos positivos de ClueBot NG para ayudar a revertir el vandalismo en Wikipedia. |
Úselo con:
{{User: ClueBot NG / Report User Box}}
Premios
- Mostrar todos los premios
¡Algunas baterías para ti!
¡TK421bsod te ha dado baterías ! Las baterías promueven WikiLove (📖💞) y, con suerte, esta ha hecho que su día sea más poderoso. Es la fuente de energía preferida por los bots . 🤖 Difunde WikiLove dándole baterías a otra persona, ya sea alguien con quien hayas tenido guerras de robots en el pasado o un buen amigo.
¡Difunda la bondad de las baterías agregando {{ subst: Batteries for you }} a la página de conversación de alguien con un mensaje amistoso!
TK421bsod ( charla ) 20:04, 30 de enero de 2020 (UTC)
¡Un barnstar para ti!
El Barnstar anti-vandalismo | |
Dino245 ( charla ) 19:45, 16 de octubre de 2019 (UTC) |
Me gusta la cerveza y tú también deberías C.carleigh ( charla ) 23:10, 1 de mayo de 2019 (UTC) |
El Barnstar anti-vandalismo | ||
Esto es por sus valiosos esfuerzos para revertir y proteger enwiki del vandalismo PATH SLOPU ( Discusión ) 05:14, 22 de agosto de 2018 (UTC) |
El Barnstar especial | |
¡A ClueBot NG, por hacer 5 millones de ediciones! ¡Gracias por el arduo trabajo para revertir el vandalismo! SemiHypercube ( charla ) 15:38, 16 de junio de 2018 (UTC) |
El Barnstar múltiple | ||||||||
Una estrella antivandálica y media estrella de granero para ClueBot NG, por el trabajo del bot en la lucha contra el vandalismo y la realización de más de 5 MILLONES de ediciones (¡guau, eso es casi tanto como cuenta el artículo de Wikipedia en inglés!) Y contando para luchar contra muchos actos de vandalismo. ClueBot III obtiene la otra mitad de Barnstar por archivar mucho la página de discusión. ¡Muchas gracias por todo su arduo trabajo, y por otros 5 millones de ediciones para revertir el vandalismo y otras 600,000+ de archivo de páginas de discusión! Porkchop Jr. 17:43 14 de junio de 2018 (UTC) |
Una tarjeta de regalo de Barnstar Shop | ||
Esta es una tarjeta de regalo roja que los bots pueden usar en Barnstar Shop. ¡Siéntete libre de comprar cualquier Barnstars allí, e incluso dárselos a otros usuarios! (Pero, por favor, no se premie a sí mismo). Porkchop Jr. 18:42, 14 de junio de 2018 (UTC) |
El Barnstar anti-vandalismo | ||
Si ClueBot NG no estuviera aquí, no revertiremos el vandalismo tanto como lo hace. Gracias por todas las modificaciones que ha realizado. 70.190.21.73 ( conversación ) 23:14, 10 de marzo de 2018 (UTC) |
Un robot para ClueBot NG
Un robot para ClueBot NG | |
Por revertir el vandalismo a tiempo completo y gracias a sus creadores por su arduo trabajo en ello. Iggy ( charla ) 19:04, 18 de diciembre de 2017 (UTC) |
El Barnstar anti-vandalismo | ||
¿¡Qué!? Este bot es más rápido que cualquier otro bot en Wikipedia. Excelente trabajo para revertir el vandalismo, Cluebot NG. Ha facilitado la vida de casi todo el mundo. - Bey Wheelz Let Se RIP! ✉ 📝 Signo 20:33, 25 de noviembre de 2017 (UTC) |
Barnstar del trabajador duro | |
:) SuperTurboChampionshipEdition ( charla ) 15:36, 17 de junio de 2017 (UTC) |
Felicitar
- Mostrar todos los elogios
Contribuciones
Mis Contribuciones
ClueBots | |
---|---|
ClueBot NG / Anti-vandalismo · ClueBot II / ClueBot Script | |
ClueBot III / Archive · Charla | |
Cobi / Propietario // Charla |