Este es un mini-ensayo sobre un problema en MediaWikiland: política de categorías . Inicialmente se discutió en wikiEN-l .
Nota : Soy consciente de las discusiones anteriores en la charla de Wikipedia: Categorización . Este ensayo es un tratamiento más completo y defendible del tema y destaca las falacias de muchos argumentos anteriores.
Actualización 4 de junio de 2005 : La regla propuesta aquí, "las categorías son conjuntos / gráficos, no árboles", ahora está consagrada en policy =).
Introducción
¿Qué es una categoría? Nadie sabe. No hay consenso sobre qué es una categoría (consulte la charla de Wikipedia: Categorización ). ¿Es un árbol jerárquico, con todas las categorizaciones que representan relaciones " es un "? ¿O es solo un conjunto , un grupo de artículos relacionados, que pueden pertenecer a uno o más conjuntos?
Esta es una pregunta importante, solo mire Wikipedia: Categorías para eliminar . Los cambios en las categorías tienen efectos más generalizados que los cambios en los artículos y tienen una mayor probabilidad de molestar a los editores.
Creo que las categorías son, y deberían ser, conjuntos, no jerarquías.
Las categorías son conjuntos
Propósito original de las categorías
¿Cuál fue el propósito original del sistema de categorización? ¿Desarrollo de una taxonomía del conocimiento mundano? No creo que los desarrolladores sean realmente tan estúpidos (ampliaré esto a continuación). AFAIK fue como una especie de generador automático de listas para artículos relacionados. Las listas son conjuntos, no jerarquías. Las listas de "artículos relacionados" son conjuntos, no jerarquías.
Software actual
La forma en que se han desarrollado las categorías en el software respalda la idea de que las categorías son conjuntos. Existe un soporte implícito para las categorías como conjuntos porque no hay nada que impida que nadie las use de esa manera. Ninguno de los límites de un sistema jerárquico existe en la categoría software. Dicho software es la mejor manera de hacer cumplir la idea de categorías jerárquicas y sería fácil de implementar (por ejemplo, no permitir la crianza arbitraria de categorías).
Hasta que se decida la política (y, preferiblemente, se actualice el software para admitirla), las categorías seguirán utilizándose como conjuntos. Dado que los conjuntos incluyen jerarquías, mientras que las jerarquías no incluyen conjuntos, el sistema de categorización actual es uno de conjuntos.
Las categorías deben ser conjuntos
Las categorías son inherentemente POV
Un sistema de categorización es una cosmovisión. Por lo tanto, es muy difícil que las categorías sean NPOV . La siguiente cita de Clay Shirky se expande:
- Muchos proyectos en red, que incluyen cosas como los mercados de empresa a empresa y los servicios web, han comenzado con la hipótesis indiscutible de que la comunicación sería más fácil si todos describieran las cosas de la misma manera. A partir de ahí, es un salto corto pero fatal concluir que, por lo tanto, se adoptará amplia y rápidamente un tipo particular de descripción unificadora (la falacia de "esto funcionará porque sería bueno si lo hiciera").
- Cualquier intento de una ontología global está condenado al fracaso, porque los metadatos describen una cosmovisión. Los diseñadores del sistema de catalogación de la biblioteca soviética estaban haciendo una afirmación sobre el mundo cuando hicieron de la primera categoría de libros "Obras de los autores clásicos del marxismo-leninismo". Melvil Dewey estaba haciendo una afirmación sobre el mundo cuando agrupa todos los libros sobre religiones no cristianas en una sola categoría, que figura en último lugar entre los libros sobre religión. No es posible mapear claramente estos dos sistemas entre sí, o en otros esquemas de clasificación, describen diferentes tipos de mundos.
- Debido a que los metadatos describen una cosmovisión, la incompatibilidad es un subproducto inevitable de una discusión vigorosa. Sería relativamente fácil, por ejemplo, codificar una descripción de genes en XML, pero sería imposible obtener un estándar universal para tal descripción, porque los biólogos todavía están discutiendo sobre qué es realmente un gen. Hay varios estándares en competencia para describir la información genética, y la divergencia semántica es un artefacto de una conversación real entre biólogos. No puede obtener un estándar hasta que tenga un acuerdo, y no puede obligar a que exista un acuerdo donde no existe ninguno.
- Además, cuando vemos intentos de aplicar la semántica en situaciones humanas, termina degradando la semántica, en lugar de hacer que la conexión sea más informativa. Los servicios de redes sociales como Friendster y LinkedIn asumen que las personas tratarán los enlaces entre sí como señales externas de asociación profunda, de modo que la malla social representada por el software será un modelo preciso del mundo real. De hecho, el concepto de amigo, o incluso el tipo y la profundidad de conexión que se requiere para decir que conoces a alguien, es bastante escurridizo y, como resultado, los vínculos entre personas en Friendster han perdido gran parte de su significado previsto. Tratar de expresar relaciones implícitas y confusas de manera explícita y nítida no aclara el significado, lo destruye.
Todo el concepto de un sistema de categorías jerárquicas que lo abarque todo va en contra del espíritu de Wikipedia. Es una cosmovisión que lo abarca todo, o una atribución de valor, a los artículos marcados (categorizados).
La idea de "las categorías son jerarquías" supone que incluso es posible que un gran grupo de personas esté de acuerdo en un sistema de creencias que lo abarque todo, una noción ridícula totalmente desprovista de realismo, una noción que se ha mostrado errónea experimentalmente en muchos metadatos de TI. proyectos.
Las categorías, especialmente las categorías jerárquicas, tratan sobre los seguidores de una cosmovisión particular que implícitamente dicen "nuestro camino es correcto, todos deberían seguirlo". Tenga en cuenta que la proporción de personas que siguen una cosmovisión en particular en todos los aspectos es muy pequeña.
Los sets son mucho menos POV
La categorización por conjunto es obviamente menos POV. Un artículo puede pertenecer a tantos conjuntos como la comunidad crea que debería pertenecer, ya sea directamente o mediante la paternidad múltiple de la categoría del artículo (o antepasados).
Conclusión
Los beneficios de la categorización jerárquica
- disminución de la redundancia
- navegación más fácil (para una minoría que tiene la visión del mundo "correcta")
son superados por sus costos
- la comunidad nunca estará de acuerdo sobre el sistema
- navegación más difícil (para la mayoría que no encuentra artículos donde espera que estén)
- precisión disminuida (el mundo real no está en una gran jerarquía, simplemente tiene conjuntos de metadatos aplicados por diferentes personas)
Este ensayo asume que los conjuntos se aprovechan al máximo al permitir múltiples herencias y posiblemente incluso bucles de herencia, y alentar a los artículos y categorías a que se les asignen muchas categorías en lugar de solo una o dos.