El análisis de datos es un proceso de inspección, limpieza , transformación y modelado de datos con el objetivo de descubrir información útil, informar conclusiones y respaldar la toma de decisiones. [1] El análisis de datos tiene múltiples facetas y enfoques, que abarca diversas técnicas bajo una variedad de nombres, y se usa en diferentes dominios de negocios, ciencia y ciencias sociales. [2] En el mundo empresarial actual, el análisis de datos juega un papel en la toma de decisiones más científicas y ayuda a las empresas a operar de manera más eficaz. [3]
La minería de datos es una técnica particular de análisis de datos que se centra en el modelado estadístico y el descubrimiento de conocimientos con fines predictivos en lugar de puramente descriptivos, mientras que la inteligencia empresarial cubre el análisis de datos que se basa en gran medida en la agregación, centrándose principalmente en la información empresarial. [4] En aplicaciones estadísticas, el análisis de datos se puede dividir en estadísticas descriptivas , análisis de datos exploratorios (EDA) y análisis de datos confirmatorios (CDA). [5] EDA se enfoca en descubrir nuevas características en los datos mientras que CDA se enfoca en confirmar o falsificar hipótesis existentes . [6] [7] Análisis predictivose centra en la aplicación de modelos estadísticos para el pronóstico predictivo o la clasificación, mientras que el análisis de texto aplica técnicas estadísticas, lingüísticas y estructurales para extraer y clasificar información de fuentes textuales, una especie de datos no estructurados . Todo lo anterior son variedades de análisis de datos. [8]
La integración de datos es un precursor del análisis de datos, y el análisis de datos está estrechamente relacionado con la visualización y difusión de datos. [9]
El proceso de análisis de datos
Análisis , se refiere a dividir un todo en sus componentes separados para un examen individual. [10] El análisis de datos , es un proceso para obtener datos brutos y, posteriormente, convertirlos en información útil para la toma de decisiones por parte de los usuarios. [1] Los datos se recopilan y analizan para responder preguntas, probar hipótesis o refutar teorías. [11]
El estadístico John Tukey , definió el análisis de datos en 1961 como:
"Procedimientos para analizar datos, técnicas para interpretar los resultados de tales procedimientos, formas de planificar la recopilación de datos para hacer su análisis más fácil, más preciso o más exacto, y toda la maquinaria y resultados de las estadísticas (matemáticas) que se aplican al análisis de datos . " [12]
Hay varias fases que se pueden distinguir, que se describen a continuación. Las fases son iterativas , ya que la retroalimentación de fases posteriores puede resultar en trabajo adicional en fases anteriores. [13] El marco CRISP , utilizado en la minería de datos , tiene pasos similares.
Requerimientos de datos
Los datos son necesarios como insumos para el análisis, que se especifica en función de los requisitos de quienes dirigen el análisis o de los clientes (que utilizarán el producto terminado del análisis). [14] [15] El tipo general de entidad sobre la que se recopilarán los datos se denomina unidad experimental (por ejemplo, una persona o una población de personas). Se pueden especificar y obtener variables específicas con respecto a una población (por ejemplo, edad e ingresos). Los datos pueden ser numéricos o categóricos (es decir, una etiqueta de texto para números). [13]
Recopilación de datos
Los datos se recopilan de diversas fuentes. [16] [17] Los analistas pueden comunicar los requisitos a los custodios de los datos; como, por ejemplo, personal de tecnología de la información dentro de una organización. [18] Los datos también pueden recopilarse de sensores en el entorno, incluidas cámaras de tráfico, satélites, dispositivos de grabación, etc. También pueden obtenerse a través de entrevistas, descargas de fuentes en línea o lectura de documentación. [13]
Procesamiento de datos
Los datos, cuando se obtienen inicialmente, deben procesarse u organizarse para su análisis. [19] [20] Por ejemplo, estos pueden implicar la colocación de datos en filas y columnas en un formato de tabla ( conocido como datos estructurados ) para un análisis adicional, a menudo mediante el uso de hojas de cálculo o software estadístico. [13]
Limpieza de datos
Una vez procesados y organizados, los datos pueden estar incompletos, contener duplicados o contener errores. [21] [22] La necesidad de limpiar los datos surgirá de problemas en la forma en que se ingresan y almacenan los datos. [21] La limpieza de datos es el proceso de prevenir y corregir estos errores. Las tareas comunes incluyen la coincidencia de registros, la identificación de datos inexactos, la calidad general de los datos existentes, la deduplicación y la segmentación de columnas. [23] Estos problemas de datos también pueden identificarse mediante una variedad de técnicas analíticas. Por ejemplo, con información financiera, los totales de variables particulares pueden compararse con números publicados por separado, que se cree que son confiables. [24] [25] También se pueden revisar las cantidades inusuales, por encima o por debajo de los umbrales predeterminados. Hay varios tipos de limpieza de datos que dependen del tipo de datos del conjunto; esto podría ser números de teléfono, direcciones de correo electrónico, empleadores u otros valores. [26] [27] Los métodos de datos cuantitativos para la detección de valores atípicos se pueden utilizar para eliminar los datos que parecen tener una mayor probabilidad de ser ingresados incorrectamente. [28] Los correctores ortográficos de datos textuales se pueden utilizar para reducir la cantidad de palabras mal escritas, sin embargo, es más difícil saber si las palabras en sí son correctas. [29]
Análisis exploratorio de datos
Una vez que se limpian los conjuntos de datos, se pueden analizar. Los analistas pueden aplicar una variedad de técnicas, denominadas análisis de datos exploratorios , para comenzar a comprender los mensajes contenidos en los datos obtenidos. [30] El proceso de exploración de datos puede resultar en una limpieza de datos adicional o solicitudes adicionales de datos; por lo tanto, la inicialización de las fases iterativas mencionadas en el párrafo principal de esta sección. [31] Se pueden generar estadísticas descriptivas , como el promedio o la mediana, para ayudar a comprender los datos. [32] [33] La visualización de datos también es una técnica utilizada, en la que el analista puede examinar los datos en un formato gráfico para obtener información adicional sobre los mensajes dentro de los datos. [13]
Modelado y algoritmos
Se pueden aplicar fórmulas o modelos matemáticos (conocidos como algoritmos ) a los datos para identificar relaciones entre las variables; por ejemplo, usando correlación o causalidad . [34] [35] En términos generales, se pueden desarrollar modelos para evaluar una variable específica basada en otras variables contenidas en el conjunto de datos, con algún error residual dependiendo de la precisión del modelo implementado ( por ejemplo , Datos = Modelo + Error) . [36] [11]
La estadística inferencial incluye la utilización de técnicas que miden las relaciones entre variables particulares. [37] Por ejemplo, el análisis de regresión puede usarse para modelar si un cambio en la publicidad ( variable independiente X ) proporciona una explicación de la variación en las ventas ( variable dependiente Y ). [38] En términos matemáticos, Y (ventas) es una función de X (publicidad). [39] Se puede describirse como ( Y = aX + b + error), en el que el modelo está diseñado de tal manera que ( a ) y ( b ) reducir al mínimo el error cuando el modelo predice Y para un determinado intervalo de valores de X . [40] Los analistas también pueden intentar construir modelos que sean descriptivos de los datos, con el objetivo de simplificar el análisis y comunicar los resultados. [11]
Producto de datos
Un producto de datos es una aplicación informática que toma entradas de datos y genera salidas , realizándolas de regreso al medio ambiente. [41] Puede basarse en un modelo o algoritmo. Por ejemplo, una aplicación que analiza datos sobre el historial de compras del cliente y utiliza los resultados para recomendar otras compras que el cliente podría disfrutar. [42] [13]
Comunicación
Una vez que se analizan los datos, se pueden informar en muchos formatos a los usuarios del análisis para respaldar sus requisitos. [44] Los usuarios pueden tener comentarios, lo que da como resultado un análisis adicional. Como tal, gran parte del ciclo analítico es iterativo. [13]
Al determinar cómo comunicar los resultados, el analista puede considerar implementar una variedad de técnicas de visualización de datos, para ayudar a comunicar el mensaje a la audiencia de manera clara y eficiente. [45] La visualización de datos utiliza pantallas de información (gráficos como tablas y gráficos) para ayudar a comunicar los mensajes clave contenidos en los datos. [46] Las tablas son una herramienta valiosa que permite a un usuario consultar y centrarse en números específicos; mientras que los gráficos (por ejemplo, gráficos de barras o gráficos de líneas) pueden ayudar a explicar los mensajes cuantitativos contenidos en los datos. [47]
Mensajes cuantitativos
Stephen Few describió ocho tipos de mensajes cuantitativos que los usuarios pueden intentar comprender o comunicar a partir de un conjunto de datos y los gráficos asociados que se utilizan para ayudar a comunicar el mensaje. [48] Los clientes que especifiquen los requisitos y los analistas que realicen el análisis de datos pueden considerar estos mensajes durante el transcurso del proceso. [49]
- Series de tiempo: se captura una sola variable durante un período de tiempo, como la tasa de desempleo durante un período de 10 años. Se puede utilizar un gráfico de líneas para demostrar la tendencia. [50]
- Clasificación: las subdivisiones categóricas se clasifican en orden ascendente o descendente, como una clasificación de rendimiento de ventas (la medida ) por vendedores (la categoría , con cada vendedor una subdivisión categórica ) durante un solo período. [51] Puede utilizarse un gráfico de barras para mostrar la comparación entre los vendedores. [52]
- Parte-a-todo: las subdivisiones categóricas se miden como una proporción del todo (es decir, un porcentaje de 100%). Un gráfico circular o un gráfico de barras pueden mostrar la comparación de razones, como la participación de mercado representada por los competidores en un mercado. [53]
- Desviación: las subdivisiones categóricas se comparan con una referencia, como una comparación de los gastos reales con los presupuestados para varios departamentos de una empresa durante un período de tiempo determinado. Un gráfico de barras puede mostrar la comparación de la cantidad real con la de referencia. [54]
- Distribución de frecuencia: muestra el número de observaciones de una variable en particular para un intervalo dado, como el número de años en los que el rendimiento del mercado de valores se encuentra entre intervalos como 0-10%, 11-20%, etc. Un histograma , un tipo de gráfico de barras, se puede utilizar para este análisis. [55]
- Correlación: comparación entre observaciones representadas por dos variables (X, Y) para determinar si tienden a moverse en la misma dirección o en direcciones opuestas. Por ejemplo, graficar el desempleo (X) y la inflación (Y) para una muestra de meses. Normalmente, se utiliza un diagrama de dispersión para este mensaje. [56]
- Comparación nominal: comparación de subdivisiones categóricas sin ningún orden en particular, como el volumen de ventas por código de producto. Se puede utilizar un gráfico de barras para esta comparación. [57]
- Geográfica o geoespacial: comparación de una variable en un mapa o diseño, como la tasa de desempleo por estado o el número de personas en los distintos pisos de un edificio. Un cartograma es un gráfico típico utilizado. [58] [59]
Técnicas para analizar datos cuantitativos
El autor Jonathan Koomey ha recomendado una serie de mejores prácticas para comprender los datos cuantitativos. [60] Estos incluyen:
- Verifique los datos sin procesar en busca de anomalías antes de realizar un análisis;
- Vuelva a realizar cálculos importantes, como verificar columnas de datos que se basan en fórmulas;
- Confirme que los totales principales son la suma de los subtotales;
- Verifique las relaciones entre los números que deben estar relacionados de una manera predecible, como las proporciones a lo largo del tiempo;
- Normalizar los números para facilitar las comparaciones, como analizar los montos por persona o en relación con el PIB o como un valor de índice en relación con un año base;
- Divida los problemas en componentes mediante el análisis de los factores que llevaron a los resultados, como el análisis de DuPont sobre el rendimiento del capital. [25]
Para las variables que se examinan, los analistas suelen obtener estadísticas descriptivas para ellas, como la media (promedio), la mediana y la desviación estándar . [61] También pueden analizar la distribución de las variables clave para ver cómo los valores individuales se agrupan alrededor de la media. [62]
Los consultores de McKinsey and Company nombraron una técnica para dividir un problema cuantitativo en sus partes componentes llamada principio MECE . [63] Cada capa se puede dividir en sus componentes; cada uno de los subcomponentes debe ser mutuamente excluyente entre sí y sumarse colectivamente a la capa por encima de ellos. [64] La relación se conoce como "mutuamente excluyente y colectivamente exhaustiva" o MECE. Por ejemplo, las ganancias, por definición, se pueden dividir en ingresos totales y costos totales. [65] A su vez, los ingresos totales pueden analizarse por sus componentes, como los ingresos de las divisiones A, B y C (que se excluyen mutuamente) y deben sumarse a los ingresos totales (colectivamente exhaustivos). [66]
Los analistas pueden utilizar medidas estadísticas sólidas para resolver ciertos problemas analíticos. [67] La prueba de hipótesis se utiliza cuando el analista formula una hipótesis particular sobre el verdadero estado de cosas y se recopilan datos para determinar si ese estado de cosas es verdadero o falso. [68] [69] Por ejemplo, la hipótesis podría ser que "El desempleo no tiene ningún efecto sobre la inflación", lo que se relaciona con un concepto económico llamado Curva de Phillips . [70] La prueba de hipótesis implica considerar la probabilidad de errores de tipo I y tipo II , que se relacionan con si los datos apoyan la aceptación o el rechazo de la hipótesis. [71] [72]
El análisis de regresión puede usarse cuando el analista está tratando de determinar hasta qué punto la variable independiente X afecta a la variable dependiente Y (p. Ej., "¿En qué medida los cambios en la tasa de desempleo (X) afectan la tasa de inflación (Y)?"). [73] Este es un intento de modelar o ajustar una línea o curva de ecuación a los datos, de modo que Y sea una función de X. [74] [75]
El análisis de condición necesaria (NCA) se puede utilizar cuando el analista está tratando de determinar hasta qué punto la variable independiente X permite la variable Y (p. Ej., "¿Hasta qué punto es necesaria una determinada tasa de desempleo (X) para una determinada tasa de inflación (Y)? ? "). [73] Mientras que el análisis de regresión (múltiple) utiliza una lógica aditiva en la que cada variable X puede producir el resultado y las X pueden compensarse entre sí (son suficientes pero no necesarias), [76] el análisis de condiciones necesarias (NCA) utiliza la lógica de necesidad , donde una o más variables X permiten que exista el resultado, pero pueden no producirlo (son necesarias pero no suficientes). Cada condición necesaria debe estar presente y la compensación no es posible. [77]
Actividades analíticas de los usuarios de datos
Los usuarios pueden tener puntos de interés de datos particulares dentro de un conjunto de datos, a diferencia de los mensajes generales descritos anteriormente. Estas actividades analíticas de usuario de bajo nivel se presentan en la siguiente tabla. La taxonomía también se puede organizar mediante tres polos de actividades: recuperar valores, encontrar puntos de datos y organizar puntos de datos. [78] [79] [80] [81]
# | Tarea | Descripción general | Resumen pro forma | Ejemplos de |
---|---|---|---|---|
1 | Recuperar valor | Dado un conjunto de casos específicos, encuentre los atributos de esos casos. | ¿Cuáles son los valores de los atributos {X, Y, Z, ...} en los casos de datos {A, B, C, ...}? | - ¿Cuál es el millaje por galón del Ford Mondeo? - ¿Cuánto dura la película Lo que el viento se llevó? |
2 | Filtrar | Dadas algunas condiciones concretas sobre los valores de los atributos, encuentre casos de datos que satisfagan esas condiciones. | ¿Qué casos de datos satisfacen las condiciones {A, B, C ...}? | - ¿Qué cereales de Kellogg's tienen un alto contenido de fibra? - ¿Qué comedias han ganado premios? - ¿Qué fondos obtuvieron un rendimiento inferior al SP-500? |
3 | Calcular valor derivado | Dado un conjunto de casos de datos, calcule una representación numérica agregada de esos casos de datos. | ¿Cuál es el valor de la función de agregación F sobre un conjunto S dado de casos de datos? | - ¿Cuál es el contenido calórico medio de los cereales Post? - ¿Cuál es el ingreso bruto de todas las tiendas combinadas? - ¿Cuántos fabricantes de coches hay? |
4 | Encuentra Extremum | Encuentre casos de datos que posean un valor extremo de un atributo en su rango dentro del conjunto de datos. | ¿Cuáles son los casos de datos N superiores / inferiores con respecto al atributo A? | - ¿Cuál es el auto con el MPG más alto? - ¿Qué director / película ha ganado más premios? - ¿Qué película de Marvel Studios tiene la fecha de estreno más reciente? |
5 | Clasificar | Dado un conjunto de casos de datos, clasifíquelos de acuerdo con alguna métrica ordinal. | ¿Cuál es el orden de clasificación de un conjunto S de casos de datos según su valor de atributo A? | - Ordena los coches por peso. - Clasifique los cereales por calorías. |
6 | Determinar rango | Dado un conjunto de casos de datos y un atributo de interés, encuentre el intervalo de valores dentro del conjunto. | ¿Cuál es el rango de valores del atributo A en un conjunto S de casos de datos? | - ¿Cuál es el rango de duración de las películas? - ¿Cuál es la gama de potencias de los coches? - ¿Qué actrices hay en el conjunto de datos? |
7 | Caracterizar la distribución | Dado un conjunto de casos de datos y un atributo cuantitativo de interés, caracterice la distribución de los valores de ese atributo en el conjunto. | ¿Cuál es la distribución de valores del atributo A en un conjunto S de casos de datos? | - ¿Cuál es la distribución de los carbohidratos en los cereales? - ¿Cuál es la distribución por edades de los compradores? |
8 | Encontrar anomalías | Identifique cualquier anomalía dentro de un conjunto dado de casos de datos con respecto a una relación o expectativa determinada, por ejemplo, valores atípicos estadísticos. | ¿Qué casos de datos en un conjunto S de casos de datos tienen valores inesperados / excepcionales? | - ¿Hay excepciones a la relación entre caballos de fuerza y aceleración? - ¿Hay valores atípicos en las proteínas? |
9 | Grupo | Dado un conjunto de casos de datos, busque grupos de valores de atributo similares. | ¿Qué casos de datos en un conjunto S de casos de datos tienen un valor similar para los atributos {X, Y, Z, ...}? | - ¿Hay grupos de cereales con grasas / calorías / azúcar similares? - ¿Existe un grupo de largometrajes típicos? |
10 | Correlación | Dado un conjunto de casos de datos y dos atributos, determine relaciones útiles entre los valores de esos atributos. | ¿Cuál es la correlación entre los atributos X e Y sobre un conjunto S dado de casos de datos? | - ¿Existe una correlación entre los carbohidratos y las grasas? - ¿Existe una correlación entre el país de origen y las MPG? - ¿Los diferentes géneros tienen un método de pago preferido? - ¿Existe una tendencia a aumentar la duración de las películas a lo largo de los años? |
11 | Contextualización [81] | Dado un conjunto de casos de datos, encuentre la relevancia contextual de los datos para los usuarios. | ¿Qué casos de datos en un conjunto S de casos de datos son relevantes para el contexto de los usuarios actuales? | - ¿Hay grupos de restaurantes que tengan alimentos basados en mi ingesta calórica actual? |
Barreras para un análisis efectivo
Pueden existir barreras para un análisis efectivo entre los analistas que realizan el análisis de datos o entre la audiencia. Distinguir los hechos de las opiniones, los sesgos cognitivos y el analfabetismo son todos desafíos para el análisis de datos sólidos. [82]
Confusión de hechos y opiniones
Daniel Patrick Moynihan
El análisis eficaz requiere obtener hechos relevantes para responder preguntas, respaldar una conclusión u opinión formal o probar hipótesis . [83] [84] Los hechos por definición son irrefutables, lo que significa que cualquier persona involucrada en el análisis debería poder estar de acuerdo con ellos. [85] Por ejemplo, en agosto de 2010, la Oficina de Presupuesto del Congreso (CBO) estimó que extender los recortes de impuestos de Bush de 2001 y 2003 para el período 2011-2020 agregaría aproximadamente $ 3.3 billones a la deuda nacional. [86] Todos deberían poder estar de acuerdo en que, de hecho, esto es lo que informó CBO; todos pueden examinar el informe. Esto lo convierte en un hecho. Si las personas están de acuerdo o en desacuerdo con la CBO es su propia opinión. [87]
Como otro ejemplo, el auditor de una empresa pública debe llegar a una opinión formal sobre si los estados financieros de las corporaciones que cotizan en bolsa están "expresados de manera justa, en todos los aspectos materiales". [88] Esto requiere un análisis extenso de datos fácticos y pruebas para respaldar su opinión. Al dar el salto de los hechos a las opiniones, siempre existe la posibilidad de que la opinión sea errónea . [89]
Sesgos cognitivos
Existe una variedad de sesgos cognitivos que pueden afectar negativamente al análisis. Por ejemplo, el sesgo de confirmación es la tendencia a buscar o interpretar información de una manera que confirme las ideas preconcebidas. [90] Además, las personas pueden desacreditar información que no respalde sus opiniones. [91]
Los analistas pueden estar capacitados específicamente para ser conscientes de estos sesgos y cómo superarlos. [92] En su libro Psychology of Intelligence Analysis , el analista retirado de la CIA Richards Heuer escribió que los analistas deberían delinear claramente sus suposiciones y cadenas de inferencia y especificar el grado y la fuente de la incertidumbre involucrada en las conclusiones. [93] Hizo hincapié en los procedimientos para ayudar a sacar a la luz y debatir puntos de vista alternativos. [94]
Innumeración
Los analistas eficaces suelen ser expertos en una variedad de técnicas numéricas. Sin embargo, es posible que el público no tenga tal alfabetización numérica o aritmética ; se dice que son innumerables. [95] Las personas que comunican los datos también pueden estar intentando engañar o desinformar, utilizando deliberadamente malas técnicas numéricas. [96]
Por ejemplo, si un número está subiendo o bajando puede no ser el factor clave. Más importante puede ser el número en relación con otro número, como el tamaño de los ingresos o gastos del gobierno en relación con el tamaño de la economía (PIB) o la cantidad de costo en relación con los ingresos en los estados financieros corporativos. [97] Esta técnica numérica se conoce como normalización [25] o tamaño común. Hay muchas técnicas de este tipo empleadas por los analistas, ya sea ajustando la inflación (es decir, comparando datos reales con los nominales) o considerando aumentos de población, datos demográficos, etc. [98] Los analistas aplican una variedad de técnicas para abordar los diversos mensajes cuantitativos descritos en el sección anterior. [99]
Los analistas también pueden analizar datos bajo diferentes supuestos o escenarios. Por ejemplo, cuando los analistas realizan análisis de estados financieros , a menudo reformularán los estados financieros bajo diferentes supuestos para ayudar a llegar a una estimación del flujo de efectivo futuro, que luego descuentan al valor presente con base en alguna tasa de interés, para determinar la valoración del flujo de efectivo futuro. empresa o sus acciones. [100] [101] De manera similar, la CBO analiza los efectos de diversas opciones de política sobre los ingresos, los desembolsos y los déficits del gobierno, creando escenarios futuros alternativos para las medidas clave. [102]
Otros temas
Edificios inteligentes
Se puede utilizar un enfoque de análisis de datos para predecir el consumo de energía en los edificios. [103] Los diferentes pasos del proceso de análisis de datos se llevan a cabo para realizar edificios inteligentes, donde las operaciones de gestión y control del edificio, incluidas la calefacción, ventilación, aire acondicionado, iluminación y seguridad, se realizan automáticamente imitando las necesidades de los usuarios del edificio. y optimizar recursos como energía y tiempo. [104]
Analítica e inteligencia empresarial
La analítica es el "uso extensivo de datos, análisis estadístico y cuantitativo, modelos explicativos y predictivos, y gestión basada en hechos para impulsar decisiones y acciones". Es un subconjunto de la inteligencia empresarial , que es un conjunto de tecnologías y procesos que utiliza datos para comprender y analizar el rendimiento empresarial para impulsar la toma de decisiones. [105]
Educación
En educación , la mayoría de los educadores tienen acceso a un sistema de datos con el propósito de analizar los datos de los estudiantes. [106] Estos sistemas de datos presentan datos a los educadores en un formato de datos de venta libre (incrustando etiquetas, documentación complementaria y un sistema de ayuda y tomando decisiones clave sobre paquetes / visualización y contenido) para mejorar la precisión de los análisis de datos de los educadores. [107]
Notas para el practicante
Esta sección contiene explicaciones bastante técnicas que pueden ayudar a los profesionales, pero están más allá del alcance típico de un artículo de Wikipedia. [108]
Análisis de datos inicial
La distinción más importante entre la fase de análisis de datos inicial y la fase de análisis principal es que durante el análisis de datos inicial uno se abstiene de cualquier análisis que tenga como objetivo responder a la pregunta de investigación original. [109] La fase inicial de análisis de datos se rige por las cuatro preguntas siguientes: [110]
Calidad de los datos
La calidad de los datos debe comprobarse lo antes posible. La calidad de los datos se puede evaluar de varias formas, utilizando diferentes tipos de análisis: recuentos de frecuencia, estadísticas descriptivas (media, desviación estándar, mediana), normalidad (asimetría, curtosis, histogramas de frecuencia), se necesita imputación normal . [111]
- Análisis de observaciones extremas : las observaciones periféricas en los datos se analizan para ver si parecen alterar la distribución. [112]
- Comparación y corrección de diferencias en los esquemas de codificación: las variables se comparan con esquemas de codificación de variables externas al conjunto de datos y posiblemente se corrigen si los esquemas de codificación no son comparables. [113]
- Pruebe la varianza del método común .
La elección de análisis para evaluar la calidad de los datos durante la fase inicial de análisis de datos depende de los análisis que se realizarán en la fase de análisis principal. [114]
Calidad de las medidas
La calidad de los instrumentos de medición solo debe verificarse durante la fase inicial de análisis de datos cuando este no sea el enfoque o la pregunta de investigación del estudio. [115] [116] Se debe verificar si la estructura de los instrumentos de medición corresponde a la estructura reportada en la literatura.
Hay dos formas de evaluar la calidad de la medición:
- Análisis factorial confirmatorio
- Análisis de homogeneidad ( consistencia interna ), que da una indicación de la fiabilidad de un instrumento de medida. [117] Durante este análisis, se inspeccionan las varianzas de los ítems y las escalas, el α de Cronbach de las escalas y el cambio en el alfa de Cronbach cuando un ítem sería eliminado de una escala [118]
Transformaciones iniciales
Después de evaluar la calidad de los datos y de las mediciones, se puede decidir imputar los datos faltantes o realizar transformaciones iniciales de una o más variables, aunque esto también se puede hacer durante la fase de análisis principal. [119]
Las posibles transformaciones de variables son: [120]
- Transformación de raíz cuadrada (si la distribución difiere moderadamente de la normal)
- Transformación logarítmica (si la distribución difiere sustancialmente de la normal)
- Transformación inversa (si la distribución difiere mucho de la normal)
- Hacer categórico (ordinal / dicotómico) (si la distribución difiere mucho de la normal y no ayuda ninguna transformación)
¿La implementación del estudio cumplió con las intenciones del diseño de la investigación?
Se debe verificar el éxito del procedimiento de aleatorización , por ejemplo, verificando si las variables de fondo y sustantivas están distribuidas por igual dentro y entre los grupos. [121]
Si el estudio no necesitó o utilizó un procedimiento de aleatorización, se debe verificar el éxito del muestreo no aleatorio, por ejemplo, verificando si todos los subgrupos de la población de interés están representados en la muestra. [122]
Otras posibles distorsiones de los datos que deben comprobarse son:
- abandono (esto debe identificarse durante la fase inicial de análisis de datos)
- La falta de respuesta al ítem (si esto es aleatorio o no, debe evaluarse durante la fase inicial de análisis de datos)
- Calidad del tratamiento (mediante controles de manipulación ). [123]
Características de la muestra de datos
En cualquier informe o artículo, la estructura de la muestra debe describirse con precisión. [124] [125] Es especialmente importante determinar exactamente la estructura de la muestra (y específicamente el tamaño de los subgrupos) cuando se realizarán análisis de subgrupos durante la fase de análisis principal. [126]
Las características de la muestra de datos se pueden evaluar observando:
- Estadísticas básicas de variables importantes
- Gráfico de dispersión
- Correlaciones y asociaciones
- Tabulaciones cruzadas [127]
Etapa final del análisis de datos inicial
Durante la etapa final, se documentan los hallazgos del análisis de datos inicial y se toman las acciones correctivas necesarias, preferibles y posibles. [128]
Además, el plan original para los principales análisis de datos puede y debe especificarse con más detalle o reescribirse. [129] [130]
Para ello, pueden y deben tomarse varias decisiones sobre los principales análisis de datos:
- En el caso de no normales : se deben transformar variables; hacer variables categóricas (ordinales / dicotómicas); adaptar el método de análisis?
- En el caso de datos faltantes : ¿se debe descuidar o imputar los datos faltantes? ¿Qué técnica de imputación debería utilizarse?
- En el caso de valores atípicos : ¿se deben utilizar técnicas de análisis robustas?
- En caso de que los ítems no se ajusten a la escala: ¿se debería adaptar el instrumento de medición omitiendo ítems, o más bien asegurar la comparabilidad con otros (usos del) instrumento (s) de medición?
- En el caso de subgrupos (demasiado) pequeños: ¿se debería descartar la hipótesis sobre las diferencias entre grupos o utilizar técnicas de muestra pequeña, como pruebas exactas o bootstrapping ?
- En caso de que el procedimiento de aleatorización parezca defectuoso: ¿se pueden y se deben calcular las puntuaciones de propensión e incluirlas como covariables en los análisis principales? [131]
Análisis
Se pueden utilizar varios análisis durante la fase inicial de análisis de datos: [132]
- Estadística univariante (variable única)
- Asociaciones bivariadas (correlaciones)
- Técnicas gráficas (diagramas de dispersión)
Es importante tener en cuenta los niveles de medición de las variables para los análisis, ya que se dispone de técnicas estadísticas especiales para cada nivel: [133]
- Variables nominales y ordinales
- Recuentos de frecuencia (números y porcentajes)
- Asociaciones
- circunvalaciones (tabulaciones cruzadas)
- análisis loglineal jerárquico (restringido a un máximo de 8 variables)
- análisis loglineal (para identificar variables relevantes / importantes y posibles factores de confusión)
- Pruebas exactas o bootstrapping (en caso de que los subgrupos sean pequeños)
- Cálculo de nuevas variables
- Variables continuas
- Distribución
- Estadísticas (M, SD, varianza, asimetría, curtosis)
- Exhibidores de tallo y hojas
- Diagramas de caja
- Distribución
Análisis no lineal
El análisis no lineal suele ser necesario cuando los datos se registran desde un sistema no lineal . Los sistemas no lineales pueden exhibir efectos dinámicos complejos que incluyen bifurcaciones , caos , armónicos y subarmónicos que no se pueden analizar con métodos lineales simples. El análisis de datos no lineales está estrechamente relacionado con la identificación de sistemas no lineales . [134]
Análisis de datos principales
En la fase de análisis principal se realizan análisis destinados a responder la pregunta de investigación, así como cualquier otro análisis relevante necesario para redactar el primer borrador del informe de investigación. [135]
Enfoques exploratorios y confirmatorios
En la fase de análisis principal se puede adoptar un enfoque exploratorio o confirmatorio. Por lo general, el enfoque se decide antes de recopilar los datos. [136] En un análisis exploratorio no se establece una hipótesis clara antes de analizar los datos, y se buscan en los datos modelos que describan bien los datos. [137] En un análisis confirmatorio se prueban hipótesis claras sobre los datos. [138]
El análisis de datos exploratorios debe interpretarse con cuidado. Cuando se prueban varios modelos a la vez, existe una alta probabilidad de encontrar al menos uno de ellos significativo, pero esto puede deberse a un error de tipo 1 . [139] Es importante ajustar siempre el nivel de significancia cuando se prueban varios modelos con, por ejemplo, una corrección de Bonferroni . [140] Además, no se debe seguir un análisis exploratorio con un análisis confirmatorio en el mismo conjunto de datos. [141] Un análisis exploratorio se utiliza para encontrar ideas para una teoría, pero no para probar esa teoría también. [141] Cuando un modelo se encuentra exploratorio en un conjunto de datos, el seguimiento de ese análisis con un análisis confirmatorio en el mismo conjunto de datos podría significar simplemente que los resultados del análisis confirmatorio se deben al mismo error tipo 1 que resultó en el modelo exploratorio. en primer lugar. [141] Por tanto, el análisis confirmatorio no será más informativo que el análisis exploratorio original. [142]
Estabilidad de resultados
Es importante obtener alguna indicación sobre qué tan generalizables son los resultados. [143] Si bien esto a menudo es difícil de verificar, se puede observar la estabilidad de los resultados. ¿Son los resultados fiables y reproducibles? Hay dos formas principales de hacerlo. [144]
- Validación cruzada . Al dividir los datos en varias partes, podemos verificar si un análisis (como un modelo ajustado) basado en una parte de los datos se generaliza también a otra parte de los datos. [145] Sin embargo, la validación cruzada es generalmente inapropiada si existen correlaciones dentro de los datos, por ejemplo, con datos de panel . [146] Por tanto, a veces es necesario utilizar otros métodos de validación. Para obtener más información sobre este tema, consulte la validación del modelo estadístico . [147]
- Análisis de sensibilidad . Procedimiento para estudiar el comportamiento de un sistema o modelo cuando los parámetros globales se varían (sistemáticamente). Una forma de hacerlo es mediante bootstrapping . [148]
Software gratuito para análisis de datos
El software gratuito notable para el análisis de datos incluye:
- DevInfo - Un sistema de base de datos respaldado por el Grupo de Desarrollo de las Naciones Unidas para monitorear y analizar el desarrollo humano. [149]
- ELKI : marco de minería de datos en Java con funciones de visualización orientadas a la minería de datos.
- KNIME : Konstanz Information Miner, un marco de análisis de datos completo y fácil de usar.
- Naranja : una herramienta de programación visual que presenta métodos y visualización de datos interactivos para el análisis de datos estadísticos, la minería de datos y el aprendizaje automático .
- Pandas : biblioteca de Python para análisis de datos.
- PAW - Marco de análisis de datos FORTRAN / C desarrollado en el CERN .
- R : lenguaje de programación y entorno de software para gráficos y computación estadística. [150]
- ROOT - Marco de análisis de datos C ++ desarrollado en el CERN .
- SciPy : biblioteca de Python para análisis de datos.
- Julia : un lenguaje de programación muy adecuado para el análisis numérico y la ciencia computacional.
Concursos internacionales de análisis de datos
Diferentes empresas u organizaciones realizan concursos de análisis de datos para alentar a los investigadores a utilizar sus datos o resolver una pregunta en particular mediante el análisis de datos. [151] [152] A continuación se muestran algunos ejemplos de concursos internacionales de análisis de datos bien conocidos. [153]
- Competencia de Kaggle organizada por Kaggle [154]
- Concurso de análisis de datos LTPP realizado por FHWA y ASCE . [155] [156]
Ver también
- Ciencia actuarial
- Analítica
- Big data
- Inteligencia de Negocio
- Censura (estadísticas)
- Física computacional
- Adquisición de datos
- Combinación de datos
- Dato de governancia
- Procesamiento de datos
- Arquitectura de presentación de datos
- Ciencia de los datos
- Procesamiento de señales digitales
- Reducción de dimensión
- Evaluación temprana de casos
- Análisis exploratorio de datos
- análisis de Fourier
- Aprendizaje automático
- PCA multilineal
- Aprendizaje subespacial multilineal
- Análisis de datos de múltiples vías
- Búsqueda de vecino más cercano
- Identificación del sistema no lineal
- Analítica predictiva
- Análisis de componentes principales
- Investigación cualitativa
- Computación científica
- Análisis de datos estructurados (estadísticas)
- Identificación del sistema
- Método de prueba
- Analítica de texto
- Datos no estructurados
- Wavelet
- Lista de empresas de big data
Referencias
Citas
- ^ a b "Transformación de datos no estructurados en información útil" , Big Data, minería y análisis , publicaciones de Auerbach, pp. 227–246, 2014-03-12, doi : 10.1201 / b16666-14 , ISBN 978-0-429-09529-0, consultado el 29 de mayo de 2021
- ^ "Las múltiples facetas de las funciones de correlación" , Técnicas de análisis de datos para científicos físicos , Cambridge University Press, págs. 526–576, 2017, doi : 10.1017 / 9781108241922.013 , ISBN 978-1-108-41678-8, consultado el 29 de mayo de 2021
- ^ Xia, BS y Gong, P. (2015). Revisión de inteligencia empresarial mediante análisis de datos. Evaluación comparativa , 21 (2), 300-311. doi: 10.1108 / BIJ-08-2012-0050
- ^ Explorando el análisis de datos
- ^ "Reglas de codificación de datos y análisis exploratorio (EDA) para supuestos estadísticos de codificación de datos de análisis exploratorio de datos (EDA)" , SPSS para estadísticas intermedias , Routledge, págs. 42–67, 2004-08-16, doi : 10.4324 / 9781410611420-6 , ISBN 978-1-4106-1142-0, consultado el 29 de mayo de 2021
- ^ SPIE (1 de octubre de 2014). "La nueva convocatoria europea de TIC se centra en PIC, láseres, transferencia de datos" . SPIE Professional . doi : 10.1117 / 2.4201410.10 . ISSN 1994-4403 .
- ^ Samandar, Petersson, Sofia Svantesson (2017). Skapandet av förtroende inom eWOM: En studie av profilbildens effekt ur ett könsperspektiv . Högskolan i Gävle, Företagsekonomi. OCLC 1233454128 .
- ^ Buenas noches, James (13 de enero de 2011). "El pronóstico para el análisis predictivo: caliente y cada vez más caliente" . Análisis estadístico y minería de datos: The ASA Data Science Journal . 4 (1): 9–10. doi : 10.1002 / sam.10106 . ISSN 1932-1864 .
- ^ Sherman, Rick (4 de noviembre de 2014). Guía de inteligencia empresarial: de la integración de datos a la analítica . Amsterdam. ISBN 978-0-12-411528-6. OCLC 894555128 .
- ^ Field, John (2009), "Dividing listening in its components" , Listening in the Language Classroom , Cambridge: Cambridge University Press, págs. 96–109, doi : 10.1017 / cbo9780511575945.008 , ISBN 978-0-511-57594-5, consultado el 29 de mayo de 2021
- ^ a b c Judd, Charles y McCleland, Gary (1989). Análisis de datos . Harcourt Brace Jovanovich. ISBN 0-15-516765-0.
- ^ John Tukey-El futuro del análisis de datos-julio de 1961
- ^ a b c d e f g Schutt, Rachel; O'Neil, Cathy (2013). Haciendo ciencia de datos . O'Reilly Media . ISBN 978-1-449-35865-5.
- ^ "USO DE LOS DATOS" , Handbook of Petroleum Product Analysis , Hoboken, Nueva Jersey: John Wiley & Sons, Inc, págs. 296–303, 2015-02-06, doi : 10.1002 / 9781118986370.ch18 , ISBN 978-1-118-98637-0, consultado el 29 de mayo de 2021
- ^ autor., Ainsworth, Penne (20 de mayo de 2019). Introducción a la contabilidad: un enfoque integrado . ISBN 978-1-119-60014-5. OCLC 1097366032 .
- ^ 1954-, Margo, Robert A. (Robert Andrew) (2000). Salarios y mercados laborales en los Estados Unidos, 1820-1860 . Prensa de la Universidad de Chicago. ISBN 0-226-50507-3. OCLC 41285104 .CS1 maint: nombres numéricos: lista de autores ( enlace )
- ^ Olusola, Johnson Adedeji; Shote, Adebola Adekunle; Ouigmane, Abdellah; Isaifan, Rima J. (7 de mayo de 2021). "Tabla 1: Tipo de datos y fuentes de datos recopilados para esta investigación" . PeerJ . 9 : e11387. doi : 10.7717 / peerj.11387 / table-1 . Consultado el 29 de mayo de 2021 .
- ^ MacPherson, Derek (2019-10-16), "Perspectivas de los analistas de tecnología de la información" , Estrategia de datos en colegios y universidades , Routledge, págs. 168-183, doi : 10.4324 / 9780429437564-12 , ISBN 978-0-429-43756-4, consultado el 29 de mayo de 2021
- ^ 1959-, Nelson, Stephen L. (2014). Análisis de datos de Excel para tontos . Wiley. ISBN 978-1-118-89810-9. OCLC 877772392 .CS1 maint: nombres numéricos: lista de autores ( enlace )
- ^ "Figura 3: datos de origen 1. Valores sin procesar y procesados obtenidos mediante qPCR" . dx.doi.org . 30 de agosto de 2017. doi : 10.7554 / elife.28468.029 . Consultado el 29 de mayo de 2021 .
- ^ a b Bohannon, John (24 de febrero de 2016). "Muchas encuestas, aproximadamente una de cada cinco, pueden contener datos fraudulentos" . Ciencia . doi : 10.1126 / science.aaf4104 . ISSN 0036-8075 .
- ^ D., Garber, Jeannie Scruggs. Bruto, Monty. Slonim, Anthony (2010). Evitar errores de enfermería habituales . Wolters Kluwer Health / Lippincott Williams & Wilkins. ISBN 978-1-60547-087-0. OCLC 338288678 .
- ^ "Limpieza de datos" . Investigación de Microsoft . Consultado el 26 de octubre de 2013 .
- ^ Hancock, RGV; Carter, Tristan (febrero de 2010). "¿Qué tan confiables son nuestros análisis arqueométricos publicados? Efectos de las técnicas analíticas a través del tiempo en el análisis elemental de obsidianas" . Revista de Ciencias Arqueológicas . 37 (2): 243–250. doi : 10.1016 / j.jas.2009.10.004 . ISSN 0305-4403 .
- ^ a b c Perceptual Edge-Jonathan Koomey-Mejores prácticas para comprender datos cuantitativos-14 de febrero de 2006
- ^ Peleg, Roni; Avdalimov, Angelika; Freud, Tamar (23 de marzo de 2011). "Proporcionar números de teléfono celular y direcciones de correo electrónico a los pacientes: la perspectiva del médico" . Notas de investigación de BMC . 4 (1): 76. doi : 10.1186 / 1756-0500-4-76 . ISSN 1756-0500 . PMC 3076270 . PMID 21426591 .
- ^ 1944-, Goodman, Lenn Evan (1998). Judaísmo, derechos humanos y valores humanos . Prensa de la Universidad de Oxford. ISBN 0-585-24568-1. OCLC 45733915 .CS1 maint: nombres numéricos: lista de autores ( enlace )
- ^ Hanzo, Lajos. dx.doi.org . doi : 10.1049 / iet-tv.44.786 http://dx.doi.org/10.1049/iet-tv.44.786 . Consultado el 29 de mayo de 2021 . Falta o vacío
|title=
( ayuda ) - ^ Hellerstein, Joseph (27 de febrero de 2008). "Limpieza de datos cuantitativos para grandes bases de datos" (PDF) . División de Ciencias de la Computación de EECS : 3 . Consultado el 26 de octubre de 2013 .
- ^ Davis, Steve; Pettengill, James B .; Luo, Yan; Payne, Justin; Shpuntoff, Al; Rand, Hugh; Strain, Errol (26 de agosto de 2015). "CFSAN SNP Pipeline: un método automatizado para construir matrices SNP a partir de datos de secuencia de próxima generación" . PeerJ Ciencias de la Computación . 1 : e20. doi : 10.7717 / peerj-cs.20 / supp-1 . Consultado el 31 de mayo de 2021 .
- ^ "La FTC solicita datos adicionales" . Analista de la industria de bombas . 1999 (48): 12 de diciembre de 1999. doi : 10.1016 / s1359-6128 (99) 90509-8 . ISSN 1359-6128 .
- ^ "Exploración de sus datos con visualización de datos y estadísticas descriptivas: estadísticas descriptivas comunes para datos cuantitativos" . 2017. doi : 10.4135 / 9781529732795 . Cite journal requiere
|journal=
( ayuda ) - ^ G., Murray, Daniel (2013). Tableau sus datos! : análisis visual rápido y sencillo con Tableau Software . J. Wiley & Sons. ISBN 978-1-118-61204-0. OCLC 873810654 .
- ^ Ben-Ari, Mordechai (2012), "Lógica de primer orden: fórmulas, modelos, cuadros" , Lógica matemática para la informática , Londres: Springer London, págs. 131-154, doi : 10.1007 / 978-1-4471-4129 -7_7 , ISBN 978-1-4471-4128-0, consultado el 31 de mayo de 2021
- ^ Ernest., Sosa (2011). Causalidad . Universidad de Oxford. Prensa. ISBN 978-0-19-875094-9. OCLC 767569031 .
- ^ "Figura 2. Importancia de la variable por permutación, promediada sobre 25 modelos" . dx.doi.org . doi : 10.7554 / elife.22053.004 . Consultado el 31 de mayo de 2021 .
- ^ "Tabla 3: Estadística descriptiva (media ± DE), inferencial (IC 95%) y cualitativa (ES) de todas las variables entre condiciones auto-seleccionadas y predeterminadas" . dx.doi.org . doi : 10.7717 / peerj.10361 / table-3 . Consultado el 31 de mayo de 2021 .
- ^ "Cuadro 3: Mejores modelos de regresión entre datos LIDAR (variable independiente) y datos Forestereo de campo (variable dependiente), utilizados para mapear la distribución espacial de las principales variables de la estructura forestal" . dx.doi.org . doi : 10.7717 / peerj.10158 / table-3 . Consultado el 31 de mayo de 2021 .
- ^ Términos de ventas internacionales , Beck / Hart, 2014, doi : 10.5040 / 9781472561671.ch-003 , ISBN 978-1-4725-6167-1, consultado el 31 de mayo de 2021
- ^ Nwabueze, JC (21 de mayo de 2008). "Actuaciones de estimadores de modelo lineal con términos de error autocorrelacionados cuando la variable independiente es normal" . Revista de la Asociación Nigeriana de Física Matemática . 9 (1). doi : 10.4314 / jonamp.v9i1.40071 . ISSN 1116-4336 .
- ^ Conway, Steve (4 de julio de 2012). "Una nota de advertencia sobre entradas de datos y salidas visuales en el análisis de redes sociales" . British Journal of Management . 25 (1): 102-117. doi : 10.1111 / j.1467-8551.2012.00835.x . hdl : 2381/36068 . ISSN 1045-3172 . S2CID 154347514 .
- ^ "Compras de clientes y otros eventos repetidos" , Análisis de datos con SQL y Excel® , Indianápolis, Indiana: John Wiley & Sons, Inc., págs. 367–420, 2016-01-29, doi : 10.1002 / 9781119183419.ch8 , ISBN 978-1-119-18341-9, consultado el 31 de mayo de 2021
- ^ Grandjean, Martin (2014). "La connaissance est un réseau" (PDF) . Les Cahiers du Numérique . 10 (3): 37–54. doi : 10.3166 / lcn.10.3.37-54 .
- ^ Requisitos de datos para la matriz de semiconductores. Formatos de intercambio de datos y diccionario de datos , estándares británicos de BSI, doi : 10.3403 / 02271298 , consultado el 31 de mayo de 2021
- ^ Yee, D. (1 de abril de 1985). "Cómo comunicar su mensaje a una audiencia de manera eficaz" . El Gerontólogo . 25 (2): 209. doi : 10.1093 / geront / 25.2.209 . ISSN 0016-9013 .
- ^ Información complementaria 1: datos brutos para gráficos y tablas . doi : 10.7287 / peerj.preprints.27793v1 / supp-1 http://dx.doi.org/10.7287/peerj.preprints.27793v1/supp-1 . Consultado el 31 de mayo de 2021 . Falta o vacío
|title=
( ayuda ) - ^ Visualización de datos sobre museos del Reino Unido: gráficos de barras, gráficos de líneas y mapas de calor . 2021. doi : 10.4135 / 9781529768749 . ISBN 9781529768749.
- ^ Tunqui Neira, José Manuel (19-09-2019). "Gracias por su reseña. En el archivo pdf adjunto encontrará una respuesta detallada a los puntos que planteó" . dx.doi.org . doi : 10.5194 / hess-2019-325-ac2 . Consultado el 1 de junio de 2021 .
- ^ Brackett, John W. (1989), "Realización de cursos de proyectos de análisis de requisitos para clientes externos" , Issues in Software Engineering Education , Nueva York, NY: Springer New York, págs. 276–285, doi : 10.1007 / 978-1-4613 -9614-7_20 , ISBN 978-1-4613-9616-1, consultado el 2021-06-03
- ^ "Figura 2: fluctuaciones bimensuales de la población de cochinilla en el sur de Vietnam, durante un período de 2 años" . dx.doi.org . doi : 10.7717 / peerj.5796 / fig-2 . Consultado el 3 de junio de 2021 .
- ^ Riehl, Emily (2014), "Una muestra de aspectos de dos categorías de la teoría de las cuasicategorías " , Teoría de la homotopía categórica , Cambridge: Cambridge University Press, págs. 318–336, doi : 10.1017 / cbo9781107261457.019 , ISBN 978-1-107-26145-7, consultado el 2021-06-03
- ^ "X-BAR CHART" , SpringerReference , Berlín / Heidelberg: Springer-Verlag, 2011, doi : 10.1007 / springerreference_7402 , consultado el 3 de junio de 2021
- ^ "Gráfico C5.3. Porcentaje de jóvenes de 15 a 19 años que no estudian, por situación en el mercado laboral (2012)" . dx.doi.org . doi : 10.1787 / 888933119055 . Consultado el 3 de junio de 2021 .
- ^ "Gráfico 7: Hogares: gasto en consumo final versus consumo individual real" . dx.doi.org . doi : 10.1787 / 665527077310 . Consultado el 3 de junio de 2021 .
- ^ "Figura 4. Frecuencia de hemifusión (medida como desactivación de fluorescencia DiD) en función del número de moléculas unidas de Alexa-fluor-555 / 3-110-22" . dx.doi.org . doi : 10.7554 / elife.36461.006 . Consultado el 3 de junio de 2021 .
- ^ "Tabla 2: comparación gráfica entre diagrama de dispersión, violín + diagrama de dispersión, mapa de calor y gráfico ViSiElse" . dx.doi.org . doi : 10.7717 / peerj.8341 / table-2 . Consultado el 3 de junio de 2021 .
- ^ "Cuadro comparativo de productos: Wearables" . Conjunto de datos PsycEXTRA . 2009. doi : 10.1037 / e539162010-006 . Consultado el 3 de junio de 2021 .
- ^ Stephen Few-Perceptual Edge-Seleccionando el gráfico correcto para su mensaje-2004
- ^ Matriz de selección de gráfico de bordes de Stephen Few-Perceptual
- ^ "Mejores prácticas recomendadas" . dx.doi.org . 2008-10-01. doi : 10.14217 / 9781848590151-8-en . Consultado el 3 de junio de 2021 .
- ^ "Tabla 1: Estadística descriptiva (media ± desviación estándar) para variables somáticas y ítems de aptitud física para hombres y mujeres" . dx.doi.org . doi : 10.7717 / peerj.4032 / table-1 . Consultado el 3 de junio de 2021 .
- ^ "Tabla 2: Análisis de conglomerados que presenta valores medios de variables psicológicas por grupo de conglomerados" . dx.doi.org . doi : 10.7717 / peerj.2421 / table-2 . Consultado el 3 de junio de 2021 .
- ^ "Consultores empleados por McKinsey & Company" , Comportamiento organizacional 5 , Routledge, págs. 77–82, 2008-07-30, doi : 10.4324 / 9781315701974-15 , ISBN 978-1-315-70197-4, consultado el 2021-06-03
- ^ Antiphanes (2007), Olson, S. Douglas (ed.), "H6 Antiphanes fr.172.1-4, de Mujeres que se parecían entre sí o de hombres que se parecían entre sí" , Risa rota: fragmentos selectos de la comedia griega , Oxford University Press, doi : 10.1093 / oseo / instance.00232915 , ISBN 978-0-19-928785-7, consultado el 2021-06-03
- ^ Carey, Malachy (noviembre de 1981). "Sobre las propiedades mutuamente excluyentes y colectivamente exhaustivas de las funciones de demanda" . Economica . 48 (192): 407–415. doi : 10.2307 / 2553697 . ISSN 0013-0427 . JSTOR 2553697 .
- ^ "Ingresos fiscales totales" . dx.doi.org . doi : 10.1787 / 352874835867 . Consultado el 3 de junio de 2021 .
- ^ "El coche de doble uso puede solucionar problemas de transporte" . Archivo de noticias de química e ingeniería . 46 (24): 44. 3 de junio de 1968. doi : 10.1021 / cen-v046n024.p044 . ISSN 0009-2347 .
- ^ Heckman (1978). "Modelos estadísticos simples para datos de panel discretos desarrollados y aplicados para probar la hipótesis de dependencia del estado verdadero contra la hipótesis de dependencia del estado espuria" . Annales de l'inséé (30/31): 227–269. doi : 10.2307 / 20075292 . ISSN 0019-0209 . JSTOR 20075292 .
- ^ DEAN., KOONTZ (2017). MEMORIA FALSA . HEADLINE Publicación de libros. ISBN 978-1-4722-4830-5. OCLC 966253202 .
- ^ Munday, Stephen CR (1996), "Unemployment, Inflation and the Phillips Curve" , Current Developments in Economics , Londres: Macmillan Education UK, págs. 186–218, doi : 10.1007 / 978-1-349-24986-2_11 , ISBN 978-0-333-64444-7, consultado el 2021-06-03
- ^ Louangrath, Paul I. (2013). "Pruebas alfa y beta para la determinación de errores inferenciales tipo I y tipo II en pruebas de hipótesis" . Diario electrónico SSRN . doi : 10.2139 / ssrn.2332756 . ISSN 1556-5068 .
- ^ Ann, Walko, M. (2006). Rechazo de la hipótesis de la segunda generación: mantenimiento de la etnia estonia en Lakewood, Nueva Jersey . AMS Press. ISBN 0-404-19454-0. OCLC 467107876 .
- ^ a b Yanamandra, Venkataramana (septiembre de 2015). "Cambios en el tipo de cambio e inflación en la India: ¿Cuál es el alcance del traspaso del tipo de cambio a las importaciones?" . Análisis y política económica . 47 : 57–68. doi : 10.1016 / j.eap.2015.07.004 . ISSN 0313-5926 .
- ^ autor., Nawarathna Mudiyanselage, Pubudu Manoj Nawarathna. Caracterización de los cambios epigenéticos y su conexión con anomalías en la expresión génica en el carcinoma de células renales de células claras . OCLC 1190697848 .
- ^ "Apéndice 1: figura 5. Datos de la curva incluidos en el Apéndice 1: tabla 4 (puntos sólidos) y la curva teórica utilizando los parámetros de la ecuación de Hill del Apéndice 1: tabla 5 (línea curva)" . dx.doi.org . doi : 10.7554 / elife.25233.027 . Consultado el 3 de junio de 2021 .
- ^ Feinmann, Jane. dx.doi.org . doi : 10.1049 / iet-tv.48.859 http://dx.doi.org/10.1049/iet-tv.48.859 . Consultado el 3 de junio de 2021 . Falta o vacío
|title=
( ayuda ) - ^ Dul, enero (2015). "Análisis de condición necesaria (NCA): lógica y metodología de la causalidad 'necesaria pero no suficiente'" . Diario electrónico SSRN . doi : 10.2139 / ssrn.2588480 . hdl : 1765/77890 . ISSN 1556-5068 . S2CID 219380122 .
- ^ Robert Amar, James Eagan y John Stasko (2005) "Componentes de bajo nivel de la actividad analítica en la visualización de información"
- ^ William Newman (1994) "Un análisis preliminar de los productos de la investigación de HCI, utilizando resúmenes pro forma"
- ^ Mary Shaw (2002) "¿Qué hace una buena investigación en ingeniería de software?"
- ^ a b "ConTaaS: un enfoque a la contextualización a escala de Internet para desarrollar aplicaciones eficientes de Internet de las cosas" . ScholarSpace . HICSS50. hdl : 10125/41879 . Consultado el 24 de mayo de 2017 .
- ^ "La herramienta de conectividad transfiere datos entre bases de datos y productos estadísticos" . Estadística computacional y análisis de datos . 8 (2): 224. Julio de 1989. doi : 10.1016 / 0167-9473 (89) 90021-2 . ISSN 0167-9473 .
- ^ "Información relevante para su trabajo" , Obtención de información para una gestión eficaz , Routledge, págs. 48–54, 2007-07-11, doi : 10.4324 / 9780080544304-16 , ISBN 978-0-08-054430-4, consultado el 2021-06-03
- ^ 1917-, Lehmann, EL (Erich Leo) (2010). Prueba de hipótesis estadísticas . Saltador. ISBN 978-1-4419-3178-8. OCLC 757477004 .CS1 maint: nombres numéricos: lista de autores ( enlace )
- ^ Fielding, Henry (2008-08-14), "Consiste en parte en hechos y en parte en observaciones sobre ellos" , Tom Jones , Oxford University Press, doi : 10.1093 / owc / 9780199536993.003.0193 , ISBN 978-0-19-953699-3, consultado el 2021-06-03
- ^ "Oficina de Presupuesto del Congreso-El presupuesto y las perspectivas económicas-agosto de 2010-Tabla 1.7 en la página 24" (PDF) . Consultado el 31 de marzo de 2011 .
- ^ "Sentido de pertenencia de los estudiantes, por origen inmigrante" . Resultados de PISA 2015 (Volumen III) . PISA. 2017-04-19. doi : 10.1787 / 9789264273856-table125-en . ISBN 9789264273818. ISSN 1996-3777 .
- ^ Gordon, Roger (marzo de 1990). "¿Actúan las corporaciones que cotizan en bolsa en el interés público?" . Cambridge, MA. doi : 10.3386 / w3303 . Cite journal requiere
|journal=
( ayuda ) - ^ Minardi, Margot (2010-09-24), "Facts and Opinion" , Making Slavery History , Oxford University Press, págs. 13–42, doi : 10.1093 / acprof: oso / 9780195379372.003.0003 , ISBN 978-0-19-537937-2, consultado el 2021-06-03
- ^ Rivard, Jillian R. Sesgo de confirmación en la entrevista de testigos: ¿Pueden los entrevistadores ignorar sus ideas preconcebidas? (Tesis). Universidad Internacional de Florida. doi : 10.25148 / etd.fi14071109 .
- ^ Papineau, David (1988), "¿La sociología de la ciencia desacredita a la ciencia?" , Relativismo y realismo en la ciencia , Dordrecht: Springer Países Bajos, págs. 37–57, doi : 10.1007 / 978-94-009-2877-0_2 , ISBN 978-94-010-7795-8, consultado el 2021-06-03
- ^ Bromme, Rainer; Hesse, Friedrich W .; Spada, Hans, eds. (2005). Barreras y sesgos en la comunicación del conocimiento mediada por computadora . doi : 10.1007 / b105100 . ISBN 978-0-387-24317-7.
- ^ Heuer, Richards (10 de junio de 2019). Heuer, Richards J (ed.). Enfoques cuantitativos de la inteligencia política . doi : 10.4324 / 9780429303647 . ISBN 9780429303647.
- ^ "Introducción" . cia.gov .
- ^ "Figura 6.7. Las diferencias en los puntajes de alfabetización entre los países de la OCDE generalmente reflejan las de aritmética" . dx.doi.org . doi : 10.1787 / 888934081549 . Consultado el 3 de junio de 2021 .
- ^ Bloomberg-Barry Ritholz-Bad Math que pasa por Insight-28 de octubre de 2014
- ^ Gusnaini, Nuriska; Andesto, Rony; Ermawati,. (15/12/2020). "El efecto del tamaño del gobierno regional, tamaño legislativo, número de población e ingresos intergubernamentales en la divulgación de los estados financieros" . Revista europea de investigación empresarial y de gestión . 5 (6). doi : 10.24018 / ejbmr.2020.5.6.651 . ISSN 2507-1076 .CS1 maint: nombres numéricos: lista de autores ( enlace )
- ^ Linsey, Julie S .; Becker, Blake (2011), "Effectiveness of Brainwriting Techniques: Comparing Nominal Groups to Real Teams" , Design Creativity 2010 , Londres: Springer London, págs. 165-171, doi : 10.1007 / 978-0-85729-224-7_22 , ISBN 978-0-85729-223-0, consultado el 2021-06-03
- ^ Lyon, J. (abril de 2006). "Dirección supuestamente responsable en mensajes de correo electrónico" . doi : 10.17487 / rfc4407 . Cite journal requiere
|journal=
( ayuda ) - ^ Verfasser, Stock, Eugene (10 de junio de 2017). La Historia de la Iglesia Sociedad Misionera Su entorno, sus hombres y su obra . ISBN 978-3-337-18120-8. OCLC 1189626777 .
- ^ Gross, William H. (julio de 1979). "Ciclos de tasa de interés y valoración de cupones" . Diario de analistas financieros . 35 (4): 68–71. doi : 10.2469 / faj.v35.n4.68 . ISSN 0015-198X .
- ^ "25. Desembolsos totales de las administraciones públicas" . dx.doi.org . doi : 10.1787 / 888932348795 . Consultado el 3 de junio de 2021 .
- ^ González-Vidal, Aurora; Moreno-Cano, Victoria (2016). "Hacia modelos de edificios inteligentes de eficiencia energética basados en análisis de datos inteligentes" . Procedia Informática . 83 (Elsevier): 994–999. doi : 10.1016 / j.procs.2016.04.213 .
- ^ "Control de iluminación y aire acondicionado de bajo consumo " , Building Energy Management Systems , Routledge, págs. 406–439, 2013-07-04, doi : 10.4324 / 9780203477342-18 , ISBN 978-0-203-47734-2, consultado el 2021-06-03
- ^ Davenport, Thomas y Harris, Jeanne (2007). Competir en Analytics . O'Reilly. ISBN 978-1-4221-0332-6.
- ^ Aarons, D. (2009). Informe encuentra estados en curso para construir sistemas de datos de alumnos. Semana de la Educación, 29 (13), 6.
- ^ Rankin, J. (28 de marzo de 2013). Cómo los sistemas de datos y los informes pueden combatir o propagar la epidemia de errores en el análisis de datos, y cómo pueden ayudar los líderes educadores. Presentación realizada desde la Cumbre de Liderazgo Escolar del Centro de Información Tecnológica para Liderazgo Administrativo (TICAL).
- ^ Brödermann, Eckart J. (2018), "Artículo 2.2.1 (Alcance de la sección)" , Derecho comercial , Nomos Verlagsgesellschaft mbH & Co. KG, p. 525, doi : 10.5771 / 9783845276564-525 , ISBN 978-3-8452-7656-4, consultado el 2021-06-03
- ^ Jaech, JL (21 de abril de 1960). "Análisis de datos de distorsión dimensional de los primeros 24 tubos de certificación de calidad" . doi : 10.2172 / 10170345 . Cite journal requiere
|journal=
( ayuda ) - ^ Adèr 2008a , p. 337.
- ^ dx.doi.org . doi : 10.7717 / peerj.231 / table-1 http://dx.doi.org/10.7717/peerj.231/table-1 . Consultado el 3 de junio de 2021 . Falta o vacío
|title=
( ayuda ) - ^ Practice for Dealing With Outlying Observations , ASTM International, doi : 10.1520 / e0178-16a , recuperado 2021-06-03
- ^ "Esquemas de codificación alternativos para variables ficticias" , regresión con variables ficticias, 2455 Teller Road, Newbury Park California 91320 Estados Unidos de América: SAGE Publications, Inc., págs. 64–75, 1993, doi : 10.4135 / 9781412985628.n5 , ISBN 978-0-8039-5128-0, consultado el 2021-06-03Mantenimiento de CS1: ubicación ( enlace )
- ^ Adèr 2008a , págs. 338-341.
- ^ Danilyuk, PM (julio de 1960). "Calculando el desplazamiento del contorno inicial de engranajes cuando se controlan mediante bolas" . Técnicas de medición . 3 (7): 585–587. doi : 10.1007 / bf00977716 . ISSN 0543-1972 . S2CID 121058145 .
- ^ Isadore., Newman (1998). Metodología de investigación cualitativa-cuantitativa: exploración del continuo interactivo . Prensa de la Universidad del Sur de Illinois. ISBN 0-585-17889-5. OCLC 44962443 .
- ^ TERWILLIGER, JAMES S .; LELE, KAUSTUBH (junio de 1979). "Algunas relaciones entre coherencia interna, reproducibilidad y homogeneidad" . Revista de medición educativa . 16 (2): 101–108. doi : 10.1111 / j.1745-3984.1979.tb00091.x . ISSN 0022-0655 .
- ^ Adèr 2008a , págs. 341-342.
- ^ Adèr 2008a , p. 344.
- ^ Tabachnick y Fidell, 2007, p. 87-88.
- ^ Tchakarova, Kalina (octubre de 2020). "2020/31 Comparar descripciones de puestos es insuficiente para comprobar si el trabajo es igualmente valioso (BG)" . Casos de derecho laboral europeo . 5 (3): 168-170. doi : 10.5553 / eelc / 187791072020005003006 . ISSN 1877-9107 .
- ^ Procedimientos de muestreo aleatorio y aleatorización , estándares británicos de BSI, doi : 10.3403 / 30137438 , consultado el 3 de junio de 2021
- ^ Adèr 2008a , págs. 344-345.
- ^ Sandberg, Margareta (junio de 2006). "Los procedimientos de acupuntura deben describirse con precisión" . Acupuntura en Medicina . 24 (2): 92–94. doi : 10.1136 / aim.24.2.92 . ISSN 0964-5284 . PMID 16783285 . S2CID 30286074 .
- ^ F., Jaarsma, C. Verkeer en een landelijk gebied: waarnemingen en analyse van het verkeer in zuidwest Friesland y ontwikkeling van een verkeersmodel . OCLC 1016575584 .
- ^ "Figura 4: análisis de regresión del tamaño del centroide para la muestra principal" . dx.doi.org . doi : 10.7717 / peerj.1589 / fig-4 . Consultado el 3 de junio de 2021 .
- ^ Adèr 2008a , p. 345.
- ^ "Los últimos años (1975-84)" , The Road Not Taken , Boydell & Brewer, págs. 853–922, 2018-06-18, doi : 10.2307 / j.ctv6cfncp.26 , ISBN 978-1-57647-332-0, consultado el 2021-06-03
- ^ Kathryn., Fitzmaurice (17 de marzo de 2015). Destiny, reescrito . ISBN 978-0-06-162503-9. OCLC 905090570 .
- ^ "Archivo complementario 4. Datos brutos y análisis basados en R" . dx.doi.org . doi : 10.7554 / elife.24102.023 . Consultado el 3 de junio de 2021 .
- ^ Adèr 2008a , págs. 345-346.
- ^ Adèr 2008a , págs. 346-347.
- ^ Adèr 2008a , págs. 349-353.
- ^ Billings SA "Identificación del sistema no lineal: métodos NARMAX en los dominios de tiempo, frecuencia y espacio-temporal". Wiley, 2013
- ^ Adèr 2008b , p. 363.
- ^ "Exploratory Data Analysis" , Python® para usuarios de R , Hoboken, Nueva Jersey, EE. UU.: John Wiley & Sons, Inc., págs. 119-138, 2017-10-13, doi : 10.1002 / 9781119126805.ch4 , hdl : 11380 / 971504 , ISBN 978-1-119-12680-5, consultado el 2021-06-03
- ^ "Participar en análisis de datos exploratorios, visualización y pruebas de hipótesis ...................................... .................................................. ..... Análisis de datos exploratorios, geovisualización y datos " , Análisis espacial , CRC Press, págs. 106-139, 28 de julio de 2015, doi : 10.1201 / b18808-8 , ISBN 978-0-429-06936-9, consultado el 2021-06-03
- ^ "Hipótesis sobre las categorías" , Estadísticas iniciales : Una guía breve y clara , 1 Oliver's Yard, 55 City Road, Londres EC1Y 1SP Reino Unido: SAGE Publications Ltd, págs. 138-151, 2010, doi : 10.4135 / 9781446287873.n14 , ISBN 978-1-84920-098-1, consultado el 2021-06-03Mantenimiento de CS1: ubicación ( enlace )
- ^ Sordo, Rachele Del; Sidoni, Angelo (diciembre de 2008). "Reactividad de la membrana celular MIB-1: un hallazgo que debe interpretarse con cuidado" . Inmunohistoquímica aplicada y morfología molecular . 16 (6): 568. doi : 10.1097 / pai.0b013e31817af2cf . ISSN 1541-2016 . PMID 18800001 .
- ^ Liquet, Benoit; Riou, Jérémie (8 de junio de 2013). "Corrección del nivel de significancia al intentar múltiples transformaciones de una variable explicativa en modelos lineales generalizados" . Metodología de Investigación Médica de BMC . 13 (1): 75. doi : 10.1186 / 1471-2288-13-75 . ISSN 1471-2288 . PMC 3699399 . PMID 23758852 .
- ^ a b c Mcardle, John J. (2008). "Algunas cuestiones éticas en el análisis confirmatorio versus exploratorio" . Conjunto de datos PsycEXTRA . doi : 10.1037 / e503312008-001 . Consultado el 3 de junio de 2021 .
- ^ Adèr 2008b , págs. 361-362.
- ^ Adèr 2008b , págs. 361-371.
- ^ Truswell IV, William H., ed. (2009), "3 El estiramiento facial: una guía para obtener resultados seguros, confiables y reproducibles" , Rejuvenecimiento facial quirúrgico , Stuttgart: Georg Thieme Verlag, doi : 10.1055 / b-0034-73436 , ISBN 978-1-58890-491-1, consultado el 2021-06-03
- ^ "Archivo complementario 1. Esquema de validación cruzada" . dx.doi.org . doi : 10.7554 / elife.40224.014 . Consultado el 3 de junio de 2021 .
- ^ Hsiao, Cheng (2014), "Datos de panel dependientes transversalmente" , Análisis de datos de panel , Cambridge: Cambridge University Press, págs. 327–368, doi : 10.1017 / cbo9781139839327.012 , ISBN 978-1-139-83932-7, consultado el 2021-06-03
- ^ Hjorth, JS Urban (2017-10-19), "Cross validation" , Computer Intensive Statistical Methods , Chapman y Hall / CRC, págs. 24–56, doi : 10.1201 / 9781315140056-3 , ISBN 978-1-315-14005-6, consultado el 2021-06-03
- ^ Sheikholeslami, Razi; Razavi, Saman; Haghnegahdar, Amin (10 de octubre de 2019). "¿Qué debemos hacer cuando un modelo se estrella? Recomendaciones para el análisis de sensibilidad global de la Tierra y los modelos de sistemas ambientales" . Desarrollo de modelos geocientíficos . 12 (10): 4275–4296. Código Bib : 2019GMD .... 12.4275S . doi : 10.5194 / gmd-12-4275-2019 . ISSN 1991-9603 .
- ^ "Índices compuestos de desarrollo humano" . dx.doi.org . 2018-09-19. doi : 10.18356 / ce6f8e92-en . Consultado el 3 de junio de 2021 .
- ^ Wiley, Matt; Wiley, Joshua F. (2019), "Visualización de datos multivariados" , Programación estadística avanzada de R y modelos de datos , Berkeley, CA: Apress, págs. 33–59, doi : 10.1007 / 978-1-4842-2872-2_2 , ISBN 978-1-4842-2871-5, consultado el 2021-06-03
- ^ Orduna-Malea, Enrique; Alonso-Arroyo, Adolfo (2018), "Un modelo de análisis cibermétrico para medir empresas privadas" , Técnicas cibermétricas para evaluar organizaciones utilizando datos basados en la web , Elsevier, págs. 63–76, doi : 10.1016 / b978-0-08-101877 -4.00003-x , ISBN 978-0-08-101877-4, consultado el 2021-06-03
- ^ R., Leen, A. El consumidor en la economía austriaca y la perspectiva austriaca sobre la política del consumidor . ISBN 90-5808-102-8. OCLC 1016689036 .
- ^ Ejemplos de análisis de datos de supervivencia , serie de Wiley en probabilidad y estadística, Hoboken, Nueva Jersey, EE. UU.: John Wiley & Sons, Inc., 2003-06-30, págs. 19–63, doi : 10.1002 / 0471458546.ch3 , ISBN 978-0-471-45854-8, consultado el 2021-06-03
- ^ "La comunidad de aprendizaje automático se enfrenta al Higgs" . Revista Symmetry . 15 de julio de 2014 . Consultado el 14 de enero de 2015 .
- ^ Nehme, Jean (29 de septiembre de 2016). "Concurso Internacional de Análisis de Datos LTPP" . Administración Federal de Carreteras . Consultado el 22 de octubre de 2017 .
- ^ "Data.Gov:Rendimiento del pavimento a largo plazo (LTPP)" . 26 de mayo de 2016 . Consultado el 10 de noviembre de 2017 .
Bibliografía
- Adèr, Herman J. (2008a). "Capítulo 14: Fases y pasos iniciales en el análisis de datos". En Adèr, Herman J .; Mellenbergh, Gideon J .; Hand, David J (eds.). Asesoramiento sobre métodos de investigación: acompañante de un consultor . Huizen, Países Bajos: Johannes van Kessel Pub. págs. 333–356. ISBN 9789079418015. OCLC 905799857 .
- Adèr, Herman J. (2008b). "Capítulo 15: La fase de análisis principal". En Adèr, Herman J .; Mellenbergh, Gideon J .; Hand, David J (eds.). Asesoramiento sobre métodos de investigación: acompañante de un consultor . Huizen, Países Bajos: Johannes van Kessel Pub. págs. 357–386. ISBN 9789079418015. OCLC 905799857 .
- Tabachnick, BG y Fidell, LS (2007). Capítulo 4: Limpiando tu acto. Cribado de datos antes del análisis. En BG Tabachnick y LS Fidell (Eds.), Using Multivariate Statistics, Quinta edición (págs. 60-116). Boston: Pearson Education, Inc. / Allyn y Bacon.
Otras lecturas
- Adèr, HJ & Mellenbergh, GJ (con contribuciones de DJ Hand) (2008). Asesoramiento sobre métodos de investigación: el compañero de un consultor . Huizen, Países Bajos: Johannes van Kessel Publishing.
- Chambers, John M .; Cleveland, William S .; Kleiner, Beat; Tukey, Paul A. (1983). Métodos gráficos para el análisis de datos , Wadsworth / Duxbury Press. ISBN 0-534-98052-X
- Fandango, Armando (2008). Análisis de datos de Python, segunda edición . Editores Packt.
- Juran, Joseph M .; Godfrey, A. Blanton (1999). Manual de calidad de Juran, quinta edición. Nueva York: McGraw Hill. ISBN 0-07-034003-X
- Lewis-Beck, Michael S. (1995). Análisis de datos: una introducción , Sage Publications Inc, ISBN 0-8039-5772-6
- NIST / SEMATECH (2008) Manual de métodos estadísticos ,
- Pyzdek, T, (2003). Manual de ingeniería de calidad , ISBN 0-8247-4614-7
- Richard Veryard (1984). Análisis pragmático de datos . Oxford: Publicaciones científicas de Blackwell. ISBN 0-632-01311-7
- Tabachnick, BG; Fidell, LS (2007). Utilización de estadísticas multivariadas, 5ª edición . Boston: Pearson Education, Inc. / Allyn y Bacon, ISBN 978-0-205-45938-4