Big data es un campo que trata las formas de analizar, extraer información sistemáticamente o tratar con conjuntos de datos que son demasiado grandes o complejos para ser tratados por software de aplicación de procesamiento de datos tradicional . Los datos con muchos campos (columnas) ofrecen mayor poder estadístico , mientras que los datos con mayor complejidad (más atributos o columnas) pueden conducir a una mayor tasa de falsos descubrimientos . [2] Los desafíos del análisis de big data incluyen la captura de datos , el almacenamiento de datos , el análisis de datos , la búsqueda, el intercambio , la transferencia , la visualización ,consulta , actualización, privacidad de la información y fuente de datos. El Big Data se asoció originalmente con tres conceptos clave: volumen , variedad y velocidad . [3] El análisis de macrodatos presenta desafíos en el muestreo y, por lo tanto, antes solo permitía observaciones y muestreo. Por lo tanto, los macrodatos a menudo incluyen datos con tamaños que exceden la capacidad de procesamiento del software tradicional en un tiempo y valor aceptables .
El uso actual del término big data tiende a referirse al uso de análisis predictivo , análisis del comportamiento del usuario o ciertos otros métodos avanzados de análisis de datos que extraen valor de big data, y rara vez a un tamaño particular de conjunto de datos. "Hay pocas dudas de que las cantidades de datos ahora disponibles son realmente grandes, pero esa no es la característica más relevante de este nuevo ecosistema de datos". [4] El análisis de conjuntos de datos puede encontrar nuevas correlaciones para "detectar tendencias comerciales, prevenir enfermedades, combatir la delincuencia, etc.". [5] Científicos, ejecutivos de negocios, médicos, publicidad y gobiernos por igual encuentran regularmente dificultades con grandes conjuntos de datos en áreas que incluyen búsquedas en Internet , tecnología financiera , análisis de salud, sistemas de información geográfica, informática urbana e informática empresarial . Los científicos encuentran limitaciones en el trabajo de las ciencias electrónicas , incluida la meteorología , la genómica , [6] la conectómica , las simulaciones físicas complejas, la biología y la investigación ambiental. [7]
El tamaño y la cantidad de conjuntos de datos disponibles ha crecido rápidamente a medida que los datos son recopilados por dispositivos como dispositivos móviles , dispositivos de Internet de las cosas baratos y numerosos que detectan información , antena ( detección remota ), registros de software, cámaras , micrófonos, identificación por radiofrecuencia. Lectores (RFID) y redes de sensores inalámbricos . [8] [9] La capacidad tecnológica per cápita del mundo para almacenar información se ha duplicado aproximadamente cada 40 meses desde la década de 1980; [10] a partir de 2012 [actualizar], cada día se generan 2,5 exabytes (2,5 × 2 60 bytes) de datos. [11] Según una predicción del informe de IDC , se predijo que el volumen de datos globales crecerá exponencialmente de 4,4 zettabytes a 44 zettabytes entre 2013 y 2020. Para 2025, IDC predice que habrá 163 zettabytes de datos. [12] Una pregunta para las grandes empresas es determinar quién debe ser el propietario de las iniciativas de big data que afecten a toda la organización. [13]
Los sistemas de administración de bases de datos relacionales y los paquetes de software estadístico de escritorio que se utilizan para visualizar datos a menudo tienen dificultades para procesar y analizar big data. El procesamiento y análisis de big data puede requerir "software masivamente paralelo que se ejecute en decenas, cientos o incluso miles de servidores". [14] Lo que califica como "big data" varía según las capacidades de quienes lo analizan y sus herramientas. Además, la expansión de las capacidades convierte a los macrodatos en un objetivo en movimiento. "Para algunas organizaciones, enfrentarse a cientos de gigabytes de datos por primera vez puede desencadenar la necesidad de reconsiderar las opciones de administración de datos. Para otras, pueden ser necesarias decenas o cientos de terabytes antes de que el tamaño de los datos se convierta en una consideración importante". [15]
Definición
El término big data ha estado en uso desde la década de 1990, y algunos le dan crédito a John Mashey por popularizar el término. [16] [17] grandes volúmenes de datos por lo general incluye conjuntos de datos con tamaños más allá de la capacidad de las herramientas de software utilizadas comúnmente para la captura , cura , gestionar y procesar los datos dentro de un tiempo transcurrido tolerable. [18] La filosofía de Big Data abarca datos no estructurados, semiestructurados y estructurados, sin embargo, el enfoque principal está en los datos no estructurados. [19] El "tamaño" de los macrodatos es un objetivo en constante movimiento; a partir de 2012[actualizar]que van desde unas pocas docenas de terabytes hasta muchos zettabytes de datos. [20] Los macrodatos requieren un conjunto de técnicas y tecnologías con nuevas formas de integración para revelar conocimientos de conjuntos de datos que son diversos, complejos y de gran escala. [21]
Algunas organizaciones agregan "variedad", "veracidad" y varias otras "V" para describirlo, una revisión cuestionada por algunas autoridades de la industria. [22] Las V de los grandes datos a menudo se denominaban "tres V", "cuatro V" y "cinco V". Representaban las cualidades del big data en volumen, variedad, velocidad, veracidad y valor. [3] La variabilidad se incluye a menudo como una cualidad adicional de los macrodatos.
Una definición de 2018 establece que "Big data es donde se necesitan herramientas informáticas paralelas para manejar datos", y señala: "Esto representa un cambio distinto y claramente definido en la informática utilizada, a través de teorías de programación paralela, y pérdidas de algunas de las garantías y capacidades creadas por el modelo relacional de Codd ". [23]
Big data frente a inteligencia empresarial
La creciente madurez del concepto delimita más claramente la diferencia entre "macrodatos" e " inteligencia empresarial ": [24]
- La inteligencia empresarial utiliza herramientas de matemáticas aplicadas y estadísticas descriptivas con datos con alta densidad de información para medir cosas, detectar tendencias, etc.
- Big data utiliza análisis matemático, optimización, estadísticas inductivas y conceptos de identificación de sistemas no lineales [25] para inferir leyes (regresiones, relaciones no lineales y efectos causales) de grandes conjuntos de datos con baja densidad de información [26] para revelar relaciones y dependencias , o para realizar predicciones de resultados y comportamientos. [25] [27] [ fuente promocional? ]
Caracteristicas
Los macrodatos pueden describirse por las siguientes características:
- Volumen
- La cantidad de datos generados y almacenados. El tamaño de los datos determina el valor y la información potencial, y si se puede considerar big data o no. El tamaño de big data suele ser mayor que terabytes y petabytes. [28]
- Variedad
- El tipo y la naturaleza de los datos. Las tecnologías anteriores, como los RDBMS, eran capaces de manejar datos estructurados de manera eficiente y efectiva. Sin embargo, el cambio de tipo y naturaleza de estructurado a semiestructurado o no estructurado desafió las herramientas y tecnologías existentes. Las tecnologías de big data evolucionaron con la intención principal de capturar, almacenar y procesar los datos semiestructurados y no estructurados (variedad) generados con alta velocidad (velocidad) y de gran tamaño (volumen). Más tarde, estas herramientas y tecnologías se exploraron y utilizaron para manejar datos estructurados también, pero preferiblemente para el almacenamiento. Finalmente, el procesamiento de datos estructurados se mantuvo como opcional, ya sea utilizando big data o RDBMS tradicionales. Esto ayuda a analizar los datos hacia el uso efectivo de los conocimientos ocultos expuestos a partir de los datos recopilados a través de las redes sociales, archivos de registro, sensores, etc. Big data se extrae de texto, imágenes, audio, video; además, completa las piezas faltantes mediante la fusión de datos .
- Velocidad
- La velocidad a la que se generan y procesan los datos para satisfacer las demandas y desafíos que se encuentran en el camino del crecimiento y el desarrollo. Los macrodatos suelen estar disponibles en tiempo real. En comparación con los datos pequeños , los datos grandes se producen de forma más continua. Dos tipos de velocidad relacionados con big data son la frecuencia de generación y la frecuencia de manejo, grabación y publicación. [29]
- Veracidad
- La veracidad o confiabilidad de los datos, que se refiere a la calidad y el valor de los datos. [30] Los macrodatos no solo deben ser de gran tamaño, sino que también deben ser fiables para obtener valor en el análisis de los mismos. La calidad de los datos capturados puede variar mucho, lo que afecta un análisis preciso. [31]
- Valor
- El valor de la información que se puede lograr mediante el procesamiento y análisis de grandes conjuntos de datos. El valor también se puede medir mediante una evaluación de las otras cualidades de los macrodatos. [32] El valor también puede representar la rentabilidad de la información que se recupera del análisis de macrodatos.
- Variabilidad
- La característica de los formatos, la estructura o las fuentes cambiantes de big data. Los macrodatos pueden incluir datos estructurados, no estructurados o combinaciones de datos estructurados y no estructurados. El análisis de macrodatos puede integrar datos sin procesar de múltiples fuentes. El procesamiento de datos sin procesar también puede implicar transformaciones de datos no estructurados en datos estructurados.
Otras posibles características de los macrodatos son: [33]
- Exhaustivo
- Si todo el sistema (es decir, = todo) se captura o se registra o no. Los macrodatos pueden incluir o no todos los datos disponibles de las fuentes.
- De grano fino y exclusivamente léxico
- Respectivamente, la proporción de datos específicos de cada elemento por elemento recopilado y si el elemento y sus características están debidamente indexados o identificados.
- Relacional
- Si los datos recopilados contienen campos comunes que permitirían una combinación, o metanálisis, de diferentes conjuntos de datos.
- Extensional
- Si se pueden agregar o cambiar fácilmente nuevos campos en cada elemento de los datos recopilados.
- Escalabilidad
- Si el tamaño del sistema de almacenamiento de big data puede expandirse rápidamente.
Arquitectura
Los repositorios de big data han existido de muchas formas, a menudo construidos por corporaciones con una necesidad especial. Los proveedores comerciales históricamente ofrecieron sistemas de administración de bases de datos paralelos para big data a partir de la década de 1990. Durante muchos años, WinterCorp publicó el informe de base de datos más grande. [34] [ fuente promocional? ]
Teradata Corporation en 1984 comercializó el sistema DBC 1012 de procesamiento paralelo . Los sistemas Teradata fueron los primeros en almacenar y analizar 1 terabyte de datos en 1992. Las unidades de disco duro eran de 2,5 GB en 1991, por lo que la definición de big data evoluciona continuamente de acuerdo con la ley de Kryder . Teradata instaló el primer sistema basado en RDBMS de clase petabyte en 2007. A partir de 2017[actualizar], hay algunas docenas de bases de datos relacionales Teradata de clase petabyte instaladas, la mayor de las cuales supera los 50 PB. Los sistemas hasta 2008 eran datos relacionales 100% estructurados. Desde entonces, Teradata ha agregado tipos de datos no estructurados, incluidos XML , JSON y Avro.
En 2000, Seisint Inc. (ahora LexisNexis Risk Solutions ) desarrolló una plataforma distribuida basada en C ++ para el procesamiento y la consulta de datos conocida como la plataforma HPCC Systems . Este sistema divide, distribuye, almacena y entrega automáticamente datos estructurados, semiestructurados y no estructurados a través de múltiples servidores de productos básicos. Los usuarios pueden escribir consultas y canalizaciones de procesamiento de datos en un lenguaje de programación de flujo de datos declarativo llamado ECL. Los analistas de datos que trabajan en ECL no están obligados a definir esquemas de datos por adelantado y pueden centrarse en el problema particular en cuestión, remodelando los datos de la mejor manera posible a medida que desarrollan la solución. En 2004, LexisNexis adquirió Seisint Inc. [35] y su plataforma de procesamiento paralelo de alta velocidad y utilizó con éxito esta plataforma para integrar los sistemas de datos de Choicepoint Inc. cuando adquirieron esa empresa en 2008. [36] En 2011, los sistemas HPCC La plataforma fue de código abierto bajo la licencia Apache v2.0.
El CERN y otros experimentos de física han recopilado grandes conjuntos de datos durante muchas décadas, generalmente analizados a través de la computación de alto rendimiento en lugar de las arquitecturas de reducción de mapas que generalmente se entiende por el movimiento actual de "grandes datos".
En 2004, Google publicó un artículo sobre un proceso llamado MapReduce que utiliza una arquitectura similar. El concepto MapReduce proporciona un modelo de procesamiento paralelo y se lanzó una implementación asociada para procesar grandes cantidades de datos. Con MapReduce, las consultas se dividen y distribuyen a través de nodos paralelos y se procesan en paralelo (el paso de "mapa"). Luego, los resultados se recopilan y se entregan (el paso "reducir"). El marco fue muy exitoso, [37] por lo que otros querían replicar el algoritmo. Por lo tanto, un proyecto de código abierto de Apache llamado " Hadoop " adoptó una implementación del marco MapReduce . [38] Apache Spark se desarrolló en 2012 en respuesta a las limitaciones del paradigma MapReduce, ya que agrega la capacidad de configurar muchas operaciones (no solo un mapa seguido de una reducción).
MIKE2.0 es un enfoque abierto para la gestión de la información que reconoce la necesidad de revisiones debido a las implicaciones de Big Data identificadas en un artículo titulado "Oferta de soluciones de Big Data". [39] La metodología aborda el manejo de macrodatos en términos de permutaciones útiles de fuentes de datos, complejidad en las interrelaciones y dificultad para eliminar (o modificar) registros individuales. [40]
Los estudios realizados en 2012 mostraron que una arquitectura de múltiples capas era una opción para abordar los problemas que presenta el big data. Una arquitectura paralela distribuida distribuye datos a través de múltiples servidores; Estos entornos de ejecución paralela pueden mejorar drásticamente las velocidades de procesamiento de datos. Este tipo de arquitectura inserta datos en un DBMS paralelo, que implementa el uso de frameworks MapReduce y Hadoop. Este tipo de marco busca hacer que la potencia de procesamiento sea transparente para el usuario final mediante el uso de un servidor de aplicaciones front-end. [41]
El lago de datos permite que una organización cambie su enfoque del control centralizado a un modelo compartido para responder a la dinámica cambiante de la gestión de la información. Esto permite una rápida segregación de datos en el lago de datos, lo que reduce el tiempo de sobrecarga. [42] [43]
Tecnologias
Un informe del McKinsey Global Institute de 2011 caracteriza los principales componentes y el ecosistema de los macrodatos de la siguiente manera: [44]
- Técnicas para analizar datos, como pruebas A / B , aprendizaje automático y procesamiento del lenguaje natural.
- Tecnologías de big data, como inteligencia empresarial , computación en la nube y bases de datos
- Visualización, como cuadros, gráficos y otras visualizaciones de los datos.
Los macrodatos multidimensionales también se pueden representar como cubos de datos OLAP o, matemáticamente, tensores . Los sistemas de bases de datos de matrices se han propuesto proporcionar almacenamiento y soporte de consultas de alto nivel sobre este tipo de datos. Las tecnologías adicionales que se están aplicando a los macrodatos incluyen la computación eficiente basada en tensor, [45] como el aprendizaje subespacial multilineal , [46] bases de datos de procesamiento masivo paralelo ( MPP ), aplicaciones basadas en búsquedas , minería de datos , [47] sistemas de archivos distribuidos , caché distribuida (por ejemplo, búfer de ráfagas y Memcached ), bases de datos distribuidas , infraestructura basada en la nube y HPC (aplicaciones, almacenamiento y recursos informáticos), [48] e Internet. [ cita requerida ] Aunque se han desarrollado muchos enfoques y tecnologías, sigue siendo difícil llevar a cabo el aprendizaje automático con big data. [49]
Algunas bases de datos relacionales MPP tienen la capacidad de almacenar y administrar petabytes de datos. Implícita está la capacidad de cargar, monitorear, realizar copias de seguridad y optimizar el uso de las tablas de datos grandes en el RDBMS . [50] [ fuente promocional? ]
DARPA 's Análisis de datos topológica programa busca la estructura fundamental de conjuntos de datos masivos y en 2008 la tecnología se hizo pública con el lanzamiento de una compañía llamada ' Ayasdi '. [51] [se necesita una fuente de terceros ]
Los practicantes de los procesos de análisis de big data son generalmente hostiles al almacenamiento compartido más lento, [52] prefiriendo el almacenamiento de conexión directa ( DAS ) en sus diversas formas, desde unidades de estado sólido ( SSD ) hasta discos SATA de alta capacidad enterrados dentro de nodos de procesamiento paralelo. La percepción de las arquitecturas de almacenamiento compartido ( red de área de almacenamiento (SAN) y almacenamiento conectado a la red (NAS)) es que son relativamente lentas, complejas y costosas. Estas cualidades no son consistentes con los sistemas de análisis de big data que prosperan en el rendimiento del sistema, la infraestructura básica y el bajo costo.
La entrega de información en tiempo real o casi real es una de las características definitorias de la analítica de big data. Por tanto, se evita la latencia siempre que sea posible. Los datos de la memoria de conexión directa o del disco son correctos; los datos de la memoria o el disco en el otro extremo de una conexión FC SAN no lo son. El costo de una SAN a la escala necesaria para las aplicaciones de análisis es mucho más alto que el de otras técnicas de almacenamiento.
Aplicaciones
Los macrodatos han aumentado tanto la demanda de especialistas en gestión de información que Software AG , Oracle Corporation , IBM , Microsoft , SAP , EMC , HP y Dell han gastado más de 15.000 millones de dólares en empresas de software especializadas en análisis y gestión de datos. En 2010, esta industria valía más de $ 100 mil millones y estaba creciendo a casi un 10 por ciento al año: aproximadamente el doble de rápido que el negocio de software en su conjunto. [5]
Las economías desarrolladas utilizan cada vez más tecnologías intensivas en datos. Hay 4.600 millones de suscripciones a teléfonos móviles en todo el mundo y entre 1.000 y 2.000 millones de personas acceden a Internet. [5] Entre 1990 y 2005, más de mil millones de personas en todo el mundo ingresaron a la clase media, lo que significa que más personas se alfabetizaron más, lo que a su vez condujo al crecimiento de la información. La capacidad efectiva mundial para intercambiar información a través de redes de telecomunicaciones fue de 281 petabytes en 1986, 471 petabytes en 1993, 2,2 exabytes en 2000, 65 exabytes en 2007 [10] y las predicciones sitúan la cantidad de tráfico de Internet en 667 exabytes anuales en 2014 [5]. ] Según una estimación, un tercio de la información almacenada globalmente se encuentra en forma de texto alfanumérico y datos de imágenes fijas, [53] que es el formato más útil para la mayoría de las aplicaciones de macrodatos. Esto también muestra el potencial de los datos aún no utilizados (es decir, en forma de contenido de video y audio).
Si bien muchos proveedores ofrecen soluciones listas para usar para big data, los expertos recomiendan el desarrollo de soluciones internas personalizadas para resolver el problema de la empresa en cuestión si la empresa tiene suficientes capacidades técnicas. [54]
Gobierno
El uso y adopción de big data dentro de los procesos gubernamentales permite eficiencias en términos de costo, productividad e innovación, [55] pero no está exento de fallas. El análisis de datos a menudo requiere que múltiples partes del gobierno (central y local) trabajen en colaboración y creen procesos nuevos e innovadores para lograr el resultado deseado. Una organización gubernamental común que hace uso de big data es la Administración de Seguridad Nacional ( NSA ), que monitorea las actividades de Internet constantemente en busca de patrones potenciales de actividades sospechosas o ilegales que su sistema pueda detectar.
El registro civil y las estadísticas vitales (CRVS) recopila el estado de todos los certificados desde el nacimiento hasta la muerte. CRVS es una fuente de big data para los gobiernos.
Desarrollo internacional
La investigación sobre el uso eficaz de las tecnologías de la información y la comunicación para el desarrollo (también conocida como "ICT4D") sugiere que la tecnología de macrodatos puede hacer contribuciones importantes, pero también presentar desafíos únicos para el desarrollo internacional . [56] [57] Los avances en el análisis de macrodatos ofrecen oportunidades rentables para mejorar la toma de decisiones en áreas críticas de desarrollo como la atención médica, el empleo, la productividad económica , la delincuencia, la seguridad y los desastres naturales y la gestión de recursos. [58] [59] [60] Además, los datos generados por el usuario ofrecen nuevas oportunidades para dar voz a quienes no escuchan. [61] Sin embargo, los desafíos de larga data para las regiones en desarrollo, como la infraestructura tecnológica inadecuada y la escasez de recursos económicos y humanos, exacerban las preocupaciones existentes con los macrodatos como la privacidad, la metodología imperfecta y los problemas de interoperabilidad. [58] El desafío de "big data para el desarrollo" [58] está evolucionando actualmente hacia la aplicación de estos datos a través del aprendizaje automático, conocido como "inteligencia artificial para el desarrollo (AI4D). [62]
Beneficios
Una aplicación práctica importante de los macrodatos para el desarrollo ha sido "combatir la pobreza con datos". [63] En 2015, Blumenstock y sus colegas estimaron la pobreza y la riqueza pronosticadas a partir de los metadatos de los teléfonos móviles [64] y en 2016 Jean y sus colegas combinaron imágenes de satélite y aprendizaje automático para predecir la pobreza. [65] Utilizando datos de rastreo digital para estudiar el mercado laboral y la economía digital en América Latina, Hilbert y sus colegas [66] [67] argumentan que los datos de rastreo digital tienen varios beneficios, tales como:
- Cobertura temática: incluye áreas que antes eran difíciles o imposibles de medir.
- Cobertura geográfica: nuestras fuentes internacionales proporcionaron datos considerables y comparables para casi todos los países, incluidos muchos países pequeños que generalmente no están incluidos en los inventarios internacionales.
- Nivel de detalle: proporcionar datos detallados con muchas variables interrelacionadas y aspectos nuevos, como conexiones de red.
- Puntualidad y series de tiempo: los gráficos se pueden producir a los pocos días de su recopilación
Desafíos
Al mismo tiempo, trabajar con datos de trazas digitales en lugar de datos de encuestas tradicionales no elimina los desafíos tradicionales involucrados cuando se trabaja en el campo del análisis cuantitativo internacional. Las prioridades cambian, pero las discusiones básicas siguen siendo las mismas. Entre los principales desafíos se encuentran:
- Representatividad. Si bien las estadísticas de desarrollo tradicionales se preocupan principalmente por la representatividad de las muestras de encuestas aleatorias, los datos de trazas digitales nunca son una muestra aleatoria.
- Generalizabilidad. Si bien los datos de observación siempre representan muy bien esta fuente, solo representan lo que representa, y nada más. Si bien es tentador generalizar desde observaciones específicas de una plataforma a entornos más amplios, a menudo esto es muy engañoso.
- Armonización. Los datos de trazas digitales aún requieren una armonización internacional de indicadores. Agrega el desafío de la llamada "fusión de datos", la armonización de diferentes fuentes.
- Sobrecarga de datos. Los analistas y las instituciones no están acostumbrados a tratar de manera efectiva una gran cantidad de variables, lo que se hace de manera eficiente con cuadros de mando interactivos. Los profesionales todavía carecen de un flujo de trabajo estándar que permita a los investigadores, usuarios y responsables de la formulación de políticas hacerlo de manera eficiente y eficaz. [66]
Cuidado de la salud
El análisis de big data ha ayudado a mejorar la atención médica al proporcionar medicina personalizada y análisis prescriptivo, intervención de riesgo clínico y análisis predictivo, reducción de la variabilidad de la atención y el desperdicio, informes externos e internos automatizados de datos de pacientes, términos médicos estandarizados y registros de pacientes y soluciones puntuales fragmentadas. [68] [69] [70] [71] Algunas áreas de mejora son más aspiracionales que implementadas. El nivel de datos generados dentro de los sistemas de salud no es trivial. Con la adopción adicional de mHealth, eHealth y tecnologías portátiles, el volumen de datos seguirá aumentando. Esto incluye datos de registros médicos electrónicos , datos de imágenes, datos generados por el paciente, datos de sensores y otras formas de datos difíciles de procesar. Ahora existe una necesidad aún mayor de que dichos entornos presten mayor atención a los datos y la calidad de la información. [72] "Big data a menudo significa ' datos sucios ' y la fracción de datos inexactos aumenta con el crecimiento del volumen de datos". La inspección humana a gran escala de datos es imposible y existe una necesidad desesperada en los servicios de salud de herramientas inteligentes para el control de precisión y credibilidad y el manejo de la información perdida. [73] Si bien la información extensa en el cuidado de la salud ahora es electrónica, encaja bajo el paraguas de big data ya que la mayoría no está estructurada y es difícil de usar. [74] El uso de macrodatos en el cuidado de la salud ha planteado importantes desafíos éticos que van desde los riesgos para los derechos individuales, la privacidad y la autonomía , hasta la transparencia y la confianza. [75]
Los macrodatos en la investigación en salud son particularmente prometedores en términos de investigación biomédica exploratoria, ya que el análisis basado en datos puede avanzar más rápidamente que la investigación basada en hipótesis. [76] Entonces, las tendencias observadas en el análisis de datos se pueden probar en la investigación biológica de seguimiento tradicional basada en hipótesis y, finalmente, en la investigación clínica.
Una subárea de aplicación relacionada, que se basa en gran medida en big data, dentro del campo de la salud, es la del diagnóstico asistido por computadora en medicina. [77] Por ejemplo, para el seguimiento de la epilepsia , se acostumbra crear de 5 a 10 GB de datos al día. [78] De manera similar, una sola imagen sin comprimir de la tomosíntesis de mama tiene un promedio de 450 MB de datos. [79] Estos son solo algunos de los muchos ejemplos en los que el diagnóstico asistido por computadora utiliza big data. Por esta razón, el big data ha sido reconocido como uno de los siete desafíos clave que los sistemas de diagnóstico asistido por computadora deben superar para alcanzar el siguiente nivel de desempeño. [80]
Educación
Un estudio del McKinsey Global Institute encontró una escasez de 1,5 millones de profesionales y administradores de datos altamente capacitados [44] y varias universidades [81] [se necesita una mejor fuente ], incluidas la Universidad de Tennessee y UC Berkeley , han creado programas de maestría para satisfacer esta demanda. Los campos de entrenamiento privados también han desarrollado programas para satisfacer esa demanda, incluidos programas gratuitos como The Data Incubator o programas pagos como General Assembly . [82] En el campo específico del marketing, uno de los problemas subrayados por Wedel y Kannan [83] es que el marketing tiene varios subdominios (p. Ej., Publicidad, promociones, desarrollo de productos, marca) que utilizan diferentes tipos de datos. Debido a que las soluciones analíticas de talla única no son deseables, las escuelas de negocios deben preparar a los gerentes de marketing para que tengan un amplio conocimiento sobre todas las diferentes técnicas utilizadas en estos subdominios para tener una visión general y trabajar de manera efectiva con los analistas.
Medios de comunicación
Para comprender cómo los medios utilizan los macrodatos, primero es necesario proporcionar algo de contexto en el mecanismo utilizado para el proceso de los medios. Nick Couldry y Joseph Turow han sugerido que los profesionales de los medios y la publicidad abordan el big data como puntos de información procesables sobre millones de personas. La industria parece estar alejándose del enfoque tradicional de utilizar entornos de medios específicos como periódicos, revistas o programas de televisión y, en cambio, aprovecha a los consumidores con tecnologías que llegan a las personas objetivo en momentos óptimos en ubicaciones óptimas. El objetivo final es servir o transmitir un mensaje o contenido que esté (estadísticamente hablando) en línea con la mentalidad del consumidor. Por ejemplo, los entornos de publicación están adaptando cada vez más los mensajes (anuncios) y el contenido (artículos) para atraer a los consumidores que se han obtenido exclusivamente a través de diversas actividades de extracción de datos . [84]
- Orientación a los consumidores (para la publicidad de los comercializadores) [85]
- Captura de datos
- Periodismo de datos : los editores y periodistas utilizan herramientas de big data para proporcionar información e infografías únicas e innovadoras .
Channel 4 , la emisora de televisión de servicio público británico , es líder en el campo del big data y el análisis de datos . [86]
Seguro
Los proveedores de seguros de salud están recopilando datos sobre los "determinantes de la salud" sociales, como el consumo de alimentos y televisión , el estado civil, la talla de la ropa y los hábitos de compra, a partir de los cuales hacen predicciones sobre los costos de salud para detectar problemas de salud en sus clientes. Es controvertido si estas predicciones se están utilizando actualmente para la fijación de precios. [87]
Internet de las cosas (IoT)
Big data e IoT funcionan en conjunto. Los datos extraídos de los dispositivos de IoT proporcionan un mapeo de la interconectividad de los dispositivos. La industria de los medios, las empresas y los gobiernos han utilizado estas asignaciones para orientar con mayor precisión a su audiencia y aumentar la eficiencia de los medios. El IoT también se adopta cada vez más como un medio de recopilación de datos sensoriales, y estos datos sensoriales se han utilizado en contextos médicos, [88] de fabricación [89] y de transporte [90] .
Kevin Ashton , el experto en innovación digital a quien se le atribuye haber acuñado el término, [91] define la Internet de las cosas en esta cita: "Si tuviéramos computadoras que supieran todo lo que hay que saber sobre las cosas, utilizando los datos que recopilaron sin la ayuda de nosotros, podríamos rastrear y contar todo, y reducir en gran medida el desperdicio, la pérdida y el costo. Sabríamos cuándo es necesario reemplazar, reparar o retirar las cosas, y si están frescas o no están en su mejor momento ".
Tecnologías de la información
Especialmente desde 2015, el big data ha cobrado importancia dentro de las operaciones comerciales como una herramienta para ayudar a los empleados a trabajar de manera más eficiente y agilizar la recopilación y distribución de tecnología de la información (TI). El uso de big data para resolver problemas de recopilación de datos y TI dentro de una empresa se denomina análisis de operaciones de TI (ITOA). [92] Al aplicar los principios de big data a los conceptos de inteligencia artificial y computación profunda, los departamentos de TI pueden predecir problemas potenciales y moverse para brindar soluciones antes de que ocurran. [92] En este momento, las empresas de ITOA también estaban comenzando a desempeñar un papel importante en la gestión de sistemas al ofrecer plataformas que unían silos de datos individuales y generaban información de todo el sistema en lugar de bolsas de datos aisladas.
Estudios de caso
Gobierno
porcelana
- El gobierno utiliza la Plataforma Integrada de Operaciones Conjuntas (IJOP, 一体化 联合 作战 平台) para monitorear a la población, particularmente a los uigures . [93] Los datos biométricos , incluidas las muestras de ADN, se recopilan mediante un programa de exámenes físicos gratuitos. [94]
- Para el 2020, China planea otorgar a todos sus ciudadanos un puntaje de "crédito social" personal basado en cómo se comportan. [95] El Sistema de Crédito Social , que ahora se está probando en varias ciudades chinas, se considera una forma de vigilancia masiva que utiliza tecnología de análisis de big data. [96] [97]
India
- Se probó el análisis de big data para que el BJP ganara las elecciones generales indias de 2014. [98]
- El gobierno indio utiliza numerosas técnicas para determinar cómo está respondiendo el electorado indio a la acción del gobierno, así como ideas para aumentar las políticas.
Israel
- Se pueden crear tratamientos personalizados para diabéticos a través de la solución de big data de GlucoMe. [99]
Reino Unido
Ejemplos de usos de big data en servicios públicos:
- Datos sobre medicamentos recetados: al conectar el origen, la ubicación y el momento de cada receta, una unidad de investigación pudo ejemplificar el retraso considerable entre la liberación de un medicamento determinado y una adaptación del Instituto Nacional para la Excelencia en la Salud y la Atención en todo el Reino Unido. pautas. Esto sugiere que los fármacos nuevos o la mayoría de los actualizados tardan algún tiempo en filtrarse al paciente en general. [ cita requerida ]
- Uniendo datos: una autoridad local mezcló datos sobre servicios, como turnos de limpieza de carreteras, con servicios para personas en riesgo, como "comidas sobre ruedas". La conexión de datos permitió a la autoridad local evitar cualquier retraso relacionado con el clima. [100]
Estados Unidos
- En 2012, la administración Obama anunció la Iniciativa de Investigación y Desarrollo de Big Data, para explorar cómo se podría utilizar el Big Data para abordar problemas importantes que enfrenta el gobierno. [101] La iniciativa se compone de 84 programas de macrodatos diferentes distribuidos en seis departamentos. [102]
- El análisis de macrodatos jugó un papel importante en la exitosa campaña de reelección de 2012 de Barack Obama . [103]
- El gobierno federal de los Estados Unidos posee cinco de las diez supercomputadoras más poderosas del mundo. [104] [105]
- El Centro de Datos de Utah ha sido construido por la Agencia de Seguridad Nacional de los Estados Unidos . Cuando termine, la instalación podrá manejar una gran cantidad de información recopilada por la NSA a través de Internet. Se desconoce la cantidad exacta de espacio de almacenamiento, pero fuentes más recientes afirman que será del orden de unos pocos exabytes . [106] [107] [108] Esto ha planteado problemas de seguridad con respecto al anonimato de los datos recopilados. [109]
Venta minorista
- Walmart maneja más de 1 millón de transacciones de clientes cada hora, que se importan a bases de datos que se estima contienen más de 2.5 petabytes (2560 terabytes) de datos, el equivalente a 167 veces la información contenida en todos los libros de la Biblioteca del Congreso de EE . UU . [5]
- Windermere Real Estate utiliza la información de ubicación de casi 100 millones de conductores para ayudar a los compradores de viviendas nuevas a determinar sus tiempos de conducción típicos hacia y desde el trabajo en diferentes momentos del día. [110]
- El sistema de detección de tarjetas FICO protege las cuentas en todo el mundo. [111]
Ciencias
- Los experimentos del Gran Colisionador de Hadrones representan alrededor de 150 millones de sensores que entregan datos 40 millones de veces por segundo. Hay casi 600 millones de colisiones por segundo. Después de filtrar y abstenerse de registrar más del 99,99995% [112] de estos flujos, hay 1000 colisiones de interés por segundo. [113] [114] [115]
- Como resultado, solo trabajando con menos del 0.001% de los datos del flujo del sensor, el flujo de datos de los cuatro experimentos del LHC representa una tasa anual de 25 petabytes antes de la replicación (a partir de 2012[actualizar]). Esto se convierte en casi 200 petabytes después de la replicación.
- Si todos los datos del sensor se registraran en el LHC, sería extremadamente difícil trabajar con el flujo de datos. El flujo de datos superaría la tasa anual de 150 millones de petabytes, o casi 500 exabytes por día, antes de la replicación. Para poner el número en perspectiva, esto equivale a 500 quintillones (5 × 10 20 ) de bytes por día, casi 200 veces más que todas las otras fuentes combinadas en el mundo.
- El Square Kilometer Array es un radiotelescopio construido con miles de antenas. Se espera que esté operativo en 2024. En conjunto, se espera que estas antenas acumulen 14 exabytes y almacenen un petabyte por día. [116] [117] Se considera uno de los proyectos científicos más ambiciosos jamás emprendidos. [118]
- Cuando Sloan Digital Sky Survey (SDSS) comenzó a recopilar datos astronómicos en 2000, acumuló más en sus primeras semanas que todos los datos recopilados en la historia de la astronomía anteriormente. Continuando a una velocidad de aproximadamente 200 GB por noche, SDSS ha acumulado más de 140 terabytes de información. [5] Cuando el Large Synoptic Survey Telescope , sucesor del SDSS, entre en funcionamiento en 2020, sus diseñadores esperan que adquiera esa cantidad de datos cada cinco días. [5]
- La decodificación del genoma humano originalmente tardó 10 años en procesarse; ahora se puede lograr en menos de un día. Los secuenciadores de ADN han dividido el costo de secuenciación por 10,000 en los últimos diez años, lo que es 100 veces más barato que la reducción en el costo predicha por la ley de Moore . [119]
- El Centro de Simulación Climática de la NASA (NCCS) almacena 32 petabytes de observaciones y simulaciones climáticas en el cúmulo de supercomputación Discover. [120] [121]
- DNAStack de Google recopila y organiza muestras de ADN de datos genéticos de todo el mundo para identificar enfermedades y otros defectos médicos. Estos cálculos rápidos y exactos eliminan cualquier "punto de fricción" o errores humanos que pudiera cometer uno de los numerosos expertos en ciencia y biología que trabajan con el ADN. DNAStack, una parte de Google Genomics, permite a los científicos utilizar la vasta muestra de recursos del servidor de búsqueda de Google para escalar experimentos sociales que normalmente llevarían años, instantáneamente. [122] [123]
- 23andme 's base de datos de ADN contiene la información genética de más de 1.000.000 de personas en todo el mundo. [124] La empresa explora la posibilidad de vender los "datos genéticos agregados anónimos" a otros investigadores y empresas farmacéuticas con fines de investigación si los pacientes dan su consentimiento. [125] [126] [127] [128] [129] Ahmad Hariri, profesor de psicología y neurociencia en la Universidad de Duke que ha estado utilizando 23andMe en su investigación desde 2009, afirma que el aspecto más importante del nuevo servicio de la empresa es que hace que la investigación genética sea accesible y relativamente barata para los científicos. [125] Un estudio que identificó 15 sitios del genoma vinculados a la depresión en la base de datos de 23andMe condujo a un aumento en las demandas para acceder al repositorio con 23andMe respondiendo casi 20 solicitudes para acceder a los datos de depresión en las dos semanas posteriores a la publicación del artículo. [130]
- La dinámica de fluidos computacional ( CFD ) y la investigación de turbulencia hidrodinámica generan conjuntos de datos masivos. Las bases de datos de turbulencia de Johns Hopkins ( JHTDB ) contienen más de 350 terabytes de campos espacio-temporales de simulaciones numéricas directas de varios flujos turbulentos. Dichos datos han sido difíciles de compartir utilizando métodos tradicionales como la descarga de archivos de salida de simulación planos. Se puede acceder a los datos dentro de JHTDB usando "sensores virtuales" con varios modos de acceso que van desde consultas directas del navegador web, acceso a través de programas Matlab, Python, Fortran y C que se ejecutan en las plataformas de los clientes, hasta servicios para descargar datos sin procesar. Los datos se han utilizado en más de 150 publicaciones científicas.
Deportes
Los macrodatos se pueden utilizar para mejorar el entrenamiento y la comprensión de los competidores mediante el uso de sensores deportivos. También es posible predecir los ganadores de un partido mediante el análisis de big data. [131] También se podría predecir el rendimiento futuro de los jugadores. Por lo tanto, el valor y el salario de los jugadores está determinado por los datos recopilados a lo largo de la temporada. [132]
En las carreras de Fórmula Uno, los autos de carrera con cientos de sensores generan terabytes de datos. Estos sensores recopilan puntos de datos desde la presión de los neumáticos hasta la eficiencia del consumo de combustible. [133] Basándose en los datos, los ingenieros y analistas de datos deciden si se deben hacer ajustes para ganar una carrera. Además, utilizando big data, los equipos de carrera intentan predecir el tiempo en el que terminarán la carrera de antemano, basándose en simulaciones utilizando datos recopilados durante la temporada. [134]
Tecnología
- eBay.com utiliza dos almacenes de datos de 7,5 petabytes y 40 PB, así como un clúster Hadoop de 40 PB para búsquedas, recomendaciones de consumidores y comercialización. [135]
- Amazon.com maneja millones de operaciones de back-end todos los días, así como consultas de más de medio millón de vendedores externos. La tecnología central que mantiene a Amazon en funcionamiento está basada en Linux y desde 2005[actualizar]tenían las tres bases de datos Linux más grandes del mundo, con capacidades de 7,8 TB, 18,5 TB y 24,7 TB. [136]
- Facebook maneja 50 mil millones de fotos de su base de usuarios. [137] A junio de 2017[actualizar], Facebook alcanzó los 2 mil millones de usuarios activos mensuales . [138]
- Google manejaba aproximadamente 100 mil millones de búsquedas por mes en agosto de 2012[actualizar]. [139]
COVID-19
Durante la pandemia de COVID-19 , se plantearon los macrodatos como una forma de minimizar el impacto de la enfermedad. Entre las aplicaciones importantes de big data se incluyen la minimización de la propagación del virus, la identificación de casos y el desarrollo de tratamientos médicos. [140]
Los gobiernos utilizaron big data para rastrear a las personas infectadas y minimizar la propagación. Los primeros en adoptarlo fueron China, Taiwán, Corea del Sur e Israel. [141] [142] [143]
Actividades de investigación
La búsqueda encriptada y la formación de grupos en big data se demostraron en marzo de 2014 en la Sociedad Estadounidense de Educación en Ingeniería. Gautam Siwach, comprometido en Abordar los desafíos de Big Data por el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT, y Amir Esmailpour en el Grupo de Investigación UNH investigó las características clave de Big Data como la formación de clústeres y sus interconexiones. Se centraron en la seguridad de los macrodatos y la orientación del término hacia la presencia de diferentes tipos de datos en forma cifrada en la interfaz de la nube al proporcionar definiciones sin procesar y ejemplos en tiempo real dentro de la tecnología. Además, propusieron un enfoque para identificar la técnica de codificación para avanzar hacia una búsqueda acelerada sobre texto cifrado que conduzca a mejoras de seguridad en big data. [144]
En marzo de 2012, la Casa Blanca anunció una "Iniciativa de Big Data" nacional que consistía en seis departamentos y agencias federales que comprometían más de $ 200 millones para proyectos de investigación de Big Data. [145]
La iniciativa incluyó una subvención de la Fundación Nacional de Ciencias "Expeditions in Computing" de $ 10 millones durante cinco años para el AMPLab [146] en la Universidad de California, Berkeley. [147] El AMPLab también recibió fondos de DARPA y más de una docena de patrocinadores industriales y utiliza big data para atacar una amplia gama de problemas, desde predecir la congestión del tráfico [148] hasta combatir el cáncer. [149]
La Iniciativa de Big Data de la Casa Blanca también incluyó un compromiso por parte del Departamento de Energía de proporcionar $ 25 millones en fondos durante cinco años para establecer el Instituto de Gestión, Análisis y Visualización de Datos Escalables (SDAV), [150] dirigido por Lawrence Berkeley National del Departamento de Energía. Laboratorio . El Instituto SDAV tiene como objetivo reunir la experiencia de seis laboratorios nacionales y siete universidades para desarrollar nuevas herramientas que ayuden a los científicos a gestionar y visualizar datos en las supercomputadoras del departamento.
El estado estadounidense de Massachusetts anunció la Iniciativa de Big Data de Massachusetts en mayo de 2012, que proporciona fondos del gobierno estatal y empresas privadas a una variedad de instituciones de investigación. [151] El Instituto de Tecnología de Massachusetts alberga el Centro de Ciencia y Tecnología Intel para Big Data en el Laboratorio de Inteligencia Artificial y Ciencias de la Computación del MIT , que combina los esfuerzos de investigación y financiación gubernamentales, corporativas e institucionales. [152]
La Comisión Europea está financiando el Foro Público Privado de Big Data de dos años de duración a través de su Séptimo Programa Marco para involucrar a empresas, académicos y otras partes interesadas en la discusión de problemas de big data. El proyecto tiene como objetivo definir una estrategia en términos de investigación e innovación para orientar las acciones de apoyo de la Comisión Europea en la implementación exitosa de la economía de big data. Los resultados de este proyecto se utilizarán como aportación para Horizonte 2020 , su próximo programa marco . [153]
El gobierno británico anunció en marzo de 2014 la fundación del Instituto Alan Turing , que lleva el nombre del pionero de la informática y descifrador de códigos, que se centrará en nuevas formas de recopilar y analizar grandes conjuntos de datos. [154]
En el Día de inspiración de la experiencia canadiense de datos abiertos (CODE) del campus de la Universidad de Waterloo en Stratford , los participantes demostraron cómo el uso de la visualización de datos puede aumentar la comprensión y el atractivo de los grandes conjuntos de datos y comunicar su historia al mundo. [155]
Ciencias sociales computacionales : cualquiera puede utilizar las interfaces de programación de aplicaciones (API) proporcionadas por los titulares de big data, como Google y Twitter, para realizar investigaciones en las ciencias sociales y del comportamiento. [156] A menudo, estas API se proporcionan de forma gratuita. [156] Tobias Preis y col. utilizó datos de Google Trends para demostrar que los usuarios de Internet de países con un producto interno bruto (PIB) per cápita más alto tienen más probabilidades de buscar información sobre el futuro que sobre el pasado. Los hallazgos sugieren que puede haber un vínculo entre los comportamientos en línea y los indicadores económicos del mundo real. [157] [158] [159] Los autores del estudio examinaron los registros de consultas de Google realizados por relación entre el volumen de búsquedas del año siguiente (2011) y el volumen de búsquedas del año anterior (2009), al que denominan " índice de orientación futura ". [160] Compararon el índice de orientación futura con el PIB per cápita de cada país y encontraron una fuerte tendencia en los países donde los usuarios de Google preguntan más sobre el futuro para tener un PIB más alto.
Tobias Preis y sus colegas Helen Susannah Moat y H. Eugene Stanley introdujeron un método para identificar los precursores en línea de los movimientos del mercado de valores, utilizando estrategias comerciales basadas en los datos de volumen de búsqueda proporcionados por Google Trends. [161] Su análisis del volumen de búsqueda de Google para 98 términos de diversa relevancia financiera, publicado en Scientific Reports , [162] sugiere que los aumentos en el volumen de búsqueda de términos de búsqueda financieramente relevantes tienden a preceder a grandes pérdidas en los mercados financieros. [163] [164] [165] [166] [167] [168] [169]
Los grandes conjuntos de datos vienen con desafíos algorítmicos que antes no existían. Por lo tanto, algunos consideran que es necesario cambiar fundamentalmente las formas de procesamiento. [170]
Los talleres sobre algoritmos para conjuntos de datos masivos modernos (MMDS) reúnen a científicos informáticos, estadísticos, matemáticos y profesionales del análisis de datos para discutir los desafíos algorítmicos del big data. [171] Con respecto a los macrodatos, estos conceptos de magnitud son relativos. Como se afirma, "si el pasado sirve de guía, lo más probable es que los macrodatos de hoy no se consideren como tales en un futuro próximo". [77]
Muestreo de macrodatos
Una pregunta de investigación que se hace sobre los grandes conjuntos de datos es si es necesario observar los datos completos para sacar ciertas conclusiones sobre las propiedades de los datos o si una muestra es lo suficientemente buena. El nombre de big data en sí mismo contiene un término relacionado con el tamaño y esta es una característica importante de big data. Pero el muestreo permite la selección de puntos de datos correctos dentro del conjunto de datos más grande para estimar las características de toda la población. En la fabricación, los diferentes tipos de datos sensoriales, como la acústica, la vibración, la presión, la corriente, el voltaje y los datos del controlador, están disponibles en intervalos de tiempo cortos. Para predecir el tiempo de inactividad, puede que no sea necesario observar todos los datos, pero una muestra puede ser suficiente. Los macrodatos se pueden desglosar por varias categorías de puntos de datos, como datos demográficos, psicográficos, de comportamiento y transaccionales. Con grandes conjuntos de puntos de datos, los especialistas en marketing pueden crear y utilizar segmentos de consumidores más personalizados para una orientación más estratégica.
Se ha trabajado en algoritmos de muestreo para big data. Se ha desarrollado una formulación teórica para muestrear datos de Twitter. [172]
Crítica
Las críticas al paradigma del big data son de dos tipos: las que cuestionan las implicaciones del enfoque en sí y las que cuestionan la forma en que se hace actualmente. [173] Un enfoque de esta crítica es el campo de los estudios de datos críticos .
Críticas al paradigma del big data
"Un problema crucial es que no sabemos mucho sobre los microprocesos empíricos subyacentes que conducen al surgimiento de las características de red típicas de Big Data". [18] En su crítica, Snijders, Matzat y Reips señalan que a menudo se hacen suposiciones muy sólidas sobre propiedades matemáticas que pueden no reflejar en absoluto lo que realmente está sucediendo a nivel de microprocesos. Mark Graham ha dirigido amplias críticas a la afirmación de Chris Anderson de que el big data marcará el final de la teoría: [174] centrándose en particular en la noción de que el big data siempre debe contextualizarse en sus contextos sociales, económicos y políticos. [175] Incluso cuando las empresas invierten sumas de ocho y nueve cifras para obtener información a partir de la información procedente de proveedores y clientes, menos del 40% de los empleados tienen procesos y habilidades suficientemente maduros para hacerlo. Para superar este déficit de conocimiento, los macrodatos, por muy completos o bien analizados que sean, deben complementarse con un "gran juicio", según un artículo de Harvard Business Review. [176]
Muy en la misma línea, se ha señalado que las decisiones basadas en el análisis de big data son inevitablemente "informadas por el mundo como lo fue en el pasado, o, en el mejor de los casos, como lo es actualmente". [58] Alimentados por una gran cantidad de datos sobre experiencias pasadas, los algoritmos pueden predecir el desarrollo futuro si el futuro es similar al pasado. [177] Si la dinámica del sistema del futuro cambia (si no es un proceso estacionario ), el pasado puede decir poco sobre el futuro. Para hacer predicciones en entornos cambiantes, sería necesario tener un conocimiento profundo de la dinámica de los sistemas, lo que requiere teoría. [177] Como respuesta a esta crítica, Alemany Oliver y Vayre sugieren utilizar "el razonamiento abductivo como un primer paso en el proceso de investigación para contextualizar las huellas digitales de los consumidores y hacer que surjan nuevas teorías". [178] Además, se ha sugerido combinar enfoques de macrodatos con simulaciones por computadora, como modelos basados en agentes [58] y sistemas complejos . Los modelos basados en agentes están mejorando cada vez más en la predicción del resultado de las complejidades sociales de escenarios futuros incluso desconocidos a través de simulaciones por computadora que se basan en una colección de algoritmos mutuamente interdependientes. [179] [180] Finalmente, el uso de métodos multivariados que sondean la estructura latente de los datos, como el análisis factorial y el análisis de conglomerados , han demostrado ser útiles como enfoques analíticos que van mucho más allá de los enfoques bivariados (tabulaciones cruzadas ) normalmente empleado con conjuntos de datos más pequeños.
En salud y biología, los enfoques científicos convencionales se basan en la experimentación. Para estos enfoques, el factor limitante son los datos relevantes que pueden confirmar o refutar la hipótesis inicial. [181] Ahora se acepta un nuevo postulado en las biociencias: la información que proporcionan los datos en grandes volúmenes ( ómicas ) sin hipótesis previas es complementaria y en ocasiones necesaria a los enfoques convencionales basados en la experimentación. [182] [183] En los enfoques masivos es la formulación de una hipótesis relevante para explicar los datos el factor limitante. [184] Se invierte la lógica de la búsqueda y se deben considerar los límites de la inducción ("Gloria de la ciencia y el escándalo de la filosofía", CD Broad , 1926). [ cita requerida ]
Los defensores de la privacidad están preocupados por la amenaza a la privacidad que representa el aumento del almacenamiento y la integración de información de identificación personal ; Los paneles de expertos han publicado varias recomendaciones de políticas para ajustar la práctica a las expectativas de privacidad. [185] [186] [187] El uso indebido de big data en varios casos por parte de los medios, las empresas e incluso el gobierno ha permitido la abolición de la confianza en casi todas las instituciones fundamentales que sostienen la sociedad. [188]
Nayef Al-Rodhan sostiene que se necesitará un nuevo tipo de contrato social para proteger las libertades individuales en el contexto de big data y corporaciones gigantes que poseen grandes cantidades de información, y que el uso de big data debe ser monitoreado y mejor regulado a nivel mundial. nivel nacional e internacional. [189] Barocas y Nissenbaum argumentan que una forma de proteger a los usuarios individuales es informándose sobre los tipos de información que se recopila, con quién se comparte, con qué limitaciones y con qué fines. [190]
Críticas al modelo "V"
El modelo "V" de big data es preocupante, ya que se centra en la escalabilidad computacional y carece de una pérdida en torno a la perceptibilidad y comprensibilidad de la información. Esto condujo al marco de Big Data cognitivo , que caracteriza a las aplicaciones de Big Data según: [191]
- Integridad de los datos: comprensión de lo no obvio a partir de los datos
- Correlación, causalidad y previsibilidad de los datos: la causalidad como requisito no esencial para lograr la previsibilidad
- Explicabilidad e interpretabilidad: los seres humanos desean comprender y aceptar lo que entienden, donde los algoritmos no hacen frente a esto.
- Nivel de toma de decisiones automatizada: algoritmos que apoyan la toma de decisiones automatizada y el autoaprendizaje algorítmico.
Críticas a la novedad
Las máquinas informáticas han analizado grandes conjuntos de datos durante más de un siglo, incluido el análisis del censo de EE. UU. Realizado por las máquinas de tarjetas perforadas de IBM , que calculan estadísticas que incluyen medias y variaciones de poblaciones en todo el continente. En décadas más recientes, los experimentos científicos como el CERN han producido datos en escalas similares a los "big data" comerciales actuales. Sin embargo, los experimentos científicos han tendido a analizar sus datos utilizando grupos y cuadrículas de computación de alto rendimiento (supercomputación) especializados y personalizados, en lugar de nubes de computadoras de bajo costo como en la ola comercial actual, lo que implica una diferencia tanto en la cultura como en la tecnología. apilar.
Críticas a la ejecución de big data
Ulf-Dietrich Reips y Uwe Matzat escribieron en 2014 que los macrodatos se habían convertido en una "moda" en la investigación científica. [156] La investigadora danah boyd ha expresado su preocupación por el uso de big data en la ciencia, descuidando principios como elegir una muestra representativa al estar demasiado preocupada por el manejo de grandes cantidades de datos. [192] Este enfoque puede conducir a resultados que tengan sesgos de una forma u otra. [193] La integración a través de recursos de datos heterogéneos —algunos que podrían considerarse macrodatos y otros no— presenta formidables desafíos logísticos y analíticos, pero muchos investigadores sostienen que es probable que tales integraciones representen las nuevas fronteras más prometedoras de la ciencia. [194] En el provocativo artículo "Preguntas críticas para Big Data", [195] los autores titulan los grandes datos como parte de la mitología : "los grandes conjuntos de datos ofrecen una forma superior de inteligencia y conocimiento [...], con el aura de verdad, objetividad y exactitud ". Los usuarios de Big Data a menudo "se pierden en el gran volumen de números", y "trabajar con Big Data sigue siendo subjetivo, y lo que cuantifica no necesariamente tiene un reclamo más cercano a la verdad objetiva". [195] Los desarrollos recientes en el dominio de BI, como los informes proactivos, apuntan especialmente a mejoras en la usabilidad de big data, mediante el filtrado automatizado de datos no útiles y correlaciones . [196] Las grandes estructuras están llenas de correlaciones espurias [197] ya sea debido a coincidencias no causales ( ley de números realmente grandes ), únicamente a la naturaleza de la gran aleatoriedad [198] ( teoría de Ramsey ), o la existencia de factores no incluidos, por lo que el Se cuestiona la esperanza de los primeros experimentadores de hacer que grandes bases de datos de números "hablen por sí mismos" y revolucionen el método científico. [199]
El análisis de macrodatos suele ser poco profundo en comparación con el análisis de conjuntos de datos más pequeños. [200] En muchos proyectos de big data, no se realizan grandes análisis de datos, pero el desafío es extraer, transformar y cargar parte del preprocesamiento de datos. [200]
Big data es una palabra de moda y un "término vago", [201] [202] pero al mismo tiempo una "obsesión" [202] por los empresarios, consultores, científicos y los medios de comunicación. Las vitrinas de big data como Google Flu Trends no pudieron ofrecer buenas predicciones en los últimos años, exagerando los brotes de gripe en un factor de dos. De manera similar, los premios de la Academia y las predicciones electorales basadas únicamente en Twitter fueron más a menudo equivocadas que acertadas. Los macrodatos suelen presentar los mismos desafíos que los pequeños; agregar más datos no resuelve los problemas de sesgo, pero puede enfatizar otros problemas. En particular, las fuentes de datos como Twitter no son representativas de la población en general, y los resultados extraídos de dichas fuentes pueden llevar a conclusiones erróneas. Google Translate, que se basa en un análisis estadístico de texto de macrodatos, hace un buen trabajo traduciendo páginas web. Sin embargo, los resultados de los dominios especializados pueden estar drásticamente sesgados. Por otro lado, los macrodatos también pueden introducir nuevos problemas, como el problema de las comparaciones múltiples : es probable que probar simultáneamente un gran conjunto de hipótesis produzca muchos resultados falsos que, por error, parecen significativos. Ioannidis argumentó que "la mayoría de los hallazgos de investigación publicados son falsos" [203] debido esencialmente al mismo efecto: cuando muchos equipos científicos e investigadores realizan muchos experimentos (es decir, procesan una gran cantidad de datos científicos; aunque no con tecnología de big data), el La probabilidad de que un resultado "significativo" sea falso aumenta rápidamente, incluso más cuando solo se publican resultados positivos. Además, los resultados del análisis de big data son tan buenos como el modelo en el que se basan. En un ejemplo, los macrodatos participaron en el intento de predecir los resultados de las elecciones presidenciales de EE. UU. De 2016 [204] con diversos grados de éxito.
Críticas a la vigilancia y vigilancia de macrodatos
Instituciones como las fuerzas del orden y las corporaciones han utilizado big data en la vigilancia y la vigilancia . [205] Debido a la naturaleza menos visible de la vigilancia basada en datos en comparación con el método tradicional de vigilancia, es menos probable que surjan objeciones a la vigilancia de macrodatos. Según Sarah Brayne's Big Data Surveillance: The Case of Policing , [206] la vigilancia de big data puede reproducir las desigualdades sociales existentes de tres formas:
- Colocar a los presuntos delincuentes bajo una mayor vigilancia mediante el uso de la justificación de un algoritmo matemático y, por lo tanto, imparcial
- Aumentar el alcance y la cantidad de personas que están sujetas al seguimiento de las fuerzas del orden y exacerbar la sobrerrepresentación racial existente en el sistema de justicia penal.
- Alentar a los miembros de la sociedad a abandonar las interacciones con instituciones que crearían un rastro digital, creando así obstáculos para la inclusión social.
Si estos problemas potenciales no se corrigen o regulan, los efectos de la vigilancia de macrodatos pueden seguir configurando las jerarquías sociales. El uso concienzudo de la vigilancia de macrodatos podría evitar que los sesgos a nivel individual se conviertan en sesgos institucionales, señala Brayne.
En la cultura popular
Libros
- Moneyball es un libro de no ficción que explora cómo los Atléticos de Oakland utilizaron el análisis estadístico para superar a los equipos con presupuestos más grandes. En 2011 se estrenó una adaptación cinematográfica protagonizada por Brad Pitt .
Película
- En Captain America: The Winter Soldier , HYDRA (disfrazado de SHIELD ) desarrolla helicópteros que usan datos para determinar y eliminar amenazas en todo el mundo.
- En The Dark Knight , Batman usa un dispositivo de sonar que puede espiar a toda Gotham City . Los datos se recopilan de los teléfonos móviles de las personas dentro de la ciudad.
Ver también
- Ética de Big Data
- Modelo de madurez de Big Data
- Gran memoria
- Conservación de datos
- Almacenamiento definido de datos
- Linaje de datos
- Filantropía de datos
- Ciencia de los datos
- Datafication
- Base de datos orientada a documentos
- Procesamiento en memoria
- Lista de empresas de big data
- Informática urbana
- Base de datos muy grande
- XLDB
Referencias
- ^ Hilbert, Martin; López, Priscila (2011). "La capacidad tecnológica del mundo para almacenar, comunicar y computar información" . Ciencia . 332 (6025): 60–65. Código bibliográfico : 2011Sci ... 332 ... 60H . doi : 10.1126 / science.1200970 . PMID 21310967 . S2CID 206531385 . Consultado el 13 de abril de 2016 .
- ^ Breur, Tom (julio de 2016). "Análisis estadístico del poder y la" crisis "contemporánea en las ciencias sociales" . Revista de análisis de marketing . 4 (2–3): 61–65. doi : 10.1057 / s41270-016-0001-3 . ISSN 2050-3318 .
- ^ a b "Las 5 V's del big data" . Perspectivas de salud de Watson . 17 de septiembre de 2016 . Consultado el 20 de enero de 2021 .
- ^ boyd, dana; Crawford, Kate (21 de septiembre de 2011). "Seis provocaciones para Big Data" . Red de investigación en ciencias sociales: Una década en el tiempo de Internet: Simposio sobre la dinámica de Internet y la sociedad . doi : 10.2139 / ssrn.1926431 . S2CID 148610111 .
- ^ a b c d e f g "Datos, datos en todas partes" . The Economist . 25 de febrero de 2010 . Consultado el 9 de diciembre de 2012 .
- ^ "Se requiere inteligencia comunitaria" . Naturaleza . 455 (7209): 1. Septiembre de 2008. Bibcode : 2008Natur.455 .... 1. . doi : 10.1038 / 455001a . PMID 18769385 .
- ^ Reichman OJ, Jones MB, Schildhauer MP (febrero de 2011). "Retos y oportunidades de los datos abiertos en ecología" . Ciencia . 331 (6018): 703–5. Código bibliográfico : 2011Sci ... 331..703R . doi : 10.1126 / science.1197962 . PMID 21311007 . S2CID 22686503 .
- ^ Hellerstein, Joe (9 de noviembre de 2008). "Programación paralela en la era del Big Data" . Blog Gigaom .
- ^ Segaran, Toby; Hammerbacher, Jeff (2009). Datos hermosos: las historias detrás de las soluciones de datos elegantes . O'Reilly Media. pag. 257. ISBN 978-0-596-15711-1.
- ^ a b Hilbert M, López P (abril de 2011). "La capacidad tecnológica del mundo para almacenar, comunicar y computar información" (PDF) . Ciencia . 332 (6025): 60–5. Código bibliográfico : 2011Sci ... 332 ... 60H . doi : 10.1126 / science.1200970 . PMID 21310967 . S2CID 206531385 .
- ^ "IBM ¿Qué es Big Data? - Llevando Big Data a la empresa" . ibm.com . Consultado el 26 de agosto de 2013 .
- ^ Reinsel, David; Gantz, John; Rydning, John (13 de abril de 2017). "Data Age 2025: la evolución de los datos a vital importancia" (PDF) . seagate.com . Framingham, MA, EE.UU .: International Data Corporation . Consultado el 2 de noviembre de 2017 .
- ^ Oracle y FSN, "Mastering Big Data: CFO Strategies to Transform Insight into Opportunity" Archivado el 4 de agosto de 2013 en Wayback Machine , diciembre de 2012
- ^ Jacobs, A. (6 de julio de 2009). "Las patologías del Big Data" . ACMQueue .
- ^ Magoulas, Roger; Lorica, Ben (febrero de 2009). "Introducción al Big Data" . Versión 2.0 . Sebastopol CA: O'Reilly Media (11).
- ^ John R. Mashey (25 de abril de 1998). "Big Data ... y la próxima ola de InfraStress" (PDF) . Diapositivas de la charla invitada . Usenix . Consultado el 28 de septiembre de 2016 .
- ^ Steve Lohr (1 de febrero de 2013). "Los orígenes de 'Big Data': una historia etimológica de detectives" . The New York Times . Consultado el 28 de septiembre de 2016 .
- ^ a b Snijders, C .; Matzat, U .; Reips, U.-D. (2012). " ' Big Data': Grandes lagunas de conocimiento en el ámbito de Internet" . Revista Internacional de Ciencias de Internet . 7 : 1–5.
- ^ Dedić, N .; Stanier, C. (2017). "Hacia la diferenciación de Business Intelligence, Big Data, Data Analytics y Knowledge Discovery" . Innovaciones en la gestión e ingeniería de sistemas de información empresarial . Apuntes de conferencias sobre procesamiento de información empresarial. 285 . Berlín; Heidelberg: Springer International Publishing. págs. 114-122. doi : 10.1007 / 978-3-319-58801-8_10 . ISBN 978-3-319-58800-1. ISSN 1865-1356 . OCLC 909580101 .
- ^ Everts, Sarah (2016). "Sobrecarga de información" . Destilaciones . Vol. 2 no. 2. págs. 26–33 . Consultado el 22 de marzo de 2018 .
- ^ Ibrahim; Targio Hashem, Abaker; Yaqoob, Ibrar; Badrul Anuar, Nor; Mokhtar, Salimah; Gani, Abdullah; Ullah Khan, Samee (2015). "Big Data" en la computación en nube: revisión y cuestiones de investigación abierta ". Information Systems . 47 : 98-115. doi : 10.1016 / j.is.2014.07.006 .
- ^ Grimes, Seth. "Big Data: evitar la confusión de 'Wanna V'" . InformationWeek . Consultado el 5 de enero de 2016 .
- ^ Fox, Charles (25 de marzo de 2018). Ciencia de datos para el transporte . Springer Textbooks en Ciencias de la Tierra, Geografía y Medio Ambiente. Saltador. ISBN 9783319729527.
- ^ "avec focalisation sur Big Data & Analytique" (PDF) . Bigdataparis.com . Consultado el 8 de octubre de 2017 .
- ^ a b Billings SA "Identificación del sistema no lineal: métodos NARMAX en los dominios de tiempo, frecuencia y espacio-temporal". Wiley, 2013
- ^ "le Blog ANDSI» DSI Big Data " . Andsi.fr . Consultado el 8 de octubre de 2017 .
- ^ Les Echos (3 de abril de 2013). "Les Echos - Big Data car Low-Density Data? La faible densité en information comme facteur discriminant - Archives" . Lesechos.fr . Consultado el 8 de octubre de 2017 .
- ^ Sagiroglu, Seref (2013). "Big data: una revisión". Conferencia internacional de 2013 sobre tecnologías y sistemas de colaboración (CTS) : 42–47. doi : 10.1109 / CTS.2013.6567202 . ISBN 978-1-4673-6404-1. S2CID 5724608 .
- ^ Kitchin, Rob; McArdle, Gavin (17 de febrero de 2016). "¿Qué hace Big Data, Big Data? Explorando las características ontológicas de 26 conjuntos de datos" . Big Data y Sociedad . 3 (1): 205395171663113. doi : 10.1177 / 2053951716631130 .
- ^ Onay, Ceylan; Öztürk, Elif (2018). "Una revisión de la investigación de puntuación de crédito en la era de Big Data". Revista de Regulación y Cumplimiento Financiero . 26 (3): 382–405. doi : 10.1108 / JFRC-06-2017-0054 .
- ^ Cuarta V de Big Data
- ^ "Midiendo el valor empresarial de Big Data | IBM Big Data & Analytics Hub" . www.ibmbigdatahub.com . Consultado el 20 de enero de 2021 .
- ^ Kitchin, Rob; McArdle, Gavin (5 de enero de 2016). "¿Qué hace Big Data, Big Data? Explorando las características ontológicas de 26 conjuntos de datos" . Big Data y Sociedad . 3 (1): 205395171663113. doi : 10.1177 / 2053951716631130 . ISSN 2053-9517 .
- ^ "Encuesta: las bases de datos más grandes se acercan a 30 terabytes" . Eweek.com . Consultado el 8 de octubre de 2017 .
- ^ "LexisNexis para comprar Seisint por $ 775 millones" . The Washington Post . Consultado el 15 de julio de 2004 .
- ^ https://www.washingtonpost.com/wp-dyn/content/article/2008/02/21/AR2008022100809.html
- ^ Bertolucci, Jeff "Hadoop: From Experiment To Lead Big Data Platform" , "Information Week", 2013. Consultado el 14 de noviembre de 2013.
- ^ Webster, John. "MapReduce: Simplified Data Processing on Large Clusters" , "Search Storage", 2004. Consultado el 25 de marzo de 2013.
- ^ "Oferta de soluciones de Big Data" . MIKE2.0 . Consultado el 8 de diciembre de 2013 .
- ^ "Definición de Big Data" . MIKE2.0 . Consultado el 9 de marzo de 2013 .
- ^ Boja, C; Pocovnicu, A; Bătăgan, L. (2012). "Arquitectura paralela distribuida para Big Data". Informatica Economica . 16 (2): 116-127.
- ^ "RESOLVER DESAFÍOS EMPRESARIALES CLAVE CON UN GRAN LAGO DE DATOS" (PDF) . Hcltech.com . Agosto de 2014 . Consultado el 8 de octubre de 2017 .
- ^ "Método para probar la tolerancia a fallos de los frameworks MapReduce" (PDF) . Red de computadoras. 2015.
- ^ a b Manyika, James; Chui, Michael; Bughin, Jaques; Brown, Brad; Dobbs, Richard; Roxburgh, Charles; Byers, Angela Hung (mayo de 2011). "Big Data: la próxima frontera para la innovación, la competencia y la productividad" (PDF) . Instituto Global McKinsey . Consultado el 22 de mayo de 2021 . Cite journal requiere
|journal=
( ayuda ) - ^ "Direcciones futuras en la computación y el modelado basados en tensor" (PDF) . Mayo de 2009.
- ^ Lu, Haiping; Plataniotis, KN; Venetsanopoulos, AN (2011). "Una encuesta de aprendizaje subespacial multilineal para datos tensoriales" (PDF) . Reconocimiento de patrones . 44 (7): 1540-1551. Código Bibliográfico : 2011PatRe..44.1540L . doi : 10.1016 / j.patcog.2011.01.004 .
- ^ Pllana, Sabri; Janciak, Ivan; Brezany, Peter; Wöhrer, Alexander (2016). "Una encuesta sobre el estado del arte en minería de datos y lenguajes de consulta de integración". 2011 XIV Conferencia Internacional sobre Sistemas de Información en Red . 2011 Conferencia internacional sobre sistemas de información basados en redes (NBIS 2011) . Sociedad de Informática IEEE. págs. 341–348. arXiv : 1603.01113 . Código Bib : 2016arXiv160301113P . doi : 10.1109 / NBiS.2011.58 . ISBN 978-1-4577-0789-6. S2CID 9285984 .
- ^ Wang, Yandong; Goldstone, Robin; Yu, Weikuan; Wang, Teng (octubre de 2014). "Caracterización y optimización de MapReduce residente en memoria en sistemas HPC". 2014 IEEE 28th International Parallel and Distributed Processing Symposium . IEEE. págs. 799–808. doi : 10.1109 / IPDPS.2014.87 . ISBN 978-1-4799-3800-1. S2CID 11157612 .
- ^ L'Heureux, A .; Grolinger, K .; Elyamany, HF; Capretz, MAM (2017). "Aprendizaje automático con Big Data: desafíos y enfoques" . Acceso IEEE . 5 : 7776–7797. doi : 10.1109 / ACCESS.2017.2696365 . ISSN 2169-3536 .
- ^ Monash, Curt (30 de abril de 2009). "Dos enormes almacenes de datos de eBay" .
Monash, Curt (6 de octubre de 2010). "Seguimiento de eBay: salida de Greenplum, Teradata> 10 petabytes, Hadoop tiene algo de valor y más" . - ^ "Recursos sobre cómo se utiliza el análisis de datos topológicos para analizar big data" . Ayasdi.
- ^ CNET News (1 de abril de 2011). "No es necesario aplicar las redes de área de almacenamiento" .
- ^ Hilbert, Martín (2014). "¿Cuál es el contenido de la información y la capacidad de comunicación mediada tecnológicamente del mundo: cuánto texto, imagen, audio y video?" . Sociedad de la información . 30 (2): 127–143. doi : 10.1080 / 01972243.2013.873748 . S2CID 45759014 .
- ^ Rajpurohit, Anmol (11 de julio de 2014). "Entrevista: Amy Gershkoff, directora de análisis e información del cliente, eBay sobre cómo diseñar herramientas de BI internas personalizadas" . KDnuggets . Consultado el 14 de julio de 2014 .
Dr. Amy Gershkoff: "En general, encuentro que las herramientas de inteligencia empresarial listas para usar no satisfacen las necesidades de los clientes que desean obtener información personalizada de sus datos. Por lo tanto, para organizaciones medianas y grandes con acceso a sólidos talento, por lo general recomiendo crear soluciones internas personalizadas ".
- ^ "El gobierno y el big data: uso, problemas y potencial" . Computerworld . 21 de marzo de 2012 . Consultado el 12 de septiembre de 2016 .
- ^ "Libro blanco: Big Data para el desarrollo: oportunidades y desafíos (2012) - United Nations Global Pulse" . Unglobalpulse.org . Consultado el 13 de abril de 2016 .
- ^ "WEF (Foro Económico Mundial) y Vital Wave Consulting. (2012). Big Data, Big Impact: Nuevas Posibilidades para el Desarrollo Internacional" . Foro Económico Mundial . Consultado el 24 de agosto de 2012 .
- ↑ a b c d e Hilbert, M. (2016). Big Data para el desarrollo: una revisión de promesas y desafíos. Examen de las políticas de desarrollo, 34 (1), 135-174. https://doi.org/10.1111/dpr.12142 acceso gratuito: https://www.martinhilbert.net/big-data-for-development/
- ^ "Elena Kvochko, Cuatro formas de hablar de Big Data (Serie Tecnologías de la información y la comunicación para el desarrollo)" . worldbank.org. 4 de diciembre de 2012 . Consultado el 30 de mayo de 2012 .
- ^ "Daniele Medri: Big Data & Business: una revolución en curso" . Vistas de estadísticas. 21 de octubre de 2013. Archivado desde el original el 17 de junio de 2015 . Consultado el 21 de junio de 2015 .
- ^ Tobias Knobloch y Julia Manske (11 de enero de 2016). "Uso responsable de los datos" . D + C, Desarrollo y Cooperación .
- ^ Mann, S. y Hilbert, M. (2020). AI4D: Inteligencia artificial para el desarrollo. Revista Internacional de Comunicación, 14 (0), 21. https://www.martinhilbert.net/ai4d-artificial-intelligence-for-development/
- ^ Blumenstock, JE (2016). Combatir la pobreza con datos. Science, 353 (6301), 753–754. https://doi.org/10.1126/science.aah5217
- ^ Blumenstock, J., Cadamuro, G. y sobre, R. (2015). Predicción de la pobreza y la riqueza a partir de metadatos de teléfonos móviles. Science, 350 (6264), 1073–1076. https://doi.org/10.1126/science.aac4420
- ^ Jean, N., Burke, M., Xie, M., Davis, WM, Lobell, DB y Ermon, S. (2016). Combinando imágenes satelitales y aprendizaje automático para predecir la pobreza. Science, 353 (6301), 790–794. https://doi.org/10.1126/science.aaf7894
- ↑ a b Hilbert, M. y Lu, K. (2020). El rastro del mercado laboral en línea en América Latina y el Caribe (CEPAL ONU LC / TS.2020 / 83; p. 79). Comisión Económica de las Naciones Unidas para América Latina y el Caribe. https://www.cepal.org/en/publications/45892-online-job-market-trace-latin-america-and-caribbean
- ^ ONU CEPAL, (Comisión Económica de las Naciones Unidas para América Latina y el Caribe). (2020). Seguimiento de la huella digital en América Latina y el Caribe: lecciones aprendidas del uso de big data para evaluar la economía digital (Desarrollo Productivo, Asuntos de Género LC / TS.2020 / 12; Documentos de Proyecto). Naciones Unidas CEPAL. https://repositorio.cepal.org/handle/11362/45484
- ^ Huser V, Cimino JJ (julio de 2016). "Desafíos inminentes para el uso de Big Data" . Revista Internacional de Oncología Radioterápica, Biología, Física . 95 (3): 890–894. doi : 10.1016 / j.ijrobp.2015.10.060 . PMC 4860172 . PMID 26797535 .
- ^ Sejdic, Ervin; Falk, Tiago H. (4 de julio de 2018). Procesamiento de señales y aprendizaje automático para Big Data biomédico . Sejdić, Ervin, Falk, Tiago H. [Lugar de publicación no identificado]. ISBN 9781351061216. OCLC 1044733829 .
- ^ Raghupathi W, Raghupathi V (diciembre de 2014). "Big data analytics en salud: promesa y potencial" . Ciencias y sistemas de información sanitaria . 2 (1): 3. doi : 10.1186 / 2047-2501-2-3 . PMC 4341817 . PMID 25825667 .
- ^ Viceconti M, Hunter P, Hose R (julio de 2015). "Big Data, Big Data: Big Data para una atención sanitaria personalizada" (PDF) . IEEE Journal of Biomedical and Health Informatics . 19 (4): 1209–15. doi : 10.1109 / JBHI.2015.2406883 . PMID 26218867 . S2CID 14710821 .
- ^ O'Donoghue, John; Herbert, John (1 de octubre de 2012). "Gestión de datos en entornos de mHealth: sensores de pacientes, dispositivos móviles y bases de datos". Revista de Calidad de la Información y los Datos . 4 (1): 5: 1–5: 20. doi : 10.1145 / 2378016.2378021 . S2CID 2318649 .
- ^ Mirkes EM, Coats TJ, Levesley J, Gorban AN (agosto de 2016). "Manejo de datos faltantes en un gran conjunto de datos de salud: un estudio de caso de resultados de trauma desconocidos". Informática en Biología y Medicina . 75 : 203-16. arXiv : 1604.00627 . Código bibliográfico : 2016arXiv160400627M . doi : 10.1016 / j.compbiomed.2016.06.004 . PMID 27318570 . S2CID 5874067 .
- ^ Murdoch TB, Detsky AS (abril de 2013). "La inevitable aplicación de big data al cuidado de la salud". JAMA . 309 (13): 1351–2. doi : 10.1001 / jama.2013.393 . PMID 23549579 .
- ^ Vayena E, Salathé M, Madoff LC, Brownstein JS (febrero de 2015). "Retos éticos del big data en salud pública" . PLOS Biología Computacional . 11 (2): e1003904. Código Bibliográfico : 2015PLSCB..11E3904V . doi : 10.1371 / journal.pcbi.1003904 . PMC 4321985 . PMID 25664461 .
- ^ Copeland, CS (julio-agosto de 2017). "Descubrimiento de conducción de datos" (PDF) . Revista de salud de Nueva Orleans : 22-27.
- ^ a b Yanase J, Triantaphyllou E (2019). "Una encuesta sistemática de diagnóstico asistido por computadora en medicina: desarrollos pasados y presentes". Sistemas expertos con aplicaciones . 138 : 112821. doi : 10.1016 / j.eswa.2019.112821 .
- ^ Dong X, Bahroos N, Sadhu E, Jackson T, Chukhman M, Johnson R, Boyd A, Hynes D (2013). "Aproveche el marco de Hadoop para aplicaciones de informática clínica a gran escala". AMIA Joint Summits on Translational Science Proceedings. Cumbres Conjuntas AMIA sobre Ciencia Traslacional . 2013 : 53. PMID 24303235 .
- ^ Clunie D (2013). "La tomosíntesis de mama desafía la infraestructura de imágenes digitales" . Cite journal requiere
|journal=
( ayuda ) - ^ Yanase J, Triantaphyllou E (2019). "Los siete desafíos clave para el futuro del diagnóstico asistido por computadora en medicina". Revista de Informática Médica . 129 : 413–422. doi : 10.1016 / j.ijmedinf.2019.06.017 . PMID 31445285 .
- ^ "Grados en Big Data: moda o vía rápida para el éxito profesional" . Forbes . Consultado el 21 de febrero de 2016 .
- ^ "Nueva York tiene un nuevo campo de entrenamiento para científicos de datos: es gratis pero más difícil de ingresar que Harvard" . Venture Beat . Consultado el 21 de febrero de 2016 .
- ^ Wedel, Michel; Kannan, PK (2016). "Análisis de marketing para entornos ricos en datos". Revista de marketing . 80 (6): 97-121. doi : 10.1509 / jm.15.0413 . S2CID 168410284 .
- ^ Couldry, Nick; Turow, Joseph (2014). "Publicidad, Big Data y la liquidación del ámbito público: los nuevos enfoques de los vendedores al subsidio de contenido". Revista Internacional de Comunicación . 8 : 1710-1726.
- ^ "Por qué las agencias de publicidad digital apestan en la adquisición y necesitan urgentemente una actualización asistida por IA" . Ishti.org . 15 de abril de 2018. Archivado desde el original el 12 de febrero de 2019 . Consultado el 15 de abril de 2018 .
- ^ "Big data y analítica: C4 y Genius Digital" . Ibc.org . Consultado el 8 de octubre de 2017 .
- ^ Marshall Allen (17 de julio de 2018). "Las aseguradoras de salud están analizando detalles sobre usted, y podrían aumentar sus tarifas" . www.propublica.org . Consultado el 21 de julio de 2018 .
- ^ "QuiO nombrado campeón de innovación del desafío de innovación de Accenture HealthTech" . Businesswire.com . 10 de enero de 2017 . Consultado el 8 de octubre de 2017 .
- ^ "Una plataforma de software para la innovación tecnológica operativa" (PDF) . Predix.com . Consultado el 8 de octubre de 2017 .
- ^ Z. Jenipher Wang (marzo de 2017). "Transporte inteligente impulsado por Big Data: la historia subyacente de la movilidad transformada de IoT" .
- ^ "Esa cosa de Internet de las cosas" .
- ^ a b Solnik, Ray. "Ha llegado el momento: resultados de análisis para operaciones de TI" . Diario del centro de datos . Consultado el 21 de junio de 2016 .
- ^ Josh Rogin (2 de agosto de 2018). "La limpieza étnica regresa - en China" (Washington Post) . Consultado el 4 de agosto de 2018 .
Agregue a eso el estado de seguridad y vigilancia sin precedentes en Xinjiang, que incluye un monitoreo integral basado en tarjetas de identidad, puntos de control, reconocimiento facial y la recolección de ADN de millones de personas. Las autoridades introducen todos estos datos en una máquina de inteligencia artificial que evalúa la lealtad de las personas al Partido Comunista para controlar todos los aspectos de sus vidas.
- ^ "China: Big Data impulsa la represión en la región de las minorías: el programa de vigilancia predictiva señala a las personas para las investigaciones, detenciones" . hrw.org . Observador de derechos humanos. 26 de febrero de 2018 . Consultado el 4 de agosto de 2018 .
- ^ "Disciplinar y castigar: el nacimiento del sistema de crédito social de China" . La Nación . 23 de enero de 2019.
- ^ "El sistema de control del comportamiento de China prohíbe a algunos viajar y comprar propiedades" . CBS News . 24 de abril de 2018.
- ^ "La complicada verdad sobre el sistema de crédito social de China" . CON CABLE . 21 de enero de 2019.
- ^ "Noticias: Live Mint" . ¿Las empresas indias están entendiendo suficientemente el Big Data? . Live Mint. 23 de junio de 2014 . Consultado el 22 de noviembre de 2014 .
- ^ "Startup israelí utiliza big data, hardware mínimo para tratar la diabetes" . Consultado el 28 de febrero de 2018 .
- ^ "Avances recientes entregados por Mobile Cloud Computing e Internet de las cosas para aplicaciones de Big Data: una encuesta" . Revista Internacional de Gestión de Redes. 11 de marzo de 2016 . Consultado el 14 de septiembre de 2016 .
- ^ Kalil, Tom (29 de marzo de 2012). "Big Data es un gran negocio" . whitehouse.gov . Consultado el 26 de septiembre de 2012 , a través de Archivos Nacionales .
- ^ Oficina Ejecutiva de la Presidencia (marzo de 2012). "Big Data en todo el gobierno federal" (PDF) . Oficina de Política Científica y Tecnológica . Archivado (PDF) desde el original el 21 de enero de 2017 . Consultado el 26 de septiembre de 2012 , a través de Archivos Nacionales .
- ^ Lampitt, Andrew (14 de febrero de 2013). "La historia real de cómo el análisis de big data ayudó a Obama a ganar" . InfoWorld . Consultado el 31 de mayo de 2014 .
- ^ "Noviembre de 2018 | Sitios de supercomputadoras TOP500" .
- ^ Hoover, J. Nicholas. "10 supercomputadoras más poderosas del gobierno" . Semana de la información . UBM . Consultado el 26 de septiembre de 2012 .
- ^ Bamford, James (15 de marzo de 2012). "La NSA está construyendo el mayor centro de espías del país (mira lo que dices)" . Revista cableada . Consultado el 18 de marzo de 2013 .
- ^ "Ceremonia de inauguración celebrada por $ 1.2 mil millones Utah Data Center" . Servicio de Seguridad Central de la Agencia de Seguridad Nacional. Archivado desde el original el 5 de septiembre de 2013 . Consultado el 18 de marzo de 2013 .
- ^ Hill, Cachemira. "Los planos del centro de datos ridículamente caro de la NSA en Utah sugieren que contiene menos información de la que se pensaba" . Forbes . Consultado el 31 de octubre de 2013 .
- ^ Smith, Gerry; Hallman, Ben (12 de junio de 2013). "La controversia de espionaje de la NSA destaca el abrazo de Big Data" . Huffington Post . Consultado el 7 de mayo de 2018 .
- ^ Wingfield, Nick (12 de marzo de 2013). "Predecir los desplazamientos con mayor precisión para los posibles compradores de vivienda - NYTimes.com" . Bits.blogs.nytimes.com . Consultado el 21 de julio de 2013 .
- ^ "FICO® Falcon® Fraud Manager" . Fico.com . Consultado el 21 de julio de 2013 .
- ^ Alexandru, Dan. "Prof" (PDF) . cds.cern.ch . CERN . Consultado el 24 de marzo de 2015 .
- ^ "Folleto del LHC, versión en inglés. Una presentación del acelerador de partículas más grande y poderoso del mundo, el Gran Colisionador de Hadrones (LHC), que se puso en marcha en 2008. Se explica su función, características, tecnologías, etc. público " . Folleto-CERN-2010-006-Esp. Folleto del LHC, versión en inglés . CERN . Consultado el 20 de enero de 2013 .
- ^ "Guía del LHC, versión en inglés. Una colección de hechos y cifras sobre el Gran Colisionador de Hadrones (LHC) en forma de preguntas y respuestas" . Folleto-CERN-2008-001-Esp. Guía del LHC, versión en inglés . CERN . Consultado el 20 de enero de 2013 .
- ^ Brumfiel, Geoff (19 de enero de 2011). "Física de altas energías: por la autopista de los petabytes" . Naturaleza . 469 . págs. 282–83. Código Bibliográfico : 2011Natur.469..282B . doi : 10.1038 / 469282a .
- ^ "IBM Research - Zurich" (PDF) . Zurich.ibm.com . Consultado el 8 de octubre de 2017 .
- ^ "El futuro conjunto de telescopios impulsa el desarrollo del procesamiento Exabyte" . Ars Technica . Consultado el 15 de abril de 2015 .
- ^ "Oferta de Australia para el Square Kilometer Array - una perspectiva de información privilegiada" . La conversación . 1 de febrero de 2012 . Consultado el 27 de septiembre de 2016 .
- ^ "Delort P., Foro de prospectiva tecnológica de la OCDE ICCP, 2012" (PDF) . Oecd.org . Consultado el 8 de octubre de 2017 .
- ^ "NASA - NASA Goddard presenta el centro de simulación climática de la NASA" . Nasa.gov . Consultado el 13 de abril de 2016 .
- ^ Webster, Phil. "Supercomputación del clima: misión de Big Data de la NASA" . CSC World . Corporación de Ciencias de la Computación. Archivado desde el original el 4 de enero de 2013 . Consultado el 18 de enero de 2013 .
- ^ "Estas seis grandes ideas de neurociencia podrían dar el salto del laboratorio al mercado" . El globo y el correo . 20 de noviembre de 2014 . Consultado el 1 de octubre de 2016 .
- ^ "DNAstack aborda conjuntos de datos de ADN masivos y complejos con Google Genomics" . Google Cloud Platform . Consultado el 1 de octubre de 2016 .
- ^ "23andMe - Ascendencia" . 23andme.com . Consultado el 29 de diciembre de 2016 .
- ^ a b Potenza, Alessandra (13 de julio de 2016). "23andMe quiere que los investigadores utilicen sus kits, en un intento por ampliar su colección de datos genéticos" . The Verge . Consultado el 29 de diciembre de 2016 .
- ^ "Esta startup secuenciará su ADN, para que pueda contribuir a la investigación médica" . Empresa rápida . 23 de diciembre de 2016 . Consultado el 29 de diciembre de 2016 .
- ^ Seife, Charles. "23andMe es aterrador, pero no por las razones que piensa la FDA" . Scientific American . Consultado el 29 de diciembre de 2016 .
- ^ Zaleski, Andrew (22 de junio de 2016). "Esta empresa de biotecnología apuesta a que sus genes producirán la próxima droga maravillosa" . CNBC . Consultado el 29 de diciembre de 2016 .
- ^ Regalado, Antonio. "Cómo 23andMe convirtió su ADN en una máquina de descubrimiento de fármacos de mil millones de dólares" . Revisión de tecnología del MIT . Consultado el 29 de diciembre de 2016 .
- ^ "Los informes de 23andMe aumentan las solicitudes de datos a raíz del estudio de depresión de Pfizer | FierceBiotech" . fiercebiotech.com . Consultado el 29 de diciembre de 2016 .
- ^ Admira a Moyo. "Los científicos de datos predicen la derrota de Springbok" . itweb.co.za . Consultado el 12 de diciembre de 2015 .
- ^ Regina Pazvakavambwa. "Análisis predictivo, big data transforman el deporte" . itweb.co.za . Consultado el 12 de diciembre de 2015 .
- ^ Dave Ryan. "Deportes: donde Big Data finalmente tiene sentido" . huffingtonpost.com . Consultado el 12 de diciembre de 2015 .
- ^ Frank Bi. "Cómo los equipos de Fórmula Uno están utilizando Big Data para obtener la ventaja interna" . Forbes . Consultado el 12 de diciembre de 2015 .
- ^ Tay, Liz. "Dentro del almacén de datos 90PB de eBay" . ITNews . Consultado el 12 de febrero de 2016 .
- ^ Layton, Julia. "Tecnología Amazónica" . Money.howstuffworks.com . Consultado el 5 de marzo de 2013 .
- ^ "Escalando Facebook a 500 millones de usuarios y más" . Facebook.com . Consultado el 21 de julio de 2013 .
- ^ Constine, Josh (27 de junio de 2017). "Facebook ahora tiene 2 mil millones de usuarios mensuales ... y responsabilidad" . TechCrunch . Consultado el 3 de septiembre de 2018 .
- ^ "Google sigue haciendo al menos 1 billón de búsquedas por año" . Search Engine Land . 16 de enero de 2015 . Consultado el 15 de abril de 2015 .
- ^ Haleem, Abid; Javaid, Mohd; Khan, Ibrahim; Vaishya, Raju (2020). "Aplicaciones significativas de Big Data en la pandemia de COVID-19" . Revista India de Ortopedia . 54 (4): 526–528. doi : 10.1007 / s43465-020-00129-z . PMC 7204193 . PMID 32382166 .
- ^ Manancourt, Vincent (10 de marzo de 2020). "El coronavirus pone a prueba la determinación de Europa en materia de privacidad" . Politico . Consultado el 30 de octubre de 2020 .
- ^ Choudhury, Amit Roy (27 de marzo de 2020). "Gobernador en tiempos de Corona" . Gov Insider . Consultado el 30 de octubre de 2020 .
- ^ Cellan-Jones, Rory (11 de febrero de 2020). "China lanza la aplicación 'detector de contacto cercano' de coronavirus" . BBC . Archivado desde el original el 28 de febrero de 2020 . Consultado el 30 de octubre de 2020 .
- ^ Siwach, Gautam; Esmailpour, Amir (marzo de 2014). Búsqueda cifrada y formación de clústeres en Big Data (PDF) . ASEE Conferencia 2014 Zona I . Universidad de Bridgeport , Bridgeport , Connecticut, EE. UU. Archivado desde el original (PDF) el 9 de agosto de 2014 . Consultado el 26 de julio de 2014 .
- ^ "La administración de Obama presenta la iniciativa" Big Data ": anuncia 200 millones de dólares en nuevas inversiones en I + D" (PDF) . Oficina de Política Científica y Tecnológica . Archivado (PDF) desde el original el 21 de enero de 2017, a través de Archivos Nacionales .
- ^ "AMPLab en la Universidad de California, Berkeley" . Amplab.cs.berkeley.edu . Consultado el 5 de marzo de 2013 .
- ^ "NSF lidera los esfuerzos federales en Big Data" . Fundación Nacional de Ciencias (NSF). 29 de marzo de 2012.
- ^ Timothy Hunter; Teodor Moldovan; Matei Zaharia; Justin Ma; Michael Franklin; Pieter Abbeel ; Alexandre Bayen (octubre de 2011). Escalar el sistema Millennium móvil en la nube .
- ^ David Patterson (5 de diciembre de 2011). "Los científicos informáticos pueden tener lo que se necesita para ayudar a curar el cáncer" . The New York Times .
- ^ "Secretario Chu anuncia nuevo instituto para ayudar a los científicos a mejorar la investigación de conjuntos de datos masivos en supercomputadoras DOE" . energy.gov.
- ^ office / pressreleases / 2012/2012530-Governor-Anuncia-Big-Data-Initiative.html "El Gobernador Patrick anuncia una nueva iniciativa para fortalecer la posición de Massachusetts como líder mundial en Big Data" Verifique el
|url=
valor ( ayuda ) . Mancomunidad de Massachusetts. - ^ "Big Data @ CSAIL" . Bigdata.csail.mit.edu. 22 de febrero de 2013 . Consultado el 5 de marzo de 2013 .
- ^ "Foro Público Privado de Big Data" . cordis.europa.eu. 1 de septiembre de 2012 . Consultado el 16 de marzo de 2020 .
- ^ "El Instituto Alan Turing se creará para investigar macrodatos" . BBC News . 19 de marzo de 2014 . Consultado el 19 de marzo de 2014 .
- ^ "Día de inspiración en la Universidad de Waterloo, Stratford Campus" . betakit.com/ . Consultado el 28 de febrero de 2014 .
- ^ a b c Reips, Ulf-Dietrich; Matzat, Uwe (2014). "Minería" Big Data "mediante servicios de Big Data" . Revista Internacional de Ciencias de Internet . 1 (1): 1–8.
- ^ Preis T, Moat HS, Stanley HE, Bishop SR (2012). "Cuantificando la ventaja de mirar hacia adelante" . Informes científicos . 2 : 350. Código Bibliográfico : 2012NatSR ... 2E.350P . doi : 10.1038 / srep00350 . PMC 3320057 . PMID 22482034 .
- ^ Marks, Paul (5 de abril de 2012). "Búsquedas online de futuro vinculadas al éxito económico" . Nuevo científico . Consultado el 9 de abril de 2012 .
- ^ Johnston, Casey (6 de abril de 2012). "Google Trends revela pistas sobre la mentalidad de las naciones más ricas" . Ars Technica . Consultado el 9 de abril de 2012 .
- ^ Tobias Preis (24 de mayo de 2012). "Información complementaria: el índice de orientación futura está disponible para descargar" (PDF) . Consultado el 24 de mayo de 2012 .
- ^ Philip Ball (26 de abril de 2013). "El recuento de búsquedas de Google predice los movimientos del mercado" . Naturaleza . doi : 10.1038 / nature.2013.12879 . Consultado el 9 de agosto de 2013 .
- ^ Preis T, Moat HS, Stanley HE (2013). "Cuantificación del comportamiento comercial en los mercados financieros utilizando Google Trends" . Informes científicos . 3 : 1684. Código Bibliográfico : 2013NatSR ... 3E1684P . doi : 10.1038 / srep01684 . PMC 3635219 . PMID 23619126 .
- ^ Nick Bilton (26 de abril de 2013). "Los términos de búsqueda de Google pueden predecir el mercado de valores, resultados del estudio" . The New York Times . Consultado el 9 de agosto de 2013 .
- ^ Christopher Matthews (26 de abril de 2013). "¿Problemas con su cartera de inversiones? ¡Búsquelo en Google!" . Revista TIME . Consultado el 9 de agosto de 2013 .
- ^ Philip Ball (26 de abril de 2013). "El recuento de búsquedas de Google predice los movimientos del mercado" . Naturaleza . doi : 10.1038 / nature.2013.12879 . Consultado el 9 de agosto de 2013 .
- ^ Bernhard Warner (25 de abril de 2013). " Los investigadores de ' Big Data' recurren a Google para ganarle a los mercados" . Bloomberg Businessweek . Consultado el 9 de agosto de 2013 .
- ^ Hamish McRae (28 de abril de 2013). "Hamish McRae: ¿Necesita un manejo valioso del sentimiento de los inversores? Búsquelo en Google" . The Independent . Londres . Consultado el 9 de agosto de 2013 .
- ^ Richard Waters (25 de abril de 2013). "La búsqueda de Google demuestra ser una palabra nueva en la predicción del mercado de valores" . Financial Times . Consultado el 9 de agosto de 2013 .
- ^ Jason Palmer (25 de abril de 2013). "Las búsquedas de Google predicen los movimientos del mercado" . BBC . Consultado el 9 de agosto de 2013 .
- ^ E. Sejdić, "Adaptar las herramientas actuales para su uso con big data" , Nature, vol. 507, no. 7492, págs.306, marzo de 2014.
- ^ Stanford. "MMDS. Taller de algoritmos para conjuntos de datos masivos modernos" .
- ^ Deepan Palguna; Vikas Joshi; Venkatesan Chakravarthy; Ravi Kothari y LV Subramaniam (2015). Análisis de algoritmos de muestreo para Twitter . Conferencia conjunta internacional sobre inteligencia artificial .
- ^ Chris Kimble; Giannis Milolidakis (7 de octubre de 2015). "Big Data y Business Intelligence: desacreditando los mitos". Excelencia organizacional y empresarial global . 35 (1): 23–34. arXiv : 1511.03085 . doi : 10.1002 / JOE.21642 . ISSN 1932-2054 . Wikidata Q56532925 .
- ^ Chris Anderson (23 de junio de 2008). "El fin de la teoría: el diluvio de datos hace obsoleto el método científico" . CON CABLE .
- ^ Graham M. (9 de marzo de 2012). "¿Big data y el fin de la teoría?" . The Guardian . Londres.
- ^ Shah, Shvetank; Horne, Andrew; Capellá, Jaime (abril de 2012). "Los buenos datos no garantizan buenas decisiones. Harvard Business Review" . Harvard Business Review . HBR.org . Consultado el 8 de septiembre de 2012 .
- ^ a b Big Data requiere grandes visiones para un gran cambio. , Hilbert, M. (2014). Londres: TEDx UCL, x = charlas TED organizadas de forma independiente
- ^ Alemany Oliver, Mathieu; Vayre, Jean-Sebastien (2015). "Big Data y el futuro de la producción de conocimiento en la investigación de mercados: ética, huellas digitales y razonamiento abductivo". Revista de análisis de marketing . 3 (1): 5–13. doi : 10.1057 / jma.2015.1 . S2CID 111360835 .
- ^ Jonathan Rauch (1 de abril de 2002). "Ver alrededor de las esquinas" . El Atlántico .
- ^ Epstein, JM y Axtell, RL (1996). Sociedades artificiales en crecimiento: Ciencias sociales desde abajo. Un libro de Bradford.
- ^ "Delort P., Big data en Biociencias, Big Data Paris, 2012" (PDF) . Bigdataparis.com . Consultado el 8 de octubre de 2017 .
- ^ "Genómica de próxima generación: un enfoque integrador" (PDF) . naturaleza. Julio de 2010 . Consultado el 18 de octubre de 2016 .
- ^ "GRANDES DATOS EN BIOSCIENCIAS" . Octubre de 2015 . Consultado el 18 de octubre de 2016 .
- ^ "Big data: ¿estamos cometiendo un gran error?" . Financial Times . 28 de marzo de 2014 . Consultado el 20 de octubre de 2016 .
- ^ Ohm, Paul (23 de agosto de 2012). "No construyas una base de datos de la ruina" . Harvard Business Review .
- ^ Darwin Bond-Graham, Iron Cagebook: el final lógico de las patentes de Facebook , Counterpillar.org , 2013.12.03
- ^ Darwin Bond-Graham, Dentro de la conferencia de inicio de la industria tecnológica , Counterpillar.org , 2013.09.11
- ^ Darwin Bond-Graham, La perspectiva de Big Data , ThePerspective.com , 2018
- ^ Al-Rodhan, Nayef (16 de septiembre de 2014). "El contrato social 2.0: Big Data y la necesidad de garantizar la privacidad y las libertades civiles - Harvard International Review" . Harvard International Review . Archivado desde el original el 13 de abril de 2017 . Consultado el 3 de abril de 2017 .
- ^ Barocas, Solon; Nissenbaum, Helen; Lane, Julia; Stodden, Victoria; Bender, Stefan; Nissenbaum, Helen (junio de 2014). El fin de los grandes datos gira en torno al anonimato y el consentimiento . Prensa de la Universidad de Cambridge. págs. 44–75. doi : 10.1017 / cbo9781107590205.004 . ISBN 9781107067356. S2CID 152939392 .
- ^ Lugmayr, Artur; Stockleben, Bjoern; Scheib, Christoph; Mailaparampil, Mathew; Mesia, Noora; Ranta, Hannu; Lab, Emmi (1 de junio de 2016). "UNA ENCUESTA INTEGRAL SOBRE LA INVESTIGACIÓN DE BIG DATA Y SUS IMPLICACIONES - ¿QUÉ ES REALMENTE 'NUEVO' EN BIG DATA? - ¡ES COGNITIVE BIG DATA!" . Cite journal requiere
|journal=
( ayuda ) - ^ danah boyd (29 de abril de 2010). "Privacidad y publicidad en el contexto de Big Data" . Conferencia WWW 2010 . Consultado el 18 de abril de 2011 .
- ^ Katyal, Sonia K. (2019). "Inteligencia artificial, publicidad y desinformación" . Publicidad y sociedad trimestral . 20 (4). doi : 10.1353 / asr.2019.0026 . ISSN 2475-1790 .
- ^ Jones, MB; Schildhauer, diputado; Reichman, DO; Bowers, S (2006). "La nueva bioinformática: integración de datos ecológicos del gen a la biosfera" (PDF) . Revisión anual de ecología, evolución y sistemática . 37 (1): 519–544. doi : 10.1146 / annurev.ecolsys.37.091305.110031 .
- ^ a b Boyd, D .; Crawford, K. (2012). "Preguntas críticas para Big Data". Información, comunicación y sociedad . 15 (5): 662–679. doi : 10.1080 / 1369118X.2012.678878 . hdl : 10983/1320 . S2CID 51843165 .
- ^ Falta de lanzamiento: de Big Data a grandes decisiones Archivado el 6 de diciembre de 2016 en Wayback Machine , Forte Wares.
- ^ "15 cosas locas que se correlacionan entre sí" .
- ^ Estructuras y algoritmos aleatorios
- ^ Cristian S. Calude, Giuseppe Longo, (2016), El diluvio de correlaciones espurias en Big Data, Fundamentos de la ciencia
- ^ a b Gregory Piatetsky (12 de agosto de 2014). "Entrevista: Michael Berthold, Fundador de KNIME, sobre Investigación, Creatividad, Big Data y Privacidad, Parte 2" . KDnuggets . Consultado el 13 de agosto de 2014 .
- ^ Pelt, Mason (26 de octubre de 2015). " " Big Data "es una palabra de moda sobre utilizada y este bot de Twitter lo demuestra" . siliconangle.com . SiliconANGLE . Consultado el 4 de noviembre de 2015 .
- ^ a b Harford, Tim (28 de marzo de 2014). "Big data: ¿estamos cometiendo un gran error?" . Financial Times . Consultado el 7 de abril de 2014 .
- ^ Ioannidis JP (agosto de 2005). "Por qué la mayoría de los resultados de las investigaciones publicadas son falsos" . PLOS Medicine . 2 (8): e124. doi : 10.1371 / journal.pmed.0020124 . PMC 1182327 . PMID 16060722 .
- ^ Lohr, Steve; Cantante, Natasha (10 de noviembre de 2016). "Cómo nos fallaron los datos al convocar una elección" . The New York Times . ISSN 0362-4331 . Consultado el 27 de noviembre de 2016 .
- ^ "Cómo la vigilancia basada en datos amenaza la libertad humana" . The Economist . 4 de junio de 2018. ISSN 0013-0613 . Consultado el 27 de octubre de 2019 .
- ^ Brayne, Sarah (29 de agosto de 2017). "Big Data Surveillance: El caso de la policía". American Sociological Review . 82 (5): 977–1008. doi : 10.1177 / 0003122417725865 . S2CID 3609838 .
Otras lecturas
- Peter Kinnaird; Inbal Talgam-Cohen, eds. (2012). "Big Data" . Revista estudiantil ACM Crossroads . XRDS: Crossroads, la revista ACM para estudiantes . Vol. 19 no. 1. Asociación de Maquinaria Informática . ISSN 1528-4980 . OCLC 779657714 .
- Jure Leskovec ; Anand Rajaraman ; Jeffrey D. Ullman (2014). Minería de conjuntos de datos masivos . Prensa de la Universidad de Cambridge. ISBN 9781107077232. OCLC 888463433 .
- Viktor Mayer-Schönberger ; Kenneth Cukier (2013). Big Data: una revolución que transformará la forma en que vivimos, trabajamos y pensamos . Houghton Mifflin Harcourt. ISBN 9781299903029. OCLC 828620988 .
- Prensa, Gil (9 de mayo de 2013). "Una historia muy breve de Big Data" . forbes.com . Jersey City, Nueva Jersey . Consultado el 17 de septiembre de 2016 .
- "Big Data: la revolución de la gestión" . hbr.org . Harvard Business Review . Octubre 2012.
- O'Neil, Cathy (2017). Armas de destrucción matemática: cómo los macrodatos aumentan la desigualdad y amenazan la democracia . Libros de Broadway. ISBN 978-0553418835.
enlaces externos
- Medios relacionados con Big Data en Wikimedia Commons
- La definición del diccionario de big data en Wiktionary