Big data, espionaje y movimientos sociales

El Gran Hermano está escuchando pero... ¿se está enterando de algo?

29/10/13 · 18:30
Fragmento del informe de la Fundación CESICAT (Centre de Seguretat de la Informació de Catalunya) en el que se puede observar que el autor de este artículo fue monitorizado desde el 29 de abril de 2012.

En el mundo tecnológico, la moda Big data ha sustituido a otras modas como el cloud computing o el BYOD. Sin embargo, son muchos los malentendidos sobre lo que es realmente Big data y cual es su utilidad. Como leí hace tiempo, Big data es como el sexo adolescente: "Todo el mundo habla de ello, nadie sabe realmente lo que es, pero como todos creen que los demás ya lo están haciendo, tú también dices que lo estás haciendo". En el mundo del Big data para espionaje y control de los movimientos sociales, no es muy diferente.

¿Qué es Big data?

Big data es la capacidad de extraer información relevante de conjuntos de datos que cumplen las tres V: gran volumen de datos, alta velocidad de generación y en gran variedad de formato. Sin embargo, lejos de lo que nos muestra la ficción, no nos permite detectar patrones que se salgan de la media, sino tendencias; es decir, lo contrario. Big data no es capaz de encontrar una aguja en un pajar, sino que sólo nos valdría para decirnos qué longitud y tonalidad tienen la mayoría de los trozos de paja a base de analizarlos todos y detectar tendencias. Nos dice cual es el estado de la moda, no si una persona está fuera de ella.
Big data no es capaz de encontrar una aguja en un pajar, sino que sólo nos valdría para decirnos qué longitud y tonalidad tienen la mayoría de los trozos de paja a base de analizarlos todos y detectar tendencias.

Lo mejor es analizarlo con el ejemplo que lo puso de moda, las últimas elecciones presidenciales de EE UU y como Nate Silver fue capaz de predecir los resultados con un margen del 0,1% de error. ¿Cómo lo hizo? Utilizó las encuestas electorales que se iban publicando, las cuales tienen margen de error en torno al 2%, siempre y cuando la metodología sea correcta y no haya preguntas trampa. Lo que hizo Silver fue ponderar esas encuestas en función de las preguntas que hacían y la fuente y sumarlas, lo cual le permitió acertar los resultados de 49 de los 50 estados (excepto en Indiana, donde el 0,1% significó la derrota de Obama). Lejos de significar la muerte de las encuestas (ya que el método de Silver las necesita y cuantas más mejor), lo que mostró fue la capacidad de abordar su análisis de una forma totalmente diferente al habitual. Meses después se supo que el equipo de Obama utiliza Big data para analizar las encuestas y las redes sociales para afinar el discurso presidencial. Según su equipo electoral, llegaron a tomar 70 decisiones diarias basadas en Big data.

Nadie duda ya de la capacidad de Big data para detectar tendencias, e incluso han aparecido varios colectivos que están empezando a utilizar Big data como forma de activismo. Así por ejemplo, el colectivo DatAnalysis15M utiliza datos capturados de las redes sociales para "predecir" el resultado de las convocatorias así como para estudiar los sentimientos volcados los días previos para saber qué estados de ánimo y formas de comunicación parecen ser más efectivas para conseguir movilizaciones. Otro muchos para analizar la prensa o incluso el Boletín Oficial del Estado.

Un mecanismo complementario

Durante las últimas semanas, según se iban haciendo públicas las revelaciones del espionaje global de la NSA, el Gobierno ha defendido estas escuchas amparándose en el uso de Big data para detectar ataques terroristas como un nuevo 11S. Sin embargo, como hemos dicho, Big data nunca nos dará esta información. La mayoría de acontecimientos como el 11S o el 11M son 'cisnes negros', es decir, patrones únicos imposibles de localizar. Además, aún con un margen de error del 0,1% como el algoritmo de Nate Silver, hablaríamos de un falso positivo cada 1000 casos. Es decir, que aplicado a la población del Estado, detectaríamos 47.000 falsos terroristas. No parece la mejor opción para pillar a los terroristas de verdad.
¿Por qué se espía ese volumen de comunicaciones? Para almacenarlas y buscar rastros de los sospechosos que se descubran de otras formas. Ilegal, pero ni mucho menos un Gran Hermano.

Si el Big data no permite hacer eso, ¿por qué entonces se espía ese volumen de comunicaciones? Por una sencilla razón: almacenarlo. Para poder buscar los rastros de aquellos "sospechosos" que descubran de la forma tradicional. Ilegal, por supuesto, pero ni mucho menos un Gran Hermano que busque patrones terroristas. Una vez identificado un nuevo objetivo, les permite saber qué estaba haciendo esa persona en un momento pasado concreto y saber con quién se relacionó. Algo que el sistema informático de la Hacienda española también usa de forma idea similar: analizando las cuentas y movimientos de las personas que han tenido relación con alguien que ya haya sido detectado como defraudador, aplicando la teoría de que el fraude funciona como una red. Cuando la NSA capturó 60 millones de datos de llamadas en España entre diciembre de 2012 y enero de 2013 no buscaba capturar en sí el contenido de las llamadas, sino mapear las redes personales de determinadas personas para detectar otras personas de interés a os que espiar con mayor atención.

¿Y el análisis que realizó CESICAT para los Mossos y que fue publicado por Anonymous hace unos días? La realidad es que en este caso no podemos hablar ni de Big data ni de 'small data', sino de no entender lo que realmente están haciendo. Me temo que es bastante sintomático que los Mossos d' Esquadra no sean capaces de monitorizar un hashtag de Twitter en tiempo real, y tengan que pedirles a dos expertos en seguridad informática que les manden un resumen cada seis horas. Un análisis que por otro lado no puede pecar de más simplista ya que las personas encargadas de elegir los tuits no tienen ningún conocimiento de los movimientos sociales. No me sorprendería que después de esa investigación se haya descartado seguir haciendo este tipo de monitorización por su incapacidad de extraer información, lo cual tampoco debería sorprender de lo que se ha terminado en llamar "la TIA catalana".

Tags relacionados: Big data Catalunya Control social
+A Agrandar texto
+A Disminuir texto
Licencia

comentarios

5

  • |
    Alberto CM
    |
    08/02/2015 - 8:09am
    Hay que joderse... Xavi, tienes toda la razón. El autor es a lo sumo un manager relacionado con IT y ha tenido más relación con la prensa rosa que con el big data. Este artículo sólo puede explicarse desde la perspectiva de alguien que basa sus informaciones en la wikipedia y en twitter. Si alguien más es dirigido aquí desde algún buscador, acepten el consejo de alguien que sí trabaja gestionando y analizando big data y sigan buscando. Aquí están perdiendo el tiempo. Coge una cantidad bestial de datos (big data), fíltralos, analízalos,... y puedes ver más de lo que te crees. Por ejemplo, el autor de este artículo es en efecto un manager en IT que se autodefine como &quot;empresario precario&quot; y &quot;activista&quot;, pero el pasado año ganó más de 3000&euro; NETOS mensuales (incluyendo algún bonus muy sospechoso) mientras la media de los sueldos en su empresa se acerca mucho a los 800&euro;. Por supuesto, todo a base de subvenciones de gobiernos de derechas en su mayoría. Se puede adornar un artículo con u bonito gráfico ilustrando un trend de followers, que no deja de ser información pública que twitter compila y distribuye de forma que es capaz de usarla el más tonto del lugar dándose la importancia de declarar: &quot;<span class="articulo_pie_autor">el autor de este artículo fue monitorizado&quot;.</span> Leer una sola base de datos de twitter para plotear un gráfico no tiene nada que ver con el bigdata, es una excusa para robar el dinero de los contribuyentes. Obtener información de múltiples fuentes y analizarla para aflorar información nueva... eso sí es big data. Demasiado advenedizo con verbo fácil...
  • | |
    30/10/2013 - 4:10am
    Bigdata es un <strong>buzzword</strong>&nbsp;más que usa la industria para poder seguir vendiendo su producto. &iquest;Por qué no demominamos a las cosas por lo que realmente hacen en vez de englobarlas&nbsp;dentro de estos palabros que cada uno interpreta de una forma distinta? Mis 2&cent;
  • |
    electrobit
    |
    30/10/2013 - 1:07am
    Para Xavi Bit: Creo que no habla de espionaje del Cesicat (habla de análisis), no se porqué te inventas esto. Lee otra vez el artículo a ver si comprendes lo que quería decir; te lo pongo fácil, solo habla de Cesicat en el último párrafo y no habla de espionaje. Busca la definición de &quot;leer bien&quot; en un diccionario ;)
  • |
    txarlie
    |
    29/10/2013 - 9:39pm
    Buenas Xavi, Soy profesional de las tecnologías de la información pero no de big data. Sin embargo no cambiaría una coma de mi artículo tras leer tu comentario. Big data no vale para detectar UN cliente descontento. Vale para detectar como de grande es el descontento con tu imagen de marca. Cualquier algoritmo que uses para Big data tiene un % de incertidumbre. A mayor volumen de datos ese % de incertidumbre produce errores. Generalmente los errores tienen a eliminarse entre ellos al detectar la tendencia (al estar unos por encima y otros por debajo), pero si lo usas para detectar anomalías, introducidas la incertidumbre en tu resultado. Por cosas así, cuando te hacen una prueba médica y da positivo (por ejemplo, para detectar anticuerpos de VIH) se suele repetir, ya que puede ser un error debido a la tasa de incertidumbre del análisis.&nbsp; No digo que no haya gente que no use big data para detectar agujas en un pajar. Lo que no creo es que consigan demasiados buenos resultados, y menos para eventos como el 11-S que menciono en el artículo. Sé que los Mossos tienen una unidad de delitos telemáticos, pero yo me estoy refiriendo al informe que otra unidad de los mossos pidió a CESICAT para que&nbsp;monitorizara determinados hashtags. Yo no he dicho que esté a su servicio ni que sea un CNI. Pero también es cierto que no hay una casilla cuando mandas un comentario que pregunte si has leído el artículo ;-)
  • |
    Xavi Bit
    |
    29/10/2013 - 7:40pm
    <div>Hola Txarlie,&nbsp;</div> <div>&nbsp;</div> <div>Para elaborar esta &quot;noticia&quot; partes de una definición del término bigdata que te conduce a unas conclusiones falsas. Creo que no eres profesional de las tecnologías de la información por lo que he decidido escribir este comentario para explicarte a ti y a los lectores cuales son esos fallos.&nbsp;</div> <div>&nbsp;</div> <div>Los dos casos de los que hablas se nutren 100% de datos públicos (de twits de perfiles públicos). No creo que se pueda llamar espiar a eso. Puedes comprobarlo en la definición de &quot;espiar&quot; en cualquier diccionario. Entonces aquí nadie está espiando, que quede claro.</div> <div>&nbsp;</div> <div>Bigdata puede detectar agujas en un pajar. Y tanto que puede y poreso se utiliza de formas inimaginables. Yo por ejemplo para detectar clientes descontentos con mi empresa y darles una atención de calidad para resolver sus problemas. Funciona muy bien y lo llamamos bigdata también.&nbsp;</div> <div>&nbsp;</div> <div>Creo que no tienes ni idea de como funciona la unidad de los Mossos que lidia con estos asuntos. Su tiempo está dedicado casi en exclusiva a la caza de pederastas y no tienen tiempo de elaborar esos informes que sí se pueden hacer en el Cesicat y que pueden tener objetivos interesantes para cualquier conselleria de la Generalitat, desde turismo a economía y naturalmente interior. Dudo que el Cesicat esté al servicio de los Mossos, si no de la Generaliat y por ende de todos los ciudadanos catalanes. Mucho menos que sea ningún tipo de CNI, conozco a los trabajadores y son, como yo, profesionales desde hace muchos años en el mundo de las tecnologías de la información.&nbsp; Me entristece además ver como, por primera vez, movimientos sociales se hacen eco de noticias subjetivas y manipuladas como esta.</div>
  • Tienda El Salto