El Big Data está de moda. En cualquier Congreso sea de la especialidad que sea hay que introducir una mesa o una ponencia sobre el tema. Y la verdad si analizamos lo que realmente se dice y lo que hay sobre el Big Data en Salud vemos que es mucho futuro, innovación, tecnología (lo cual suena muy bien y por eso vende), y algún presente mejorable.

No seré yo, que me jacto de innovador y defensor de las nuevas tecnologías quien diga que el Big Data es algo negativo, pero sí que puedo por mi formación y sentido común, hacer una serie de salvedades al mismo y también de recomendaciones para separar el grano de paja. El Biga Data tiene un presente absolutamente glorioso y fascinante en Ciencias Sociales para interpretar y analizar la realidad social y lo que es más importante predecirla.

Las empresas y los sociólogos saben cuáles van a ser las tendencias y ahora básicamente se sabe bastante sobre lo que pensamos y cómo vamos a actuar y la manera de influirnos a través de la ingente cantidad de información que dejamos en la red a través de las redes sociales u otros medios, analizada por técnicas de big data. En salud hay que ser más cautos en cuanto a su aplicación. Un caso claro de éxito ha sido para predecir cómo evolucionará una epidemial de gripe, ya que se basa en observación.

Respecto a conocer la verdad científica y poder hacer estudios de inferencia o de causa-efecto es más complicado. Hay una axioma en epidemiología que aún no ha sido refutado (aunque algunos defensores de las bondades del big data lo intentan) que es que cuando un sistema de información lo alimentas con basura los resultados que vas a obtener son basura.

El Big Data no es más que eso información pero mucha y a saco. El problema de la información del biga data es que está echada a saco, normalmente a través de una red, desde distintos puntos, y sin validar si las mediciones o la información que se envía desde los distintos sitios se ha obtenido por métodos iguales o al menos parecidos y es comparable. Por eso a las tradicionales 3 Vs del Big data (Volumen, velocidad, variedad de los datos) se han añadido dos que me parecen fundamentales para mejorar en la pretensión de su uso como predictor, que son Veracidad (que el dato que usamos sea sólido y veraz) y Valor, que los análisis aporten valor social.

Y los datos no siempre son veraces. Por ejemplo una red de usuarios de wereables de pulseras electrónicas envía información sobre su ritmo cardiaco, y de ahí se trata de hacer inferencias sobre su ritmo cardiaco y actividad física o cualquier otra cosa. En principio sabemos que las mediciones de dichos wereables no son muy precisas por lo que a la hora de afinar no sabremos realmente si estamos sobreestimando o infraestimado la frecuencia cardiaca. Los defensores del asunto argumentan que al final como son muchos datos entre los que sobreestiman y los que infraestiman el resultado saldrá correcto. Esto es una falacia; quizá los fabricantes de dichos wereables, la mayoría chinos, utilizan sensores similares que sistemáticamente subestiman, como los de una conocida marca que subestimaban entre el 20-50% la frecuencia cardiaca.

Esto se ha demostrado con estudios y según la cuota de mercado que tengan unos sensores y otros habrá un sesgo. Análogamente las cámaras de los móviles (y las mini cámaras de acción) la mayoría usan sensor Sony que se está imponiendo por su calidad y profundidad del color. Sin embargo sabemos que saturan de más el color que la realidad, pero eso nos gusta y no pasa nada queda bien en las fotos que colgamos en Instagram. La mayoría de esos móviles y muchas cámaras suben información a la nube. Supongamos que una civilización extraterrestre quiere hacer un estudio y conocer los colores de nuestro mundo, y acceden a la nube para recoger las fotos, y además se cuelan en Instagram. El resultado será que van a creer que la tierra está más saturada de color de lo que en realidad tiene. En definitiva EL BIG DATA TE PUEDE MOSTRAR LO MÁS FRECUENTE PERO NO LA VERDAD, hay una sutil pero amplia diferencia.

Por ejemplo si nos presentan un programa que coge información del big data para mostrar las prescripciones más frecuentes en gripes y resfriados, seguro nos dará que una de las prescripciones frecuentes es antibióticos. Todos sabemos que la prescripción de antibióticos en resfriados no es correcta, pero se hace por distintos factores. Si diéramos esos datos a una estudiante de medicina o medico novel como correctos argumentando que como son muchas prescripciones al final es lo más adecuado, estaríamos enseñándole mal.

Y más aún se puede tener la tentación de que al final sea un robot quien en base a las prescripciones históricas recogidas por el big data al que tenga acceso en función de los síntomas del paciente prescriba: de esta manera ESTAMOS PERPETUANDO LOS ERRORES Y LOS SESGOS QUE TENGA LA REALIDAD, no estamos mejorando la prescripción. Por lo tanto otro dato importante es que el Big Data NO es inmune a los sesgos, es más es muy susceptible de ser influenciado pos los sesgos si son sistemáticos, y como sabemos en sanidad son muchos, por ejemplo la hiper-prescripción o el exceso de intervencionismo en pruebas. Al final el big data no sería muy amigo de las estrategias de “no hacer” para mejorar la calidad u seguridad de la asistencia que ofrecemos, a no ser que sirva para estudiar los efectos adversos de la hiper-prescripción y eso se hace con estudios experimentales no observaciones.

Admito que el big data nos puede dar datos muy interesantes sobre todo de correlaciones, por ejemplo, que los pacientes de Alzheimer tienen una frecuencia de uso superior de la consulta de traumatología . Pero como sabemos los epidemiólogos los estudios observacionales que básicamente es lo que se hace con el Big Data están sumamente expuestos a la falacia ecológica. Este sesgo se produce cuando hay un segundo factor intermedio (o más) que no controlamos que está relacionado con los dos que estudiamos, y que es el verdadero productor del efecto, pero atribuimos falsamente el efecto al primero. En el ejemplo del Alzheimer, si no sabemos nada del tema se puede atribuir erróneamente a que la enfermedad de Alzheimer en si misma produce síntomas traumatológicos. El factor que no conocemos es las caídas, que son las que realmente producen la visita a traumatología. Las caídas son mayores en enfermos de Alzheimer.

Así pues no es el Alzheimer en si mismo el causante de problemas traumatológicos en ancianos sino las caídas asociadas al mismo. Pero esto una maquina ciega (un robot) puede no saberlo si a la vez no coge los datos de caídas y no los relaciona. Igual pasa con otros factores ambiéntales más sutiles donde no sabemos o incluso no recogemos la información como puede ser la exposición a sustancias ambientales.

Por último usemos el Big Data para hacer gestión sanitaria y mejorar la salud de la población (que es a lo que me dedico), preguntemos al Big Data cuales son las medidas que para que la  población mejore su salud desde el punto de vista de la gestión sanitaria. Pues bien todos sabemos que para la población general cuando se le hace una encuesta de salud y se les pregunta cuales serían las medidas para mejorar la salud o el sistema sanitaria, por abrumadora mayoría salen contratar más médicos, más personal en general, y construir más hospitales y otros centros. Estos datos están en la red en sucesivas encuestas y sería los que detectaría un robot o programa que bucease en el big data de la red.

La población se centra en dos cosas: hospitales y médicos. Esas serían las dos medidas estrellas que recomendaría el Big Data para mejorar la salud de las poblaciones. Si ni siquiera muchos sanitarios saben que está bastante demostrado que los estilos de vida, el ambiente y los factores sociales influyen mucho más en la salud que la asistencia sanitaria ¿Saldrían como medidas estrellas más educación para la salud o conocimientos de la población en salud, más prevención y promoción de la salud? ¿Saldría el abandono del hábito tabáquico (la causa aislada de mayor morbi-mortalidad en el mundo), o aumentar el ejercicio físico?

Ahora quizá no pero en un futuro cuando el Big Data sea más inteligente puede que sí, pero para ello debe estar manejado por epidemiólogos y personas que sepan lo suficiente de metodología de la investigación para conocer sus límites, conocer los posibles sesgos, y saber que buscar, cómo y las inferencias que realmente podemos hacer de sus conclusiones.

  • TAGS