Las investigaciones anteriores sobre el riesgo de los datos se han basado en conjuntos de datos completos y no tienen en cuenta el riesgo individual; sin embargo, los nuevos resultados muestran que los ataques contra la privacidad, son más eficaces de lo que se pensaba a la hora de atacar con éxito a nivel individual.
Los MIA “pueden ser muy eficaces a la hora de comprometer la privacidad de los pacientes que aportan datos de forma individual”, pues es posible determinar los datos médicos y la información privada de un paciente, indica el artículo.
Los investigadores usaron siete grandes conjuntos de datos compuestos por información clínica real, entre los que se incluyen imágenes médicas, electrocardiogramas e historiales clínicos electrónicos, para determinar quiénes son los pacientes más vulnerables de entre los que han aportado datos.
El resultado fue que los MIA “pueden alcanzar tasas de éxito casi perfectas para pacientes individuales”, pero este riesgo no queda reflejado adecuadamente en el protocolo de evaluación estándar, que mide la eficacia de los ataques de forma agregada a través de los registros.
El estudio indica que los grupos infrarrepresentados, es decir aquellos pacientes que representan una minoría en el conjunto de datos de entrenamiento, “se enfrentan a un índice de éxito de los ataques desproporcionadamente alto”.
A nivel de grupo, entre las personas identificadas como tal en los conjuntos de datos se incluyen aquellas con enfermedades raras, las pertenecientes a un grupo racial minoritario, con una situación socioeconómica desfavorable, o aquellas cuyo género es menos común.
Al contar con datos más específicos codificados por modelos de IA, se ha constatado que estos grupos y personas son más vulnerables.
Además, observaron que el número de pacientes con un alto índice de éxito de los ataques aumenta considerablemente con la capacidad del modelo.
El grupo estima que los modelos de IA médica y sus contextos de implementación deben evaluarse en cuanto a la información sensible que los atacantes podrían obtener si lograran deducir la pertenencia a un conjunto de datos de entrenamiento.
Así, recomiendan que, para evitar daños a la privacidad, los modelos vulnerables se protejan mediante estrategias verificables de mitigación de riesgos o controles de acceso estricto.
