El aprendizaje automático puede determinar mucho sobre usted, incluida parte de su información más confidencial. Por ejemplo, puede predecir su orientación sexual, si está embarazada, si dejará su trabajo y si es probable que muera pronto. Los investigadores pueden predecir la raza basándose en los me gusta de Facebook , y los funcionarios en China utilizan el reconocimiento facial para identificar y rastrear a los uigures , un grupo étnico minoritario.
Ahora, ¿Las máquinas realmente “saben” estas cosas sobre usted, o solo están haciendo conjeturas informadas?
Y, si están haciendo una inferencia sobre ti, al igual que cualquier humano que conozcas, ¿realmente hay algo de malo en que sean tan astutos?
Veamos algunos casos:
En los EE. UU., La historia de Target que predice quién está embarazada es probablemente el ejemplo más famoso de un algoritmo que hace inferencias sensibles sobre las personas. En 2012, una historia del New York Times sobre cómo las empresas pueden aprovechar sus datos, incluía una anécdota sobre un padre que se enteró de que su hija adolescente estaba embarazada debido a que Target le envió cupones para artículos para bebés en un aparente acto de premonición. Aunque la historia sobre el adolescente puede que haya sido una coincidencia, no un análisis predictivo, lo que fue responsable de los cupones, según el proceso de Target detallado por la historia de The New York Times. Después de todo, si el departamento de marketing de una empresa predice quién está embarazada, ha comprobado datos médicamente sensibles y no voluntario que solo el personal de atención médica normalmente está capacitado para manejar y proteger adecuadamente.
El acceso mal administrado a este tipo de información puede tener enormes implicaciones en la vida de alguien. Como un ciudadano preocupado publicó en línea : imagine que el trabajo de una mujer embarazada “es inestable y su discapacidad estatal aún no está configurada correctamente … tener la divulgación podría poner en riesgo el costo minorista de un parto (aproximadamente $ 20,000), pagos por discapacidad durante tiempo libre (aproximadamente de $ 10,000 a $ 50,000), e incluso su trabajo “.
Este no es un caso de mal manejo, filtración o robo de datos. Más bien, es la generación de nuevos datos: el descubrimiento indirecto de verdades no voluntarias sobre las personas. Las organizaciones pueden predecir esta información valiosa a partir de datos inocuos existentes, como si los crearan de la nada.
Entonces, ¿Nos enfrentamos irónicamente a una desventaja cuando los modelos predictivos funcionan demasiado bien? Sabemos que hay un costo cuando los modelos predicen incorrectamente, pero ¿También hay un costo cuando predicen correctamente?
Incluso si el modelo no es muy preciso, todavía puede confiar en sus predicciones para un cierto grupo de mujeres embarazadas. Digamos que el 2% de las clientas entre 18 y 40 años están embarazadas. Si el modelo identifica a los clientes, digamos, tres veces más probabilidades que el promedio de estar embarazadas, solo el 6% de las identificadas estarán realmente embarazadas. Eso es un aumento de tres. Pero si observa un grupo mucho más pequeño y enfocado, digamos el 0.1% superior de probabilidades de estar embarazada, es posible que tenga un aumento mucho mayor de, digamos, 46, lo que haría que las mujeres de ese grupo tengan un 92% de probabilidades de estar embarazadas. En ese caso, el sistema sería capaz de revelar que esas mujeres tienen muchas probabilidades de estar embarazadas.

El mismo concepto se aplica al predecir la orientación sexual, la raza, el estado de salud, la ubicación y sus intenciones de dejar su trabajo. Incluso si un modelo no es muy preciso en general, aún puede revelar con mucha confianza, para un grupo limitado, cosas como la orientación sexual, la raza o el origen étnico. Esto se debe a que, por lo general, hay una pequeña parte de la población para la que es más fácil predecir. Ahora, es posible que solo pueda predecir con seguridad para un grupo relativamente pequeño, pero incluso solo el 0.1% superior de una población de un millón significaría que se han identificado con confianza 1,000 personas.

Es fácil pensar en las razones por las que la gente no querría que alguien supiera estas cosas. A partir de 2013, Hewlett-Packard calificaba de manera predictiva a sus más de 300,000 trabajadores con la probabilidad de que renunciaran a su trabajo; HP lo llamó la calificación de Riesgo de vuelo y se entregó a los gerentes. Si está planeando irse, su jefe probablemente sea la última persona a la que le gustaría averiguar antes de que sea oficial.

Como otro ejemplo, las tecnologías de reconocimiento facial pueden servir como una forma de rastrear la ubicación, disminuyendo la libertad fundamental para moverse sin divulgación, ya que, por ejemplo, las cámaras de seguridad colocadas públicamente pueden identificar a las personas en momentos y lugares específicos. Ciertamente no condeno rotundamente el reconocimiento facial, pero sé que los directores ejecutivos de Microsoft y Google lo han criticado por esta razón.

La investigación ha demostrado que los modelos predictivos también pueden discernir otros atributos personales, como la raza y el origen étnico, basándose, por ejemplo, en los me gusta de Facebook.
Una preocupación aquí son las formas en que los especialistas en marketing pueden hacer uso de este tipo de predicciones. Como dijo Latanya Sweeney , profesora de gobierno y tecnología de Harvard , “Al final del día, la publicidad en línea trata sobre la discriminación. No quiere que las madres con recién nacidos reciban anuncios de cañas de pescar, y no quiere que los pescadores reciban anuncios de pañales. La pregunta es ¿cuándo esa discriminación cruza la línea de dirigirse a los clientes a afectar negativamente a todo un grupo de personas? ” De hecho, un estudio de Sweeney mostró que las búsquedas en Google de nombres que “suenan en negro” tenían un 25% más de probabilidades de mostrar un anuncio que sugiriera que la persona tenía un registro de arresto, incluso si el anunciante no tenía a nadie con ese nombre en su base de datos de registros de arrestos.
“Si crea una tecnología que puede clasificar a las personas por etnia, alguien la usará para reprimir esa etnia”, dice Clare Garvie , asociada senior del Centro de Privacidad y Tecnología de Georgetown Law.
Lo que nos lleva a China, donde el gobierno aplica el reconocimiento facial para identificar y rastrear a los miembros de los uigures, un grupo étnico sistemáticamente oprimidos por el gobierno. Este es el primer caso conocido de un gobierno que utiliza el aprendizaje automático para perfilar por etnia. Esta marcación de individuos por grupo étnico está diseñada específicamente para ser utilizada como factor en decisiones discriminatorias, es decir, decisiones basadas al menos en parte en una clase protegida. En este caso, los miembros de este grupo, una vez identificados, serán tratados o considerados de manera diferente en función de su origen étnico. Una nueva empresa china valorada en más de mil millones de dólares dijo que su software podría reconocer a “grupos sensibles de personas”. Su sitio web decía: “Si originalmente un uigur vive en un vecindario, y en 20 días aparecen seis uigures, inmediatamente envía alarmas” a las fuerzas del orden.
La implementación del tratamiento diferencial de un grupo ético basado en tecnología predictiva lleva los riesgos a un nivel completamente nuevo. Jonathan Frankle, investigador de aprendizaje profundo del MIT, advierte que este potencial se extiende más allá de China . “No creo que sea exagerado tratar esto como una amenaza existencial para la democracia. Una vez que un país adopta un modelo en este modo fuertemente autoritario, está utilizando datos para hacer cumplir el pensamiento y las reglas de una manera mucho más arraigada … En ese sentido, esta es una crisis urgente en la que estamos entrando como sonámbulos lentamente “.
Es un verdadero desafío trazar la línea en cuanto a qué objetivos predictivos perseguidos con el aprendizaje automático no son éticos, y mucho menos contra cuáles deberían legislar. Pero, como mínimo, es importante estar atento a cuándo el aprendizaje automático sirve para potenciar una práctica poco ética preexistente y también a cuándo genera datos que deben manejarse con cuidado.