Rappel : Vous n'êtes *pas* obligés de mettre des bandeaux pour les cookies et des demandes de consentements de partout.

Pas besoin de blâmer le RGPD pour ça puisqu'il ne l'impose pas.

[suspense intenable]

Il vous suffit de ne *pas* stocker et utiliser de données personnelles autrement que par pure nécessité pour fournir le service demandé explicitement par l'utilisateur.

Simple en fait

Follow

Ça me fatigue juste de voir les gens râler comme si le RGPD et la CNIL rendaient impossible de naviguer sur le web.

Ce qui rend impossible de naviguer ce sont les pratiques détestables des éditeurs et annonceurs. La balle est dans leur camp.

--

Le problème n'est pas le besoin de consentement, c'est votre envie de stocker et utiliser des données personnelles pour autre chose que ce que vous a demandé l'utilisateur.

Arrêtez, c'est tout. Fin de la solution

@edasfr De temps en temps, certaines évidences doivent être rappelées ^^

@edasfr oui, la balle est dans leur camp, mais entre :

dégrader l’expérience utilisateur et lui faire comprendre par du dark pattern et de la culpabilisation qu’il doit quand même tout accepter
renoncer à exploiter les utilisateurs et à l’argent que ça représente, juste parce que c’est plus éthique

aucune entreprise capitaliste ne fera le second choix

@edasfr ....Et vous économiserez de l’énergie, de la bande passante, des frais de stockage, du temps cpu tout en préservant un peu plus la planète. C’est win win 🤗

@edasfr

Certes, mais un débat récent avec @aeris nous a amenés sur le terrain de "qu'est-ce qu'une donnée perso". Pour lui, tout. Pour moi, ça dépend.

Ses arguments se tiennent, et pour l'instant, je comprends que par précaution on fasse "bandeau par défaut", et ce "à cause du rgpd" (nota: je comprends, mais je ne suis pas d'accord).

@djelouze @edasfr En tout cas, une IP, un cookie, une résolution d’écran, un referer, un user-agent, un fingerprint JS, c’est clairement de la donnée perso…

@djelouze @edasfr Il y a des trucs qui pourraient éventuellement mener à discussion, mais tout ça, clairement non.

@djelouze @edasfr D’une manière générale, j’aurais tendance à considérer que tout ce qui est en dessous de 33% ici est une donnée perso. Parce qu’en recroiser 3 (ce qui est TRÈS facile à obtenir) ne laisse que 3% d’erreur d’identification de l’individu… Tout ce qui est < 1% devrait limite relever d’une obligation d’analyse d’impact : la donnée elle-même est identifiante.

@djelouze @edasfr Quand tu vois que rien que l’entête Language m’identifie à plus de 99.99%… 😱

@djelouze @edasfr Et que ma résolution d’écran m’identifie avec une probabilité d’erreur de 1 sur 50.000…

@aeris

Et on est d'accord que ces ratios ne concernent que l'identification à partir de tous les paramètres ? C'est en d'autres termes la contribution de chaque paramètre â mon identification ?

Sinon, je ne vois pas comment ma langue pourrait m'identifier si sûrement parmi tou·te·s les internautes francophones...

@edasfr

@djelouze @edasfr La définition exacte d’après le site. C’est donc bien par valeur, et non la contribution totale.

@djelouze @edasfr Et c’est tout le problème d’une donnée perso. Les gens ne se rendent pas vraiment compte de la précision exacte d’une donnée, qu’ils ont tendance à très fortement minimiser…

@djelouze @edasfr Exemple à la con :

- Langue FR : 283 millions de personnes sur 7.5 milliards : 3.7% d’erreur d’identification 😱
- Fuseau horaire : ~1/24ème du monde = 4.2% d’erreur 😱

Les 2 cumulés : 0.15% d’erreur !!!! 😱 😱 😱

@djelouze @edasfr La position du service va du coup aussi beaucoup jouer avec ses 2 paramètres. Une petite boîte FR verra majoritairement du FR/UTC+2, donc la proba d’erreur va monter en flèche, plus proche du 100% que d’autre chose. À l’inverse une petite boîte US aura quasiment la certitude de l’unicité de l’individu avec la même donnée…

@djelouze @edasfr Bref « C’est compliqué », mais jusqu’à preuve du contraire (et l’analyse qui le prouve pour être conforme RGPD), une donnée a plus de chance d’être une donnée personnelle qu’autre chose.

@aeris @djelouze @edasfr Y a pas une répartition uniforme des fuseaux horaires donc le cumul en pratique devrait être un peu plus haut que ça… Dans cet exemple en tout cas.

@GeoffreyFrogeye @djelouze @edasfr Oui, il faudrait regarder les chiffres exactes, ça donne juste des ordres de grandeur 😂

@GeoffreyFrogeye @djelouze @edasfr UTC+2, c’est 459.000.000 habitants. Sur 7.5 milliard, ça fait donc 6.12%.
À l’inverse UTC+11 fait 16.850.000 habitants. On tombe à 0.22%…

@aeris 0.15% d'erreur sur 7,5 milliards, ça fait quand même 11 250 000 personnes. x)
Donc si tu stocke que ça, est-ce vraiment une donnée perso ? (sans ID, date ou quoi que ce soit)

Puisqu'il est pas possible de recroiser ces données avec d'autres…

@djelouze @edasfr

@Darks

J'allais justement de la fréquence de base :)

On a un peu le même soucis sur l'analyse de risque clinique : pour savoir si il faut faire une analyse, on doit analyser les risques. Ça ressemble à l'analyse d'impact : quand une erreur, aussi faible soit-elle te conduit à un choix parmi 1 million, l'analyse n'est p-ê pas nécessaire. Mais elle a été faite !

../..

@aeris @edasfr

@Darks

../..

Donc je suis d'accord, @aeris@social.imirhil.f, toute donnée p-ê potentiellement - et très souvent - personnelle. Mais chaque cas est particulier, et les éditeurs de site doivent faire l'effort d'analyser leur propre contexte.

Cet effort peut paraître difficile : d'où le bandeau systématique, et "c'est la faute au rgpd". Sans vouloir excuser ce comportement, bien sûr 😅

@edasfr

@Darks @djelouze @edasfr Non, il faut le voir dans l’autre sens. Tu as 0.15% d’erreur de te planter dans l’association de 2 visiteurs avec les mêmes valeurs.

@Darks @djelouze @edasfr Et tu stockes « forcément » une donnée autre à côté, sinon cette donnée n’a aucun intérêt à être stockée (ou ne serait effectivement plus une donnée perso)

@aeris Imaginons, j'ai Fr/UTC+2 dans ma bdd.
→ Je n'ai qu'une entrée ⇒ j'identifie une personne unique parmi 11 millions. Donc en fait personne.
→ J'ai plusieurs entrées (N) ⇒ j'identifie à 1 / (0.15 * N)  % la personne. Donc si N est "grand", ma donnée n'est plus personnelle.

Ceci étant dit, en écrivant ça je trouve le truc foireux… 🤔

@djelouze @edasfr

@Darks @djelouze @edasfr Vois le truc dans l’autre sens. Un visiteur se pointe en FR/UTC+2. Tu as une db avec 12 millions de personnes. Tu n’as pas FR/UTC+2 dedans. Tu en déduis que c’est un nouveau visiteur.
Tu vois une autre personne avec FR/UTC+2. Quelle est la probabilité qu’il s’agisse de la même personne que précédemment, sachant que tu n’avais jamais vu ce motif avec 12 millions de personnes auparavant.

@Darks @djelouze @edasfr On ne cherche pas à calculer la propa d’identifier un individu parmis 12 millions, la proba qu’il s’agisse du même sachant que tu as déjà vu ce motif avant.

@aeris Je vois. Donc 1 / (p × N), où p est le taux d'identification global et N le nombre d'apparitions, si je suis bien ?

Show more

@djelouze @edasfr Attention, tu fais une énorme confusion. Dans *TON* cas une donnée n’est peut-être pas identifiante, mais il faut regarder si elle l’est *en moyenne*.

@djelouze @edasfr Le tout en pondérant aussi avec la précision des identifications. 2 données avec 50% de moyenne peuvent très bien cacher 1 donnée avec tout le monde à 50% (et donc peu identifiante) et une donnée avec beaucoup de monde à 75% mais tout le reste à 25% (et donc très identifiante).

@djelouze @aeris
Faut aussi relativiser la durée du ratio. Y'a des headers qui changent avec le temps. Typiquement le DNT est identifiant à 10 % depuis tout le temps, mais seulement 40 % depuis 90 jours.

@edasfr

@aeris

Oui, mais si je ne stocke que le langage ?

Encore une, ça dépend de l'audience : si un français, un belge et un américain visite mon site, au delà de la mauvaise blague, le langage identifie. Si j'en ai 10000 de chaque, non.

Parce que si je te suis, le bandeau devrait être obligatoire pour *tous* les sites. Ce qui n'est pas le propos d'@edasfr, justement.

@aeris
Voilà. Les % que tu donnes sont arbitraires et discutables (et dépendent aussi du nombre d'utilisateurs total), mais si le croisement permet d'individualiser quelqu'un avec suffisamment de précision alors c'est une donnée perso
@djelouze

@edasfr @djelouze Les % ne sont pas complètement arbitraires, mais sont ceux constatés sur 1.4 millions d’analyses de config réelles.

@aeris
Non, ce que je dis c'est que les paliers (à partir de quand tu considères ça identifiant ou pas) le sont.

Un site à 100 utilisateurs répartis dans le monde qui filtre par région c'est identifiant. Un site local à ton agglomération qui retient ton arrondissement ou ton quartier parmi 1 000 000 d'inscrit ne l'est pas.

Un critère à 1% est identifiant pour un site perso, ne l'est pas pour Facebook

@djelouze

@aeris
Le croisement de tout ça, clairement. La résolution d'écran seule, croisée avec rien d'autre, non
@djelouze

@edasfr @djelouze Pourtant, c’est déjà identifiant à 99.99% sur 1.4 millions d’analyse… 😱
Et pourtant j’ai pas un écran exotique…

@edasfr @djelouze C’est même 50× plus précis que le user-agent dans mon cas. Alors que pour le coup là je suis dans du complètement exotique vu les parts de marché de GNU…

@aeris
Si tu ne le relie pas trop, je doute que la cnil considère ça problèmatique juste parce que quelques pequins ont une résolution inhabituelle

Tu es absolutiste dans l'application, je suis bien plus souple à ce niveau

@djelouze

@edasfr @djelouze Moi ? Absolutiste ? Ça se saurait… 😂
Ma position est plutôt que toute donnée est personnelle jusqu’à preuve du contraire. Et qu’il faut justement analyser sa segmentation derrière pour se dire « ok je stocke » ou « hum, problème, on PIA et on décide plus tard ».

@aeris @edasfr @djelouze IPv6 : 100 % d’identification. Mais on est légalement obligés de la stocker (quelques jours ou un an, ça c’est à voir si on suit la règle Européenne ou Française, mais faut la logger).

Du coup quoi, je dois coller sur mon pauvre site que l’IP des visiteurs est dans mes logs ? Quoique, techniquement ils sont bien obligés de la transmettre pour que le site marche. Et même si je vire l’IP de mes logs, ben ils me la transmettent quand même, du coup ils doivent juste me faire confiance quand je leur dit que je stocke pas ?

Honnêtement, perso j’ai arrêté de chercher à comprendre à part les cas les plus flagrants. Après, si les entreprises respectaient un minimum leurs visiteurs (qui sont parfois leur clients principaux), y’aurait même pas eu besoin de la faire cette RGPD. Du coup j’estime qu’il faut voir au cas par cas et que si les infos récupérées le son vraiment à bon escient, ben c’est bon.

@breizh @djelouze @edasfr Stockage des logs = obligation légale = pas de consentement nécessaire.

@breizh @djelouze @edasfr C’est chaque *finalité* qui doit être analysée et faire l’objet d’un consentement ou non, et non chaque *collecte*.

@breizh @djelouze @edasfr Un journal httpd pour obligation légal = pas de consentement. Le même journal ensuite envoyé dans un Matomo correctement configuré = information préalable mais pas de consentement nécessaire. Le même envoyé à un Google Analytics = consentement nécessaire

@breizh @djelouze @edasfr Et donc oui, pour une même collecte (d’IP par exemple), il peut être nécessaire d’obtenir plusieurs consentements (pour chaque finalité derrière).

@djelouze

toute information se rapportant à une personne physique identifiée ou identifiable (qu'on connaisse son identité civile ou pas)

@aeris

@edasfr

"Il vous suffit de ne pas stocker et utiliser de données personnelles autrement que par pure nécessité pour fournir le service demandé explicitement par l'utilisateur."

Quand l'utilisateurice se connecte à un service, je vois mal le moment où elle s'exprime pour demander explicitement un besoin.

"Le problème n'est pas le besoin de consentement, c'est votre envie de stocker et utiliser des données personnelles pour autre chose que ce que vous a demandé l'utilisateur."

Même si tu utilises des données personnelles pour le service """demandé""" (disons légitime ?) par (ou pour) l'utilisateurice, tu dois lui informer de cette collecte.

Du coup je comprends pas trop ton propos, je dois passer à coté de ton point.

@Grandasse_ @edasfr pour le premier point par exemple : un newsletter où l'utilisateur c'est inscrit par formulaire. Ou un identifiant de compte lorsque que l'utilisateur s'inscrit sur un site.

Pour le second point, l'utilisation de régies publicitaires, de traqueurs, du compte pour autre chose que l'identification demandé par l'utilisateur, le surplus d'information demandées lors d'une inscription ( un site n'a pas besoin de mon email pour fonctionner) sont des points souvent présent pour des utilisations commerciales de site.

On en arrive au noeud du problème : tout ce qui est fait en plus du service que vient chercher l'utilisateur et qui se fait sur son dos. Par exemple les suggestions d'amis sur Facebook ou de produits sur Amazon...etc

@valtena
Je parle du fait de recueillir le consentement pour de la données personnelle, même si c'est le but premier du site.

@edasfr disait

"Le problème n'est pas le besoin de consentement, c'est votre envie de stocker et utiliser des données personnelles pour autre chose que ce que vous a demandé l'utilisateur."

Ça sous entend qu'il peut y avoir un cas où on se passerait du consentement de l'utilisateur dans que son attente en terme de recueil de données est conforme à ce que le site fait vraiment.

Ça, c'était pour recentrer sur le sujet de départ.
Maintenant pour continuer dans ton sens : comment un site te renvoie un lien de réinitialisation de mot de passe sans ton email ? (je n'attend pas de réponse de ta part)

@Grandasse_ pour exemple, tu achètes des choses sur un site e-commerce. Ce site e-commerce te demande nom, prénom, adresse (facturation) et utilise un cookie d'authentification.

Ceci est nécessaire à l'exécution du service demandé. Pas besoin de bandeau. Une information dans les mentions légales suffit

@Grandasse_ le site ajoute en plus une mesure d'usage anonyme (pas d'ip complète, pas de croisement hors site, durée de vie limitée, pas d'identification possible par croisement des critères). Le RGPD le classe en intérêt légitime.

Tu dois en plus fournir un moyen simple et visible sur le site pour t'en exclure, mais toujours pas de bandeau pour consentement préalable nécessaire

Sign in to participate in the conversation
La Quadrature du Net - Mastodon - Media Fédéré

The social network of the future: No ads, no corporate surveillance, ethical design, and decentralization! Own your data with Mastodon!