Je cherche à identifier des doublons approximatifs dans une collection de chaînes de caractères. J'aimerais éviter une comparaison deux à deux car la collection est grande. Quelqu'un aurait une méthode ou une lib Python à me conseiller ?

Pour la méthode, je dirais « minhashing » peut être ?

Follow

et des doublons de quoi ? (si c’est des mots ou des phrases, tu peux essayer de normaliser (pythonspot.com/nltk-stemming/) puis calculer de simple ratio de similarité avec difflib ou autre.

Sign in to participate in the conversation
La Quadrature du Net - Mastodon - Media Fédéré

Bienvenue dans le media fédéré de la Quadrature du Net association de défense des libertés. Les inscriptions sont ouvertes et libres.
Tout compte créé ici pourra a priori discuter avec l'ensemble des autres instances de Mastodon de la fédération, et sera visible sur les autres instances.
Nous maintiendrons cette instance sur le long terme.