本文讨论了用户在文件去重方面的需求,特别是针对因文件乱放导致的文件重复问题。用户希望找到 photo1 和 photo2 中完全一致的文件,删除 photo2 的,保留 photo1 的。同时,对于文件名一致但内容不一致的情况,用户希望根据文件大小或时间等规则自动处理。此外,用户还提出了对散列值存储、大文件抽样比对以及散列算法效率等方面的具体要求。
🔍用户核心需求:用户主要关注于解决文件重复问题,希望能够识别并删除 photo2 中的重复文件,保留 photo1 中的文件。这种需求源于用户经常乱放文件,导致文件管理混乱。
💡处理文件名一致但内容不一致的文件:对于文件名相同但文件内容不同的情况,用户希望能够根据文件大小、修改时间等规则进行自动处理。这体现了用户在文件去重过程中对自动化和智能化的需求。
💾散列值存储与大文件处理:用户希望能够自动存储 photo1 文件的 MD5 散列值,以避免重复扫描。此外,对于超过 1G 的大文件,用户希望通过抽样比对的方式来提高效率,并在抽样结果一致时进行全部验证。
⚡️对散列算法的期望:用户希望散列算法能够保证准确性,几乎不可能出现意外。同时,用户也希望能够使用 xxhash 这种超快的散列算法,以提高文件去重的效率。
找了很多的文件去重软件,都似乎没法满足我的需求,想着干脆自己写一个,写之前问问 v 友是否有我不知道的软件实际可以满足我的需求,避免造轮子
我的去重是经常乱放文件导致的,我希望能够把这些文件整理一下,比如我现在有一个备份的文件 photo
我想找到 photo1 和 photo2 中完全一致的文件,删除 photo2 的,保留 photo1 的如果有文件名一致,但文件内容不一致的,可以根据规则,比如文件大小,时间来自动全部处理掉photo1 中的文件散列值 md5 可以自动的存下来,免得重扫对于文件大小不一致这种肯定不可能一致的直接跳过(可选)对于超过一定大小如 1G 的,文件 bit 数也完全一致的,只抽样比对节省时间,抽样结果一致再全部验证确保完全一致散列算法保证几乎不可能有意外(可选)散列算法要是 xxhash 这种超快的就最好了
我的核心诉求是前三条
感谢 v 友