iOS中的MD5摘要问题

Author Avatar
xiaoLit Created: Dec 28, 2018 Updated: Sep 12, 2019

由汉字和 \0 引发的问题

一、分析问题

首先我们通常使用的MD5加密一般是iOS提供的方法。
extern unsigned char *CC_MD5(const void *data, CC_LONG len, unsigned char *md)
对于字符串使用如下

- (NSString *)md5String {
    const char *str = [(NSString *)self UTF8String];

    unsigned char result[CC_MD5_DIGEST_LENGTH] = {0};
    CC_MD5(str, (CC_LONG)strlen(str), result);

    NSMutableString *ret = [NSMutableString string];

    for (int i = 0; i < CC_MD5_DIGEST_LENGTH; i++) {
        [ret appendFormat:@"%02x", result[i]];
    }
    return ret;
}
@end

对于NSData使用如下

- (NSString *)md5String {
    const char *str = [self bytes];
    unsigned char result[CC_MD5_DIGEST_LENGTH];
    CC_MD5(str, (CC_LONG)self.length, result);

    NSMutableString *hash = [NSMutableString string];
    for (int i = 0; i < CC_MD5_DIGEST_LENGTH; i++) {
        [hash appendFormat:@"%02X", result[i]];
    }
    return [hash lowercaseString];
}

1. 先看NSString的MD5方法

对于NSString在使用CC_MD5函数的时候,传入的参数是strlen(str),对于NSData传入的参数是self.length,一个使用了C的方法,一个使用了Objective-C的方法。

由于CC_MD5是一个C的函数,但是在使用NSString的时候,NSStringlength函数对字符转义进行过了处理,对于普通的字符并没有太大的区别,但是遇到中文的时候就要会出现问题。

NSString *test = @"我";
NSLog(@"%lu",(unsigned long)test.length);

const char *cTest = [test UTF8String];
NSLog(@"%lu",strlen(cTest));

前者输出了 1 后者输出了 3, 这其实是很正常的现象,因为一个中文占了3个字节,苹果对length进行了处理,所以,在使用length的时候,你获取到的汉字的长度是1,让我们在看看这个例子:

NSLog(@"%c",[test characterAtIndex:0]);
NSLog(@"%@",[test substringWithRange:NSMakeRange(0, 1)]);

前者输入了乱码,后者输出了汉字“我”
相信很多人也都踩过这个坑,苹果文档中还特意声明
Use with rangeOfComposedCharacterSequencesForRange: to avoid breaking up character sequences使用这个方法可以避免字符串被中间切断。

在使用NSString的时候,因为CC_MD5是一个C函数,如果使用NSString提供的length函数被处理过后,汉字或者一些其他鬼字符的长度和strlen计算出来的不一样了,于是导致了这样一个隐藏问题。
长度的编码问题可以简单看下这个

2. 再看NSData的MD5方法

在 NSData 中,我们计算 CC_MD5 的时候,传入的长度是 self.length,而不再是 strlen() 计算出来的, 让我们看看下面的例子:

NSString *test = @"aaa\0bbb";
NSLog(@"%lu",(unsigned long)test.length);

const char *cTest = [test UTF8String];
NSLog(@"%lu",strlen(cTest));

前者输出了7 后者只输出了3,原因是char的数组在遇到’\0’的时候,认为这个字符串已经结束了,因此 将不在对bbb做处理了,而用strlen计算出来的长度只有3了。到这里 你甚至可能会和我一样疑惑,按照这样的说法,上述用NSString传入计算MD5的长度正确吗?我只能说 幸运的是在正常的NSString中我们不会出现'\0'这样的变态字符,除非是你自己刻意去拼出一个这样的字符.
但是对于NSData来说,会用NSData去计算MD5通常是通过文件或者音频、图片等转化过来的,因此,在data中什么都有可能出现,如果我没有记错的话,字符'\0'被转化成二进制应该是0000 00000之类的东西,如果你的NSData是通过压缩或者其他方式得到的,就很有可能出现一个这样的二进制.....0000.....(意思就是 二进制的一串中包含了一些特殊的字符,相当于转化成String被识别成了'\0'),于是你再用strlen计算,就只会计算.....0000这么多了,后面的就完全忽略了,于是 这样一个潜在的bug就出现了。 举个例子来说:我们分别利用NSString和将 String 转化为 NSData 的字符串@'aaa'去计算各自的MD5

NSString *test = @"aaa";
NSLog(@"%@",[test md5StringStr]);
NSData *data = [test dataUsingEncoding:NSUTF8StringEncoding];
NSLog(@"%@",[data md5String]);

计算出来的结果一样 都是 47bce5c74f589f4867dbd57e9ca9f808

但是 当我们把字符串改成@"aaa\0bbb" (‘\0’)起到了决定性的因素

NSString *test = @"aaa\0bbb";

在看看结果NSString算出来的是 47bce5c74f589f4867dbd57e9ca9f808(和上面的一样), 但是NSData算出来的是 ea21d344ad21e7cc63e5d4480f76dc83。
由此可知NSString`MD5方法是不足以应付这种情况的,但是NSData`这种就真的对吗?

二、并不是完美的解决方法

筛选了大部分方案,举一个有代表性的也是绝大部分都是这样处理的,就是将NSString转成NSDataMD5
本文引用并验证了这里的解决方法这个,以及1000Star的CocoaSecurity都是有问题的。

#import "NSData+Md5.h"
#import <CommonCrypto/CommonCrypto.h>

@implementation NSData (Md5)

- (NSString *)md5String {
    const char *str = [self bytes]; //此处打断点 
    unsigned char result[CC_MD5_DIGEST_LENGTH];
    CC_MD5(str, (CC_LONG)self.length, result);

    NSMutableString *hash = [NSMutableString string];
    for (int i = 0; i < CC_MD5_DIGEST_LENGTH; i++) {
        [hash appendFormat:@"%02X", result[i]];
    }
    return [hash lowercaseString];
}
@end

//NSString 的 MD5 转化为 NSData,通过 NSData 的 MD5 计算返回结果

#import "NSString+Md5.h"
#import "NSData+Md5.h"

@implementation NSString (Md5)

- (NSString *)md5String {
    NSData *data = [self dataUsingEncoding:NSUTF8StringEncoding];
    return [data md5String];
}
@end

调用NSDataMD5时候可以在断点处发现:
const char *str = [self bytes];这个str也遵循了char的特性,也就是说当
NSString *test = @"aaa\0bbb";在转成char的时候只会拿到'aaa',虽然在上一个例子中两个MD5后的结果不一样,那不过是获取长度不一样了而已,仍然是有问题的

三、验证方法

利用MAC终端

echo -n "aaa\0bbb" |md5sum
ea21d344ad21e7cc63e5d4480f76dc83
echo -n "aaa\0bbb" | md5
ea21d344ad21e7cc63e5d4480f76dc83

很奇怪的和NSData相同,或许机制是一样的,存在某种问题,因为方法调用后内部做了什么转码等操作不得而知。
但是aaa\0bbb将此放到任意的(Google前两页的结果)MD5网站和3000Star的JavaScript-MD5也是相同的这个结果bbb28c3687f7dee991f638bbad6ef747
目前得到的信息只能推论出避免出现’\0’这种异常的字符,其他情况上述解决方式可以应对。


题外话一:
有人说md5summd5区别在于md5不会默认识别’\0’和换行,我验证了一下发现并不是。

➜  ~ echo  "aaa\0bbb" | md5sum
5edba15569e2da1e986f3933cbe0f271
➜  ~ echo  -n "aaa\0bbb" | md5
ea21d344ad21e7cc63e5d4480f76dc83
➜  ~ echo  "aaa\0bbb" | md5
5edba15569e2da1e986f3933cbe0f271
➜  ~ echo  -n "aaa\0bbb" | md5sum
ea21d344ad21e7cc63e5d4480f76dc83

题外话二

NSString *test = @"aaa\0123";

NSData计算出来的结果一样都是 e2382c7f3e1ddc2afc53d0857a9d7572
控制台输出的是448325f9203a4adbf5e7152fa6b66ad0
网页输出的是03a5080b1ed003e0e21da9b8b225f099
还是不太了解什么情况。