Hadoop支持对序列化的二进制流直接进行比较,相对于将序列化的二进制流反序列化对象再进行比较,显然前者具有更高的效率。而之所以需要对二进制流进行比较是因为Hadoop多个节点上的进程间通信是通过远程过程调用(RemoteProcedure Call Protocol,RPC)实现的,而RPC协议会将消息序列化为二进制流后再发送到远程节点,远程节点接收到二进制流后再反序列化为原始消息,如果对序列化的二进制流直接比较则会提高效率。本篇文章将学习Hadoop中基于字节的比较器RawComparator及其实现。 Hadoop支持对序列化的二进制流直接进行比较,相对于将序列化的二进制流反序列化对