Hadoop Rpc源码分析 | CHAO LI's Blog

Hadoop生态系统中Rpc底层基本都是走的一套实现，所以有必要对Rpc底层实现做一次系统性的梳理总结。
知乎专栏链接

Client&Server实现入口

RpcEngine作为Rpc实现的接口，用来获取client端proxy和server端的server

主要的实现是WritableRpcEngine，ProtobufRpcEngine（现默认），两者的区别主要是序列化与反序列化的协议不同；内部都有继承Server构成完整Rpc Server的实现类
IPC.Server是两种序列化协议的基类，org.apache.hadoop.ipc.Server 主要实现了Reactor的请求处理模式

Client & Server 构造方式

总体来说Client端实现比较简单，用hashTable的结构来维护connectionId -> connections以及callId -> calls 对应关系，使得请求响应不需要有严格的顺序性

receiveRpcResponse接收服务端返回结果，将calls移除table，可以乱序，通过ConnectionId索引，不需要同步代码块，因为只有一个receiver

Server端采用经典的Reactor模式，利用IO多路复用实现事件驱动
痛点在于多路复用之前的处理模式，socket read/write是阻塞的，一个线程只能处理一个socket；使用selector之后一个进程可以监视多个进程文件描述符

图片摘自《Hadoop技术内幕：深入解析MapReduce架构设计与实现原理》

Reactor 工作图
Reactor：负责响应IO事件，将事件派发到工作线程
Acceptor：用来接收Client端的请求，建立Client与handler的联系；向Reactor注册handler
Reader/Sender：为了加快速度，同时做到请求和处理过程的隔离，reader和sender 分别是两个线程池，用来存放该过程处理完后的连接，处理完之后塞入中间队列，等待下一个过程的线程拿去处理就行
Handler：connection对应的工作线程，会做一些decode, compute, encode工作

Hadoop RpcServer组成结构

Listener → Reader 请求建立过程：ListenerReaderConnection
Listener线程只有一个，通过Selector方式监听客户端的Rpc请求(OP_ACCEPT事件)，调用doAccept方法建立连接；此时connectionManager线程开始工作
建立连接后，roundbin方式获取一个reader线程，将连接塞入reader线程的pending队列和connectionManager中

数据读入 → 工作线程 : ReaderConnectionCallQueue
而后Reader通过selector方式，只要监听的channel有读事件，则调用doRead方法；其中通过selectionKey获取关联的connection对象，调用connection的readAndProcess方法
connection.readAndProcess: 主要是将channel里面的数据读入data byteBuffer中，数据读完之后调用processOneRpc 进一步处理

connection. processOneRpc 对buffer decode构造成DataInputStream以及RpcHeader（请求元信息，协议类型等）通过processRpcRequest将请求塞入CallQueue中，等待handlers处理
connection.processRpcRequest：通过header中指定的rpc engine将dataInputStream根据不同engine反序列化协议反序列化成rpcRequestWrapper；构造Call对象塞入CallQueue, 并incrRpcCount

调用Responder.doRespond将请求结果返回客户端
请求返回处理过程: 通过Responder线程+ writeSelector
Responder.doRespond
在handler中尽可能的将response一次性写入channel buffer，如果没有剩余则不用注册Responder的Responder.doRespond
如果一次性写不完且是在handler线程中，则唤醒writeSelector，将当前channel 注册 SelectionKey.OP_WRITE 异步去处理

ConnectionManager相关：用来定时清理idle时间过长的connection
idleScanThreshold: 每次轮询扫描的connections 阈值default 4000
idleScanInterval: 定时检测线程轮询间隔 default 10000
maxIdleTime: 一个connection最长idle时间，default 2* 10000
maxIdleToClose : 一次轮询最多关闭的连接数 default 10
一个connection是不是可以被清理由以下条件决定
connection.isIdle(): rpcCount为0, 也就是Call没有塞入callQueue；在connection.processRpcRequest末尾，如果成功塞入callQueue中的话会incrRpcCount
lastContact < minLastContact:
minLastContact: Time.now() - maxIdleTime
startIdleScan：开启清理线程，随Listener线程启动