阅读背景:

Apache Spark探秘:多进程模型还是多线程模型?

来源:互联网 
       Apache Spark的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver端采用的模型),这与Hadoop 2.0(包括YARN和MapReduce)是一致的。Hadoop 2.0自己实现了类似Actor的异步并发模型,实现方式是epoll+状态机,而Apache Spark则直接采用了开源软件Akka,该软件实现了Actor模型,性能非常高。尽管二者在server端采用了一致的并发模型,但在任务级别(特指Spark任务和MapReduce任务)上却采用了不同的并行机制:Hadoop MapReduce采用了多进程模型,而Spark采用了多线程模型。       Apache Spark的高性能一定程度上取决于它采用的异步并发模型(这里指serve


你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: