分布式计算系统包括哪些 - 智学轩城

分布式计算系统包括哪些

一盏孤灯 头像

一盏孤灯

2025-09-27 10:00:59

说起来分布式计算系统啊,我之前在一家互联网公司搞过这么一套东西。那时候,2018年,我们在北京,项目规模挺大的,涉及到上亿用户的数据处理。分布式计算系统嘛,其实就那么几大块。
首先,得有个分布式文件系统,比如HDFS,就是Hadoop Distributed File System,这玩意儿负责存储大量数据。记得当时我们存储的数据量得有几十PB,全靠这个家伙支撑。
然后是分布式计算框架,像我们那时候用的是MapReduce,后来又换成Spark了。这个框架负责处理数据,把大数据拆成小块,分布式地计算,最后再合并结果。
再就是分布式数据库了,比如我们用的MongoDB,它支持分布式存储,还能横向扩展,特别适合处理大量数据。
还有分布式缓存,比如Redis,这个用来缓存热点数据,提高系统响应速度。当时我们缓存的数据量也很大,得有几TB。
最后,还有分布式消息队列,比如Kafka,它负责在不同服务之间传递消息,保证数据一致性。
这些就是我当年参与的那个分布式计算系统的几个主要组成部分。说起来,分布式系统挺复杂的,不过搞明白了,就能处理海量数据,提高系统性能。

苏孟漫头像

苏孟漫

2025-08-31 18:08:02

Hadoop、Spark、Flink、Docker、Kubernetes。
Hadoop:2012年,Apache Hadoop成为分布式计算领域的事实标准。
Spark:2013年,Spark成为处理大数据的主流框架。
Flink:2014年,Apache Flink发布,专注于实时计算。
Docker:2013年,Docker容器化技术兴起,简化分布式部署。
Kubernetes:2015年,Kubernetes成为容器编排的事实标准。

府孟萦头像

府孟萦

2025-06-15 17:17:16

分布式计算系统其实很简单,它主要包括以下几个核心组件:
- 计算节点:去年我们跑的那个项目,大概3000量级,每个节点负责一部分计算任务。

  • 通信网络:节点之间通过高速网络进行通信,其实就相当于人体的神经脉络,信息传递至关重要。
  • 分布式文件系统:这个细节挺关键的,比如HDFS,它提供高吞吐量的数据访问,对于大数据处理不可或缺。
    我一开始也以为分布式计算系统就是简单的多个节点堆叠,后来发现不对,它涉及到复杂的调度算法和容错机制。
    等等,还有个事,分布式系统中的数据一致性问题,用行话说叫雪崩效应,其实就是前面一个小延迟把后面全拖垮了,这个点很多人没注意。
    所以,我觉得值得试试在项目中引入一些成熟的分布式计算框架,比如Apache Hadoop或Apache Spark,它们已经解决了许多这样的问题。