CPU使用内存是NUMA架构的吗
并行计算的背景:
自计算机诞生之日起,对其提供更强计算能力的追求始终没有间断。早期的计算机通过不断地提高时钟频率来加快处理速度。现在,时钟的问题越来越遇到限制,根据爱因斯坦相对论,电子的速度不会超过光速,频率的不断提高,意味着电子信号从一段到达另一端的距离就要越短,计算机就要不断变小。但是,伴随时钟的加快,处理器的热量也急剧增大,散热部件必不可少,迫使计算机的体积不可能无限制的减小,通过加快时钟来增强计算能力的方法遇到了瓶颈。
既然不能将计算机无限变小,那么就尝试另一种思路,通过扩展计算单元的数量,达到增强计算能力的目的。于是就有了多处理机系统,包括并行计算机,以及分布式计算机系统。NUMA(Non Uniform Memory Access)作为多处理机系统一种典型架构,具有区别于其他多处理机系统的特性。
1.具有对所有CPU可见的统一的地址空间
2.通过LOAD、STORE指令访问远端存储器
3.访问远端存储器的速度低于访问本地存储器
NUMA系统简介:
NUMA(Non Uniform Memory Access),即非一致内存访问,是针对UMA(Uniform Memory Access)提出的。典型的UMA架构,如SMP(Symmetric MultiProcessing)机器,多个CPU以及一个或多个主存储器模块通过一条系统总线通信。随着系统规模的扩大,CPU数量不断增加,对系统总线的争抢现象越发严重,系统总线带宽成为了多CPU访存的瓶颈。
NUMA架构下,多CPU对主存的访问并非对等的,每个CPU都有自己的主存, CPU与自己的主存物理上距离更近,访问速度更快,而访问远端存储器的速度相对要慢。NUMA用Node来管理CPU与主存。一个NUMA系统由多个NUMA Node组成,其中每个Node可以拥有多个CPU,但是只有一个内存控制器,保证本Node的所有CPU对本Node的主存实现对等访问,而其它Node的CPU对本Node的主存访问延迟要大一些。
NUMA系统的启动流程:
系统加电,对于单CPU机器,CPU直接执行BIOS程序,但是对于多处理机系统,由哪个CPU执行该程序是个问题。针对这个问题,Intel提出了Multiple Processor Initialization Protocol,该协议规定了两种类型的CPU,作为主启动CPU的BSP(Bootstrap Processor),作为应用服务CPU的AP(Application Processor),系统加电后通过主板上的硬件选择机制,选择一个CPU作为BSP,而将其它CPU作为AP。(具体的协议与选择算法细节,参考《IA-32 Architectures Software Developer's Manual 3A》,Chapter 7,Multiple Processor Management)[1]在BSP上执行BIOS程序,读取/设置CMOS相关信息,并完成自检程序,为其它AP建立管理列表,此时所有AP均处于空转状态。
Linux通过读取系统的firmware中的ACPI表,获得NUMA系统的CPU及物理内存分布信息,最重要的是SRAT(System Resource Affinity Table)和SLIT(System Locality Information Table)。SRAT中包含两个结构,Processor Local APIC/SAPIC Affinity Structure用于记录CPU信息,Memory Affinity Structure用于记录主存信息[3]。Linux kernel中通过include/acpi/actbl1.h中acpi_table_slit与acpi_table_srat记录SLIT与SRAT结构信息,通过acpi_numa_init()函数读取系统firmware中的数据,赋值给以上两个结构,用于NUMA系统初始化。代码(以Linux2.6.36 kernel为例)
怎么看服务器是smp还是numa
拓扑,并了解应用程序是如何工作的,使得能够迅速排除服务器问题。
需要有扎实的数据中心操作知识,并拷问自己几个重要的问题:每个应用程序涉及多少台服务器?基本的网络设置是什么?当前是什么基础设施?这些问题很有价值。例如,如果有两台应用服务器供客户端通过循环DNS访问,同时一半用户反馈有问题。从一开始就知道一半的用户连接到各自的服务器,