游戏引擎设计系列1 – 内存管理

开发c++应用可能第一步就是内存管理了，所以我们第一个就说下内存管理。
c++内存，主要的效率瓶颈就是大量小内存的分配问题了，为了解决这个问题，首先想到的就是每次分配一大块内存（比如1M），然后再这块大内存上再去分配给程序使用，这是就不需要频繁的调用系统的内存分配了，同时减少了内存碎片的产生。另外，我们设计内存保持16字节对齐，一方面可以很好的解决多平台的内存对齐问题，另一方面能相应的提高内存的访问速度。
所以，我们会分为两部分进行内存分配，一部分是小内存，以16字节为基础按倍数递增，16、32、48、64、80、96、112、128，128一共8级作为小内存的最小分配单位叫做chunk（比如要分配9个字节，会分配16字节的chunk，要分配78字节就分配80字节的chunk），每一个不同大小的chunk会有一个独立的内存池MemoryPool，所以我们会有8个不同的MemoryPool，每次在分配内存时，比如调用malloc，我们会重载malloc，在函数中判断需要分配内存大小的等级如果是小内存，就调用相应MemoryPool上的malloc函数分配，在分配时每次会分配一个大块内存（如1M）叫block，再在block上分配相应的chunk。如果要分配的内存大于128字节，就直接分配内存，因为分配的内存已经足够大了，分配的内存也是一个chunk。
数据结构如下
MemoryPool
const size_t chunkSize; // chunk的大小，如16、32等
const size_t blockSize; // block大小，如1M
void* blockNode; // 分配的block链表
void* freeBlockNode; // 空闲的block链表
U32 totalChunkCount; // 一共可以分配的chunk数量
U32 allocatedChunkCount; // 已经分配的chunk数量
volatile long lock; // 原子锁使用的计数器

Block
MemoryPool* const memoryPool; // 属于那个内存池
const size_t chunkSize; // chunk大小，包括chunk头信息的大小
U32 allocatedChunkCount; // 已经分配的大小
U8* startAddr; // chunk的开始地址
U8* endAddr; // chunk的结束地址
U8* freeAddr; // chunk的可分配地址
Chunk* freeChunk; // 空闲的chunk链表，block上一个chunk被释放就会放入这个链表，分配chunk时优先检查这个链表

__declspec(align(16)) Chunk
DebugInfo info; // debug信息，包括地址、callstack等信息，在chunk分配时放入一个检测的全局链表，释放时从全局链表删除，程序结束时检查全局链表是否为空，不为空就是内存泄漏，显示相应信息。数据较多，只在Debug内存是使用
union
{
Block* block; // 如果chunk已经分配时使用，用来标识属于哪个Block，再通过block可以找到相应MemoryPool进行操作，如果为空，就是直接分配的大内存
Chunk* nextChunk; // 如果chunk已经释放并放入了block的freeChunk链表时使用，用来标识下一个空闲的chunk
};

MemoryPool分配chunk时，会先查找freeBlockNode，如果有直接在这个block上分配，如果没有则创建一个新的block并添加到blockNode和freeBlockNode。block分配chunk时，会优先查找freeChunk，如果有直接返回这个chunk，并在freeChunk中删除这个chunk，如果没有则在freeAddr后分配chunk，并将freeAddr向后偏移chunkSize，同时判断block是否已经满了，即
freeAddr + chunkSize > endAddr && freeChunk == null
如果满了，则在MemoryPool的freeBlockNode上删除这个block。
所有返回的chunk地址都是偏移了chunk头大小的，这个地址需要获取chunk信息时直接向前偏移一个chunk头大小即可。

chunk释放时，如果chunk头为空，则是大内存直接释放，如果不是就从中取出block并找到MemoryPool在上面进行释放。
MemoryPool释放chunk时，就是在相应的block上把这个chunk添加到freeChunk中即可，同时如果block不在MemoryPool的freeBlockNode，就把block添加到上面。如果block的allocatedChunkCount为0就说明这个block上的chunk已经完全释放，这时可以判断MemoryPool上面
totalChunkCount- allocatedChunkCount) * chunkSize
是否大于一个阈值比如两倍的blockSize，如果是的话可以删除这个block，同时从blockNode和freeBlockNode移除它。

为了debug内存检测内存泄漏，在debug模式下会在chunk的头上添加debug节点信息，包括地址和callstack等相关信息，在分配chunk时添加到全局的检测链表中，在释放chunk时从全局链表删除，到程序结束时，检查这个全局链表如果不为空，就说明存在内存泄漏，可以打印相关信息。因为相关数量比较大，而且计算时间较长，会比较大的影响内存占用和运行效率，所以只在内存debug时使用。

下面再来看一下主流的一些内存分配的库，介绍来自其他文章。
glibc的ptmalloc
有一个主分配区(main arena)，有多个非主分配区。非主分配区只能使用mmap向操作系统批发申请HEAP_MAX_SIZE（64位系统为64MB）大小的虚拟内存。当某个线程调用malloc的时候，会先查看线程私有变量中是否已经存在一个分配区，如果存在则尝试加锁，如果加锁失败则遍历arena链表试图获取一个没加锁的arena，如果依然获取不到则创建一个新的非主分配区。
free()的时候也要获取锁。分配小块内存容易产生碎片，ptmalloc在整理合并的时候也要对arena做加锁操作。在线程多的时候，锁的开销就会增大。
用户请求分配的内存在ptmalloc中使用chunk表示，每个chunk至少需要8个字节额外的开销。用户free掉的内存不会马上归还操作系统，ptmalloc会统一管理空闲chunk，避免了频繁的系统调用。将相似大小的 chunk 用双向链表链接起来, 这样的一个链表被称为一个 bin。Ptmalloc 一共维护了 128 个 bin,并使用一个数组来存储这些 bin。

数组中的第一个为 unsorted bin, 数组中从2开始编号的前 64个bin称为small bins, 同一个small bin中的chunk具有相同的大小。small bins后面的bin被称作large bins。当free一个chunk并放入bin的时候， ptmalloc还会检查它前后的chunk是否也是空闲的, 如果是的话,ptmalloc会首先把它们合并为一个大的 chunk, 然后将合并后的chunk放到unstored bin中。另外ptmalloc为了提高分配的速度,会把一些小的(不大于64B)chunk先放到一个叫做fast bins的容器内。在fast bins和bins都不能满足需求后，ptmalloc会设法在一个叫做top chunk的空间分配内存。对于非主分配区会预先通过mmap分配一大块内存作为top chunk，当bins和fast bins都不能满足分配需要的时候, ptmalloc会设法在top chunk中分出一块内存给用户, 如果top chunk本身不够大, 分配程序会重新mmap分配一块内存chunk, 并将 top chunk 迁移到新的chunk上，并用单链表链接起来。如果free()的chunk恰好与 top chunk 相邻,那么这两个 chunk 就会合并成新的 top chunk，如果top chunk大小大于某个阈值才还给操作系统。主分配区类似，不过通过sbrk()分配和调整top chunk的大小，只有heap顶部连续内存空闲超过阈值的时候才能回收内存。需要分配的 chunk 足够大,而且 fast bins 和 bins 都不能满足要求,甚至 top chunk 本身也不能满足分配需求时,ptmalloc 会使用 mmap 来直接使用内存映射来将页映射到进程空间。

存在的问题，
后分配的内存先释放,因为收缩内存是从top chunk开始,如果与top chunk相邻的chunk不能释放,top chunk以下的chunk都无法释放。
多线程锁开销大，需要避免多线程频繁分配释放。
内存从thread的areana中分配，内存不能从一个arena移动到另一个arena，就是说如果多线程使用内存不均衡，容易导致内存的浪费。比如说线程1使用了300M内存，完成任务后glibc没有释放给操作系统，线程2开始创建了一个新的arena，但是线程1的300M却不能用了。
每个chunk至少8字节的开销很大
不定期分配长生命周期的内存容易造成内存碎片，不利于回收。 64位系统最好分配32M以上内存，这是使用mmap的阈值。

tcmalloc
tcmalloc是Google开源的一个内存管理库，作为glibc malloc的替代品。目前已经在chrome、safari等知名软件中运用。
根据官方测试报告，ptmalloc在一台2.8GHz的P4机器上（对于小对象）执行一次malloc及free大约需要300纳秒。而TCMalloc的版本同样的操作大约只需要50纳秒。
tcmalloc为每个线程分配了一个线程本地ThreadCache，小内存从ThreadCache分配，此外还有个中央堆（CentralCache），ThreadCache不够用的时候，会从CentralCache中获取空间放到ThreadCache中。
小对象（<=32K）从ThreadCache分配，大对象从CentralCache分配。大对象分配的空间都是4k页面对齐的,多个pages也能切割成多个小对象划分到ThreadCache中.
小对象有将近170个不同的大小分类(class)，每个class有个该大小内存块的FreeList单链表，分配的时候先找到best fit的class，然后无锁的获取该链表首元素返回。如果链表中无空间了，则到CentralCache中划分几个页面并切割成该class的大小，放入链表中。
大对象(>32K)先4k对齐后，从CentralCache中分配。 CentralCache维护的PageHeap如下图所示，数组中第256个元素是所有大于255个页面都挂到该链表中。

当best fit的页面链表中没有空闲空间时，则一直往更大的页面空间找，如果所有256个链表遍历后依然没有成功分配。则使用从系统中分配。
tcmalloc PageHeap管理的连续的页面被称为span.
如果span未分配，则span是PageHeap中的一个链表元素
如果span已经分配，它可能是返回给应用程序的大对象，或者已经被切割成多小对象，该小对象的size-class会被记录在span中
在32位系统中，使用一个中央数组(central array)映射了页面和span对应关系，数组索引号是页面号，数组元素是页面所在的span。在64位系统中，使用一个3-level radix tree记录了该映射关系。
当一个object free的时候，会根据地址对齐计算所在的页面号，然后通过central array找到对应的span。
如果是小对象，span会告诉我们他的size class，然后把该对象插入当前线程的ThreadCache中。如果此时ThreadCache超过一个预算的值（默认2MB），则会使用垃圾回收机制把未使用的object从ThreadCache移动到CentralCache的central free lists中。
如果是大对象，span会告诉我们对象锁在的页面号范围。假设这个范围是[p,q]，先查找页面p-1和q+1所在的span，如果这些临近的span也是free的，则合并到[p,q]所在的span，然后把这个span回收到PageHeap中。
CentralCache的central free lists类似ThreadCache的FreeList，不过它增加了一级结构，先根据size-class关联到spans的集合，然后是对应span的object链表。如果span的链表中所有object已经free，则span回收到PageHeap中。
ThreadCache会阶段性的回收内存到CentralCache里。解决了ptmalloc2中arena之间不能迁移的问题。
Tcmalloc占用更少的额外空间。例如，分配N个8字节对象可能要使用大约8N * 1.01字节的空间。即，多用百分之一的空间。Ptmalloc2使用最少8字节描述一个chunk。
更快。小对象几乎无锁， >32KB的对象从CentralCache中分配使用自旋锁。并且>32KB对象都是页面对齐分配，多线程的时候应尽量避免频繁分配，否则也会造成自旋锁的竞争和页面对齐造成的浪费。

Jemalloc
jemalloc是facebook推出的，最早的时候是freebsd的libc malloc实现。目前在firefox、facebook服务器各种组件中大量使用。
与tcmalloc类似，每个线程同样在<32KB的时候无锁使用线程本地cache。 Jemalloc在64bits系统上使用下面的size-class分类： Small: [8], [16, 32, 48, …, 128], [192, 256, 320, …, 512], [768, 1024, 1280, …, 3840] Large: [4 KiB, 8 KiB, 12 KiB, …, 4072 KiB] Huge: [4 MiB, 8 MiB, 12 MiB, …] small/large对象查找metadata需要常量时间， huge对象通过全局红黑树在对数时间内查找。虚拟内存被逻辑上分割成chunks（默认是4MB，1024个4k页），应用线程通过round-robin算法在第一次malloc的时候分配arena，每个arena都是相互独立的，维护自己的chunks， chunk切割pages到small/large对象。free()的内存总是返回到所属的arena中，而不管是哪个线程调用free()。
上图可以看到每个arena管理的arena chunk结构，开始的header主要是维护了一个page map（1024个页面关联的对象状态）， header下方就是它的页面空间。 Small对象被分到一起， metadata信息存放在起始位置。 large chunk相互独立，它的metadata信息存放在chunk header map中。
通过arena分配的时候需要对arena bin（每个small size-class一个，细粒度）加锁，或arena本身加锁。
并且线程cache对象也会通过垃圾回收指数退让算法返回到arena中。

Jmalloc小对象也根据size-class，但是它使用了低地址优先的策略，来降低内存碎片化。
Jemalloc大概需要2%的额外开销。（tcmalloc 1%， ptmalloc最少8B）
Jemalloc和tcmalloc类似的线程本地缓存，避免锁的竞争
相对未使用的页面，优先使用dirty page，提升缓存命中。

相对于tcmalloc和jemalloc我们引擎的内存管理相对比较简单，也没有相应Thread缓存，不过胜在代码简单、更容易修改。
我们是因为在2007年开发，相对来说比较早，那时还没有关注到tcmalloc和jemalloc，再实际使用时，大家可以直接使用这两个库做内存管理。在多线程环境使用tcmalloc和jemalloc效果非常明显。当线程数量固定，不会频繁创建退出的时候，可以使用jemalloc；反之使用tcmalloc可能是更好的选择。

本文固定链接: http://www.wy182000.com/2018/09/22/游戏引擎设计系列1-内存管理/
转载请注明: wy182000 2018年09月22日于 Studio 发表

最后编辑：2018-09-23

作者：wy182000

这个作者貌似有点懒，什么都没有留下。

站内专栏

您可能还会对这些文章感兴趣！