Before Lab

在做实验之前，我们需要做以下步骤：

1
git pull
2
git checkout lab2
3
git merge lab1

注意一定要合并 lab1，否则会导致机器无法启动

配置内核启动页表

在 kernel/arch/aarch64/boot/raspi3/init/mmu.c 中配置内核的地址映射，想法是很朴素的，与 xv6 的做法相似，将 va = 0xffff_ff00_0000_0000 + addr 映射到了 pa = addr 的位置，可以引申 xv6 的映射方式：

但 aarch64 方便的一点在于他有两个页表寄存器，risc-v 只有一个 satp，我们通过如下配置：

1
vaddr = PHYSMEM_START;
2

3
boot_ttbr1_l0[GET_L0_INDEX(vaddr + KERNEL_VADDR)] =
4
    ((u64)boot_ttbr1_l1) | IS_TABLE | IS_VALID | NG;
5
boot_ttbr1_l1[GET_L1_INDEX(vaddr + KERNEL_VADDR)] =
6
    ((u64)boot_ttbr1_l2) | IS_TABLE | IS_VALID | NG;
7

8
/* Step 2: map PHYSMEM_START ~ PERIPHERAL_BASE with 2MB granularity */
9

10
for (; vaddr < PERIPHERAL_BASE; vaddr += SIZE_2M) {
11
    boot_ttbr1_l2[GET_L2_INDEX(vaddr + KERNEL_VADDR)] =
12
        (vaddr) | UXN | ACCESSED | NG | INNER_SHARABLE
13
        | NORMAL_MEMORY | IS_VALID;
14
}
15

16
/* Step 2: map PERIPHERAL_BASE ~ PHYSMEM_END with 2MB granularity */
17

18
for (vaddr = PERIPHERAL_BASE; vaddr < PHYSMEM_END; vaddr += SIZE_2M) {
19
    boot_ttbr1_l2[GET_L2_INDEX(vaddr + KERNEL_VADDR)] =
20
        (vaddr) | UXN | ACCESSED | NG | INNER_SHARABLE
21
        | DEVICE_MEMORY | IS_VALID;
22
}

如果一开始不会写，没关系，可以看看上面几行里是如何配置用户进程的页表的，我们的做法仅仅是将虚拟地址变为高地址，并配置到内核的页表寄存器中

伙伴系统

请看完银杏书再来写这个实验，否则体验会很差

但在这里还是简单介绍以下伙伴系统。

实际上想法很简单，我们维护一个数组（假定全局只有这一个），这个数组的索引表示阶(i.e. order)，可以看作是物理块的大小（ $2^{or d er}$ ），数组的每一项是一个struct ，这个结构体维护了一个链表和链表的长度（或许我们就可以把它当作是一个链表），链表维护了物理内存中大小为 $2^{or d er}$ 的物理块。

而所谓的伙伴系统，实际上我们可以简化成如下两个函数：

操作系统申请了一块大小为 m 的内存，我们首先定阶，找到最适合的一块物理块，如果没有，那么我们向上找，并将大的不断均分，直到找到最合适的，在均分的过程中，我们需要将分离出来的物理块放到对应的链表中去。
操作系统需要回收一块大小为 m 的内存，我们首先需要找到这块内存的伙伴（不用担心，这部分已经写好了函数），由于伙伴的大小和这块内存是一样的，所以我们只需要不断向上合并，直到无法合并为止。

当然，还有实现上的很多细节没有说明，但有这个思路后已经不难了。我们首先来实现第一个功能

buddy_get_pages

1
struct page *page = NULL;
2
u64 current_order = order;
3

4
while (current_order < BUDDY_MAX_ORDER
5
     && pool->free_lists[current_order].nr_free == 0) {
6
    current_order++;
7
}
8

9
if (current_order >= BUDDY_MAX_ORDER) {
10
    kwarn("Memory Request order %d Exceeded\n", order);
11
    return NULL;
12
}
13

14
page = list_entry(pool->free_lists[current_order].free_list.next,
15
          struct page,
16
          node);
17

18
if (page == NULL) {
19
    kinfo("No Satisfaction Memory For the order %d\n", order);
20
    return NULL;
21
}
22

23
page = split_page(pool, order, page);
24
page->allocated = 1;
25

26
return page;

注意这里实现上的细节：

检查当前需要分配的内存是否大于最大的块（检查 order 的大小即可）
由于维护了链表，我们需要用到 common/list.h 中的函数，包括 list_add, list_del, list_entry
找到了合适大小的块（或者需要分裂的块）后，我们通过分裂函数进行修正，保证其是最合适的块
allocated 置为 1，表面这个块已经被分配

接着，我们开始完善 split_page，这个函数需要做的事情是很简单的，只需要不断的分裂即可，但需要在分裂时维护链表，我们直接给出实现：

1
if (page->allocated) {
2
    kwarn("The page 0x%lx is allocated\n", page);
3
    return NULL;
4
}
5

6
page->allocated = 0;
7
list_del(&page->node);
8
pool->free_lists[page->order].nr_free--;
9

10
while (page->order > order) {
11
    page->order--;
12
    struct page *buddy = get_buddy_chunk(pool, page);
13
    if (buddy != NULL) {
14
        buddy->allocated = 0;
15
        buddy->order = page->order;
16

17
        list_add(&buddy->node,
18
             &pool->free_lists[buddy->order].free_list);
19
        pool->free_lists[buddy->order].nr_free++;
20
    }
21
}
22

23
return page;

需要注意的细节：

首先我们需要检查分裂的块是否被分配了，如果被分配了那么显然暂时不能分配
通过 get_buddy_chunk 获得分裂后的块的另一半，将这个 buddy 放到对应的空闲链表中去（记得维护贡献出大物理块的链表）

buddy_free_pages

第二个功能就很简单了，实际上就是第一个的逆向：

1
static struct page *merge_page(struct phys_mem_pool *pool, struct page *page)
2
{
3
        /* LAB 2 TODO 2 BEGIN */
4
        /*
5
         * Hint: Recursively merge current chunk with its buddy
6
         * if possible.
7
         */
8

9
        if (page->allocated) {
10
                kwarn("The page 0x%lx was allocated\n", page);
11
                return NULL;
12
        }
13

14
        list_del(&page->node);
15
        pool->free_lists[page->order].nr_free--;
16

17
        while (page->order < BUDDY_MAX_ORDER - 1) {
18
                struct page *buddy = get_buddy_chunk(pool, page);
19

20
                if (buddy == NULL || buddy->allocated
21
                    || buddy->order != page->order) {
22
                        break;
23
                }
24

25
                page = page < buddy ? page : buddy;
26

27
                buddy->allocated = 1;
28
                list_del(&buddy->node);
29
                pool->free_lists[buddy->order].nr_free--;
30

31
                page->order += 1;
32
        }
33

34
        page->allocated = 0;
35
        list_add(page, &pool->free_lists[page->order].free_list);
36
        pool->free_lists[page->order].nr_free++;
37

38
        return page;
39

40
        /* LAB 2 TODO 2 END */
41
}
42

43
void buddy_free_pages(struct phys_mem_pool *pool, struct page *page)
44
{
45
        /* LAB 2 TODO 2 BEGIN */
46
        /*
47
         * Hint: Merge the chunk with its buddy and put it into
48
         * a suitable free list.
49
         */
50

51
        if (!page->allocated) {
52
                kwarn("The page 0x%lx was not allocated\n", page);
53
                return;
54
        }
55

56
        page->allocated = 0;
57
        list_add(page, &pool->free_lists[page->order].free_list);
58
        pool->free_lists[page->order].nr_free++;
59
        merge_page(pool, page);
60

61
        return;
62

63
        /* LAB 2 TODO 2 END */
64
}

注意这一步： page = page < buddy ? page : buddy

我们并不知道找到的伙伴哪个的地址更低，但我们需要保证，我们合并进链表时，一定是低地址在前，换而言之，我们总是把高地址放在低地址后面（这是很显然的事情）

做完这一步后，我们可以输入 make qemu，如果没有出现 BUG 停顿的话，说明 kmalloc 已经正常工作了（也就是你的伙伴系统已经正确了）

这里有一个奇怪的 bug，当你做完 buddy system 后，测试似乎不会停下来，我甚至跑了 10 分钟的测试，他都没停下来，但输入 make grade 的话就又正常了，这个 bug 会导致页表管理部分没办法 debug，只能肉眼差错。

页表管理

一定一定去提前看 page_table.h 和文档后再来做这部分

query_in_pgtbl

这个函数是 trival 的，在 xv6 中也做过这个函数的实现，简单来说，我们通过 get_next_ptp 来找到下一级页表，直到找到最后的 PTE，然后通过 offset 来获取 pa

但在这里，我们需要注意：

L1 与 L2 页表可以直接指向物理块，因此我们需要对这部分进行判断
记得看 get_next_ptp 的实现还有它的注释，我们需要用到 virt_to_phys 这个函数，如果不看的话就不知道，

1
int query_in_pgtbl(void *pgtbl, vaddr_t va, paddr_t *pa, pte_t **entry)
2
{
3
        /* LAB 2 TODO 3 BEGIN */
4
        /*
5
         * Hint: Walk through each level of page table using `get_next_ptp`,
6
         * return the pa and pte until a L0/L1 block or page, return
7
         * `-ENOMAPPING` if the va is not mapped.
8
         */
9

10
        ptp_t *cur_ptp = (ptp_t *)pgtbl;
11
        ptp_t *next_ptp;
12
        ptp_t *next_pte;
13
        int res = 0;
14

15
        for (int i = 0; i < 4; i++) {
16
                res = get_next_ptp(cur_ptp, i, va, &next_ptp, &next_pte, false);
17
                if (res == -ENOMAPPING) {
18
                        return -ENOMAPPING;
19
                }
20
                if (res == BLOCK_PTP) {
21
                        *entry = next_pte;
22
                        switch (i) {
23
                        case 1:
24
                                *pa = virt_to_phys((vaddr_t)next_ptp)
25
                                      + GET_VA_OFFSET_L1(va);
26
                                break;
27
                        case 2:
28
                                *pa = virt_to_phys((vaddr_t)next_ptp)
29
                                      + GET_VA_OFFSET_L2(va);
30
                                break;
31
                        case 3:
32
                                *pa = virt_to_phys((vaddr_t)next_ptp)
33
                                      + GET_VA_OFFSET_L3(va);
34
                                break;
35
                        default:
36
                                break;
37
                        };
38
                        return 0;
39
                }
40
                cur_ptp = next_ptp;
41
        }
42

43
        *entry = next_pte;
44
        *pa = virt_to_phys((vaddr_t)next_ptp) + GET_VA_OFFSET_L3(va);
45
        return 0;
46

47
        /* LAB 2 TODO 3 END */
48
}

请注意高亮位置（可能并不是很亮），这里使用了 return 而非 break，但注意如果你使用了 break，它甚至不会报错（除非你做到了最后一个测试点才会报错），我的建议是在这里使用 goto，就像我在下面做的一样。

(un)map_range_in_pgtbl

以 map_range_in_pgtbl 为例，我们的做法是显然的：

找到最后的 PTE
将 pa 的偏移量写入这个 PTE 的 PFN 中
设置 PTE 的 flags

于是，代码如下：

1
int map_range_in_pgtbl(void *pgtbl, vaddr_t va, paddr_t pa, size_t len,
2
                       vmr_prop_t flags)
3
{
4
        /* LAB 2 TODO 3 BEGIN */
5
        /*
6
         * Hint: Walk through each level of page table using `get_next_ptp`,
7
         * create new page table page if necessary, fill in the final level
8
         * pte with the help of `set_pte_flags`. Iterate until all pages are
9
         * mapped.
10
         */
11

12
        ptp_t *l0_ptp, *l1_ptp, *l2_ptp, *l3_ptp;
13
        pte_t *l0_pte, *l1_pte, *l2_pte, *l3_pte;
14
        int res = 0;
15

16
        if (pgtbl == NULL) {
17
                kwarn("%s: input arg is NULL.\n", __func__);
18
                return;
19
        }
20

21
        l0_ptp = (ptp_t *)pgtbl;
22

23
        const vaddr_t va_bottom = va + len;
24
        for (; va < va_bottom; va += PAGE_SIZE, pa += PAGE_SIZE) {
25
                res = get_next_ptp(l0_ptp, 0, va, &l1_ptp, &l0_pte, true);
26
                if (res < 0) {
27
                        break;
28
                }
29
                res = get_next_ptp(l1_ptp, 1, va, &l2_ptp, &l1_pte, true);
30
                if (res < 0) {
31
                        break;
32
                }
33
                res = get_next_ptp(l2_ptp, 2, va, &l3_ptp, &l2_pte, true);
34
                if (res < 0) {
35
                        break;
36
                }
37

38
                l3_pte = &(l3_ptp->ent[GET_L3_INDEX(va)]);
39
                l3_pte->l3_page.is_valid = 1;
40
                l3_pte->l3_page.is_page = 1;
41
                l3_pte->l3_page.pfn = pa >> PAGE_SHIFT;
42

43
                set_pte_flags(l3_pte, flags, USER_PTE);
44
        }
45

46
        return res;
47

48
        /* LAB 2 TODO 3 END */
49
}

注意高亮部分的处理即可。

而关于 unmap 的部分，相较于 map 应该更为简单，我们只需要将 is_valid 字段置为 0 即可，如下：

1
int unmap_range_in_pgtbl(void *pgtbl, vaddr_t va, size_t len)
2
{
3
        /* LAB 2 TODO 3 BEGIN */
4
        /*
5
         * Hint: Walk through each level of page table using `get_next_ptp`,
6
         * mark the final level pte as invalid. Iterate until all pages are
7
         * unmapped.
8
         */
9

10
        ptp_t *l0_ptp, *l1_ptp, *l2_ptp, *l3_ptp;
11
        pte_t *l0_pte, *l1_pte, *l2_pte, *l3_pte;
12
        int res = 0;
13

14
        if (pgtbl == NULL) {
15
                kwarn("%s: input arg is NULL.\n", __func__);
16
                return;
17
        }
18

19
        l0_ptp = (ptp_t *)pgtbl;
20

21
        const vaddr_t va_bottom = va + len;
22
        for (; va < va_bottom; va += PAGE_SIZE) {
23
                res = get_next_ptp(l0_ptp, 0, va, &l1_ptp, &l0_pte, true);
24
                if (res < 0) {
25
                        break;
26
                }
27
                res = get_next_ptp(l1_ptp, 1, va, &l2_ptp, &l1_pte, true);
28
                if (res < 0) {
29
                        break;
30
                }
31
                res = get_next_ptp(l2_ptp, 2, va, &l3_ptp, &l2_pte, true);
32
                if (res < 0) {
33
                        break;
34
                }
35

36
                l3_pte = &(l3_ptp->ent[GET_L3_INDEX(va)]);
37
                l3_pte->l3_page.is_valid = 0;
38
                l3_pte->l3_page.is_page = 0;
39
        }
40

41
        return res;
42

43
        /* LAB 2 TODO 3 END */
44
}

但注意高亮部份为 true 以保证所有条目都会被清除（后续的也类似）

(un)map_range_in_pgtbl_huge

这部分的内容更为简单一些，如果过不去测试可以看看是不是 query 写错了。

做法分三步：

分配 1G 的大页，直到不够一个 1G 大页
分配 2M 的大页，中止条件同上
剩余部分通过 map_range_in_pgtbl 分配 4KB 页表来完成

注意的是我们需要时刻维护 len 这个变量（因为最后的函数需要用到），代码如下：

1
int map_range_in_pgtbl_huge(void *pgtbl, vaddr_t va, paddr_t pa, size_t len,
2
                            vmr_prop_t flags)
3
{
4
        /* LAB 2 TODO 4 BEGIN */
5

6
        ptp_t *l0_ptp, *l1_ptp, *l2_ptp;
7
        pte_t *l0_pte, *l1_pte, *l2_pte;
8
        int res = 0;
9

10
        if (pgtbl == NULL) {
11
                kwarn("%s: input arg is NULL.\n", __func__);
12
                return;
13
        }
14

15
        l0_ptp = (ptp_t *)pgtbl;
16

17
#define PAGE_SIZE_1G       (PAGE_SIZE * L1_PER_ENTRY_PAGES)
18
#define PAGE_SIZE_1G_SHIFT (PAGE_SHIFT + PAGE_ORDER + PAGE_ORDER)
19
#define PAGE_SIZE_2M       (PAGE_SIZE * L2_PER_ENTRY_PAGES)
20
#define PAGE_SIZE_2M_SHIFT (PAGE_SHIFT + PAGE_ORDER)
21

22
        const vaddr_t va_bottom = va + len;
23

24
        while (va + PAGE_SIZE_1G < va_bottom) {
25
                res = get_next_ptp(l0_ptp, 0, va, &l1_ptp, &l0_pte, true);
26
                if (res < 0) {
27
                        goto back;
28
                }
29

30
                l1_pte = &(l1_ptp->ent[GET_L1_INDEX(va)]);
31
                l1_pte->l1_block.is_valid = 1;
32
                l1_pte->l1_block.is_table = 0;
33
                l1_pte->l1_block.pfn = pa >> PAGE_SIZE_1G_SHIFT;
34
                set_pte_flags(l1_pte, flags, USER_PTE);
35

36
                va += PAGE_SIZE_1G;
37
                pa += PAGE_SIZE_1G;
38
                len -= PAGE_SIZE_1G;
39
        }
40

41
        while (va + PAGE_SIZE_2M < va_bottom) {
42
                res = get_next_ptp(l0_ptp, 0, va, &l1_ptp, &l0_pte, true);
43
                if (res < 0) {
44
                        goto back;
45
                }
46
                res = get_next_ptp(l1_ptp, 1, va, &l2_ptp, &l1_pte, true);
47
                if (res < 0) {
48
                        goto back;
49
                }
50

51
                l2_pte = &(l2_ptp->ent[GET_L2_INDEX(va)]);
52
                l2_pte->l2_block.is_valid = 1;
53
                l2_pte->l2_block.is_table = 0;
54
                l2_pte->l2_block.pfn = pa >> PAGE_SIZE_2M_SHIFT;
55
                set_pte_flags(l2_pte, flags, USER_PTE);
56

57
                va += PAGE_SIZE_2M;
58
                pa += PAGE_SIZE_2M;
59
                len -= PAGE_SIZE_2M;
60
        }
61

62
        res = map_range_in_pgtbl(pgtbl, va, pa, len, flags);
63

64
back:
65
        return res;
66

67
        /* LAB 2 TODO 4 END */
68
}

注意这里定义的宏即可，关于这个宏的定义，请参考此图：

参考此图 block 中的 output address 位置即可, 我们用的还是 4KB 的粒度

实验结果

1
make grade

また夏を追う

最近的笔记

TAOCP 4B & SAT Handbook 阅读

RoundingSAT 阅读笔记其二

基数约束编码中文字顺序的重要性

探索

内存管理