Lab5 CoW Fork

实验早就做好了但是…… 思路借鉴了课程中 Prof. Robert Morris 的思路，实验只有一题但是是 hard

不过如果看完了视频的思路我觉得对这个和后续的实验都有帮助（教了一种做实验的思路，就是 bug 有时候是你故意想要的）

实验准备

1
git fetch
2
git checkout cow
3
make clean

得到相应的实验环境

Implement copy-on write

首先我们要知道 COW 技术的原理：

当 fork 一个进程的时候，COW 并不会真的划分一个物理空间然后创建一个新页表进行映射。COW 只是创建一个新页表，然后把这个页表映射到父进程的物理空间上，并设置 PTE 为只读（父子行程都是只读）
当我们需要对子进程进行操作的时候（这当然是写操作），这个时候我们才会为子进程分配物理空间，然后设置 PTE 为可写

流程就是这么简单……

显然，我们应该从 fork 开始看，我们在 kernel/proc.c 中可以找到 fork() 的实现：

1
// Create a new process, copying the parent.
2
// Sets up child kernel stack to return as if from fork() system call.
3
int
4
fork(void)
5
{
6
  int i, pid;
7
  struct proc *np;
8
  struct proc *p = myproc();
9

10
  // Allocate process.
11
  if((np = allocproc()) == 0){
12
    return -1;
13
  }
14

15
  // Copy user memory from parent to child.
16
  if(uvmcopy(p->pagetable, np->pagetable, p->sz) < 0){
17
    freeproc(np);
18
    release(&np->lock);
19
    return -1;
20
  }
21
  //........................
22

23
  return pid;
24
}

我们看 uvmcopy() 这部分，可以发现，这个函数就是做复制页表与物理内存的函数，我们在 kernel/vm.c 中可以找到。

我们知道，在这里我们并不需要新建物理内存然后映射页表，我们只需要把新页表映射到父进程的物理地址上就行，也就是说子进程的页表是父进程页表的一个 copy 。

随后，我们需要取消掉父子进程页表中的 PTE_W 位（将其变为不可写）。

最后的最后，我们在前面知道，一个 PTE 里面好心的开发商留了 3 位给程序员用来自定义状态，于是，我们在 kernel/riscv.h 中添加：

1
#define PTE_COW (1L << 8) // 1 -> for cow

这一个 PTE 位，用于标识哪些进程是 COW 的，哪些是真的被设置了只读的（这个很重要，因为如果不是COW但是被设置成了只读的你是不能更改的）

最后，uvmcopy 的代码如下：

1
int
2
uvmcopy(pagetable_t old, pagetable_t new, uint64 sz) {
3
  pte_t* pte;
4
  uint64 pa, i;
5
  uint flags;
6

7
  for (i = 0; i < sz; i += PGSIZE) {
8
    if ((pte = walk(old, i, 0)) == 0)
9
      panic("uvmcopy: pte should exist");
10
    if ((*pte & PTE_V) == 0)
11
      panic("uvmcopy: page not present");
12
    pa = PTE2PA(*pte);
13
    flags = PTE_FLAGS(*pte);
14

15
    *pte = (*pte & (~PTE_W)) | PTE_COW;
16
    flags = (flags & (~PTE_W)) | PTE_COW;
17
    if (mappages(new, i, PGSIZE, (uint64)pa, flags) != 0) {
18
      goto err;
19
    }
20
  }
21
  return 0;

从书上我们知道，如果子进程想写了，但是会发现自己的页表被设置为只读，这个时候就会触发page fault 进入内核做进一步处理。

所以我们下一个需要修改的函数应该是 kernel/trap.c 中的 usertrap()，但像这种 page fault 它的 scause 应该是多少呢？

查文档或者直接运行cowtest看看 bug 里面的 scause 等于多少就知道了

注意，这个 pid 的次序，shell 是 fork 一个子进程来执行命令/函数的，所以中间有一个是 shell 的子进程

不管用什么方法，我们最终知道了这种情况的 scause 应该是 0xf，所以我们在 usertrap() 中特判这种情况并进行处理：

1
  if (r_scause() == 8) {
2
    // system call
3

4
    if (p->killed)
5
      exit(-1);
6

7
    // sepc points to the ecall instruction,
8
    // but we want to return to the next instruction.
9
    p->trapframe->epc += 4;
10

11
    // an interrupt will change sstatus &c registers,
12
    // so don't enable until done with those registers.
13
    intr_on();
14

15
    syscall();
16
  }
17
  // add here
18
  else if (r_scause() == 0xf) {
19
    uint64 va = r_stval();
20
    if (cowfault(p->pagetable, va) < 0) {
21
      p->killed = 1;
22
    }
23
  }

这里需要这个 va 来知道出问题的到底是哪一页

然后，我们在 cowfault 这个函数中做进一步处理：

1
int
2
cowfault(pagetable_t pagetable, uint64 va) {
3
  if (va >= MAXVA)
4
    return -1;
5

6
  pte_t* pte = walk(pagetable, va, 0);
7
  if (pte == 0 || (*pte & PTE_V) == 0 || (*pte & PTE_U) == 0 || (*pte & PTE_COW) == 0)
8
    return -1;
9
  uint64 pa1 = PTE2PA(*pte);
10
  uint64 pa2 = (uint64)kalloc();
11
  if (pa2 == 0) {
12
    printf("kalloc failed\n");
13
    return -1;
14
  }
15
  memmove((void*)pa2, (void*)pa1, PGSIZE);
16
  *pte = PA2PTE(pa2) | PTE_R | PTE_V | PTE_U | PTE_COW | PTE_X | PTE_W;
17
  kfree((void*)pa1);
18
  return 0;
19
}

Important

注意，这里我们用了 kernel/vm.c walk() 函数，我们需要在 kernel/defs.h 中对这个函数进行注册（不然没法用）

在这里，我们首先需要对 va 进行特判，防止系统进入 panic（因为如果大于 MAXVA 的话就说明应该是进程出问题了，这个时候你直接结束进程就行，不需要做任何处理）。

随后，我们需要对 PTE 进行判断，具体而言我们需要判断 PTE_V, PTE_U 和 PTE_COW 这三位，前两位是常规判断，必须要满足的，第三位是用来分辨的（上面已经解释过了）。

如果这个 PTE 满足所有条件的话，说明这个时候我们需要为子进程分配物理地址了，并且新分配的物理地址里面的值和父进程一致，我们需要进行一个复制（使用 memmove）。然后我们对子进程的 PTE 进行设定（可读可写可执行可访问……），最后我们需要释放原来的物理地址。

看到这里，我们知道一定存在一个问题：如果我们释放了原来的物理地址，不就相当于释放了父进程的物理地址吗？那父进程怎么办（直接变成无根之水）。因此我们可以运行一次测试来看看会发生什么。

这里我不放演示的过程了（因为实验都做完了懒得重新弄一遍了），但是你一定会看见一个 bug 的，而且应该是父进程报的错（看 pid 可以看出来）

这个时候我们就需要去 kernel/kalloc.c 中修改 kfree() 了。

我们知道，现在的问题就是，如何分辨子进程和父进程，到底应该怎么释放物理页面？（因为一个父进程可以拥有很多个子进程）

我们提出了一个想法，我们新建立一个数组 refcount 来表示物理页面被引用的数量，如果被引用数为 $0$ ，就表示说这个物理页面是没人用的，否则是有进程正在使用这个物理页面。

于是，我们就可以在分配页面的时候对某个物理页面的 refcount 加 $1$ ，释放的时候减 $1$ ，直到 refcount 值为 $0$ 的时候才真的释放了页面。

这样，我们需要修改的函数就有 kfree() ， kalloc()：

1
int refcount[PHYSTOP / PGSIZE];
2

3
// Free the page of physical memory pointed at by v,
4
// which normally should have been returned by a
5
// call to kalloc().  (The exception is when
6
// initializing the allocator; see kinit above.)
7
void
8
kfree(void* pa) {
9
  struct run* r;
10

11
  if (((uint64)pa % PGSIZE) != 0 || (char*)pa < end || (uint64)pa >= PHYSTOP)
12
    panic("kfree");
13

14
  //add here
15
  acquire(&kmem.lock);
16
  int pn = (uint64)pa / PGSIZE;
17
  if (refcount[pn] < 1)
18
    panic("kfree ref");
19
  refcount[pn] -= 1;
20
  int tmp = refcount[pn];
21
  release(&kmem.lock);
22

23
  if (tmp > 0)return;
24
  // ....................
25
}
26

27
// Allocate one 4096-byte page of physical memory.
28
// Returns a pointer that the kernel can use.
29
// Returns 0 if the memory cannot be allocated.
30
void*
31
kalloc(void) {
32
  struct run* r;
33

34
  acquire(&kmem.lock);
35
  r = kmem.freelist;
36
  // add here
37
  if (r) {
38
    kmem.freelist = r->next;
39
    int pn = (uint64)r / PGSIZE;
40
    if (refcount[pn])
41
      panic("kalloc ref");
42
    refcount[pn] = 1;
43
  }
44
  release(&kmem.lock);
45
  // ..................
46
}

这里我们需要用锁来保证同一时间只有一个进程对 refcount 也就是临界区进行操作（如果清楚进程的同步异步应该会对这个问题很清楚）

我们注意到，在 kalloc() 中，我们只是将 refcount 变为 $1$ 了而已，并没有做任何加的操作，那我们应该在哪里对引用数增加呢？

显然应该是在 uvmcopy() 里面，于是，我们在 kernel/kalloc.c 中添加一个函数：

1
void
2
incref(uint64 pa) {
3
  int pn = pa / PGSIZE;
4
  acquire(&kmem.lock);
5
  if (pa >= PHYSTOP || refcount[pn] < 1)
6
    panic("incref");
7
  refcount[pn] += 1;
8
  release(&kmem.lock);
9
}

然后将其注册在 kernel/defs.h 中，并在 uvmcopy()的最后添加：

1
int
2
uvmcopy(pagetable_t old, pagetable_t new, uint64 sz) {
3
  pte_t* pte;
4
  uint64 pa, i;
5
  uint flags;
6

7
  for (i = 0; i < sz; i += PGSIZE) {
8
    if ((pte = walk(old, i, 0)) == 0)
9
      panic("uvmcopy: pte should exist");
10
    if ((*pte & PTE_V) == 0)
11
      panic("uvmcopy: page not present");
12
    pa = PTE2PA(*pte);
13
    flags = PTE_FLAGS(*pte);
14
    *pte = (*pte & (~PTE_W)) | PTE_COW;
15
    flags = (flags & (~PTE_W)) | PTE_COW;
16
    if (mappages(new, i, PGSIZE, (uint64)pa, flags) != 0) {
17
      goto err;
18
    }
19

20
    //add here
21
    incref(pa);
22

23
  }
24
  return 0;
25

26
err:
27
  uvmunmap(new, 0, i / PGSIZE, 1);
28
  return -1;
29
}

这样就大功告成了

于是我们进行测试，发现，我们没法过掉最后一个测试，他直接乱序了……

我们查看 user/cowtest 中的测试，发现问题应该是出在了 write 这个函数上，其实简单的猜猜也能发现问题，但是我觉得可以看看视频的思路，一步一步来排除问题。

我们知道问题肯定是出在了 copyout() 对 COW 的处理上，因为我们压根没处理进行了 COW 的进程，所以在这里，我们修改为：

1
int
2
copyout(pagetable_t pagetable, uint64 dstva, char* src, uint64 len) {
3
  uint64 n, va0, pa0;
4

5
  while (len > 0) {
6
    va0 = PGROUNDDOWN(dstva);
7
    if (va0 >= MAXVA)
8
      return -1;
9

10
    pte_t* pte = walk(pagetable, va0, 0);
11
    if (pte == 0 || (*pte & PTE_V) == 0 || (*pte & PTE_U) == 0)
12
      return -1;
13

14
    // add
15
    if ((*pte & PTE_COW) != 0) {
16
      if (cowfault(pagetable, va0) < 0)
17
        return -1;
18
    }
19
    // ..................
20
  }
21
  return 0;
22
}

这样，我们就能通过所有测试了。

また夏を追う

最近的笔记

TAOCP 4B & SAT Handbook 阅读

RoundingSAT 阅读笔记其二

基数约束编码中文字顺序的重要性

探索

实验准备

Implement copy-on write

实验结果

🕸️ 关系图谱

目录