计算机可以没有寄存器吗? (建议二周目思考)

如果没有寄存器, 计算机还可以工作吗? 如果可以, 这会对硬件提供的编程模型有什么影响呢?

就算你是二周目来思考这个问题, 你也有可能是第一次听到”编程模型”这个概念. 不过如果一周目的时候你已经仔细地阅读过 ISA 手册, 你会记得确实有这么个概念. 所以, 如果想知道什么是编程模型, RTFM 吧.

Example

可以没有寄存器，通过对 cache 中每个单元进行命名，实际上也能达到寄存器的效果

编程模型（Programming model）是指一种描述计算机程序运行方式的抽象概念。它定义了程序员与计算机系统之间的交互方式，包括如何表示数据、如何组织代码、如何控制程序的执行流程等。

编程模型通常包含一组规则，用于指导程序员创建程序，并定义了程序员需要使用的特定编程语言、API、库和工具集。编程模型的设计可以极大地影响程序的可维护性、可扩展性和可重用性。

常见的编程模型包括面向过程编程（Procedural Programming）、面向对象编程（Object-Oriented Programming）、函数式编程（Functional Programming）、事件驱动编程（Event-Driven Programming）等。每种编程模型都有其独特的特点，可以根据不同的需求选择合适的编程模型来进行编程。

kconfig 生成的宏与条件编译

我们已经在上文提到过, kconfig 会根据配置选项的结果在 nemu/include/generated/autoconf.h中定义一些形如CONFIG_xxx的宏, 我们可以在 C 代码中通过条件编译的功能对这些宏进行测试, 来判断是否编译某些代码. 例如, 当CONFIG_DEVICE这个宏没有定义时, 设备相关的代码就无需进行编译.

为了编写更紧凑的代码, 我们在nemu/include/macro.h中定义了一些专门用来对宏进行测试的宏. 例如IFDEF(CONFIG_DEVICE, init_device());表示, 如果定义了CONFIG_DEVICE, 才会调用init_device()函数; 而MUXDEF(CONFIG_TRACE, "ON", "OFF")则表示, 如果定义了CONFIG_TRACE, 则预处理结果为"ON"("OFF"在预处理后会消失), 否则预处理结果为"OFF".

这些宏的功能非常神奇, 你知道这些宏是如何工作的吗?

预处理器解析替换

为什么全部都是函数?

阅读init_monitor()函数的代码, 你会发现里面全部都是函数调用. 按道理, 把相应的函数体在init_monitor()中展开也不影响代码的正确性. 相比之下, 在这里使用函数有什么好处呢?

面向过程编程的一种编程范式

参数的处理过程

另外的一个问题是, 这些参数是从哪里来的呢?

命令行接收的参数

究竟要执行多久?

在cmd_c()函数中, 调用cpu_exec()的时候传入了参数-1, 你知道这是什么意思吗?

Example
表示一次 yield，具体可查看 cpu_exec() 中对参数 n 的调用：
1
static void execute(uint64_t n) {
2
  Decode s;
3
  for (;n > 0; n --) {
4
    exec_once(&s, cpu.pc);
5
    g_nr_guest_inst ++;
6
    trace_and_difftest(&s, cpu.pc);
7
    if (nemu_state.state != NEMU_RUNNING) break;
8
    IFDEF(CONFIG_DEVICE, device_update());
9
  }
10
}
可以发现，当 n 为 -1 时并不会进入循环

潜在的威胁 (建议二周目思考)

“调用cpu_exec()的时候传入了参数-1”, 这一做法属于未定义行为吗? 请查阅 C99 手册确认你的想法.

Example

根据 GPT 的解释：

C99 标准中定义了一些行为，如果程序中出现了这些行为，编译器或运行时环境可以采取任意的行动，包括崩溃、输出错误结果、产生不可预测的行为等。这些行为被称为未定义行为（Undefined Behavior）。

以下是一些常见的未定义行为：

访问未初始化的变量：未初始化的变量的值是未定义的，它可能包含任意值，包括程序崩溃的值。

数组越界访问：访问数组越界是一种未定义的行为，它可能导致程序崩溃、产生不可预测的结果或被攻击者利用。

使用空指针：使用空指针是一种未定义的行为，它可能导致程序崩溃或产生不可预测的结果。

除数为零：除以零是一种未定义的行为，它可能导致程序崩溃或产生不可预测的结果。

同时修改同一变量的多个线程：在多线程程序中，如果多个线程同时修改同一个变量，则可能导致数据竞争，产生不可预测的结果。

在这里传入的 -1 并不属于未定义行为

谁来指示程序的结束?

在程序设计课上老师告诉你, 当程序执行到main()函数返回处的时候, 程序就退出了, 你对此深信不疑. 但你是否怀疑过, 凭什么程序执行到main()函数的返回处就结束了? 如果有人告诉你, 程序设计课上老师的说法是错的, 你有办法来证明/反驳吗? 如果你对此感兴趣, 请在互联网上搜索相关内容.

有始有终 (建议二周目思考)

对于 GNU/Linux 上的一个程序, 怎么样才算开始? 怎么样才算是结束? 对于在 NEMU 中运行的程序, 问题的答案又是什么呢?

与此相关的问题还有: NEMU 中为什么要有nemu_trap? 为什么要有 monitor?

sdb 实现

帮助(1)	`help`	`help`	打印命令的帮助信息
继续运行(1)	`c`	`c`	继续运行被暂停的程序
退出(1)	`q`	`q`	退出 NEMU
单步执行	`si [N]`	`si 10`	让程序单步执行`N`条指令后暂停执行, 当`N`没有给出时, 缺省为`1`
打印程序状态	`info SUBCMD`	`info r` `info w`	打印寄存器状态打印监视点信息
扫描内存(2)	`x N EXPR`	`x 10 $esp`	求出表达式`EXPR`的值, 将结果作为起始内存地址, 以十六进制形式输出连续的`N`个 4 字节
表达式求值	`p EXPR`	`p $eax + 1`	求出表达式`EXPR`的值, `EXPR`支持的运算请见调试中的表达式求值小节
设置监视点	`w EXPR`	`w *0x2000`	当表达式`EXPR`的值发生变化时, 暂停程序执行
删除监视点	`d N`	`d 2`	删除序号为`N`的监视点

单步执行

1
static int cmd_si(char *args) {
2
  int step = args == NULL ? 1 : atoi(args);
3
  if (step <= 0) {
4
    return -1;
5
  }
6
  cpu_exec(step);
7
  return 0;
8
}

打印寄存器

1
static int cmd_info(char *args) {
2
  char subcmd = *args;
3
  switch (subcmd) {
4
  case 'r':
5
    isa_reg_display();
6
    break;
7
  case 'w':
8
    TODO();
9
    break;
10
  default:
11
    return -1;
12
  }
13
  return 0;
14
}

扫描内存

1
static int cmd_scan(char *args) {
2
  char *argn = strtok(args, " ");
3
  char *argexpr = argn + strlen(argn) + 1;
4
  if (argn == NULL || argexpr == NULL) {
5
    return -1;
6
  }
7
  int nbyte = atoi(argn);
8
  if (nbyte < 0) {
9
    return -1;
10
  }
11
  // TODO implement expr function
12
  vaddr_t addr = 0x80000000;
13
  for (int i = 0; i < nbyte; i++) {
14
    vaddr_t current_addr = addr;
15
    printf("0x%08x: 0x%08x\n", current_addr, vaddr_read(current_addr, 4));
16
    current_addr += 4;
17
  }
18
  return 0;
19
}

表达式求值

词法分析

在这里，由于表达式不止数值类型一种，因此在设计 TOKEN 类型时多加了寄存器与变量类型，设计如下：

1
enum {
2
  TK_NOTYPE = 256,
3
  TK_EQ,
4
  TK_INT,
5
  TK_OP,
6
  TK_REG,
7
  TK_VAR
8

9
};
10

11
static struct rule {
12
  const char *regex;
13
  int token_type;
14
} rules[] = {
15

16
    {" +", TK_NOTYPE},           // spaces
17
    {"\\t", TK_NOTYPE},          // tab
18
    {"\\+", TK_OP},              // plus
19
    {"==", TK_EQ},               // equal
20
    {"\\(", '('},                // '('
21
    {"\\)", ')'},                // ')'
22
    {"-", TK_OP},                // '-'
23
    {"\\*", TK_OP},              // '*'
24
    {"/", TK_OP},                // '/'
25
    {"[0-9]+", TK_INT},          // integer
26
    {"\\$[a-zA-Z0-9]+", TK_REG}, // reg
27
    {"[a-zA-Z_]+", TK_VAR},      // variable
28
};

由于写过编译原理，这部分还算简单，需要注意的是我们对 rules 的排序必须严格，因为是通过 switch 语句来判断的。

随后，我们对字符串流一一判断，然后存入到 tokens 列表中：

1
static bool make_token(char *e) {
2
  int position = 0;
3
  int i;
4
  regmatch_t pmatch;
5

6
  nr_token = 0;
7

8
  while (e[position] != '\0') {
9
    /* Try all rules one by one. */
10
    for (i = 0; i < NR_REGEX; i++) {
11
      if (regexec(&re[i], e + position, 1, &pmatch, 0) == 0 &&
12
          pmatch.rm_so == 0) {
13
        char *substr_start = e + position;
14
        int substr_len = pmatch.rm_eo;
15

16
        Log("match rules[%d] = \"%s\" at position %d with len %d: %.*s", i,
17
            rules[i].regex, position, substr_len, substr_len, substr_start);
18

19
        position += substr_len;
20

21
        // TODO: simplify the code
22
        switch (rules[i].token_type) {
23
        case TK_NOTYPE:
24
          break;
25
        case ')':
26
          tokens[nr_token].type = ')';
27
          strncpy(tokens[nr_token].str, substr_start, substr_len);
28
          tokens[nr_token].str[substr_len] = '\0';
29
          ++nr_token;
30
          break;
31
        case '(':
32
          tokens[nr_token].type = '(';
33
          strncpy(tokens[nr_token].str, substr_start, substr_len);
34
          tokens[nr_token].str[substr_len] = '\0';
35
          ++nr_token;
36
          break;
37
        case TK_EQ:
38
          tokens[nr_token].type = TK_EQ;
39
          strncpy(tokens[nr_token].str, substr_start, substr_len);
40
          tokens[nr_token].str[substr_len] = '\0';
41
          ++nr_token;
42
          break;
43
        case TK_OP:
44
          tokens[nr_token].type = TK_OP;
45
          strncpy(tokens[nr_token].str, substr_start, substr_len);
46
          tokens[nr_token].str[substr_len] = '\0';
47
          ++nr_token;
48
          break;
49
        case TK_VAR:
50
          tokens[nr_token].type = TK_VAR;
51
          strncpy(tokens[nr_token].str, substr_start, substr_len);
52
          tokens[nr_token].str[substr_len] = '\0';
53
          ++nr_token;
54
          break;
55
        case TK_REG:
56
          tokens[nr_token].type = TK_REG;
57
          strncpy(tokens[nr_token].str, substr_start, substr_len);
58
          tokens[nr_token].str[substr_len] = '\0';
59
          ++nr_token;
60
          break;
61
        case TK_INT:
62
          tokens[nr_token].type = TK_INT;
63
          if (substr_len <= 32) {
64
            strncpy(tokens[nr_token].str, substr_start, substr_len);
65
            tokens[nr_token].str[substr_len] = '\0';
66
          } else {
67
            // TODO: handle buffer overflow
68
            printf("Expr %.*s is too long to handle", substr_len, substr_start);
69
            return false;
70
          }
71
          ++nr_token;
72
        default:
73
          break;
74
        }
75

76
        break;
77
      }
78
    }
79

80
    if (i == NR_REGEX) {
81
      printf("no match at position %d\n%s\n%*.s^\n", position, e, position, "");
82
      return false;
83
    }
84
  }
85

86
  return true;
87
}

对于超过 $32$ 位（超过 str 数组长度，也就是超过缓冲区大小）的内容这里没有处理，思考如何处理缓冲区溢出的情况

递归求值

处理完 token 后，我们开始进行递归求值，实际上文档写的很清楚，包括其具体框架都已给出，我们需要注意的有两个函数：

check_parentheses(int p, int q, bool *success)
find_main_op(int p, int q, bool *success)

第一个函数的行为是：消除由 p 到 q 的 token 所组成表达式的 最外层 括号，并判断括号序列是否合法

第二个函数的行为是：找到主操作符，其方法在文档以给出，记得重点为 优先级最低

在这里我们还需要实现关于负数的操作，我的做法很简单，在 eval 中进行判断是否当前所求值为负数（因为传入的字符流一定存在一个 - 符号）

因此，其具体实现为：

1
bool check_parentheses(int p, int q) {
2
  if (tokens[p].type == '(' && tokens[q].type == ')') {
3
    int stack = 0;
4
    for (int i = p; i <= q; i++) {
5
      if (tokens[i].type == '(') {
6
        stack++;
7
      } else if (tokens[i].type == ')') {
8
        if (stack <= 0) {
9
          return false;
10
        }
11
        stack--;
12
      }
13
    }
14
    return stack == 0 && tokens[p].type == '(' && tokens[q].type == ')';
15
  }
16
  return false;
17
}
18

19
int find_main_op(int p, int q, bool *success) {
20
  int main_op = 3, main_op_idx = -1, stack = 0;
21
  for (int i = p; i <= q; i++) {
22
    if (tokens[i].type == TK_OP || tokens[i].type == '(' ||
23
        tokens[i].type == ')') {
24
      if (tokens[i].type == '(') {
25
        stack++;
26
        continue;
27
      } else if (tokens[i].type == ')') {
28
        if (stack <= 0) {
29
          return -1;
30
        }
31
        stack--;
32
        continue;
33
      }
34
      if (stack > 0) {
35
        continue;
36
      }
37
      int op_level = 0;
38
      if (tokens[i].str[0] == '+' || tokens[i].str[0] == '-') {
39
        op_level = 1;
40
      } else if (tokens[i].str[0] == '*' || tokens[i].str[0] == '/') {
41
        op_level = 2;
42
      } else {
43
        *success = false;
44
        printf("Invalid operator %s\n", tokens[i].str);
45
        return -1;
46
      }
47

48
      if (op_level < main_op) {
49
        main_op = op_level;
50
        main_op_idx = i;
51
      }
52
    }
53
  }
54
  if (stack) {
55
    success = false;
56
    return -1;
57
  }
58
  return main_op_idx;
59
}

此 eval 函数如下：

1
word_t eval(int p, int q, bool *success) {
2
  if (p > q) {
3
    *success = false;
4
    return 0;
5
  } else if (p == q) {
6

7
    int idx = p;
8
    if (tokens[idx].type == TK_INT) {
9
      return atoi(tokens[idx].str);
10
    } else if (tokens[idx].type == TK_REG) {
11
      *success = true;
12
      return isa_reg_str2val(tokens[idx].str, success);
13
    } else if (tokens[idx].type == TK_VAR) {
14
      // TODO: handle variable type
15
      return 0;
16
    }
17

18
  } else if (check_parentheses(p, q) == true) {
19
    return eval(p + 1, q - 1, success);
20
  } else if (tokens[p].str[0] == '-' && p == q - 1) {
21
    *success = true;
22
    return -atoi(tokens[p + 1].str);
23
  } else {
24
    int op = find_main_op(p, q, success);
25
    int val1 = eval(p, op - 1, success);
26
    int val2 = eval(op + 1, q, success);
27

28
    if (!success) {
29
      return 0;
30
    }
31

32
    switch (tokens[op].str[0]) {
33
    case '+':
34
      return val1 + val2;
35
    case '-':
36
      return val1 - val2;
37
    case '*':
38
      return val1 * val2;
39
    case '/':
40
      if (!val2) {
41
        success = false;
42
        printf("divided by zero\n");
43
        return 0;
44
      }
45
      return (sword_t)val1 / (sword_t)val2;
46
    }
47
  }
48
  return 0;
49
}

成功时需要将 success 设置为 true，但感觉在最后处理是否能够成功计算时不太对，可能还需要改进

また夏を追う

最近的笔记

TAOCP 4B & SAT Handbook 阅读

RoundingSAT 阅读笔记其二

基数约束编码中文字顺序的重要性

探索

NJU ICS PA-1