Crafting Interpreters 笔记
· 阅读需 11 分钟
Scanning
任何编译器或解释器的第一步都是扫描。扫描器将原始源代码作为一系列字符输入,并将其分组为一系列我们称之为标记的块。这些是构成语言语法的有意义的“单词”和“标点符号”。
这一阶段的重点是把字符数组转换成token序列,通过“双指针”的方式逐步消耗字符。
Token类:
class Token {
final TokenType type;
final String lexeme;
final Object literal;
final int line;
}
TokenType:
enum TokenType {
// Single-character tokens.
LEFT_PAREN, RIGHT_PAREN, LEFT_BRACE, RIGHT_BRACE,
COMMA, DOT, MINUS, PLUS, SEMICOLON, SLASH, STAR,
// One or two character tokens.
BANG, BANG_EQUAL,
EQUAL, EQUAL_EQUAL,
GREATER, GREATER_EQUAL,
LESS, LESS_EQUAL,
// Literals.
IDENTIFIER, STRING, NUMBER,
// Keywords.
AND, CLASS, ELSE, FALSE, FUN, FOR, IF, NIL, OR,
PRINT, RETURN, SUPER, THIS, TRUE, VAR, WHILE,
EOF
}
处理方式:
private void scanToken() {
char c = advance();
switch (c) {
case '(': addToken(LEFT_PAREN); break;
case '!':
addToken(match('=') ? BANG_EQUAL : BANG);
break;
}
}
Representing Code
在上一章中,我们将原始源代码作为字符串,并将其转换为稍微更高级的表示形式:一系列标记。我们将在下一章中编写的解析器将获取这些标记,并再次将它们转换为更丰富、更复杂的表示形式。
在我们能够生成该表示之前,我们需要定义它。
我们需要一把更大的锤子,而那把锤子就是上下文无关文法(CFG)。它是形式文法工具箱中的下一个最重要的工具。形式文法使用一组称为“字母表”的原子片段。然后它定义了一组通常是无限的“字符串”,这些字符串“属于”文法。每个字符串都是字母表中的“字母”序列。
语言语法的BNF表示:
expression → literal
| unary
| binary
| grouping ;
literal → NUMBER | STRING | "true" | "false" | "nil" ;
grouping → "(" expression ")" ;
unary → ( "-" | "!" ) expression ;
binary → expression operator expression ;
operator → "==" | "!=" | "<" | "<=" | ">" | ">="
| "+" | "-" | "*" | "/" ;