improve tokenizer

2015-02-12 17:07:43 +03:00 · 2015-02-12 17:07:43 +03:00 · df0450ee87
parent 3b12b936ff
commit df0450ee87
1 changed files with 109 additions and 1 deletions
--- a/src/ddc/lexer/tokenizer.d
+++ b/src/ddc/lexer/tokenizer.d
@ -1378,6 +1378,114 @@ struct StringAppender {
 	void reset() {
 		len = 0;
 	}
+    static int parseHexDigit(dchar ch) {
+        if (ch >= '0' && ch <='9')
+            return ch - '0';
+        if (ch >= 'a' && ch <='f')
+            return ch - 'a' + 10;
+        if (ch >= 'A' && ch <='F')
+            return ch - 'A' + 10;
+        return -1;
+    }
+    bool errorFlag = false;
+    dchar decodeHex(ref int pos, int count) {
+        dchar res = 0;
+        for (int i = 0; i < count; i++) {
+            if (pos >= len - 1) {
+                errorFlag = true;
+                return res;
+            }
+            dchar ch = buf[++pos];
+            int digit = parseHexDigit(ch);
+            if (digit < 0) {
+                errorFlag = true;
+                digit = 0;
+            }
+            res = (res << 4) | digit;
+        }
+        return res;
+    }
+    dchar decodeOct(dchar firstChar, ref int pos) {
+        dchar res = 0;
+        res = firstChar - '0';
+        if (pos < len - 1 && buf[pos + 1] >= '0' && buf[pos + 1] <= '7') {
+            res = (res << 3) | (buf[++pos] - '0');
+        }
+        if (pos < len - 1 && buf[pos + 1] >= '0' && buf[pos + 1] <= '7') {
+            res = (res << 3) | (buf[++pos] - '0');
+        }
+        return res;
+    }
+    bool processEscapeSequences() {
+        errorFlag = false;
+        int dst = 0;
+        for (int src = 0; src < len; src++) {
+            dchar ch = buf[src];
+            if (ch == '\\') {
+                if (src == len - 1)
+                    break; // INVALID
+                ch = buf[++src];
+                switch (ch) {
+                    case '\'':
+                    case '\"':
+                    case '?':
+                    case '\\':
+                        buf[dst++] = ch;
+                        break;
+                    case '0':
+                        buf[dst++] = '\0';
+                        break;
+                    case 'a':
+                        buf[dst++] = '\a';
+                        break;
+                    case 'b':
+                        buf[dst++] = '\b';
+                        break;
+                    case 'f':
+                        buf[dst++] = '\f';
+                        break;
+                    case 'n':
+                        buf[dst++] = '\n';
+                        break;
+                    case 'r':
+                        buf[dst++] = '\r';
+                        break;
+                    case 't':
+                        buf[dst++] = '\t';
+                        break;
+                    case 'v':
+                        buf[dst++] = '\v';
+                        break;
+                    case 'x':
+                        buf[dst++] = decodeHex(src, 2);
+                        break;
+                    case 'u':
+                        buf[dst++] = decodeHex(src, 4);
+                        break;
+                    case 'U':
+                        buf[dst++] = decodeHex(src, 8);
+                        break;
+                    default:
+                        if (ch >= '0' && ch <= '7') {
+                            // octal X XX or XXX
+                            buf[dst++] = decodeOct(ch, src); // something wrong
+                        } else if (ch == '&') {
+                            // named character entity
+                            buf[dst++] = ch;
+                            // just show it as is
+                        } else {
+                            buf[dst++] = ch; // something wrong
+                            errorFlag = true;
+                        }
+                        break;
+                }
+            } else {
+                buf[dst++] = ch;
+            }
+        }
+        len = dst;
+        return errorFlag;
+    }
 }

 class Tokenizer
@ -2473,7 +2581,7 @@ class Tokenizer
 			_sharedStringLiteralToken.setText(_stringLiteralAppender.get(), type);
 			return _sharedStringLiteralToken;
 		}
-		// TODO: process escape sequences
+        _stringLiteralAppender.processEscapeSequences();
 		_sharedStringLiteralToken.setText(_stringLiteralAppender.get(), type);
 		return _sharedStringLiteralToken;
 	}