charset.c (UCS_LIMIT): New macro.
authorEric Botcazou <ebotcazou@adacore.com>
Thu, 26 Sep 2019 21:43:51 +0000 (21:43 +0000)
committerEric Botcazou <ebotcazou@gcc.gnu.org>
Thu, 26 Sep 2019 21:43:51 +0000 (21:43 +0000)
* charset.c (UCS_LIMIT): New macro.
(ucn_valid_in_identifier): Use it instead of a hardcoded constant.
(_cpp_valid_ucn): Issue a pedantic warning for UCNs larger than
UCS_LIMIT outside of identifiers in C and in C++2a or later.

From-SVN: r276167

gcc/testsuite/ChangeLog
gcc/testsuite/g++.dg/cpp/ucn-1.C
gcc/testsuite/g++.dg/cpp2a/ucn1.C [new file with mode: 0644]
gcc/testsuite/gcc.dg/attr-alias-5.c
gcc/testsuite/gcc.dg/cpp/ucs.c
gcc/testsuite/gcc.dg/cpp/utf8-5byte-1.c
libcpp/ChangeLog
libcpp/charset.c

index 7cdc8f0d107a1f5bc57ef9f2d770e46d517d808e..82607de67febae79fbfbec923d864d4b92aa3b08 100644 (file)
@@ -1,3 +1,11 @@
+2019-09-26  Eric Botcazou  <ebotcazou@adacore.com>
+
+       * gcc.dg/cpp/ucs.c: Add test for new warning and adjust.
+       * gcc.dg/cpp/utf8-5byte-1.c: Add -w to the options.
+       * gcc.dg/attr-alias-5.c: Likewise.
+       * g++.dg/cpp/ucn-1.C: Add test for new warning.
+       * g++.dg/cpp2a/ucn1.C: New test.
+
 2019-09-26  Max Filippov  <jcmvbkbc@gmail.com>
 
        * gcc.target/xtensa/pr91880.c: New test case.
index d929078d8990497ccae8d01872ce3bf93a806d97..9596a429650577d1e4e1c1af72f42353a0fdcea9 100644 (file)
@@ -12,4 +12,6 @@ int main()
   int c\u0024c;        // { dg-error "not valid in an identifier" "" { target { powerpc-ibm-aix* } } }
 
   U"\uD800";             // { dg-error "not a valid universal character" }
+
+  U'\U00110000'; // { dg-warning "outside" "110000 outside UCS" { target c++2a } }
 }
diff --git a/gcc/testsuite/g++.dg/cpp2a/ucn1.C b/gcc/testsuite/g++.dg/cpp2a/ucn1.C
new file mode 100644 (file)
index 0000000..e73c77d
--- /dev/null
@@ -0,0 +1,7 @@
+// { dg-do compile }
+// { dg-options "-std=c++2a" }
+
+int main()
+{
+  U'\U00110000'; // { dg-warning "outside" "110000 outside UCS" }
+}
index 91e63f8982593c200cebb25ffb7920ae57687ee8..a65fe0b9cda85a4885f280400bc97df13018403e 100644 (file)
@@ -1,7 +1,7 @@
 /* Verify diagnostics for aliases to strings containing extended
    identifiers or bad characters.  */
 /* { dg-do compile } */
-/* { dg-options "-std=gnu99" } */
+/* { dg-options "-std=gnu99 -w" } */
 /* { dg-require-alias "" } */
 /* { dg-require-ascii-locale "" } */
 /* { dg-skip-if "" { powerpc*-*-aix* } } */
index 4f76fa99bf5449adf88c2430805844f87cc95ab6..cac83f3cf1492a82af44cf7f83e9f5881bfabe89 100644 (file)
@@ -39,7 +39,7 @@
 #endif
 
 #if WCHAR_MAX >= 0x7ffffff
-# if L'\U1234abcd' != 0x1234abcd
+# if L'\U1234abcd' != 0x1234abcd /* { dg-warning "outside" "" } */
 #  error bad long ucs  /* { dg-bogus "bad" "bad U1234abcd evaluation" } */
 # endif
 #endif
@@ -49,7 +49,7 @@ void foo ()
   int c;
 
   c = L'\ubad';                /* { dg-error "incomplete" "incomplete UCN 1" } */
-  c = L"\U1234"[0];    /* { dg-error "incomplete" "incompete UCN 2" } */
+  c = L"\U1234"[0];    /* { dg-error "incomplete" "incomplete UCN 2" } */
 
   c = L'\u000x';       /* { dg-error "incomplete" "non-hex digit in UCN" } */
   /* If sizeof(HOST_WIDE_INT) > sizeof(wchar_t), we can get a multi-character
@@ -64,4 +64,6 @@ void foo ()
   c = '\u0025';                /* { dg-error "not a valid" "0025 invalid UCN" } */
   c = L"\uD800"[0];    /* { dg-error "not a valid" "D800 invalid UCN" } */
   c = L'\U0000DFFF';   /* { dg-error "not a valid" "DFFF invalid UCN" } */
+
+  c = L'\U00110000';   /* { dg-warning "outside" "110000 outside UCS" } */
 }
index 7f96a56841c39a99d946c0e66acd18233b0219d6..50e6c05575c7a3f79161aca95a9177f8b02a32f7 100644 (file)
@@ -1,7 +1,7 @@
 /* Test for bug in conversions from 5-byte UTF-8 sequences in
    cpplib.  */
 /* { dg-do run { target { 4byte_wchar_t } } } */
-/* { dg-options "-std=gnu99" } */
+/* { dg-options "-std=gnu99 -w" } */
 
 extern void abort (void);
 extern void exit (int);
index 0c851952b55df1a2192d0a4a391c0b82ed4b81d8..1ca622df6fda1a7f30a3ef7b41f125651d740f1f 100644 (file)
@@ -1,3 +1,10 @@
+2019-09-26  Eric Botcazou  <ebotcazou@adacore.com>
+
+       * charset.c (UCS_LIMIT): New macro.
+       (ucn_valid_in_identifier): Use it instead of a hardcoded constant.
+       (_cpp_valid_ucn): Issue a pedantic warning for UCNs larger than
+       UCS_LIMIT outside of identifiers in C and in C++2a or later.
+
 2019-09-19  Lewis Hyatt  <lhyatt@gmail.com>
 
        PR c/67224
index 10286219bd6d338d1935de84a164b1e5db60f1f8..39af77a554a96c2cf28493787c6cbe285c9f4159 100644 (file)
@@ -901,6 +901,9 @@ struct ucnrange {
 };
 #include "ucnid.h"
 
+/* ISO 10646 defines the UCS codespace as the range 0-0x10FFFF inclusive.  */
+#define UCS_LIMIT 0x10FFFF
+
 /* Returns 1 if C is valid in an identifier, 2 if C is valid except at
    the start of an identifier, and 0 if C is not valid in an
    identifier.  We assume C has already gone through the checks of
@@ -915,7 +918,7 @@ ucn_valid_in_identifier (cpp_reader *pfile, cppchar_t c,
   int mn, mx, md;
   unsigned short valid_flags, invalid_start_flags;
 
-  if (c > 0x10FFFF)
+  if (c > UCS_LIMIT)
     return 0;
 
   mn = 0;
@@ -1016,6 +1019,10 @@ ucn_valid_in_identifier (cpp_reader *pfile, cppchar_t c,
    whose short identifier is less than 00A0 other than 0024 ($), 0040 (@),
    or 0060 (`), nor one in the range D800 through DFFF inclusive.
 
+   If the hexadecimal value is larger than the upper bound of the UCS
+   codespace specified in ISO/IEC 10646, a pedantic warning is issued
+   in all versions of C and in the C++2a or later versions of C++.
+
    *PSTR must be preceded by "\u" or "\U"; it is assumed that the
    buffer end is delimited by a non-hex digit.  Returns false if the
    UCN has not been consumed, true otherwise.
@@ -1135,6 +1142,12 @@ _cpp_valid_ucn (cpp_reader *pfile, const uchar **pstr,
    "universal character %.*s is not valid at the start of an identifier",
                   (int) (str - base), base);
     }
+  else if (result > UCS_LIMIT
+          && (!CPP_OPTION (pfile, cplusplus)
+              || CPP_OPTION (pfile, lang) > CLK_CXX17))
+    cpp_error (pfile, CPP_DL_PEDWARN,
+              "%.*s is outside the UCS codespace",
+              (int) (str - base), base);
 
   *cp = result;
   return true;