Add name canonicalization for C
authorTom Tromey <tromey@adacore.com>
Thu, 3 Nov 2022 19:49:17 +0000 (13:49 -0600)
committerTom Tromey <tromey@adacore.com>
Thu, 1 Dec 2022 18:16:41 +0000 (11:16 -0700)
PR symtab/29105 shows a number of situations where symbol lookup can
result in the expansion of too many CUs.

What happens is that lookup_signed_typename will try to look up a type
like "signed int".  In cooked_index_functions::expand_symtabs_matching,
when looping over languages, the C++ case will canonicalize this type
name to be "int" instead.  Then this method will proceed to expand
every CU that has an entry for "int" -- i.e., nearly all of them.  A
crucial component of this is that the caller, objfile::lookup_symbol,
does not do this canonicalization, so when it tries to find the symbol
for "signed int", it fails -- causing the loop to continue.

This patch fixes the problem by introducing name canonicalization for
C.  The idea here is that, by making C and C++ agree on the canonical
name when a symbol name can have multiple spellings, we avoid the bad
behavior in objfile::lookup_symbol (and any other such code -- I don't
know if there is any).

Unlike C++, C only has a few situations where canonicalization is
needed.  And, in particular, due to the lack of overloading (thus
avoiding any issues in linespec) and due to the way c-exp.y works, I
think that no canonicalization is needed during symbol lookup -- only
during symtab construction.  This explains why lookup_name_info is not
touched.

The stabs reader is modified on a "best effort" basis.

The DWARF reader needed one small tweak in dwarf2_name to avoid a
regression in dw2-unusual-field-names.exp.  I think this is adequately
explained by the comment, but basically this is a scenario that should
not occur in real code, only the gdb test suite.

lookup_signed_typename is simplified.  It used to search for two
different type names, but now gdb can search just for the canonical
form.

gdb.dwarf2/enum-type.exp needed a small tweak, because the
canonicalizer turns "unsigned integer" into "unsigned int integer".
It seems better here to use the correct C type name.

Bug: https://sourceware.org/bugzilla/show_bug.cgi?id=29105
Tested-by: Simon Marchi <simark@simark.ca>
Reviewed-by: Andrew Burgess <aburgess@redhat.com>
gdb/c-lang.c
gdb/c-lang.h
gdb/dbxread.c
gdb/dwarf2/cooked-index.c
gdb/dwarf2/read.c
gdb/gdbtypes.c
gdb/stabsread.c
gdb/testsuite/gdb.dwarf2/enum-type.exp

index e15541f81759ee344478649563bba500dacda040..46c0da0ff797879846815d6f049e48c2d25c4779 100644 (file)
@@ -727,6 +727,20 @@ c_is_string_type_p (struct type *type)
 
 \f
 
+/* See c-lang.h.  */
+
+gdb::unique_xmalloc_ptr<char>
+c_canonicalize_name (const char *name)
+{
+  if (strchr (name, ' ') != nullptr
+      || streq (name, "signed")
+      || streq (name, "unsigned"))
+    return cp_canonicalize_string (name);
+  return nullptr;
+}
+
+\f
+
 void
 c_language_arch_info (struct gdbarch *gdbarch,
                      struct language_arch_info *lai)
index 93515671d803f0aff5b49e8017ff19fc459d4b67..652f147f65690966fe0cca6f5b338d0bd8b3f68a 100644 (file)
@@ -167,4 +167,9 @@ extern std::string cplus_compute_program (compile_instance *inst,
                                          const struct block *expr_block,
                                          CORE_ADDR expr_pc);
 
+/* Return the canonical form of the C symbol NAME.  If NAME is already
+   canonical, return nullptr.  */
+
+extern gdb::unique_xmalloc_ptr<char> c_canonicalize_name (const char *name);
+
 #endif /* !defined (C_LANG_H) */
index b0047cf0e794a4a5b1ca307972da3f89b3e4883a..ae726bdfcc6aa44e8339ff3ceaa03e38a0d1262d 100644 (file)
@@ -48,6 +48,7 @@
 #include "complaints.h"
 #include "cp-abi.h"
 #include "cp-support.h"
+#include "c-lang.h"
 #include "psympriv.h"
 #include "block.h"
 #include "aout/aout64.h"
@@ -1444,6 +1445,18 @@ read_dbx_symtab (minimal_symbol_reader &reader,
                                             new_name.get ());
                }
            }
+         else if (psymtab_language == language_c)
+           {
+             std::string name (namestring, p - namestring);
+             gdb::unique_xmalloc_ptr<char> new_name
+               = c_canonicalize_name (name.c_str ());
+             if (new_name != nullptr)
+               {
+                 sym_len = strlen (new_name.get ());
+                 sym_name = obstack_strdup (&objfile->objfile_obstack,
+                                            new_name.get ());
+               }
+           }
 
          if (sym_len == 0)
            {
index a580d549d0db1114b4b4be477e48f358f7bb1789..0aa026c7779cfb7e14cf44620532dcd73b847ab4 100644 (file)
@@ -21,6 +21,7 @@
 #include "dwarf2/cooked-index.h"
 #include "dwarf2/read.h"
 #include "cp-support.h"
+#include "c-lang.h"
 #include "ada-lang.h"
 #include "split-name.h"
 #include <algorithm>
@@ -210,14 +211,17 @@ cooked_index::do_finalize ()
              m_names.push_back (std::move (canon_name));
            }
        }
-      else if (entry->per_cu->lang () == language_cplus)
+      else if (entry->per_cu->lang () == language_cplus
+              || entry->per_cu->lang () == language_c)
        {
          void **slot = htab_find_slot (seen_names.get (), entry,
                                        INSERT);
          if (*slot == nullptr)
            {
              gdb::unique_xmalloc_ptr<char> canon_name
-               = cp_canonicalize_string (entry->name);
+               = (entry->per_cu->lang () == language_cplus
+                  ? cp_canonicalize_string (entry->name)
+                  : c_canonicalize_name (entry->name));
              if (canon_name == nullptr)
                entry->canonical = entry->name;
              else
index aa13d42ad778394c01abbb6f50f49bad2baa56c1..032e20af93ab67008f9a704b65161bcaf7bae136 100644 (file)
@@ -22014,7 +22014,10 @@ static const char *
 dwarf2_canonicalize_name (const char *name, struct dwarf2_cu *cu,
                          struct objfile *objfile)
 {
-  if (name && cu->lang () == language_cplus)
+  if (name == nullptr)
+    return name;
+
+  if (cu->lang () == language_cplus)
     {
       gdb::unique_xmalloc_ptr<char> canon_name
        = cp_canonicalize_string (name);
@@ -22022,6 +22025,14 @@ dwarf2_canonicalize_name (const char *name, struct dwarf2_cu *cu,
       if (canon_name != nullptr)
        name = objfile->intern (canon_name.get ());
     }
+  else if (cu->lang () == language_c)
+    {
+      gdb::unique_xmalloc_ptr<char> canon_name
+       = c_canonicalize_name (name);
+
+      if (canon_name != nullptr)
+       name = objfile->intern (canon_name.get ());
+    }
 
   return name;
 }
@@ -22050,6 +22061,11 @@ dwarf2_name (struct die_info *die, struct dwarf2_cu *cu)
 
   switch (die->tag)
     {
+      /* A member's name should not be canonicalized.  This is a bit
+        of a hack, in that normally it should not be possible to run
+        into this situation; however, the dw2-unusual-field-names.exp
+        test creates custom DWARF that does.  */
+    case DW_TAG_member:
     case DW_TAG_compile_unit:
     case DW_TAG_partial_unit:
       /* Compilation units have a DW_AT_name that is a filename, not
index 5e8a486d28fa6cc71c150745df3d6ccfe7d0c109..2166257f71e576007cb037a526e2cff0117e2a26 100644 (file)
@@ -1729,15 +1729,9 @@ lookup_unsigned_typename (const struct language_defn *language,
 struct type *
 lookup_signed_typename (const struct language_defn *language, const char *name)
 {
-  struct type *t;
-  char *uns = (char *) alloca (strlen (name) + 8);
-
-  strcpy (uns, "signed ");
-  strcpy (uns + 7, name);
-  t = lookup_typename (language, uns, NULL, 1);
-  /* If we don't find "signed FOO" just try again with plain "FOO".  */
-  if (t != NULL)
-    return t;
+  /* In C and C++, "char" and "signed char" are distinct types.  */
+  if (streq (name, "char"))
+    name = "signed char";
   return lookup_typename (language, name, NULL, 0);
 }
 
index 612443557b5f5a67cb72aac62af8edc59303a37d..74d0885fa71e9e1a3264f98d9e9f584a72dfe56d 100644 (file)
@@ -736,11 +736,13 @@ define_symbol (CORE_ADDR valu, const char *string, int desc, int type,
 
       if (sym->language () == language_cplus)
        {
-         char *name = (char *) alloca (p - string + 1);
-
-         memcpy (name, string, p - string);
-         name[p - string] = '\0';
-         new_name = cp_canonicalize_string (name);
+         std::string name (string, p - string);
+         new_name = cp_canonicalize_string (name.c_str ());
+       }
+      else if (sym->language () == language_c)
+       {
+         std::string name (string, p - string);
+         new_name = c_canonicalize_name (name.c_str ());
        }
       if (new_name != nullptr)
        sym->compute_and_set_names (new_name.get (), true, objfile->per_bfd);
@@ -1592,12 +1594,18 @@ again:
          type_name = NULL;
          if (get_current_subfile ()->language == language_cplus)
            {
-             char *name = (char *) alloca (p - *pp + 1);
-
-             memcpy (name, *pp, p - *pp);
-             name[p - *pp] = '\0';
-
-             gdb::unique_xmalloc_ptr<char> new_name = cp_canonicalize_string (name);
+             std::string name (*pp, p - *pp);
+             gdb::unique_xmalloc_ptr<char> new_name
+               = cp_canonicalize_string (name.c_str ());
+             if (new_name != nullptr)
+               type_name = obstack_strdup (&objfile->objfile_obstack,
+                                           new_name.get ());
+           }
+         else if (get_current_subfile ()->language == language_c)
+           {
+             std::string name (*pp, p - *pp);
+             gdb::unique_xmalloc_ptr<char> new_name
+               = c_canonicalize_name (name.c_str ());
              if (new_name != nullptr)
                type_name = obstack_strdup (&objfile->objfile_obstack,
                                            new_name.get ());
index ed8e3a35d6968f0a31d639478dcc36db819b9fff..983b415bfdb1559973589b32782ebd33e3905192 100644 (file)
@@ -37,13 +37,13 @@ Dwarf::assemble $asm_file {
             integer_label: DW_TAG_base_type {
                 {DW_AT_byte_size 4 DW_FORM_sdata}
                 {DW_AT_encoding  @DW_ATE_signed}
-                {DW_AT_name      integer}
+                {DW_AT_name      int}
             }
 
             uinteger_label: DW_TAG_base_type {
                 {DW_AT_byte_size 4 DW_FORM_sdata}
                 {DW_AT_encoding  @DW_ATE_unsigned}
-                {DW_AT_name      {unsigned integer}}
+               {DW_AT_name      {unsigned int}}
             }
 
            DW_TAG_enumeration_type {
@@ -79,5 +79,5 @@ gdb_test "print sizeof(enum E)" " = 4"
 gdb_test "ptype enum EU" "type = enum EU {TWO = 2}" \
     "ptype EU in enum C"
 gdb_test_no_output "set lang c++"
-gdb_test "ptype enum EU" "type = enum EU : unsigned integer {TWO = 2}" \
+gdb_test "ptype enum EU" "type = enum EU : unsigned int {TWO = 2}" \
     "ptype EU in C++"