Improve symbol table handling in DynamicSegment (#219)
authorAndreas Ziegler <ziegler@einserver.de>
Tue, 19 Mar 2019 01:48:19 +0000 (02:48 +0100)
committerEli Bendersky <eliben@users.noreply.github.com>
Tue, 19 Mar 2019 01:48:19 +0000 (18:48 -0700)
commit27941c50fef8cff8ef991419511664154c8cdf52
treec816170ce84b3c2044099c5e1fd1fb0cce64e5a8
parent430e3a550f9c7b64b4b3630d319442aa79e3db19
Improve symbol table handling in DynamicSegment (#219)

dynamic: parse DT_{GNU_}HASH for number of symbols

In ultra-stripped binaries we can find the symbol table by
parsing the dynamic segment and using the pointer in the
DT_SYMTAB tag as the base address. However, we don't know
anything about the number of symbols in the symbol table.

Earlier, this code relied on finding the closest pointer
value bigger than the base address of the symbol table. In
PIE executables and shared libraries however this method
could break as the pointer value for DT_SYMTAB is in the same
range as things like DT_RELASZ or DT_STRSZ, leading to a too
small number of symbols returned by iter_symbols().

The crashpad project has implemented a different strategy to
find the number of symbols: parsing the symbol lookup hash
tables (see [0]) as every symbol must have a corresponding
entry in the hash table. This commit implements this
behaviour for DynamicSegment, leaving the old code as a
backup if neither DT_HASH or DT_GNU_HASH tags have been
found.

For DT_HASH type tables, it is quite easy as the header
already contains the number of entries. For DT_GNU_HASH
things are a bit more complicated as we need to work forward
from the highest symbol referenced in the header (a good
explanation of the format can be found at [1]).

[0]: https://github.com/chromium/crashpad/commit/1f1657d573c789aa36b6022440e34d9ec30d894c
[1]: https://flapenguin.me/2017/05/10/elf-lookup-dt-gnu-hash/

* dynamic: provide more functions for symbol access

So far, the DynamicSegment only provided a method to iterate
over all symbols but for some use cases it might be useful to
use the recovered symbol table more like a normal
SymbolTableSection.

To this end, provide get_symbol(index) to fetch a symbol by
its index, num_symbols() to get the total number of symbols
and get_symbol_by_name(name) to look for a list of symbols
with a given name.
elftools/elf/dynamic.py
elftools/elf/hash.py [new file with mode: 0644]
elftools/elf/structs.py
test/test_dynamic.py
test/test_hash.py [new file with mode: 0644]