gem5.git
9 years agoutil: add a vimrc that matches gem5 style guide
Anthony Gutierrez [Sat, 1 Aug 2015 02:53:17 +0000 (22:53 -0400)]
util: add a vimrc that matches gem5 style guide

9 years agostats: Update switcheroo reference stats
Andreas Sandberg [Fri, 31 Jul 2015 16:04:59 +0000 (17:04 +0100)]
stats: Update switcheroo reference stats

The Minor draining fixes affect perturb the timing slightly since it
affects how the simulator is drained. Update reference statistics to
reflect this expected change.

9 years agocpu: Update debug message from Fetch1 isDrained() in Minor
Andreas Sandberg [Fri, 31 Jul 2015 16:04:59 +0000 (17:04 +0100)]
cpu: Update debug message from Fetch1 isDrained() in Minor

Fix a spurious %s and include the state of the Fetch1 stage in the
debug printout.

9 years agocpu: Fix Minor drain issues when switched out
Andreas Sandberg [Fri, 31 Jul 2015 16:04:59 +0000 (17:04 +0100)]
cpu: Fix Minor drain issues when switched out

The Minor CPU currently doesn't drain properly when it is switched
out. This happens because Fetch 1 expects to be in the FetchHalted
state when it is drained. However, because the CPU is switched out, it
is stuck in the FetchWaitingForPC state. Fix this by ignoring drain
requests and returning DrainState::Drained from MinorCPU::drain() if
the CPU is switched out. This is always safe since a switched out CPU,
by definition, doesn't have any instructions in flight.

9 years agostats: Bump stats after Minor switcheroo inclusion
Andreas Sandberg [Thu, 30 Jul 2015 09:16:36 +0000 (10:16 +0100)]
stats: Bump stats after Minor switcheroo inclusion

9 years agotests: Add Minor to the ARM full switcheroo tests
Andreas Sandberg [Thu, 30 Jul 2015 09:16:28 +0000 (10:16 +0100)]
tests: Add Minor to the ARM full switcheroo tests

Add the Minor CPU to the RealView and RealView64 full switcheroo
tests.

9 years agocpu: Only activate thread 0 in Minor if the CPU is active
Andreas Sandberg [Thu, 30 Jul 2015 09:15:50 +0000 (10:15 +0100)]
cpu: Only activate thread 0 in Minor if the CPU is active

Minor currently activates thread 0 in startup() to work around an
issue where activateContext() is called from LiveProcess before the
process entry point is known. When activateContext() is called, Minor
creates a branch instruction to the process's entry point. The first
time it is called, the branch points to an undefined location (0). The
call in startup() updates the branch to point to the actual entry
point.

When instantiating a switched out Minor CPU, it still tries to
activate thread 0. This is clearly incorrect since a switched out CPU
can't have any active threads. This changeset adds a check to ensure
that the thread is active before reactivating it.

9 years agocpu: Fix drain issues in the Minor CPU
Andreas Sandberg [Thu, 30 Jul 2015 09:15:50 +0000 (10:15 +0100)]
cpu: Fix drain issues in the Minor CPU

The drain refactor patches introduced a couple of bugs in the way
Minor handles draining. This patch fixes an incorrect assert and a
case of infinite recursion when the CPU signals drain done.

9 years agostats: Update stats for clean eviction addition
Andreas Hansson [Thu, 30 Jul 2015 07:42:27 +0000 (03:42 -0400)]
stats: Update stats for clean eviction addition

9 years agomem: Add missing clean eviction on uncacheable access
Andreas Hansson [Thu, 30 Jul 2015 07:42:25 +0000 (03:42 -0400)]
mem: Add missing clean eviction on uncacheable access

This patch adds a missing clean eviction, occuring when an uncacheable
access flushes and invalidates an existing block.

9 years agomem: Remove unused RequestCause in cache
Andreas Hansson [Thu, 30 Jul 2015 07:41:43 +0000 (03:41 -0400)]
mem: Remove unused RequestCause in cache

This patch removes the RequestCause, and also simplifies how we
schedule the sending of packets through the memory-side port. The
deassertion of bus requests is removed as it is not used.

9 years agomem: Make caches way aware
David Guillen-Fandos [Thu, 30 Jul 2015 07:41:42 +0000 (03:41 -0400)]
mem: Make caches way aware

This patch makes cache sets aware of the way number. This enables
some nice features such as the ablity to restrict way allocation. The
implemented mechanism allows to set a maximum way number to be
allocated 'k' which must fulfill 0 < k <= N (where N is the number of
ways). In the future more sophisticated mechasims can be implemented.

9 years agomem: Transition away from isSupplyExclusive for writebacks
Andreas Hansson [Thu, 30 Jul 2015 07:41:40 +0000 (03:41 -0400)]
mem: Transition away from isSupplyExclusive for writebacks

This patch changes how writebacks communicate whether the line is
passed as modified or owned. Previously we relied on the
isSupplyExclusive mechanism, which was originally designed to avoid
unecessary snoops.

For normal cache requests we use the sharedAsserted mechanism to
determine if a block should be marked writeable or not, and with this
patch we transition the writebacks to also use this
mechanism. Conceptually this is cleaner and more consistent.

9 years agomem: Tidy up CacheBlk class
Andreas Hansson [Thu, 30 Jul 2015 07:41:39 +0000 (03:41 -0400)]
mem: Tidy up CacheBlk class

This patch modernises and tidies up the CacheBlk, removing dead code.

9 years agomem: Tidy up packet
Andreas Hansson [Thu, 30 Jul 2015 07:41:38 +0000 (03:41 -0400)]
mem: Tidy up packet

Some minor fixes and removal of dead code. Changing the flags to be
enums rather than static const (to avoid any linking issues caused by
the latter). Also adding a getBlockAddr member which hopefully can
slowly finds its way into caches, snoop filters etc.

9 years agostats: Bump stats to match current behaviour
Andreas Hansson [Thu, 30 Jul 2015 07:41:36 +0000 (03:41 -0400)]
stats: Bump stats to match current behaviour

Somehow this one seems to have slipped through. Perhaps
non-determinism somewhere?

9 years agocpu: Fix issue identified by UBSan
Andreas Hansson [Thu, 30 Jul 2015 07:41:22 +0000 (03:41 -0400)]
cpu: Fix issue identified by UBSan

9 years agorevert 5af8f40d8f2c
Nilay Vaish [Tue, 28 Jul 2015 06:58:04 +0000 (01:58 -0500)]
revert 5af8f40d8f2c

9 years agocpu: implements vector registers
Nilay Vaish [Sun, 26 Jul 2015 15:21:20 +0000 (10:21 -0500)]
cpu: implements vector registers

This adds a vector register type.  The type is defined as a std::array of a
fixed number of uint64_ts.  The isa_parser.py has been modified to parse vector
register operands and generate the required code.  Different cpus have vector
register files now.

9 years agocpu: o3: slight correction to identation in rename_impl.hh
Nilay Vaish [Sun, 26 Jul 2015 15:20:07 +0000 (10:20 -0500)]
cpu: o3: slight correction to identation in rename_impl.hh

9 years agostyle: change Process function calls to use camelCase
Brandon Potter [Fri, 24 Jul 2015 19:25:23 +0000 (12:25 -0700)]
style: change Process function calls to use camelCase

The Process class methods were using an improper style and this subsequently
bled into the system call code.  The following regular expressions should be
helpful if someone transitions private system call patches on top of these
changesets:

s/alloc_fd/allocFD/
s/sim_fd(/simFD(/
s/sim_fd_obj/getFDEntry/
s/fix_file_offsets/fixFileOffsets/
s/find_file_offsets/findFileOffsets/

9 years agosyscall_emul: standardized file descriptor name and add return checks.
Brandon Potter [Fri, 24 Jul 2015 19:25:23 +0000 (12:25 -0700)]
syscall_emul: standardized file descriptor name and add return checks.

The patch clarifies whether file descriptors are host file descriptors or
target file descriptors in the system call code.  (Host file descriptors
are file descriptors which have been allocated through real system calls
where target file descriptors are allocated from an array in the Process
class.)

9 years agobase: refactor process class (specifically FdMap and friends)
Brandon Potter [Fri, 24 Jul 2015 19:25:22 +0000 (12:25 -0700)]
base: refactor process class (specifically FdMap and friends)

This patch extends the previous patch's alterations around fd_map.  It cleans
up some of the uglier code in the process file and replaces it with a more
concise C++11 version.  As part of the changes, the FdMap class is pulled out
of the Process class and receives its own file.

9 years agosyscall_emul: file descriptor interface changes
Brandon Potter [Fri, 24 Jul 2015 19:25:22 +0000 (12:25 -0700)]
syscall_emul: file descriptor interface changes

This patch gets rid of unused Process::dup_fd method and does minor
refactoring in the process class files.  The file descriptor max has been
changed to be the number of file descriptors since this clarifies the loop
boundary condition and cleans up the code a bit.  The fd_map field has been
altered to be dynamically allocated as opposed to being an array; the
intention here is to build on this is subsequent patches to allow processes
to share their file descriptors with the clone system call.

9 years agoruby: dma sequencer: removes redundant code
Brandon Potter [Fri, 24 Jul 2015 19:25:22 +0000 (12:25 -0700)]
ruby: dma sequencer: removes redundant code

9 years agoruby: network: NetworkLink inherits from Consumer now.
Nilay Vaish [Wed, 22 Jul 2015 16:20:07 +0000 (11:20 -0500)]
ruby: network: NetworkLink inherits from Consumer now.

9 years agoconfigs: network test: remove redundant physical memory
Nilay Vaish [Tue, 21 Jul 2015 15:08:25 +0000 (10:08 -0500)]
configs: network test: remove redundant physical memory

9 years agostats: x86: updates due to patch on vex
Nilay Vaish [Sat, 18 Jul 2015 20:07:35 +0000 (15:07 -0500)]
stats: x86: updates due to patch on vex

9 years agox86: decode instructions with vex prefix
Nilay Vaish [Fri, 17 Jul 2015 16:31:22 +0000 (11:31 -0500)]
x86: decode instructions with vex prefix

This patch updates the x86 decoder so that it can decode instructions with vex
prefix. It also updates the isa with opcodes from vex opcode maps 1, 2 and 3.
Note that none of the instructions have been implemented yet. The
implementations would be provided in due course of time.

9 years agodev: add support for multi gem5 runs
Gabor Dozsa [Thu, 16 Jul 2015 00:53:50 +0000 (19:53 -0500)]
dev: add support for multi gem5 runs

Multi gem5 is an extension to gem5 to enable parallel simulation of a
distributed system (e.g. simulation of a pool of machines
connected by Ethernet links). A multi gem5 run consists of seperate gem5
processes running in parallel (potentially on different hosts/slots on
a cluster). Each gem5 process executes the simulation of a component of the
simulated distributed system (e.g. a multi-core board with an Ethernet NIC).

The patch implements the "distributed" Ethernet link device
(dev/src/multi_etherlink.[hh.cc]). This device will send/receive
(simulated) Ethernet packets to/from peer gem5 processes. The interface
to talk to the peer gem5 processes is defined in dev/src/multi_iface.hh and
in tcp_iface.hh.

There is also a central message server process (util/multi/tcp_server.[hh,cc])
which acts like an Ethernet switch and transfers messages among the gem5 peers.

A multi gem5 simulations can be kicked off by the util/multi/gem5-multi.sh
wrapper script.

Checkpoints are supported by multi-gem5. The checkpoint must be
initiated by a single gem5 process. E.g., the gem5 process with rank 0
can take a checkpoint from the bootscript just before it invokes
'mpirun' to launch an MPI test. The message server process will notify
all the other peer gem5 processes and make them take a checkpoint, too
(after completing a global synchronisation to ensure that there are no
inflight messages among gem5).

9 years agomem: Fix (ab)use of emplace to avoid temporary object creation
Andreas Hansson [Mon, 13 Jul 2015 12:46:28 +0000 (08:46 -0400)]
mem: Fix (ab)use of emplace to avoid temporary object creation

9 years agomem: Updated DRAMSim2 wrapper to new drain API
Andreas Hansson [Mon, 13 Jul 2015 12:46:16 +0000 (08:46 -0400)]
mem: Updated DRAMSim2 wrapper to new drain API

Somehow this one slipped through without being updated.

9 years agoruby: replace global g_abs_controls with per-RubySystem var
Brandon Potter [Fri, 10 Jul 2015 21:05:24 +0000 (16:05 -0500)]
ruby: replace global g_abs_controls with per-RubySystem var

This is another step in the process of removing global variables
from Ruby to enable multiple RubySystem instances in a single simulation.

The list of abstract controllers is per-RubySystem and should be
represented that way, rather than as a global.

Since this is the last remaining Ruby global variable, the
src/mem/ruby/Common/Global.* files are also removed.

9 years agoruby: replace global g_system_ptr with per-object pointers
Brandon Potter [Fri, 10 Jul 2015 21:05:23 +0000 (16:05 -0500)]
ruby: replace global g_system_ptr with per-object pointers

This is another step in the process of removing global variables
from Ruby to enable multiple RubySystem instances in a single simulation.

With possibly multiple RubySystem objects, we can no longer use a global
variable to find "the" RubySystem object.  Instead, each Ruby component
has to carry a pointer to the RubySystem object to which it belongs.

9 years agoruby: replace g_ruby_start with per-RubySystem m_start_cycle
Brandon Potter [Fri, 10 Jul 2015 21:05:23 +0000 (16:05 -0500)]
ruby: replace g_ruby_start with per-RubySystem m_start_cycle

This patch begins the process of removing global variables from the Ruby
source with the goal of eventually allowing users to create multiple Ruby
instances in a single simulation.  Currently, users cannot do so because
several global variables and static members are referenced by the RubySystem
object in a way that assumes that there will only ever be a single RubySystem.
These need to be replaced with per-RubySystem equivalents.

This specific patch replaces the global var g_ruby_start, which is used
to calculate throughput statistics for Throttles in simple networks and
links in Garnet networks, with a RubySystem instance var m_start_cycle.

9 years agoruby: remove extra whitespace and correct misspelled words
Brandon Potter [Fri, 10 Jul 2015 21:05:23 +0000 (16:05 -0500)]
ruby: remove extra whitespace and correct misspelled words

9 years agodev, arm: Add a device model that uses the NoMali model
Andreas Sandberg [Tue, 7 Jul 2015 09:03:14 +0000 (10:03 +0100)]
dev, arm: Add a device model that uses the NoMali model

Add a simple device shim that interfaces with the NoMali model
library. The gem5 side of the interface supports Mali T60x/T62x/T760
GPUs. This device model pretends to be a Mali GPU, but doesn't render
anything and executes in zero time.

9 years agoext: Add the NoMali GPU no-simulation library
Andreas Sandberg [Tue, 7 Jul 2015 09:03:13 +0000 (10:03 +0100)]
ext: Add the NoMali GPU no-simulation library

Add revision 9adf9d6e2d889a483a92136c96eb8a434d360561 of NoMali-model
from https://github.com/ARM-software/nomali-model. This library
implements the register interface of the Mali T6xx/T7xx series GPUs,
but doesn't do any rendering. It can be used to hide the effects of
software rendering.

9 years agostats: Update pc-switcheroo stats
Andreas Sandberg [Tue, 7 Jul 2015 08:51:05 +0000 (09:51 +0100)]
stats: Update pc-switcheroo stats

The pc-switcheroo test cases has slightly different timing after
decoupling draining from the SimObject hierarchy. This is expected
since objects aren't drained in the exact same order as before.

9 years agosim: Refactor and simplify the drain API
Andreas Sandberg [Tue, 7 Jul 2015 08:51:05 +0000 (09:51 +0100)]
sim: Refactor and simplify the drain API

The drain() call currently passes around a DrainManager pointer, which
is now completely pointless since there is only ever one global
DrainManager in the system. It also contains vestiges from the time
when SimObjects had to keep track of their child objects that needed
draining.

This changeset moves all of the DrainState handling to the Drainable
base class and changes the drain() and drainResume() calls to reflect
this. Particularly, the drain() call has been updated to take no
parameters (the DrainManager argument isn't needed) and return a
DrainState instead of an unsigned integer (there is no point returning
anything other than 0 or 1 any more). Drainable objects should return
either DrainState::Draining (equivalent to returning 1 in the old
system) if they need more time to drain or DrainState::Drained
(equivalent to returning 0 in the old system) if they are already in a
consistent state. Returning DrainState::Running is considered an
error.

Drain done signalling is now done through the signalDrainDone() method
in the Drainable class instead of using the DrainManager directly. The
new call checks if the state of the object is DrainState::Draining
before notifying the drain manager. This means that it is safe to call
signalDrainDone() without first checking if the simulator has
requested draining. The intention here is to reduce the code needed to
implement draining in simple objects.

9 years agosim: Decouple draining from the SimObject hierarchy
Andreas Sandberg [Tue, 7 Jul 2015 08:51:05 +0000 (09:51 +0100)]
sim: Decouple draining from the SimObject hierarchy

Draining is currently done by traversing the SimObject graph and
calling drain()/drainResume() on the SimObjects. This is not ideal
when non-SimObjects (e.g., ports) need draining since this means that
SimObjects owning those objects need to be aware of this.

This changeset moves the responsibility for finding objects that need
draining from SimObjects and the Python-side of the simulator to the
DrainManager. The DrainManager now maintains a set of all objects that
need draining. To reduce the overhead in classes owning non-SimObjects
that need draining, objects inheriting from Drainable now
automatically register with the DrainManager. If such an object is
destroyed, it is automatically unregistered. This means that drain()
and drainResume() should never be called directly on a Drainable
object.

While implementing the new functionality, the DrainManager has now
been made thread safe. In practice, this means that it takes a lock
whenever it manipulates the set of Drainable objects since SimObjects
in different threads may create Drainable objects
dynamically. Similarly, the drain counter is now an atomic_uint, which
ensures that it is manipulated correctly when objects signal that they
are done draining.

A nice side effect of these changes is that it makes the drain state
changes stricter, which the simulation scripts can exploit to avoid
redundant drains.

9 years agosim: Move mem(Writeback|Invalidate) to SimObject
Andreas Sandberg [Tue, 7 Jul 2015 08:51:04 +0000 (09:51 +0100)]
sim: Move mem(Writeback|Invalidate) to SimObject

The memWriteback() and memInvalidate() calls used to live in the
Serializable interface. In this series of patches, the Serializable
interface will be redesigned to make serialization independent of the
object graph and always work on the entire simulator. This means that
the Serialization interface won't be useful to perform maintenance of
the caches in a sub-graph of the entire SimObject graph. This
changeset moves these memory maintenance methods to the SimObject
interface instead.

9 years agosim: Make the drain state a global typed enum
Andreas Sandberg [Tue, 7 Jul 2015 08:51:04 +0000 (09:51 +0100)]
sim: Make the drain state a global typed enum

The drain state enum is currently a part of the Drainable
interface. The same state machine will be used by the DrainManager to
identify the global state of the simulator. Make the drain state a
global typed enum to better cater for this usage scenario.

9 years agopython: Remove redundant drain when changing memory modes
Andreas Sandberg [Tue, 7 Jul 2015 08:51:04 +0000 (09:51 +0100)]
python: Remove redundant drain when changing memory modes

When the Python helper code switches CPU models, it sometimes also
needs to change the memory mode of the simulator. When this happens,
it accidentally tried to drain the simulator despite having done so
already. This changeset removes the redundant drain.

9 years agosim: Add macros to serialize objects into a section
Andreas Sandberg [Tue, 7 Jul 2015 08:51:04 +0000 (09:51 +0100)]
sim: Add macros to serialize objects into a section

Add the SERIALIZE_OBJ / UNSERIALIZE_OBJ macros that serialize an
object into a subsection of the current checkpoint section.

9 years agobase: Add serialization support to Pixels and FrameBuffer
Andreas Sandberg [Tue, 7 Jul 2015 08:51:04 +0000 (09:51 +0100)]
base: Add serialization support to Pixels and FrameBuffer

Serialize pixels as unsigned 32 bit integers by adding the required
to_number() and stream operators. This is used by the FrameBuffer,
which now implements the Serializable interface. Users of frame
buffers are expected to serialize it into its own section by calling
serializeSection().

9 years agosim: Fix broken event unserialization
Andreas Sandberg [Tue, 7 Jul 2015 08:51:04 +0000 (09:51 +0100)]
sim: Fix broken event unserialization

Events expected to be unserialized using an event-specific
unserializeEvent call. This call was never actually used, which meant
the events relying on it never got unserialized (or scheduled after
unserialization).

Instead of relying on a custom call, we now use the normal
serialization code again. In order to schedule the event correctly,
the parrent object is expected to use the
EventQueue::checkpointReschedule() call. This happens automatically
for events that are serialized using the AutoSerialize mechanism.

9 years agosim: Refactor the serialization base class
Andreas Sandberg [Tue, 7 Jul 2015 08:51:03 +0000 (09:51 +0100)]
sim: Refactor the serialization base class

Objects that are can be serialized are supposed to inherit from the
Serializable class. This class is meant to provide a unified API for
such objects. However, so far it has mainly been used by SimObjects
due to some fundamental design limitations. This changeset redesigns
to the serialization interface to make it more generic and hide the
underlying checkpoint storage. Specifically:

  * Add a set of APIs to serialize into a subsection of the current
    object. Previously, objects that needed this functionality would
    use ad-hoc solutions using nameOut() and section name
    generation. In the new world, an object that implements the
    interface has the methods serializeSection() and
    unserializeSection() that serialize into a named /subsection/ of
    the current object. Calling serialize() serializes an object into
    the current section.

  * Move the name() method from Serializable to SimObject as it is no
    longer needed for serialization. The fully qualified section name
    is generated by the main serialization code on the fly as objects
    serialize sub-objects.

  * Add a scoped ScopedCheckpointSection helper class. Some objects
    need to serialize data structures, that are not deriving from
    Serializable, into subsections. Previously, this was done using
    nameOut() and manual section name generation. To simplify this,
    this changeset introduces a ScopedCheckpointSection() helper
    class. When this class is instantiated, it adds a new /subsection/
    and subsequent serialization calls during the lifetime of this
    helper class happen inside this section (or a subsection in case
    of nested sections).

  * The serialize() call is now const which prevents accidental state
    manipulation during serialization. Objects that rely on modifying
    state can use the serializeOld() call instead. The default
    implementation simply calls serialize(). Note: The old-style calls
    need to be explicitly called using the
    serializeOld()/serializeSectionOld() style APIs. These are used by
    default when serializing SimObjects.

  * Both the input and output checkpoints now use their own named
    types. This hides underlying checkpoint implementation from
    objects that need checkpointing and makes it easier to change the
    underlying checkpoint storage code.

9 years agotests: Skip SPARC tests if the required binaries are missing
Andreas Sandberg [Tue, 7 Jul 2015 08:51:03 +0000 (09:51 +0100)]
tests: Skip SPARC tests if the required binaries are missing

The full-system SPARC tests depend on several binaries that aren't
generally available to the wider community. Flag the tests as skipped
instead of failed if these binaries can't be found.

9 years agosim: Add serialization macros for std containers
Andreas Sandberg [Tue, 7 Jul 2015 08:51:03 +0000 (09:51 +0100)]
sim: Add serialization macros for std containers

9 years agomem: Cleanup CommMonitor in preparation for probe support
Andreas Sandberg [Mon, 6 Jul 2015 16:08:53 +0000 (17:08 +0100)]
mem: Cleanup CommMonitor in preparation for probe support

Make configuration parameters constant and get rid of an unnecessary
dependency on the Time class.

9 years agostats: x86: update stats missed out on in preivous changeset
Nilay Vaish [Mon, 6 Jul 2015 01:26:18 +0000 (20:26 -0500)]
stats: x86: update stats missed out on in preivous changeset

9 years agostats: update stale config.ini files, eio and few other stats.
Nilay Vaish [Sat, 4 Jul 2015 15:43:47 +0000 (10:43 -0500)]
stats: update stale config.ini files, eio and few other stats.

9 years agox86: Adjust the size of the values written to the x87 misc registers
Nikos Nikoleris [Sat, 4 Jul 2015 15:43:47 +0000 (10:43 -0500)]
x86: Adjust the size of the values written to the x87 misc registers
All x87 misc registers are implemented in an array of 64 bit values
but in real hardware the size of some of these registers is smaller.
Previsouly all 64 bits where incorrectly set and then later read.  To
ensure correctness we mask the value in setMiscRegNoEffect to write
only the valid bits.

Committed by: Nilay Vaish <nilay@cs.wisc.edu>

9 years agoconfig: Update location of ruby topologies in help
David Hashe [Sat, 4 Jul 2015 15:43:47 +0000 (10:43 -0500)]
config: Update location of ruby topologies in help

Committed by: Nilay Vaish <nilay@cs.wisc.edu>

9 years agoo3: correct the number of cc registers in rename map
Nilay Vaish [Sat, 4 Jul 2015 15:43:46 +0000 (10:43 -0500)]
o3: correct the number of cc registers in rename map

9 years agomem: packet: Add const to constructor argument
Nilay Vaish [Sat, 4 Jul 2015 15:43:46 +0000 (10:43 -0500)]
mem: packet: Add const to constructor argument

9 years agoruby: drop NetworkMessage class
Nilay Vaish [Sat, 4 Jul 2015 15:43:46 +0000 (10:43 -0500)]
ruby: drop NetworkMessage class

This patch drops the NetworkMessage class.  The relevant data members and functions
have been moved to the Message class, which was the parent of NetworkMessage.

9 years agoruby: mesi three level: name change to avoid clash
Nilay Vaish [Sat, 4 Jul 2015 15:43:46 +0000 (10:43 -0500)]
ruby: mesi three level: name change to avoid clash
The accessor function getDestination() for Destination variable in the
coherence message clashes with the getDestination() that is part of the Message
class.  Hence the name change.

9 years agoruby: remove message buffer node
Nilay Vaish [Sat, 4 Jul 2015 15:43:46 +0000 (10:43 -0500)]
ruby: remove message buffer node

This structure's only purpose was to provide a comparison function for
ordering messages in the MessageBuffer.  The comparison function is now
being moved to the Message class itself.  So we no longer require this
structure.

9 years agostats: Update stats for cache, crossbar and DRAM changes
Andreas Hansson [Fri, 3 Jul 2015 14:15:03 +0000 (10:15 -0400)]
stats: Update stats for cache, crossbar and DRAM changes

This update includes the changes to whole-line writes, the refinement
of Read to ReadClean and ReadShared, the introduction of CleanEvict
for snoop-filter tracking, and updates to the DRAM command scheduler
for bank-group-aware scheduling.

Needless to say, almost every regression is affected.

9 years agomem: Increase the default buffer sizes for the DDR4 controller
Andreas Hansson [Fri, 3 Jul 2015 14:14:48 +0000 (10:14 -0400)]
mem: Increase the default buffer sizes for the DDR4 controller

This patch increases the default read/write buffer sizes for the DDR4
controller config to values that are more suitable for the high
bandwidth and high bank count.

9 years agomem: Update DRAM command scheduler for bank groups
Wendy Elsasser [Fri, 3 Jul 2015 14:14:46 +0000 (10:14 -0400)]
mem: Update DRAM command scheduler for bank groups

This patch updates the command arbitration so that bank group timing
as well as rank-to-rank delays will be taken into account. The
resulting arbitration no longer selects commands (prepped or not) that
cannot issue seamlessly if there are commands that can issue
back-to-back, minimizing the effect of rank-to-rank (tCS) & same bank
group (tCCD_L) delays.

The arbitration selects a new command based on the following priority.
Within each priority band, the arbitration will use FCFS to select the
appropriate command:

1) Bank is prepped and burst can issue seamlessly, without a bubble

2) Bank is not prepped, but can prep and issue seamlessly, without a
bubble

3) Bank is prepped but burst cannot issue seamlessly. In this case, a
bubble will occur on the bus

Thus, to enable more parallelism in subsequent selections, an
unprepped packet is given higher priority if the bank prep can be
hidden. If the bank prep cannot be hidden, the selection logic will
choose a prepped packet that cannot issue seamlessly if one exist.
Otherwise, the default selection will choose the packet with the
minimum bank prep delay.

9 years agomem: Avoid DRAM write queue iteration for merging and read lookup
Andreas Hansson [Fri, 3 Jul 2015 14:14:45 +0000 (10:14 -0400)]
mem: Avoid DRAM write queue iteration for merging and read lookup

This patch adds a simple lookup structure to avoid iterating over the
write queue to find read matches, and for the merging of write
bursts. Instead of relying on iteration we simply store a set of
currently-buffered write-burst addresses and compare against
these. For the reads we still perform the iteration if we have a
match. For the writes, we rely entirely on the set. Note that there
are corner-cases where sub-bursts would actually not be mergeable
without a read-modify-write. We ignore these cases and opt for speed.

9 years agomem: Delay responses in the crossbar before forwarding
Andreas Hansson [Fri, 3 Jul 2015 14:14:44 +0000 (10:14 -0400)]
mem: Delay responses in the crossbar before forwarding

This patch changes how the crossbar classes deal with
responses. Instead of forwarding responses directly and burdening the
neighbouring modules in paying for the latency (through the
pkt->headerDelay), we now queue them before sending them.

The coherency protocol is not affected as requests and any snoop
requests/responses are still passed on in zero time. Thus, the
responses end up paying for any header delay accumulated when passing
through the crossbar. Any latency incurred on the request path will be
paid for on the response side, if no other module has dealt with it.

As a result of this patch, responses are returned at a later
point. This affects the number of outstanding transactions, and quite
a few regressions see an impact in blocking due to no MSHRs, increased
cache-miss latencies, etc.

Going forward we should be able to use the same concept also for snoop
responses, and any request that is not an express snoop.

9 years agomem: Remove redundant is_top_level cache parameter
Andreas Hansson [Fri, 3 Jul 2015 14:14:43 +0000 (10:14 -0400)]
mem: Remove redundant is_top_level cache parameter

This patch takes the final step in removing the is_top_level parameter
from the cache. With the recent changes to read requests and write
invalidations, the parameter is no longer needed, and consequently
removed.

This also means that asymmetric cache hierarchies are now fully
supported (and we are actually using them already with L1 caches, but
no table-walker caches, connected to a shared L2).

9 years agomem: Split WriteInvalidateReq into write and invalidate
Andreas Hansson [Fri, 3 Jul 2015 14:14:41 +0000 (10:14 -0400)]
mem: Split WriteInvalidateReq into write and invalidate

WriteInvalidateReq ensures that a whole-line write does not incur the
cost of first doing a read exclusive, only to later overwrite the
data. This patch splits the existing WriteInvalidateReq into a
WriteLineReq, which is done locally, and an InvalidateReq that is sent
out throughout the memory system. The WriteLineReq re-uses the normal
WriteResp.

The change allows us to better express the difference between the
cache that is performing the write, and the ones that are merely
invalidating. As a consequence, we no longer have to rely on the
isTopLevel flag. Moreover, the actual memory in the system does not
see the intitial write, only the writeback. We were marking the
written line as dirty already, so there is really no need to also push
the write all the way to the memory.

The overall flow of the write-invalidate operation remains the same,
i.e. the operation is only carried out once the response for the
invalidate comes back. This patch adds the InvalidateResp for this
very reason.

9 years agomem: Add ReadCleanReq and ReadSharedReq packets
Andreas Hansson [Fri, 3 Jul 2015 14:14:40 +0000 (10:14 -0400)]
mem: Add ReadCleanReq and ReadSharedReq packets

This patch adds two new read requests packets:

ReadCleanReq - For a cache to explicitly request clean data. The
response is thus exclusive or shared, but not owned or modified. The
read-only caches (see previous patch) use this request type to ensure
they do not get dirty data.

ReadSharedReq - We add this to distinguish cache read requests from
those issued by other masters, such as devices and CPUs. Thus, devices
use ReadReq, and caches use ReadCleanReq, ReadExReq, or
ReadSharedReq. For the latter, the response can be any state, shared,
exclusive, owned or even modified.

Both ReadCleanReq and ReadSharedReq re-use the normal ReadResp. The
two transactions are aligned with the emerging cache-coherent TLM
standard and the AMBA nomenclature.

With this change, the normal ReadReq should never be used by a cache,
and is reserved for the actual (non-caching) masters in the system. We
thus have a way of identifying if a request came from a cache or
not. The introduction of ReadSharedReq thus removes the need for the
current isTopLevel hack, and also allows us to stop relying on
checking the packet size to determine if the source is a cache or
not. This is fixed in follow-on patches.

9 years agomem: Allow read-only caches and check compliance
Andreas Hansson [Fri, 3 Jul 2015 14:14:39 +0000 (10:14 -0400)]
mem: Allow read-only caches and check compliance

This patch adds a parameter to the BaseCache to enable a read-only
cache, for example for the instruction cache, or table-walker cache
(not for x86). A number of checks are put in place in the code to
ensure a read-only cache does not end up with dirty data.

A follow-on patch adds suitable read requests to allow a read-only
cache to explicitly ask for clean data.

9 years agomem: Add clean evicts to improve snoop filter tracking
Ali Jafri [Fri, 3 Jul 2015 14:14:37 +0000 (10:14 -0400)]
mem: Add clean evicts to improve snoop filter tracking

This patch adds eviction notices to the caches, to provide accurate
tracking of cache blocks in snoop filters. We add the CleanEvict
message to the memory heirarchy and use both CleanEvicts and
Writebacks with BLOCK_CACHED flags to propagate notice of clean and
dirty evictions respectively, down the memory hierarchy. Note that the
BLOCK_CACHED flag indicates whether there exist any copies of the
evicted block in the caches above the evicting cache.

The purpose of the CleanEvict message is to notify snoop filters of
silent evictions in the relevant caches. The CleanEvict message
behaves much like a Writeback. CleanEvict is a write and a request but
unlike a Writeback, CleanEvict does not have data and does not need
exclusive access to the block. The cache generates the CleanEvict
message on a fill resulting in eviction of a clean block. Before
travelling downwards CleanEvict requests generate zero-time snoop
requests to check if the same block is cached in upper levels of the
memory heirarchy. If the block exists, the cache discards the
CleanEvict message. The snoops check the tags, writeback queue and the
MSHRs of upper level caches in a manner similar to snoops generated
from HardPFReqs. Currently CleanEvicts keep travelling towards main
memory unless they encounter the block corresponding to their address
or reach main memory (since we have no well defined point of
serialisation). Main memory simply discards CleanEvict messages.

We have modified the behavior of Writebacks, such that they generate
snoops to check for the presence of blocks in upper level caches. It
is possible in our current implmentation for a lower level cache to be
writing back a block while a shared copy of the same block exists in
the upper level cache. If the snoops find the same block in upper
level caches, we set the BLOCK_CACHED flag in the Writeback message.

We have also added logic to account for interaction of other message
types with CleanEvicts waiting in the writeback queue. A simple
example is of a response arriving at a cache removing any CleanEvicts
to the same address from the cache's writeback queue.

9 years agomem: Convert Request static const flags to enums
Andreas Hansson [Fri, 3 Jul 2015 14:14:36 +0000 (10:14 -0400)]
mem: Convert Request static const flags to enums

This patch fixes an issue which is very wide spread in the codebase,
causing sporadic linking failures. The issue is that we declare static
const class variables in the header, without any definition (as part
of a source file). In most cases the compiler propagates the value and
we have no issues. However, especially for less optimising builds such
as debug, we get sporadic linking failures due to undefined
references.

This patch fixes the Request class, by turning the static const flags
and master IDs into C++11 typed enums.

9 years agoscons: remove dead leading underscore check
Curtis Dunham [Fri, 3 Jul 2015 14:14:35 +0000 (10:14 -0400)]
scons: remove dead leading underscore check

e56c3d8 (2008) added it but 8e37348 (2010) removed its only use.

9 years agobase: remove fd from object loaders
Curtis Dunham [Fri, 3 Jul 2015 14:14:34 +0000 (10:14 -0400)]
base: remove fd from object loaders

All the object loaders directly examine the (already completely loaded
by object_file.cc) memory image. There is no current motivation to
keep the fd around.

9 years agoutil: Remove DRAMPower trace script
Andreas Hansson [Fri, 3 Jul 2015 14:14:24 +0000 (10:14 -0400)]
util: Remove DRAMPower trace script

This script is deprecated and DRAMPower is now properly integrated
with the controller model.

9 years agoscons: Bump compiler requirement to gcc >= 4.7 and clang >= 3.1
Andreas Hansson [Fri, 3 Jul 2015 14:14:15 +0000 (10:14 -0400)]
scons: Bump compiler requirement to gcc >= 4.7 and clang >= 3.1

This patch updates the compiler minimum requirement to gcc 4.7 and
clang 3.1, thus allowing:

1. Explicit virtual overrides (no need for M5_ATTR_OVERRIDE)
2. Non-static data member initializers
3. Template aliases
4. Delegating constructors

This patch also enables a transition from --std=c++0x to --std=c++11.

9 years agoruby: slicc: remove README
Nilay Vaish [Thu, 25 Jun 2015 16:58:30 +0000 (11:58 -0500)]
ruby: slicc: remove README

No longer maintained.  Updates are only made to the wiki page.  So being
dropped.

9 years agoruby: message: remove a data member added by mistake
Nilay Vaish [Thu, 25 Jun 2015 16:58:29 +0000 (11:58 -0500)]
ruby: message: remove a data member added by mistake

I (Nilay) had mistakenly added a data member to  the Message class in revision c1694b4032a6.
The data member is being removed.

9 years agoRuby: Remove assert in RubyPort retry list logic stable_2015_09_03
Jason Power [Thu, 25 Jun 2015 16:58:28 +0000 (11:58 -0500)]
Ruby: Remove assert in RubyPort retry list logic

Remove the assert when adding a port to the RubyPort retry list.
Instead of asserting, just ignore the added port, since it's
already on the list.
Without this patch, Ruby+detailed fails for even the simplest tests

9 years agobase: Add a warn_if macro
Andreas Sandberg [Sun, 21 Jun 2015 19:52:13 +0000 (20:52 +0100)]
base: Add a warn_if macro

Add a warn if macro that is analogous to the panic_if and fatal_if.

9 years agoarm: Cleanup arch headers to remove dma_device.hh dependency
Andreas Sandberg [Sun, 21 Jun 2015 19:48:33 +0000 (20:48 +0100)]
arm: Cleanup arch headers to remove dma_device.hh dependency

Break the dependency on dma_device.hh by forward-declaring DmaPort in
the relevant header.

9 years agomem: Add check for express snoop in packet destructor
Ali Jafri [Tue, 9 Jun 2015 13:21:18 +0000 (09:21 -0400)]
mem: Add check for express snoop in packet destructor

Snoop packets share the request pointer with the originating
packets. We need to ensure that the snoop packet destruction does not
delete the request. Snoops are used for reads, invalidations,
HardPFReqs, Writebacks and CleansEvicts. Reads, invalidations, and
HardPFReqs need a response so their snoops do not delete the
request. For Writebacks and CleanEvicts we need to check explicitly
for whethere the current packet is an express snoop, in whcih case do
not delete the request.

9 years agomem: Fix snoop packet data allocation bug
Andreas Hansson [Tue, 9 Jun 2015 13:21:17 +0000 (09:21 -0400)]
mem: Fix snoop packet data allocation bug

This patch fixes an issue where the snoop packet did not properly
forward the data pointer in case of static data.

9 years agoarm: Delete debug print in initialization of hardware thread
Rune Holm [Tue, 9 Jun 2015 13:21:16 +0000 (09:21 -0400)]
arm: Delete debug print in initialization of hardware thread

There seems to have been a debug print left in when the original ARMv8
support was merged in. This printout is performed every time you
initialize a hardware thread, and it prints raw pointers, so it always
causes diffs in the regression. This patch removes the debug print.

9 years agoarm: Fix typo in ldrsh instruction name
Rune Holm [Tue, 9 Jun 2015 13:21:15 +0000 (09:21 -0400)]
arm: Fix typo in ldrsh instruction name

ldrsh was typoed as hdrsh, which is a bit annoying when printing
instructions.  This patch fixes it.

9 years agobase: Reset CircleBuf size on flush()
Andreas Sandberg [Tue, 9 Jun 2015 13:21:14 +0000 (09:21 -0400)]
base: Reset CircleBuf size on flush()

The flush() method in CircleBuf resets the state of the circular
buffer, but fails to set size to zero. This obviously confuses code
that tries to determine the amount of data in the buffer. Set the size
to zero on flush.

9 years agodev, arm: Include PIO size in AmbaDmaDevice constructor
Andreas Sandberg [Tue, 9 Jun 2015 13:21:12 +0000 (09:21 -0400)]
dev, arm: Include PIO size in AmbaDmaDevice constructor

Make it possible to specify the size of the PIO space for an AMBA DMA
device. Maintain backwards compatibility and default to zero.

9 years agoscons: Allow GNU assembler version strings with hyphen
Andreas Hansson [Tue, 9 Jun 2015 13:21:11 +0000 (09:21 -0400)]
scons: Allow GNU assembler version strings with hyphen

Make scons a bit more forgiving when determining the GNU assembler version.

9 years agoruby: Fix MESI consistency bug
Marco Elver [Sun, 7 Jun 2015 19:02:40 +0000 (14:02 -0500)]
ruby: Fix MESI consistency bug

Fixes missed forward eviction to CPU. With the O3CPU this can lead to load-load
reordering, as the LQ is never notified of the invalidate.

Committed by: Nilay Vaish <nilay@cs.wisc.edu>

9 years agomem: Add HMC Timing Parameters
Matthias Jung [Sun, 7 Jun 2015 19:02:40 +0000 (14:02 -0500)]
mem: Add HMC Timing Parameters
A single HMC-2500 x32 model based on:

[1] DRAMSpec: a high-level DRAM bank modelling tool developed at the University
of Kaiserslautern. This high level tool uses RC (resistance-capacitance) and CV
(capacitance-voltage) models to estimate the DRAM bank latency and power
numbers.

[2] A Logic-base Interconnect for Supporting Near Memory Computation in the
Hybrid Memory Cube (E. Azarkhish et. al) Assumed for the HMC model is a 30 nm
technology node.  The modelled HMC consists of a 4 Gbit part with 4 layers
connected with TSVs.  Each layer has 16 vaults and each vault consists of 2
banks per layer.  In order to be able to use the same controller used for 2D
DRAM generations for HMC, the following analogy is done: Channel (DDR) => Vault
(HMC) device_size (DDR) => size of a single layer in a vault ranks per channel
(DDR) => number of layers banks per rank (DDR) => banks per layer devices per
rank (DDR) => devices per layer ( 1 for HMC).  The parameters for which no
input is available are inherited from the DDR3 configuration.

9 years agoarch: fix build under MacOSX
Ruslan Bukin ext:(%2C%20Zhang%20Guoye) [Sun, 7 Jun 2015 19:02:40 +0000 (14:02 -0500)]
arch: fix build under MacOSX
put O_DIRECT under ifdefs -- this fixes build for MacOSX.
Also use correct class for arm64 openFlagTable.

Committed by: Nilay Vaish <nilay@cs.wisc.edu>

9 years agomem: addr_mapper: restore old address if request not sent
Christoph Pfister [Sat, 30 May 2015 11:45:17 +0000 (13:45 +0200)]
mem: addr_mapper: restore old address if request not sent

Committed by: Nilay Vaish <nilay@cs.wisc.edu>

9 years agosim, arm: add checkpoint upgrader for d02b45a5
Curtis Dunham [Mon, 1 Jun 2015 23:05:11 +0000 (18:05 -0500)]
sim, arm: add checkpoint upgrader for d02b45a5

The insertion of CONTEXTIDR_EL2 in the ARM miscellaneous registers
obsoletes old checkpoints.

9 years agokvm, arm: Add support for aarch64
Andreas Sandberg [Mon, 1 Jun 2015 18:44:19 +0000 (19:44 +0100)]
kvm, arm: Add support for aarch64

This changeset adds support for aarch64 in kvm. The CPU module
supports both checkpointing and online CPU model switching as long as
no devices are simulated by the host kernel. It currently has the
following limitations:

   * The system register based generic timer can only be simulated by
     the host kernel. Workaround: Use a memory mapped timer instead to
     simulate the timer in gem5.

   * Simulating devices (e.g., the generic timer) in the host kernel
     requires that the host kernel also simulates the GIC.

   * ID registers in the host and in gem5 must match for switching
     between simulated CPUs and KVM. This is particularly important
     for ID registers describing memory system capabilities (e.g.,
     ASID size, physical address size).

   * Switching between a virtualized CPU and a simulated CPU is
     currently not supported if in-kernel device emulation is
     used. This could be worked around by adding support for switching
     to the gem5 (e.g., the KvmGic) side of the device models. A
     simpler workaround is to avoid in-kernel device models
     altogether.

9 years agokvm, arm, dev: Add an in-kernel GIC implementation
Andreas Sandberg [Mon, 1 Jun 2015 18:44:17 +0000 (19:44 +0100)]
kvm, arm, dev: Add an in-kernel GIC implementation

This changeset adds a GIC implementation that uses the kernel's
built-in support for simulating the interrupt controller. Since there
is currently no support for state transfer between gem5 and the
kernel, the device model does not support serialization and CPU
switching (which would require switching to a gem5-simulated GIC).

9 years agokvm: Handle inst events at the current instruction count
Andreas Sandberg [Mon, 1 Jun 2015 18:43:41 +0000 (19:43 +0100)]
kvm: Handle inst events at the current instruction count

There are cases (particularly when attaching GDB) when instruction
events are scheduled at the current instruction tick. This used to
trigger an assertion error in kvm. This changeset adds a check for
this condition and forces KVM to do a quick entry that completes any
pending IO operations, but does not execute any new instructions,
before servicing the event. We could check if we need to enter KVM at
all, but forcing a quick entry is makes the code slightly cleaner and
does not hurt correctness (performance is hardly an issue in these
cases).

9 years agokvm, arm: Move ARM-specific files to arch/arm/kvm/
Andreas Sandberg [Mon, 1 Jun 2015 18:43:40 +0000 (19:43 +0100)]
kvm, arm: Move ARM-specific files to arch/arm/kvm/

This changeset moves the ARM-specific KVM CPU implementation to
arch/arm/kvm/. This change is expected to keep the source tree
somewhat cleaner as we start adding support for ARMv8 and KVM
in-kernel interrupt controller simulation.

--HG--
rename : src/cpu/kvm/ArmKvmCPU.py => src/arch/arm/kvm/ArmKvmCPU.py
rename : src/cpu/kvm/arm_cpu.cc => src/arch/arm/kvm/arm_cpu.cc
rename : src/cpu/kvm/arm_cpu.hh => src/arch/arm/kvm/arm_cpu.hh

9 years agoarm: implement the CONTEXTIDR_EL2 system reg.
Curtis Dunham [Tue, 26 May 2015 07:21:45 +0000 (03:21 -0400)]
arm: implement the CONTEXTIDR_EL2 system reg.

9 years agoarm, stats: Update stats to reflect reduction in misc reg reads
Andreas Hansson [Tue, 26 May 2015 07:21:44 +0000 (03:21 -0400)]
arm, stats: Update stats to reflect reduction in misc reg reads

9 years agoarm: Make address translation faster with better caching
Nathanael Premillieu [Tue, 26 May 2015 07:21:42 +0000 (03:21 -0400)]
arm: Make address translation faster with better caching

This patch adds better caching of the sys regs for AArch64, thus
avoiding unnecessary calls to tc->readMiscReg(MISCREG_CPSR) in the
non-faulting case.

9 years agobase: Allow multiple interleaved ranges
Andreas Hansson [Tue, 26 May 2015 07:21:40 +0000 (03:21 -0400)]
base: Allow multiple interleaved ranges

This patch changes how the address range calculates intersection such
that a system can have a number of non-overlapping interleaved ranges
without complaining. Without this patch we end up with a panic.