gem5.git
10 years agocpu: Add flag name printing to StaticInst
Andrew Bardsley [Fri, 9 May 2014 22:58:47 +0000 (18:58 -0400)]
cpu: Add flag name printing to StaticInst

This patch adds a the member function StaticInst::printFlags to allow all
of an instruction's flags to be printed without using the individual
is... member functions or resorting to exposing the 'flags' vector

It also replaces the enum definition StaticInst::Flags with a
Python-generated enumeration and adds to the enum generation mechanism
in src/python/m5/params.py to allow Enums to be placed in namespaces
other than Enums or, alternatively, in wrapper structs allowing them to
be inherited by other classes (so populating that class's name-space
with the enumeration element names).

10 years agocpu: Timebuf const accessors
Andrew Bardsley [Fri, 9 May 2014 22:58:47 +0000 (18:58 -0400)]
cpu: Timebuf const accessors

Add const accessors for timebuf elements.

10 years agoarm: Add branch flags onto macroops
Andrew Bardsley [Fri, 9 May 2014 22:58:47 +0000 (18:58 -0400)]
arm: Add branch flags onto macroops

Mark branch flags onto macroops to allow branch prediction before
microop decomposition

10 years agocpu: Allow setWhen on trace objects
Andrew Bardsley [Fri, 9 May 2014 22:58:47 +0000 (18:58 -0400)]
cpu: Allow setWhen on trace objects

Allow setting of 'when' in trace records.  This allows later times
than the arbitrary record creation point to be used as inst. times

10 years agoarm: add preliminary ISA splits for ARM arch
Curtis Dunham [Fri, 9 May 2014 22:58:47 +0000 (18:58 -0400)]
arm: add preliminary ISA splits for ARM arch

10 years agoarch: teach ISA parser how to split code across files
Curtis Dunham [Fri, 9 May 2014 22:58:47 +0000 (18:58 -0400)]
arch: teach ISA parser how to split code across files

This patch encompasses several interrelated and interdependent changes
to the ISA generation step.  The end goal is to reduce the size of the
generated compilation units for instruction execution and decoding so
that batch compilation can proceed with all CPUs active without
exhausting physical memory.

The ISA parser (src/arch/isa_parser.py) has been improved so that it can
accept 'split [output_type];' directives at the top level of the grammar
and 'split(output_type)' python calls within 'exec {{ ... }}' blocks.
This has the effect of "splitting" the files into smaller compilation
units.  I use air-quotes around "splitting" because the files themselves
are not split, but preprocessing directives are inserted to have the same
effect.

Architecturally, the ISA parser has had some changes in how it works.
In general, it emits code sooner.  It doesn't generate per-CPU files,
and instead defers to the C preprocessor to create the duplicate copies
for each CPU type.  Likewise there are more files emitted and the C
preprocessor does more substitution that used to be done by the ISA parser.

Finally, the build system (SCons) needs to be able to cope with a
dynamic list of source files coming out of the ISA parser. The changes
to the SCons{cript,truct} files support this. In broad strokes, the
targets requested on the command line are hidden from SCons until all
the build dependencies are determined, otherwise it would try, realize
it can't reach the goal, and terminate in failure. Since build steps
(i.e. running the ISA parser) must be taken to determine the file list,
several new build stages have been inserted at the very start of the
build. First, the build dependencies from the ISA parser will be emitted
to arch/$ISA/generated/inc.d, which is then read by a new SCons builder
to finalize the dependencies. (Once inc.d exists, the ISA parser will not
need to be run to complete this step.) Once the dependencies are known,
the 'Environments' are made by the makeEnv() function. This function used
to be called before the build began but now happens during the build.
It is easy to see that this step is quite slow; this is a known issue
and it's important to realize that it was already slow, but there was
no obvious cause to attribute it to since nothing was displayed to the
terminal. Since new steps that used to be performed serially are now in a
potentially-parallel build phase, the pathname handling in the SCons scripts
has been tightened up to deal with chdir() race conditions. In general,
pathnames are computed earlier and more likely to be stored, passed around,
and processed as absolute paths rather than relative paths.  In the end,
some of these issues had to be fixed by inserting serializing dependencies
in the build.

Minor note:
For the null ISA, we just provide a dummy inc.d so SCons is never
compelled to try to generate it. While it seems slightly wrong to have
anything in src/arch/*/generated (i.e. a non-generated 'generated' file),
it's by far the simplest solution.

10 years agoconfig: Avoid generating a reference to myself for Parent.any
Geoffrey Blake [Fri, 9 May 2014 22:58:47 +0000 (18:58 -0400)]
config: Avoid generating a reference to myself for Parent.any

The unproxy code for Parent.any can generate a circular reference
in certain situations with classes hierarchies like those in ClockDomain.py.
This patch solves this by marking ouself as visited to make sure the
search does not resolve to a self-reference.

10 years agoarch, arm: Preserve TLB bootUncacheability when switching CPUs
Geoffrey Blake [Fri, 9 May 2014 22:58:47 +0000 (18:58 -0400)]
arch, arm: Preserve TLB bootUncacheability when switching CPUs

The ARM TLBs have a bootUncacheability flag used to make some loads
and stores become uncacheable when booting in FS mode. Later the
flag is cleared to let those loads and stores operate as normal.  When
doing a takeOverFrom(), this flag's state is not preserved and is
momentarily reset until the CPSR is touched. On single core runs this
is a non-issue. On multi-core runs this can lead to crashes on the O3
CPU model from the following series of events:
 1) takeOverFrom executed to switch from Atomic -> O3
 2) All bootUncacheability flags are reset to true
 3) Core2 tries to execute a load covered by bootUncacheability, it
    is flagged as uncacheable
 4) Core2's load needs to replay due to a pipeline flush
 3) Core1 core does an action on CPSR
 4) The handling code for CPSR then checks all other cores
    to determine if bootUncacheability can be set to false
 5) Asynchronously set bootUncacheability on all cores to false
 6) Core2 replays load previously set as uncacheable and notices
    it is now flagged as cacheable, leads to a panic.
This patch implements takeOverFrom() functionality for the ARM TLBs
to preserve flag values when switching from atomic -> detailed.

10 years agocpu: add more instruction mix statistics
Curtis Dunham [Fri, 9 May 2014 22:58:47 +0000 (18:58 -0400)]
cpu: add more instruction mix statistics

For the o3, add instruction mix (OpClass) histogram at commit (stats
also already collected at issue). For the simple CPUs we add a
histogram of executed instructions

10 years agomem: Squash prefetch requests from downstream caches
Mitch Hayenga [Fri, 9 May 2014 22:58:46 +0000 (18:58 -0400)]
mem: Squash prefetch requests from downstream caches

This patch squashes prefetch requests from downstream caches,
so that they do not steal cachelines away from caches closer
to the cpu.  It was originally coded by Mitch Hayenga and
modified by Aasheesh Kolli.

10 years agostats: Method stats source
Stephan Diestelhorst [Fri, 9 May 2014 22:58:46 +0000 (18:58 -0400)]
stats: Method stats source

This source for stats binds an object and a method / function from the object
to a stats object. This allows pulling out stats from object methods without
needing to go through a global, or static shim.

Syntax is somewhat unpleasant, but the templates and method pointer type
specification were quite tricky.  Interface is very clean though; and similar
to .functor

10 years agocpu, arm: Allow the specification of a socket field
Akash Bagdia [Fri, 9 May 2014 22:58:46 +0000 (18:58 -0400)]
cpu, arm: Allow the specification of a socket field

Allow the specification of a socket ID for every core that is reflected in the
MPIDR field in ARM systems.  This allows studying multi-socket / cluster
systems with ARM CPUs.

10 years agomem: Auto-generate CommMonitor trace file names
Sascha Bischoff [Fri, 9 May 2014 22:58:46 +0000 (18:58 -0400)]
mem: Auto-generate CommMonitor trace file names

Splits the CommMonitor trace_file parameter into three parameters. Previously,
the trace was only enabled if the trace_file parameter was set, and would be
written to this file. This patch adds in a trace_enable and trace_compress
parameter to the CommMonitor.

No trace is generated if trace_enable is set to False. If it is set to True, the
trace is written to a file based on the name of the SimObject in the simulation
hierarchy. For example, system.cluster.il1_commmonitor.trc. This filename can be
overridden by additionally specifying a file name to the trace_file parameter
(more on this later).

The trace_compress parameter will append .gz to any filename if set to True.
This enables compression of the generated traces. If the file name already ends
in .gz, then no changes are made.

The trace_file parameter will override the name set by the trace_enable
parameter. In the case that the specified name does not end in .gz but
trace_compress is set to true, .gz is appended to the supplied file name.

10 years agoarm: Panics in miscreg read functions can be tripped by O3 model
Geoffrey Blake [Fri, 9 May 2014 22:58:46 +0000 (18:58 -0400)]
arm: Panics in miscreg read functions can be tripped by O3 model

Unimplemented miscregs for the generic timer were guarded by panics
in arm/isa.cc which can be tripped by the O3 model if it speculatively
executes a wrong path containing a mrs instruction with a bad miscreg
index. These registers were flagged as implemented and accessible.
This patch changes the miscreg info bit vector to flag them as
unimplemented and inaccessible. In this case, and UndefinedInst
fault will be generated if the register access is not trapped
by a hypervisor.

10 years agodev: Set HDLCD default pixel clock for 1080p @ 60Hz
Chris Emmons [Fri, 9 May 2014 22:58:46 +0000 (18:58 -0400)]
dev: Set HDLCD default pixel clock for 1080p @ 60Hz

This patch changes the default pixel clock to effectively generate
1080p resolution at 60 frames per second. It is dependent upon the
kernel device tree file using the specified resolution / display
string in the comments.

10 years agoarm: quick hack to allow a greater number of CPUs to a guest OS
Matt Evans [Fri, 9 May 2014 22:58:46 +0000 (18:58 -0400)]
arm: quick hack to allow a greater number of CPUs to a guest OS

This is a quick hack to communicate a greater number of CPUs to a guest OS via
the ARM A9 SCU config register. Some OSes (Linux) just look at the bottom field
to count CPUs and with a small change can look at bits [3:0] to learn about up
to 16 CPUs.

Very much unsupported (and contains warning messages as such) but useful for
running 8 core sims without hardwiring CPU count in the guest OS.

10 years agoarm: Add Makefile for aarch64 build of util/m5
Eric Van Hensbergen [Fri, 9 May 2014 22:58:46 +0000 (18:58 -0400)]
arm: Add Makefile for aarch64 build of util/m5

10 years agoarch: remove inline specifiers on all inst constrs, all ISAs
Curtis Dunham [Fri, 9 May 2014 22:58:46 +0000 (18:58 -0400)]
arch: remove inline specifiers on all inst constrs, all ISAs

With (upcoming) separate compilation, they are useless.  Only
link-time optimization could re-inline them, but ideally
feedback-directed optimization would choose to do so only for
profitable (i.e. common) instructions.

10 years agoarm: cleanup ARM ISA definition
Curtis Dunham [Fri, 9 May 2014 22:58:46 +0000 (18:58 -0400)]
arm: cleanup ARM ISA definition

10 years agoext: disable PLY debugging
Curtis Dunham [Thu, 20 Mar 2014 00:18:43 +0000 (19:18 -0500)]
ext: disable PLY debugging

Very rarely does anyone ever mess with PLY code, and when
such a need arises, the developer can reenable this flag in
their working tree.

This will eliminate the "generating LALR tables" message
during compilation and temporary parser.out file as well.

10 years agoscons: Require SWIG >= 2.0.4 and remove vector typemaps
Curtis Dunham [Fri, 9 May 2014 22:58:46 +0000 (18:58 -0400)]
scons: Require SWIG >= 2.0.4 and remove vector typemaps

SWIG commit fd666c1 (*) made it unnecessary for gem5 to have these
typemaps to handle Vector types.

* https://github.com/swig/swig/commit/fd666c1440628a847793bbe1333c27dfa2f757f0

10 years agoarm: Correctly display disassembly of vldmia/vstmia
Curtis Dunham [Wed, 23 Apr 2014 09:18:30 +0000 (05:18 -0400)]
arm: Correctly display disassembly of vldmia/vstmia

The MicroMemOp class generates the disassembly for both integer
and floating point instructions, but it would always print its
first operand as an integer register without considering that the
op may be a floating instruction in which case a float register
should be displayed instead.

10 years agoutil: Valgrind suppression addition
Mitch Hayenga [Wed, 23 Apr 2014 09:18:29 +0000 (05:18 -0400)]
util: Valgrind suppression addition

Adds a suppression rule to util/valgrind-suppressions due to a minor bug
present in zlib that has no impact on simulation.

10 years agosim: Use correct unit for abort message
Andreas Hansson [Wed, 23 Apr 2014 09:18:27 +0000 (05:18 -0400)]
sim: Use correct unit for abort message

This patch fixes the unit in the abort printout.

10 years agocpu: Fix setTranslateLatency() bug for squashed instructions
Mitchell Hayenga [Wed, 23 Apr 2014 09:18:26 +0000 (05:18 -0400)]
cpu: Fix setTranslateLatency() bug for squashed instructions

setTranslateLatency could sometimes improperly access a deleted request
packet after an instruction was squashed.

10 years agomisc: Proper type check and import for PortRef
Sascha Bischoff [Wed, 23 Apr 2014 09:18:25 +0000 (05:18 -0400)]
misc: Proper type check and import for PortRef

Rewriting the type checking around PortRef, which was interacting strangely
with other Python scripts.

Tested-by: stephan.diestelhorst@arm.com
10 years agocpu: Fix case where o3 lsq could print out uninitialized data
Mitch Hayenga [Tue, 1 Apr 2014 19:22:06 +0000 (14:22 -0500)]
cpu: Fix case where o3 lsq could print out uninitialized data

In the O3 LSQ, data read/written is printed out in DPRINTFs.  However,
the data field is treated as a character string with a null terminated.
However the data field is not encoded this way.  This patch removes
that possibility by removing the data part of the print.

10 years agomem: Don't print out the data of a cache block
Mitch Hayenga [Tue, 1 Apr 2014 19:24:36 +0000 (14:24 -0500)]
mem: Don't print out the data of a cache block

This never actually worked since it was printing out only a word
of the cache block and not the entire thing and doubly didn't work
csprintf overrides the %#x specifier and assumes a char* array is
actually a string.

10 years agoarm: Don't use a stack allocated mnemonic
Mitchell Hayenga [Wed, 23 Apr 2014 09:18:20 +0000 (05:18 -0400)]
arm: Don't use a stack allocated mnemonic

FailUnimplemented passed a stack created mnemonic as a const char * which
causes some grief when the stack goes away.

10 years agocpu: Add O3 CPU width checks
Dam Sunwoo [Wed, 23 Apr 2014 09:18:18 +0000 (05:18 -0400)]
cpu: Add O3 CPU width checks

O3CPU has a compile-time maximum width set in o3/impl.hh, but checking
the configuration against this limit was not implemented anywhere
except for fetch. Configuring a wider pipe than the limit can silently
cause various issues during the simulation. This patch adds the proper
checking in the constructor of the various pipeline stages.

10 years agobase: explicitly suggest potential use of 'All' debug flags
Curtis Dunham [Wed, 23 Apr 2014 09:17:59 +0000 (05:17 -0400)]
base: explicitly suggest potential use of 'All' debug flags

Without this declaration, new clangs will complain about this value
being unused. It has no explicit use in the codebase, but it can be
useful to turn on all debugging flags while in a debugger to greatly
increase simulator verbosity.

10 years agoarch: remove 'null update' check in isa-parser
Curtis Dunham [Wed, 23 Apr 2014 09:17:57 +0000 (05:17 -0400)]
arch: remove 'null update' check in isa-parser

SCons already does this for all build steps.

10 years agostats: better error message for uninitialized statistic
Curtis Dunham [Tue, 11 Feb 2014 00:24:20 +0000 (18:24 -0600)]
stats: better error message for uninitialized statistic

As suggested by Nathan Binkert in 2008:
http://permalink.gmane.org/gmane.comp.emulators.m5.users/2676

10 years agostats: updates for pc-switcheroo-full due to o3 smt fix
Andreas Hansson [Tue, 22 Apr 2014 07:12:15 +0000 (03:12 -0400)]
stats: updates for pc-switcheroo-full due to o3 smt fix

10 years agostats: updates due to o3 smt fix
Nilay Vaish [Sat, 19 Apr 2014 14:16:14 +0000 (09:16 -0500)]
stats: updates due to o3 smt fix
+ changes to one ruby regression config.ini file.

10 years agoruby: slicc: remove old documentation
Nilay Vaish [Sat, 19 Apr 2014 14:00:31 +0000 (09:00 -0500)]
ruby: slicc: remove old documentation
Has not been maintained at all.  Since there is alternate documentation
available on gem5.org, no need to have this separately.

10 years agoruby: slicc: slight change to rule for transitions
Nilay Vaish [Sat, 19 Apr 2014 14:00:31 +0000 (09:00 -0500)]
ruby: slicc: slight change to rule for transitions
It had an unnecessary pairs token which is being removed.

10 years agoo3: Fix occupancy checks for SMT
Faissal Sleiman [Sat, 19 Apr 2014 14:00:30 +0000 (09:00 -0500)]
o3: Fix occupancy checks for SMT
A number of calls to isEmpty() and numFreeEntries()
should be thread-specific.

In cpu.cc, the fact that tid is /*commented*/ out is a bug. Say the rob
has instructions from thread 0 (isEmpty() returns false), and none from
thread 1. If we are trying to squash all of thread 1, then
readTailInst(thread 1) will be called because rob->isEmpty() returns
false. The result is end_it is not in the list and the while
statement loops indefinitely back over the cpu's instList.

In iew_impl.hh, all threads are told they have the entire remaining IQ, when
each thread actually has a certain allocation. The result is extra stalls at
the iew dispatch stage which the rename stage usually takes care of.

In commit_impl.hh, rob->readHeadInst(thread 1) can be called if the rob only
contains instructions from thread 0. This returns a dummyInst (which may work
since we are trying to squash all instructions, but hardly seems like the right
way to do it).

In rob_impl.hh this fix skips the rest of the function more frequently and is
more efficient.

Committed by: Nilay Vaish <nilay@cs.wisc.edu>

10 years agoruby: recorder: Fix (de-)serializing with different cache block-sizes
Marco Elver [Sat, 19 Apr 2014 14:00:30 +0000 (09:00 -0500)]
ruby: recorder: Fix (de-)serializing with different cache block-sizes

Upon aggregating records, serialize system's cache-block size, as the
cache-block size can be different when restoring from a checkpoint. This way,
we can correctly read all records when restoring from a checkpoints, even if
the cache-block size is different.

Note, that it is only possible to restore from a checkpoint if the
desired cache-block size is smaller or equal to the cache-block size
when the checkpoint was taken; we can split one larger request into
multiple small ones, but it is not reliable to do the opposite.

Committed by: Nilay Vaish <nilay@cs.wisc.edu>

10 years agoconfig: ruby: remove memory controller from network test
Nilay Vaish [Sat, 19 Apr 2014 14:00:30 +0000 (09:00 -0500)]
config: ruby: remove memory controller from network test
It is not in use and not required as such.

10 years agoarm: set default kernels for VExpress_EMM and VExpress_EMM64
Anthony Gutierrez [Mon, 14 Apr 2014 23:30:24 +0000 (19:30 -0400)]
arm: set default kernels for VExpress_EMM and VExpress_EMM64

10 years agoscons: Fix python-config parsing by adding strip()
Andreas Hansson [Sun, 13 Apr 2014 14:07:55 +0000 (10:07 -0400)]
scons: Fix python-config parsing by adding strip()

This patch fixes an issue with the way the python-config path is
parsed, as it caused issues on systems where a newline ended up being
included in the path.

10 years agoconfig: add num-work-ids command line option
Gedare Bloom [Thu, 10 Apr 2014 18:43:33 +0000 (13:43 -0500)]
config: add num-work-ids command line option
Adds the parameter --num-work-ids to Options.py and reads the parameter
into the System params in Simulation.py. This parameter enables setting
the number of possible work items to different than 16. Support for this
parameter already exists in src/sim/System.py, so this changeset only
affects the Python config files.

Committed by: Nilay Vaish <nilay@cs.wisc.edu>

10 years agoscons: compile on systems where python2 and python3 co-exist
Stian Hvatum [Thu, 10 Apr 2014 18:40:15 +0000 (13:40 -0500)]
scons: compile on systems where python2 and python3 co-exist
Compile gem5 on systems where python2 and python3 co-exists without any
changes in path. python2-config is chosen over python-config if it exists.

Committed by: Nilay Vaish <nilay@cs.wisc.edu>

10 years agokvm, x86: Add initial support for multicore simulation
Andreas Sandberg [Wed, 9 Apr 2014 14:01:58 +0000 (16:01 +0200)]
kvm, x86: Add initial support for multicore simulation

Simulating a SMP or multicore requires devices to be shared between
multiple KVM vCPUs. This means that locking is required when accessing
devices. This changeset adds the necessary locking to allow devices to
execute correctly. It is implemented by temporarily migrating the KVM
CPU to the VM's (and devices) event queue when handling
MMIO. Similarly, the VM migrates to the interrupt controller's event
queue when delivering an interrupt.

The support for fast-forwarding of multicore simulations added by this
changeset assumes that all devices in a system are simulated in the
same thread and each vCPU has its own thread. Special care must be
taken to ensure that devices living under the CPU in the object
hierarchy (e.g., the interrupt controller) do not inherit the parent
CPUs thread and are assigned to device thread. The KvmVM object is
assumed to live in the same thread as the other devices in the system.

10 years agodev: Protect PollEvent processing when running in parallel mode
Andreas Sandberg [Wed, 9 Apr 2014 14:01:43 +0000 (16:01 +0200)]
dev: Protect PollEvent processing when running in parallel mode

The calling thread is undefined when the PollQueue services events.
This implies that PollEvents need to handle the case where they are
processed from a different thread than the thread that created the
event. This changeset adds temporary event queue migrations to the VNC
server, the ethernet tap device, and the terminal to protect them from
inter-thread calls.

10 years agoruby: slicc: change enqueue statement
Nilay Vaish [Tue, 8 Apr 2014 18:26:30 +0000 (13:26 -0500)]
ruby: slicc: change enqueue statement
As of now, the enqueue statement can take in any number of 'pairs' as
argument.  But we only use the pair in which latency is the key.  This
latency is allowed to be either a fixed integer or a member variable of
controller in which the expression appears.  This patch drops the use of pairs
in an enqueue statement.  Instead, an expression is allowed which will be
interpreted to be the latency of the enqueue.  This expression can anything
allowed by slicc including a constant integer or a member variable.

10 years agoruby: coherence protocols: drop the phrase IntraChip
Nilay Vaish [Tue, 8 Apr 2014 18:26:29 +0000 (13:26 -0500)]
ruby: coherence protocols: drop the phrase IntraChip
The phrase is no longer valid since we do not distinguish between
inter and intra chip communication.

10 years agosim: Add the ability to lock and migrate between event queues
Andreas Sandberg [Thu, 3 Apr 2014 09:22:49 +0000 (11:22 +0200)]
sim: Add the ability to lock and migrate between event queues

We need the ability to lock event queues to enable device accesses
across threads. The serviceOne() method now takes a service lock prior
to handling a new event. By locking an event queue, a different
thread/eq can effectively execute in the context of the locked event
queue. To simplify temporary event queue migrations, this changeset
introduces the EventQueue::ScopedMigration class that unlocks the
current event queue, locks a new event queue, and updates the current
event queue variable.

In order to prevent deadlocks, event queues need to be released when
waiting on barriers. This is implemented using the
EventQueue::ScopedRelease class. An instance of this class is, for
example, used in the BaseGlobalEvent class to release the event queue
when waiting on the synchronization barrier.

The intended use for this functionality is when devices need to be
accessed across thread boundaries. For example, when fast-forwarding,
it might be useful to run devices and CPUs in separate threads. In
such a case, the CPU locks the device queue whenever it needs to
perform IO.  This functionality is primarily intended for KVM.

Note: Migrating between event queues can lead to non-deterministic
timing. Use with extreme care!

--HG--
extra : rebase_source : 23e3a741a1fd73861d1339782dbbe1bc76285315

10 years agoext: add McPAT source
Anthony Gutierrez [Tue, 1 Apr 2014 16:44:30 +0000 (12:44 -0400)]
ext: add McPAT source

this patch adds the source for mcpat, a power, area, and timing modeling
framework.

10 years agoarm: fix typos in makefile for ARM m5 util and link statically
Anthony Gutierrez [Tue, 1 Apr 2014 16:35:31 +0000 (12:35 -0400)]
arm: fix typos in makefile for ARM m5 util and link statically

1) fixes a typo for clean target libgemOpJni.so -> libgem5OpJni.so
2) addes jni_gem5Op.h to clean since it is added during make
3) links the m5 utility statically since it won't work on some images otherwise

10 years agoconfigs: use SimpleMemory when using ruby in se mode
Nilay Vaish [Tue, 1 Apr 2014 16:17:46 +0000 (11:17 -0500)]
configs: use SimpleMemory when using ruby in se mode
A recent changeset altered the default memory class to DRAMCtrl.  In se mode,
ruby uses the physical memory to check if a given address is within the bounds
of the physical memory.  SimpleMemory is enough for this.  Moreover,
SimpleMemory does not check whether it is connected or not, something which
DRAMCtrl does.

10 years agocpu: o3: lsq: Fix TSO implementation
Marco Elver [Tue, 25 Mar 2014 18:15:04 +0000 (13:15 -0500)]
cpu: o3: lsq: Fix TSO implementation
This patch fixes violation of TSO in the O3CPU, as all loads must be
ordered with all other loads. In the LQ, if a snoop is observed, all
subsequent loads need to be squashed if the system is TSO.

Prior to this patch, the following case could be violated:

 P0         | P1          ;
 MOV [x],mail=/usr/spool/mail/nilay | MOV EAX,[y] ;
 MOV [y],mail=/usr/spool/mail/nilay | MOV EBX,[x] ;

exists (1:EAX=1 /\ 1:EBX=0) [is a violation]

The problem was found using litmus [http://diy.inria.fr].

Committed by: Nilay Vaish <nilay@cs.wisc.edu

10 years agostats: Update stats for DRAM changes
Andreas Hansson [Sun, 23 Mar 2014 15:12:19 +0000 (11:12 -0400)]
stats: Update stats for DRAM changes

This patch updates the stats to reflect the changes to the DRAM
controller.

10 years agomem: Track DRAM read/write switching and add hysteresis
Andreas Hansson [Sun, 23 Mar 2014 15:12:14 +0000 (11:12 -0400)]
mem: Track DRAM read/write switching and add hysteresis

This patch adds stats for tracking the number of reads/writes per bus
turn around, and also adds hysteresis to the write-to-read switching
to ensure that the queue does not oscilate around the low threshold.

10 years agomem: Rename SimpleDRAM to a more suitable DRAMCtrl
Andreas Hansson [Sun, 23 Mar 2014 15:12:12 +0000 (11:12 -0400)]
mem: Rename SimpleDRAM to a more suitable DRAMCtrl

This patch renames the not-so-simple SimpleDRAM to a more suitable
DRAMCtrl. The name change is intended to ensure that we do not send
the wrong message (although the "simple" in SimpleDRAM was originally
intended as in cleverly simple, or elegant).

As the DRAM controller modelling work is being presented at ISPASS'14
our hope is that a broader audience will use the model in the future.

--HG--
rename : src/mem/SimpleDRAM.py => src/mem/DRAMCtrl.py
rename : src/mem/simple_dram.cc => src/mem/dram_ctrl.cc
rename : src/mem/simple_dram.hh => src/mem/dram_ctrl.hh

10 years agomem: Change memory defaults to be more representative
Andreas Hansson [Sun, 23 Mar 2014 15:12:10 +0000 (11:12 -0400)]
mem: Change memory defaults to be more representative

Make the default memory type DDR3-1600 x64, and use the open-adaptive
page policy. This change is aiming to ensure that users by default are
using a realistic memory system.

10 years agomem: Add close adaptive paging policy to DRAM controller model
Wendy Elsasser [Sun, 23 Mar 2014 15:12:08 +0000 (11:12 -0400)]
mem: Add close adaptive paging policy to DRAM controller model

This patch adds a second adaptive page policy to the DRAM controller,
closing the page unless there are already queued accesses to the open
page.

10 years agomem: DRAM controller tidying up
Andreas Hansson [Sun, 23 Mar 2014 15:12:06 +0000 (11:12 -0400)]
mem: DRAM controller tidying up

Minor tidying up and removing of redundant code, including the
printing of queue state every million accesses.

10 years agomem: Fix bug in DRAM bytes per activate
Andreas Hansson [Sun, 23 Mar 2014 15:12:05 +0000 (11:12 -0400)]
mem: Fix bug in DRAM bytes per activate

This patch ensures that we do not sample the bytes per activate when
the row has already been closed.

10 years agomem: Limit the accesses to a page before forcing a precharge
Andreas Hansson [Sun, 23 Mar 2014 15:12:03 +0000 (11:12 -0400)]
mem: Limit the accesses to a page before forcing a precharge

This patch adds a basic starvation-prevention mechanism where a DRAM
page is forced to close after a certain number of accesses. The limit
is combined with the open and open-adaptive page policy and if reached
causes an auto-precharge.

10 years agomem: Make DRAM write queue draining more aggressive
Andreas Hansson [Sun, 23 Mar 2014 15:12:01 +0000 (11:12 -0400)]
mem: Make DRAM write queue draining more aggressive

This patch changes the triggering condition for the write draining
such that we grab the opportunity to issue writes if there are no
reads waiting (as opposed to waiting for the writes to reach the high
threshold). As a result, we potentially drain some of the writes in read
idle periods (if any).

A low threshold is added to be able to control how many write bursts
are kept in the memory controller queue (acting as on-chip storage).

The high and low thresholds are updated to sensible values for a 32/64
size write buffer. Note that the thresholds should be adjusted along
with the queue sizes.

This patch also adds some basic initialisation sanity checks and moves
part of the initialisation to the constructor.

10 years agoconfig: Add a DRAM efficiency-sweep script
Andreas Hansson [Sun, 23 Mar 2014 15:12:00 +0000 (11:12 -0400)]
config: Add a DRAM efficiency-sweep script

This patch adds a configuration that simplifies evaluation of DRAM
controller configurations by automating a sweep of stride size and
bank parallelism. It works in a rather unconventional way, as it needs
to print the traffic generator stimuli based on the memory
organisation. Hence, it starts by configuring the memory, then it
prints a traffic-generator config file, and loads it.

The resulting stats have one period per data point, identified by the
stride size, and the number of banks being used.

10 years agocpu: DRAM Traffic Generator
Neha Agarwal [Sun, 23 Mar 2014 15:11:58 +0000 (11:11 -0400)]
cpu: DRAM Traffic Generator

This patch enables a new 'DRAM' mode to the existing traffic
generator, catered to generate specific requests to DRAM based on
required hit length (stride size) and bank utilization. It is an add on
to the Random mode.

The basic idea is to control how many successive packets target the
same page, and how many banks are being used in parallel. This gives a
two-dimensional space that stresses different aspects of the DRAM
timing.

The configuration file needed to use this patch has to be changed as
follow: (reference to Random Mode, LPDDR3 memory type)

'STATE 0 10000000000 RANDOM 50 0 134217728 64 3004 5002 0'
-> 'STATE 0 10000000000 DRAM 50 0 134217728 32 3004 5002 0 96 1024 8 6 1'

The last 4 parameters to be added are:
<stride size (bytes), page size(bytes), number of banks available in DRAM,
    number of banks to be utilized, address mapping scheme>

The address mapping information is used to get the stride address
stream of the specified size and to know where to find the bank
bits. The configuration file has a parameter where '0'-> RoCoRaBaCh,
'1'-> RoRaBaCoCh/RoRaBaChCo address-mapping schemes. Note that the
generator currently assumes a single channel and a single rank. This
is to avoid overwhelming the traffic generator with information about
the memory organisation.

10 years agomem: DDR3 config for comparing with DRAMSim2
Neha Agarwal [Sun, 23 Mar 2014 15:11:56 +0000 (11:11 -0400)]
mem: DDR3 config for comparing with DRAMSim2

This patch adds a new DDR3 configuration to match with the parameters
that are specified in one of the DDR3 configs used in DRAMSim2.

10 years agomem: More descriptive address-mapping scheme names
Andreas Hansson [Sun, 23 Mar 2014 15:11:53 +0000 (11:11 -0400)]
mem: More descriptive address-mapping scheme names

This patch adds the row bits to the name of the address mapping
schemes to make it more clear that all the current schemes places the
row bits as the most significant bits.

10 years agoscons: Shush scons
Curtis Dunham [Sun, 23 Mar 2014 15:11:51 +0000 (11:11 -0400)]
scons: Shush scons

make 'scons -s' actually silent.

10 years agomisc: Fix -q (quiet) flag
Stan Czerniawski [Sun, 23 Mar 2014 15:11:49 +0000 (11:11 -0400)]
misc: Fix -q (quiet) flag

Check the right flag.

10 years agoruby: Move Ruby debug flags to ruby dir and remove stale options
Andreas Hansson [Sun, 23 Mar 2014 15:11:48 +0000 (11:11 -0400)]
ruby: Move Ruby debug flags to ruby dir and remove stale options

This patch moves the Ruby-related debug flags to the ruby
sub-directory, and also removes the state SConsopts that add the
no-longer-used NO_VECTOR_BOUNDS_CHECK.

10 years agoutil: Add support for detection of gzipped packet traces
Andreas Hansson [Sun, 23 Mar 2014 15:11:46 +0000 (11:11 -0400)]
util: Add support for detection of gzipped packet traces

This patch adds support for automatically detecting a gzipped packet
trace, thus accepting either a compressed or uncompressed trace.

10 years agomem: Include the DRAMSim2 wrapper in NULL build
Andreas Hansson [Sun, 23 Mar 2014 15:11:44 +0000 (11:11 -0400)]
mem: Include the DRAMSim2 wrapper in NULL build

This patch makes sure DRAMSim2 is included in a build of the NULL ISA.

10 years agoext: Fix typo in DRAMSim2 SConscript
Andreas Hansson [Sun, 23 Mar 2014 15:11:42 +0000 (11:11 -0400)]
ext: Fix typo in DRAMSim2 SConscript

This patch fixes a typo in the SConscript which caused the DRAMSim2
sources to be built without the appropriate flags.

10 years agomem: CommMonitor trace warn on non-timing mode
Sascha Bischoff [Sun, 23 Mar 2014 15:11:40 +0000 (11:11 -0400)]
mem: CommMonitor trace warn on non-timing mode

Add a warning to the CommMonitor which will alert the user if they try
and record a trace when the system is not in timing mode.

10 years agocpu: Add basic check to TrafficGen initial state
Stan Czerniawski [Sun, 23 Mar 2014 15:11:39 +0000 (11:11 -0400)]
cpu: Add basic check to TrafficGen initial state

Prevent incomplete configuration of TrafficGen class from causing
segmentation faults. If an 'INIT' line is not present in the
configuration file then the currState variable will remain
uninitialized which may result in a crash.

10 years agodev: Fix IsaFake's cxx_header setting
Andrew Bardsley [Sun, 23 Mar 2014 15:11:37 +0000 (11:11 -0400)]
dev: Fix IsaFake's cxx_header setting

cxx_header was set incorrectly on IsaFake

10 years agoarm: m5ops readfile64 args broken, offset coming through garbage
Eric Van Hensbergen [Sun, 23 Mar 2014 15:11:34 +0000 (11:11 -0400)]
arm: m5ops readfile64 args broken, offset coming through garbage

There were several sections of the m5ops code which were
essentially copy/pasted versions of the 32-bit code. The
problem is that some of these didn't account fo4 64-bit
registers leading to arguments being in the wrong registers.
This patch addresses the args for readfile64, writefile64,
and addsymbol64 -- all of which seemed to suffer from a
similar set of problems when moving to 64-bit.

10 years agobase: Fix error message time unit (cycle -> tick)
Andreas Hansson [Sun, 23 Mar 2014 15:11:32 +0000 (11:11 -0400)]
base: Fix error message time unit (cycle -> tick)

This patch fixes the unit used in all error messages.

10 years agostats: updates due to changes to ruby config scripts
Nilay Vaish [Thu, 20 Mar 2014 14:16:35 +0000 (09:16 -0500)]
stats: updates due to changes to ruby config scripts
These updates to ruby regression stats are due to renaming piobus to iobus
and dropping piobus in the se mode.

10 years agoruby: consumer: avoid accessing wakeup times when waking up
Nilay Vaish [Thu, 20 Mar 2014 14:14:14 +0000 (09:14 -0500)]
ruby: consumer: avoid accessing wakeup times when waking up
Each consumer object maintains a set of tick values when the object is supposed
to wakeup and do some processing.  As of now, the object accesses this set both
when scheduling a wakeup event and when the object actually wakes up.  The set
is accessed during wakeup to remove the current tick value from the set.  This
functionality is now being moved to the scheduling function where ticks are
removed at a later time.

10 years agoruby: garnet: convert network interfaces into clocked objects
Nilay Vaish [Thu, 20 Mar 2014 14:14:14 +0000 (09:14 -0500)]
ruby: garnet: convert network interfaces into clocked objects
This helps in configuring the network interfaces from the python script and
these objects no longer rely on the network object for the timing information.

10 years agoruby: slicc: code refactor
Nilay Vaish [Thu, 20 Mar 2014 14:14:14 +0000 (09:14 -0500)]
ruby: slicc: code refactor

10 years agoconfig: ruby: rename _cpu_ruby_ports to _cpu_ports
Nilay Vaish [Thu, 20 Mar 2014 14:14:14 +0000 (09:14 -0500)]
config: ruby: rename _cpu_ruby_ports to _cpu_ports

10 years agoconfig: fs.py: move creating of test/drive systems to functions
Nilay Vaish [Thu, 20 Mar 2014 14:14:08 +0000 (09:14 -0500)]
config: fs.py: move creating of test/drive systems to functions
The code that creates test and drive systems is being moved to separate
functions so as to make the code more readable.  Ultimately the two
functions would be combined so that the replicated code is eliminated.

10 years agoconfig: remove ruby_fs.py
Nilay Vaish [Thu, 20 Mar 2014 13:03:09 +0000 (08:03 -0500)]
config: remove ruby_fs.py

The patch removes the ruby_fs.py file.  The functionality is being moved to
fs.py.  This would being ruby fs simulations in line with how ruby se
simulations are started (using --ruby option).  The alpha fs config functions
are being combined for classing and ruby memory systems.  This required
renaming the piobus in ruby to iobus.  So, we will have stats being renamed
in the stats file for ruby fs regression.

10 years agoruby: no piobus in se mode
Nilay Vaish [Thu, 20 Mar 2014 13:03:09 +0000 (08:03 -0500)]
ruby: no piobus in se mode
Piobus was recently added to se scripts for ruby so that the interrupt
controller can be connected to something (required since the interrupt
controller sends address range messages).  This patch removes the piobus
and instead, the pio port of ruby port will now ignore the range change
messages in se mode.

10 years agoconfig: ruby: remove piobus from protocols
Nilay Vaish [Mon, 17 Mar 2014 22:40:15 +0000 (17:40 -0500)]
config: ruby: remove piobus from protocols
This patch removes the piobus from the protocol config files.  The ports
are now connected to the piobus in the Ruby.py file.

10 years agoruby: remove some of the unnecessary code
Nilay Vaish [Mon, 17 Mar 2014 22:40:14 +0000 (17:40 -0500)]
ruby: remove some of the unnecessary code

10 years agokvm: Clean up signal handling
Andreas Sandberg [Sun, 16 Mar 2014 16:40:58 +0000 (17:40 +0100)]
kvm: Clean up signal handling

KVM used to use two signals, one for instruction count exits and one
for timer exits. There is really no need to distinguish between the
two since they only trigger exits from KVM. This changeset unifies and
renames the signals and adds a method, kick(), that can be used to
raise the control signal in the vCPU thread. It also removes the early
timer warning since we do not normally see if the signal was
delivered.

--HG--
extra : rebase_source : cd0e45ca90894c3d6f6aa115b9b06a1d8f0fda4d

10 years agokvm: x86: Adjust PC to remove the CS segment base address
Andreas Sandberg [Sun, 16 Mar 2014 16:30:24 +0000 (17:30 +0100)]
kvm: x86: Adjust PC to remove the CS segment base address

gem5 seems to store the PC as RIP+CS_BASE. This is not what KVM
expects, so we need to subtract CS_BASE prior to transferring the PC
into KVM. This changeset adds the necessary PC manipulation and
refactors thread context updates slightly to avoid reading registers
multiple times from KVM.

--HG--
extra : rebase_source : 3f0569dca06a1fcd8694925f75c8918d954ada44

10 years agokvm: x86: Add support for x86 INIT and STARTUP handling
Andreas Sandberg [Sun, 16 Mar 2014 16:28:23 +0000 (17:28 +0100)]
kvm: x86: Add support for x86 INIT and STARTUP handling

This changeset adds support for INIT and STARTUP IPI handling. We
currently handle both of these interrupts in gem5 and transfer the
state to KVM. Since we do not have a BIOS loaded, we pretend that the
INIT interrupt suspends the CPU after reset.

--HG--
extra : rebase_source : 7f3b25f3801d68f668b6cd91eaf50d6f48ee2a6a

10 years agoalpha: Small removal of dead comments/code from alpha ISA
Paul Rosenfeld [Wed, 12 Mar 2014 12:03:22 +0000 (07:03 -0500)]
alpha: Small removal of dead comments/code from alpha ISA

Committed by: Nilay Vaish <nilay@cs.wisc.edu>

10 years agocpu: Make CPU and ThreadContext getters const
Andreas Hansson [Fri, 7 Mar 2014 20:56:23 +0000 (15:56 -0500)]
cpu: Make CPU and ThreadContext getters const

This patch merely tidies up the CPU and ThreadContext getters by
making them const where appropriate.

10 years agoarm: Handle functional TLB walks properly
Geoffrey Blake [Fri, 7 Mar 2014 20:56:23 +0000 (15:56 -0500)]
arm: Handle functional TLB walks properly

The table walker code currently accounts for two types of walks,
Atomic and Timing, and treats them differently. Atomic walks keep a
single instance of WalkerState around for all walks to use in
currState. Timing mode keeps a queue of in-flight WalkerStates and
maintains currState as NULL between walks.

If a functional walk is done during Timing mode, it is treated as an
atomic walk and either creates a persistent WalkerState if in between
Timing walks, or stomps an existing currState for an in-progress
Timing walk.

This patch distinguishes functional walks as being able to exist at
any time and sets up a temporary WalkerState for its exclusive use and
then cleans up when finished, leaving any in progress Atomic or Timing
walks undisturbed.

10 years agomem: Fix incorrect assert failure in the Cache
Prakash Ramrakhyani [Fri, 7 Mar 2014 20:56:23 +0000 (15:56 -0500)]
mem: Fix incorrect assert failure in the Cache

This patch fixes an assert condition that is not true at all
times. There are valid situations that arise in dual-core
dual-workload runs where the assert condition is false. The function
call following the assert however needs to be called only when the
condition is true (a block cannot be invalidated in the tags structure
if has not been allocated in the structure, and the tempBlock is never
allocated). Hence the 'assert' has been replaced with an 'if'.

10 years agomem: Edit proto Packet and enhance the python script
Radhika Jagtap [Fri, 7 Mar 2014 20:56:23 +0000 (15:56 -0500)]
mem: Edit proto Packet and enhance the python script

This patch changes the decode script to output the optional fields of
the proto message Packet, namely id and flags. The flags field is set
by the communication monitor.

The id field is useful for CPU trace experiments, e.g. linking the
fetch side to decode side. It had to be renamed because it clashes
with a built in python function id() for getting the "identity" of an
object.

This patch also takes a few common function definitions out from the
multiple scripts and adds them to a protolib python module.

10 years agoscons: Fix clang version identification for OSX
Mitch Hayenga [Fri, 7 Mar 2014 20:56:23 +0000 (15:56 -0500)]
scons: Fix clang version identification for OSX

The version string may have additional trailing information

10 years agomisc: Add panic_if / fatal_if / chatty_assert
Stephan Diestelhorst [Fri, 7 Mar 2014 20:56:23 +0000 (15:56 -0500)]
misc: Add panic_if / fatal_if / chatty_assert

This snippet can be used to replace if + {panics, fatals, asserts} constructs.
The idea is to have both the condition checking and a verbose printout in a single statement.  The interface is as follows:

panic_if(foo != bar, "These should be equal: foo %i bar %i", foo, bar);
fatal_if(foo != bar, "These should be equal: foo %i bar %i", foo, bar);
chatty_assert(foo == bar, "These should be equal: foo %i bar %i", foo, bar);

10 years agoscons: Fixes uninitialized warnings issued by clang
Mitch Hayenga [Fri, 7 Mar 2014 20:56:23 +0000 (15:56 -0500)]
scons: Fixes uninitialized warnings issued by clang

Small fixes to appease recent clang versions.

10 years agoarm: Fix uninitialised warning with gcc 4.8
Stephan Diestelhorst [Fri, 7 Mar 2014 20:56:23 +0000 (15:56 -0500)]
arm: Fix uninitialised warning with gcc 4.8

Small fix for a warning that prevents compilation with gcc 4.8.1 due
to detecting that a variable might be uninitialised. The fix is to
assign a safe default.

10 years agomem: Wakeup sleeping CPUs without caches on LLSC
Ali Saidi [Fri, 7 Mar 2014 20:56:23 +0000 (15:56 -0500)]
mem: Wakeup sleeping CPUs without caches on LLSC

For systems without caches, the LLSC code does not get snoops for
wake-ups. We add the LLSC code in the abstract memory to do the job
for us.