621a22c5a6da8b49d94c7af34d0f753f5126a634
[akaros.git] / Documentation / processes.txt
1 processes.txt
2 Barret Rhoden
3
4 All things processes!  This explains processes from a high level, especially
5 focusing on the user-kernel boundary and transitions to the many-core state,
6 which is the way in which parallel processes run.  This doesn't discuss deep
7 details of the ROS kernel's process code.
8
9 This is motivated by two things: kernel scalability and direct support for
10 parallel applications.
11
12 Part 1: Overview
13 Part 2: How They Work
14 Part 3: Resource Requests
15 Part 4: Preemption and Notification
16 Part 5: Old Arguments (mostly for archival purposes))
17 Part 6: Parlab app use cases
18
19 Revision History:
20 2009-10-30 - Initial version
21 2010-03-04 - Preemption/Notification, changed to many-core processes
22
23 Part 1: World View of Processes
24 ==================================
25 A process is the lowest level of control, protection, and organization in the
26 kernel.
27
28 1.1: What's a process?
29 -------------------------------
30 Features:
31 - They are an executing instance of a program.  A program can load multiple
32   other chunks of code and run them (libraries), but they are written to work
33   with each other, within the same address space, and are in essence one
34   entity.
35 - They have one address space/ protection domain.  
36 - They run in Ring 3 / Usermode.
37 - They can interact with each other, subject to permissions enforced by the
38   kernel.
39 - They can make requests from the kernel, for things like resource guarantees.
40   They have a list of resources that are given/leased to them.
41
42 None of these are new.  Here's what's new:
43 - They can run in a many-core mode, where its cores run at the same time, and
44   it is aware of changes to these conditions (page faults, preemptions).  It
45   can still request more resources (cores, memory, whatever).
46 - Every core in a many-core process (MCP) is *not* backed by a kernel
47   thread/kernel stack, unlike with Linux tasks.
48         - There are *no* per-core run-queues in the kernel that decide for
49           themselves which kernel thread to run.
50 - They are not fork()/execed().  They are created(), and then later made
51   runnable.  This allows the controlling process (parent) to do whatever it
52   wants: pass file descriptors, give resources, whatever.
53
54 These changes are directly motivated by what is wrong with current SMP
55 operating systems as we move towards many-core: direct (first class) support
56 for truly parallel processes, kernel scalability, and an ability of a process
57 to see through classic abstractions (the virtual processor) to understand (and
58 make requests about) the underlying state of the machine.
59
60 1.2: What's a partition?
61 -------------------------------
62 So a process can make resource requests, but some part of the system needs to
63 decide what to grant, when to grant it, etc.  This goes by several names:
64 scheduler / resource allocator / resource manager.  The scheduler simply says
65 when you get some resources, then calls functions from lower parts of the
66 kernel to make it happen.
67
68 This is where the partitioning of resources comes in.  In the simple case (one
69 process per partitioned block of resources), the scheduler just finds a slot
70 and runs the process, giving it its resources.  
71
72 A big distinction is that the *partitioning* of resources only makes sense
73 from the scheduler on up in the stack (towards userspace).  The lower levels
74 of the kernel know about resources that are granted to a process.  The
75 partitioning is about the accounting of resources and an interface for
76 adjusting their allocation.  It is a method for telling the 'scheduler' how
77 you want resources to be granted to processes.
78
79 A possible interface for this is procfs, which has a nice hierarchy.
80 Processes can be grouped together, and resources can be granted to them.  Who
81 does this?  A process can create it's own directory entry (a partition), and
82 move anyone it controls (parent of, though that's not necessary) into its
83 partition or a sub-partition.  Likewise, a sysadmin/user can simply move PIDs
84 around in the tree, creating partitions consisting of processes completely
85 unaware of each other.
86
87 Now you can say things like "give 25% of the system's resources to apache and
88 mysql".  They don't need to know about each other.  If you want finer-grained
89 control, you can create subdirectories (subpartitions), and give resources on
90 a per-process basis.  This is back to the simple case of one process for one
91 (sub)partition.
92
93 This is all influenced by Linux's cgroups (process control groups).
94 http://www.mjmwired.net/kernel/Documentation/cgroups.txt. They group processes
95 together, and allow subsystems to attach meaning to those groups.
96
97 Ultimately, I view partitioning as something that tells the kernel how to
98 grant resources.  It's an abstraction presented to userspace and higher levels
99 of the kernel.  The specifics still need to be worked out, but by separating
100 them from the process abstraction, we can work it out and try a variety of
101 approaches.
102
103 The actual granting of resources and enforcement is done by the lower levels
104 of the kernel (or by hardware, depending on future architectural changes).
105
106 Part 2: How They Work
107 ===============================
108 2.1: States
109 -------------------------------
110 PROC_CREATED
111 PROC_RUNNABLE_S
112 PROC_RUNNING_S
113 PROC_WAITING
114 PROC_DYING
115 PROC_RUNNABLE_M
116 PROC_RUNNING_M
117
118 Difference between the _M and the _S states:
119 - _S : legacy process mode.  There is no need for a second-level scheduler, and
120   the code running is analogous to a user-level thread.
121 - RUNNING_M implies *guaranteed* core(s).  You can be a single core in the
122   RUNNING_M state.  The guarantee is subject to time slicing, but when you
123   run, you get all of your cores.
124 - The time slicing is at a coarser granularity for _M states.  This means that
125   when you run an _S on a core, it should be interrupted/time sliced more
126   often, which also means the core should be classified differently for a
127   while.  Possibly even using it's local APIC timer.
128 - A process in an _M state will be informed about changes to its state, e.g.,
129   will have a handler run in the event of a page fault
130
131 For more details, check out kern/inc/process.h  For valid transitions between
132 these, check out kern/src/process.c's proc_set_state().
133
134 2.2: Creation and Running
135 -------------------------------
136 Unlike the fork-exec model, processes are created, and then explicitly made
137 runnable.  In the time between creation and running, the parent (or another
138 controlling process) can do whatever it wants with the child, such as pass
139 specific file descriptors, map shared memory regions (which can be used to
140 pass arguments).
141
142 New processes are not a copy-on-write version of the parent's address space.
143 Due to our changes in the threading model, we no longer need (or want) this
144 behavior left over from the fork-exec model.
145
146 By splitting the creation from the running and by explicitly sharing state
147 between processes (like inherited file descriptors), we avoid a lot of
148 concurrency and security issues.
149
150 2.3: Vcoreid vs Pcoreid
151 -------------------------------
152 The vcoreid is a virtual cpu number.  Its purpose is to provide an easy way
153 for the kernel and userspace to talk about the same core.  pcoreid (physical)
154 would also work.  The vcoreid makes things a little easier, such as when a
155 process wants to refer to one of its other cores (not the calling core).  It
156 also makes the event notification mechanisms easier to specify and maintain.
157
158 Processes that care about locality should check what their pcoreid is.  This
159 is currently done via sys_getcpuid().  The name will probably change.
160
161 2.4: Transitioning to and from states
162 -------------------------------
163 2.4.1: To go from _S to _M, a process requests cores.
164 --------------
165 A resource request from 0 to 1 or more causes a transition from _S to _M.  The
166 calling context is saved in the notification slot (notif_tf) in vcore0's
167 preemption data (in procdata).  The second level scheduler needs to be able to
168 restart the context when vcore0 starts up.  To do this, it will need to save the
169 TLS/TCB descriptor and the floating point/silly state (if applicable) in the
170 user-thread control block, and do whatever is needed to signal vcore0 to run the
171 _S context when it starts up.  One way would be to mark vcore0's "active thread"
172 variable to point to the _S thread.  When vcore0 starts up at
173 _start/vcore_entry() (like all vcores), it will see a thread was running there
174 and restart it.  This will need to have some special casing for the FP/silly
175 state.
176
177 In general, all cores (and all subsequently allocated cores) start at the elf
178 entry point, with vcoreid in eax or a suitable arch-specific manner.  There is
179 also a syscall to get the vcoreid, but this will save an extra trap at vcore
180 start time.
181
182 Future proc_runs(), like from RUNNABLE_M to RUNNING_M start all cores at the
183 entry point, including vcore0.  The saving of a _S context to vcore0's notif_tf only happens on
184 the transition from _S to _M (which the process needs to be aware of for a
185 variety of reasons).  This also means that userspace needs to handle vcore0
186 coming up at the entry point again (and not starting the program over).  This is
187 currently done in sysdeps-ros/start.c, via the static variable init.  Note there
188 are some tricky things involving dynamically linked programs, but it all works
189 currently.
190
191 When coming in to the entry point, whether as the result of a startcore or a
192 notification, the kernel will set the stack pointer to whatever is requested
193 by userspace in procdata.  A process should allocate stacks of whatever size
194 it wants for its vcores when it is in _S mode, and write these location to
195 procdata.  These stacks are the transition stacks (in Lithe terms) that are
196 used as jumping-off points for future function calls.  These stacks need to be
197 used in a continuation-passing style, and each time they are used, they start
198 from the top.
199
200 2.4.2: To go from _M to _S, a process requests 0 cores
201 --------------
202 The caller becomes the new _S context.  Everyone else gets trashed
203 (abandon_core()).  Their stacks are still allocated and it is up to userspace
204 to deal with this.  In general, they will regrab their transition stacks when
205 they come back up.  Their other stacks and whatnot (like TBB threads) need to
206 be dealt with.
207
208 When the caller next switches to _M, that context (including its stack)
209 maintains its old vcore identity.  If vcore3 causes the switch to _S mode, it
210 ought to remain vcore3 (lots of things get broken otherwise).
211 As of March 2010, the code does not reflect this.  Don't rely on anything in
212 this section for the time being.
213
214 2.4.3: Requesting more cores while in _M
215 --------------
216 Any core can request more cores and adjust the resource allocation in any way.
217 These new cores come up just like the original new cores in the transition
218 from _S to _M: at the entry point.
219
220 2.4.4: Yielding
221 --------------
222 sys_yield()/proc_yield() will give up the calling core, and may or may not
223 adjust the desired number of cores, subject to its parameters.  Yield is
224 performing two tasks, both of which result in giving up the core.  One is for
225 not wanting the core anymore.  The other is in response to a preemption.  Yield
226 may not be called remotely (ARSC).
227
228 In _S mode, it will transition from RUNNING_S to RUNNABLE_S.  The context is
229 saved in env_tf.
230
231 In _M mode, this yields the calling core.  A yield will *not* transition from _M
232 to _S.  The kernel will rip it out of your vcore list.  A process can yield its
233 cores in any order.  The kernel will "fill in the holes of the vcoremap" for any
234 future new cores requested (e.g., proc A has 4 vcores, yields vcore2, and then
235 asks for another vcore.  The new one will be vcore2).  When any core starts in
236 _M mode, even after a yield, it will come back at the vcore_entry()/_start point.
237
238 Yield will normally adjust your desired amount of vcores to the amount after the
239 calling core is taken.  This is the way a process gives its cores back.
240
241 Yield can also be used to say the process is just giving up the core in response
242 to a pending preemption, but actually wants the core and does not want resource
243 requests to be readjusted.  For example, in the event of a preemption
244 notification, a process may yield (ought to!) so that the kernel does not need
245 to waste effort with full preemption.  This is done by passing in a bool
246 (being_nice), which signals the kernel that it is in response to a preemption.
247 The kernel will not readjust the amt_wanted, and if there is no preemption
248 pending, the kernel will ignore the yield.
249
250 There may be an m_yield(), which will yield all or some of the cores of an MPC,
251 remotely.  This is discussed farther down a bit.  It's not clear what exactly
252 it's purpose would be.
253
254 We also haven't addressed other reasons to yield, or more specifically to wait,
255 such as for an interrupt or an event of some sort.
256
257 2.4.5: Others
258 --------------
259 There are other transitions, mostly self-explanatory.  We don't currently use
260 any WAITING states, since we have nothing to block on yet.  DYING is a state
261 when the kernel is trying to kill your process, which can take a little while
262 to clean up.
263
264 Part 3: Resource Requests
265 ===============================
266 A process can ask for resources from the kernel.  The kernel either grants
267 these requests or not, subject to QoS guarantees, or other scheduler-related
268 criteria.
269
270 A process requests resources, currently via sys_resource_req.  The form of a
271 request is to tell the kernel how much of a resource it wants.  Currently,
272 this is the amt_wanted.  We'll also have a minimum amount wanted, which tells
273 the scheduler not to run the process until the minimum amount of resources are
274 available.
275
276 How the kernel actually grants resources is resource-specific.  In general,
277 there are functions like proc_give_cores() (which gives certain cores to a
278 process) that actually does the allocation, as well as adjusting the
279 amt_granted for that resource.
280
281 For expressing QoS guarantees, we'll probably use something like procfs (as
282 mentioned above) to explicitly tell the scheduler/resource manager what the
283 user/sysadmin wants.  An interface like this ought to be usable both by
284 programs as well as simple filesystem tools (cat, etc).
285
286 Guarantees exist regardless of whether or not the allocation has happened.  An
287 example of this is when a process may be guaranteed to use 8 cores, but
288 currently only needs 2.  Whenever it asks for up to 8 cores, it will get them.
289 The exact nature of the guarantee is TBD, but there will be some sort of
290 latency involved in the guarantee for systems that want to take advantage of
291 idle resources (compared to simply reserving and not allowing anyone else to
292 use them).  A latency of 0 would mean a process wants it instantly, which
293 probably means they ought to be already allocated (and billed to) that
294 process.  
295
296 Part 4: Preemption and Event Notification
297 ===============================
298 Preemption and Notification are tied together.  Preemption is when the kernel
299 takes a resource (specifically, cores).  There are two types core_preempt()
300 (one core) and gang_preempt() (all cores).  Notification (discussed below) is
301 when the kernel informs a process of an event, usually referring to the act of
302 running a function on a core (active notification).
303
304 The rough plan for preemption is to notify beforehand, then take action if
305 userspace doesn't yield.  This is a notification a process can ignore, though
306 it is highly recommended to at least be aware of impending core_preempt()
307 events.
308
309 4.1: Notification Basics
310 -------------------------------
311 One of the philosophical goals of ROS is to expose information up to userspace
312 (and allow requests based on that information).  There will be a variety of
313 events in the system that processes will want to know about.  To handle this,
314 we'll eventually build something like the following.
315
316 All events will have a number, like an interrupt vector.  Each process will
317 have an event queue (per core, described below).  On most architectures, it
318 will be a simple producer-consumer ring buffer sitting in the "shared memory"
319 procdata region (shared between the kernel and userspace).  The kernel writes
320 a message into the buffer with the event number and some other helpful
321 information.
322
323 Additionally, the process may request to be actively notified of specific
324 events.  This is done by having the process write into an event vector table
325 (like an IDT) in procdata.  For each event, the process writes the vcoreid it
326 wants to be notified on.
327
328 4.2: Notification Specifics
329 -------------------------------
330 In procdata there is an array of per-vcore data, holding some
331 preempt/notification information and space for two trapframes: one for
332 notification and one for preemption.
333
334 4.2.1: Overall
335 -----------------------------
336 When a notification arrives to a process under normal circumstances, the
337 kernel places the previous running context in the notification trapframe, and
338 returns to userspace at the program entry point (the elf entry point) on the
339 transition stack.  If a process is already handling a notification on that
340 core, the kernel will not interrupt it.  It is the processes's responsibility
341 to check for more notifications before returning to its normal work.  The
342 process must also unmask notifications (in procdata) before it returns to do
343 normal work.  Unmasking notifications is the signal to the kernel to not
344 bother sending IPIs, and if an IPI is sent before notifications are masked,
345 then the kernel will double-check this flag to make sure interrupts should
346 have arrived.
347
348 Notification unmasking is done by setting the notif_enabled flag (similar to
349 turning interrupts on in hardware).  When a core starts up, this flag is off,
350 meaning that notifications are disabled by default.  It is the process's
351 responsibility to turn on notifications for a given vcore.
352
353 4.2.2: Notif Event Details
354 -----------------------------
355 When the process runs the handler, it is actually starting up at the same
356 location in code as it always does.  To determine if it was a notification or
357 not, simply check the queue and bitmask.  This has the added benefit of allowing
358 a process to notice notifications that it missed previously, or notifs it wanted
359 without active notification (IPI).  If we want to bypass this check by having a
360 magic register signal, we can add that later.  Additionally, the kernel will
361 mask notifications (much like an x86 interrupt gate).  It will also mask
362 notifications when starting a core with a fresh trapframe, since the process
363 will be executing on its transition stack.  The process must check its per-core
364 event queue to see why it was called, and deal with all of the events on the
365 queue.  In the case where the event queue overflows, the kernel will up a
366 counter so the process can at least be aware things are missed.  At the very
367 least, the process will see the notification marked in a bitmask.
368
369 These notification events include things such as: an IO is complete, a
370 preemption is pending to this core, the process just returned from a
371 preemption, there was a trap (divide by 0, page fault), and many other things.
372 We plan to allow this list to grow at runtime (a process can request new event
373 notification types).  These messages will often need some form of a timestamp,
374 especially ones that will expire in meaning (such as a preempt_pending).
375
376 Note that only one notification can be active at a time, including a fault.
377 This means that if a process page faults or something while notifications are
378 masked, the process will simply be killed.    It is up to the process to make
379 sure the appropriate pages are pinned, which it should do before entering _M
380 mode.
381
382 4.2.3: Event Overflow and Non-Messages
383 -----------------------------
384 For missed/overflowed events, and for events that do not need messages (they
385 have no parameters and multiple notifications are irrelevant), the kernel will
386 toggle that event's bit in a bitmask.  For the events that don't want messages,
387 we may have a flag that userspace sets, meaning they just want to know it
388 happened.  This might be too much of a pain, so we'll see.  For notification
389 events that overflowed the queue, the parameters will be lost, but hopefully the
390 application can sort it out.  Again, we'll see.  A specific notif_event should
391 not appear in both the event buffers and in the bitmask.
392
393 It does not make sense for all events to have messages.  Others, it does not
394 make sense to specify a different core on which to run the handler (e.g. page
395 faults).  The notification methods that the process expresses via procdata are
396 suggestions to the kernel.  When they don't make sense, they will be ignored.
397 Some notifications might be unserviceable without messages.  A process needs to
398 have a fallback mechanism.  For example, they can read the vcoremap to see who
399 was lost, or they can restart a thread to cause it to page fault again.
400
401 Event overflow sucks - it leads to a bunch of complications.  Ultimately, what
402 we really want is a limitless amount of notification messages (per core), as
403 well as a limitless amount of notification types.  And we want these to be
404 relayed to userspace without trapping into the kernel. 
405
406 We could do this if we had a way to dynamically manage memory in procdata, with
407 a distrusted process on one side of the relationship.  We could imagine growing
408 procdata dynamically (we plan to, mostly to grow the preempt_data struct as we
409 request more vcores), and then run some sort of heap manager / malloc.  Things
410 get very tricky since the kernel should never follow pointers that userspace can
411 touch.  Additionally, whatever memory management we use becomes a part of the
412 kernel interface.  
413
414 Even if we had that, dynamic notification *types* is tricky - they are
415 identified by a number, not by a specific (list) element.
416
417 For now, this all seems like an unnecessary pain in the ass.  We might adjust it
418 in the future if we come up with clean, clever ways to deal with the problem,
419 which we aren't even sure is a problem yet.
420
421 4.2.4: How to Use and Leave a Transition Stack
422 -----------------------------
423 We considered having the kernel be aware of a process's transition stacks and
424 sizes so that it can detect if a vcore is in a notification handler based on
425 the stack pointer in the trapframe when a trap or interrupt fires.  While
426 cool, the flag for notif_enabled is much easier and just as capable.
427 Userspace needs to be aware of various races, and only enable notifications
428 when it is ready to have its transition stack clobbered.  This means that when
429 switching from big user-thread to user-thread, the process should temporarily
430 disable notifications and reenable them before starting the new thread fully.
431 This is analogous to having a kernel that disables interrupts while in process
432 context.
433
434 A process can fake not being on its transition stack, and even unmapping their
435 stack.  At worst, a vcore could recursively page fault (the kernel does not
436 know it is in a handler, if they keep enabling notifs before faulting), and
437 that would continue til the core is forcibly preempted.  This is not an issue
438 for the kernel.
439
440 When a process wants to use its transition stack, it ought to check
441 preempt_pending, mask notifications, jump to its transition stack, do its work
442 (e.g. process notifications, check for new notifications, schedule a new
443 thread) periodically checking for a pending preemption, and making sure the
444 notification queue/list is empty before moving back to real code.  Then it
445 should jump back to a real stack, unmask notifications, and jump to the newly
446 scheduled thread.
447
448 This can be really tricky.  When userspace is changing threads, it will need to
449 unmask notifs as well as jump to the new thread.  There is a slight race here,
450 but it is okay.  The race is that an IPI can arrive after notifs are unmasked,
451 but before returning to the real user thread.  Then the code will think the
452 notif_tf represents the new user thread, even though it hasn't started (and the
453 PC is wrong).  The trick is to make sure that all state required to start the
454 new thread, as well as future instructions, are all saved within the "stuff"
455 that gets saved in the notif_tf.  When these threading packages change contexts,
456 they ought to push the PC on the stack of the new thread, (then enable notifs)
457 and then execute a return.  If an IPI arrives before the "function return", then
458 when that context gets restarted, it will run the "return" with the appropriate
459 value on the stack still.
460
461 There is a further complication.  The kernel can send an IPI that the process
462 wanted, but the vcore did not get truly interrupted since its notifs were
463 disabled.  There is a race between checking the queue/bitmask and then enabling
464 notifications.  The way we deal with it is that the kernel posts the
465 message/bit, then sets notif_pending.  Then it sends the IPI, which may or may
466 not be received (based on notif_enabled).  (Actually, the kernel only ought to
467 send the IPI if notif_pending was 0 (atomically) and notif_enabled is 1).  When
468 leaving the transition stack, userspace should clear the notif_pending, then
469 check the queue do whatever, and then try to pop the tf.  When popping the tf,
470 after enabling notifications, check notif_pending.  If it is still clear, return
471 without fear of missing a notif.  If it is not clear, it needs to manually
472 notify itself (sys_self_notify) so that it can process the notification that it
473 missed and for which it wanted to receive an IPI.  Before it does this, it needs
474 to clear notif_pending, so the kernel will send it an IPI.  These last parts are
475 handled in pop_ros_tf().
476
477 4.3: Preemption Specifics
478 -------------------------------
479 When a vcore is preempted, the kernel takes whatever context was running (which
480 could be a notification context) and stores it in the preempt trapframe for
481 that vcore in procdata.  There is also a flag (actually a counter) that states
482 if the context there has been sorted out.  Userspace should set this once it
483 has copied out the data and dealt with it accordingly.
484
485 The invariant regarding the preemption slot is that there should never be
486 anything running on a vcore when there is a valid/not-sorted preempt
487 trapframe.  The reason is that a preemption can come in at any time (such as
488 right after returning from a preemption).
489
490 To maintain this invariant, when the kernel starts a vcore, it will run the
491 context that is in the preempt trapframe if the "preempt_tf_valid" seq_ctr is
492 not set.  A process needs to be careful of a race here.  If they are trying to
493 deal with a preempt trapframe (must be from another vcore, btw), the kernel
494 could start to run that trapframe (in case it is granting a core request /
495 proc_startcore()ing).  When the kernel prepares to use the trapframe (which it
496 will do regardless of userspace activities), it will up the seq_ctr.  We use a
497 seq_ctr (mostly just a counter) to avoid ABA-related issues.  If the process
498 notices a change in that flag, it ought to abort its operation.  It can up the
499 counter on its own when it no longer wants the kernel to run that context (this
500 means the preempt_tf can get clobbered).
501
502 4.4: Other trickiness
503 -------------------------------
504 4.4.1: Preemption -> deadlock
505 -------------------------------
506 One issue is that a context can be holding a lock that is necessary for the
507 userspace scheduler to manage preempted threads, and this context can be
508 preempted.  This would deadlock the scheduler.  To assist a process from
509 locking itself up, the kernel will toggle a preempt_pending flag in
510 procdata for that vcore before sending the actual preemption.  Whenever the
511 scheduler is grabbing one of these critical spinlocks, it needs to check that
512 flag first, and yield if a preemption is coming in.
513
514 Another option we may implement is for the process to be able to signal to the
515 kernel that it is in one of these ultra-critical sections by writing a magic
516 value to a specific register in the trapframe.  If there kernel sees this, it
517 will allow the process to run for a little longer.  The issue with this is
518 that the kernel would need to assume processes will always do this (malicious
519 ones will) and add this extra wait time to the worst case preemption time.
520
521 Finally, a scheduler could try to use non-blocking synchronization (no
522 spinlocks), or one of our other long-term research synchronization methods to
523 avoid deadlock, though we realize this is a pain for userspace for now.  FWIW,
524 there are some OSs out there with only non-blocking synchronization (I think).
525
526 4.4.2: Cascading and overflow
527 -------------------------------
528 There used to be issues with cascading interrupts (when contexts are still
529 running handlers).  Imagine a pagefault, followed by preempting the handler.
530 It doesn't make sense to run the preempt context after the page fault.
531 Earlier designs had issues where it was hard for a vcore to determine the
532 order of events and unmixing preemption, notification, and faults.  We deal
533 with this by having separate slots for preemption and notification, and by
534 treating faults as another form of notification.  Faulting while handling a
535 notification just leads to death.  Perhaps there is a better way to do that.
536
537 Another thing we considered would be to have two stacks - transition for
538 notification and an exception stack for faults.  We'd also need a fault slot
539 for the faulting trapframe.  This begins to take up even more memory, and it
540 is not clear how to handle mixed faults and notifications.  If you fault while
541 on the notification slot, then fine.  But you could fault for other reasons,
542 and then receive a notification.  And then if you fault in that handler, we're
543 back to where we started - might as well just kill them.
544
545 Another issue was overload.  Consider if vcore0 is set up to receive all
546 events.  If events come in faster than it can process them, it will both nest
547 too deep and process out of order.  To handle this, we only notify once, and
548 will not send future active notifications / interrupts until the process
549 issues an "end of interrupt" (EOI) for that vcore.  This is modelled after
550 hardware interrupts (on x86, at least).
551
552 4.4.3: Restarting a Preempted Notification
553 -------------------------------
554 There will be cases where the trapframe in the preempt_tf slot is actually a
555 notification handler, which was running on the transition stack of that
556 particular vcore.  Userspace needs to be careful about restarting contexts
557 that were on those cores on different cores.  They can tell by examining the
558 stack pointer to see if it was on a transition stack.  Alternatively, if
559 notifications are masked, it is also likely they in a notification handler.  The
560 real concern is the transition stack.  If a vcore is processing on the
561 transition stack of another vcore, there is a risk that the vcore comes back up
562 and starts clobbering the transition stack.
563
564 To avoid this, userspace could allocate a new transition stack and switch the
565 target vcore to use that new stack (in procdata).  The only time (for now)
566 that the kernel cares about a transition stack is when it is popping a tf on a
567 new or freshly notified vcore.  Something similar will need to be done with TLS.
568
569 This all should be a rare occurance, since the vcore should see the
570 preempt_pending when it starts its notification and yield, instead of being
571 forced into this weird situation.  This also means that notifications should
572 take less time than the kernel will wait before preempting.
573
574 This issue ties in with deadlocking in 4.4.1.  If userspace is never in a
575 notif handler when it gets preempted, that deadlock will not happen (and we
576 also may need only one trapframe slot).  Userspace probably cannot guarantee
577 that, so we'll have to deal with it.  Avoiding the deadlock on a spinlock is
578 much more reasonable (and we can provide the locking function).
579
580 Another thing to keep in mind is that userspace probably won't want to restart a
581 notification handler on a different core.  It's conceivable that they want to
582 take a regular user thread and context and restart it, not a transition context.
583
584 4.4.4: Userspace Yield Races
585 -------------------------------
586 Imagine a vcore realizes it is getting preempted soon, so it starts to yield.
587 However, it is too slow and doesn't make it into the kernel before a preempt
588 message takes over.  When that vcore is run again, it will continue where it
589 left off and yield its core.  The desired outcome is for yield to fail, since
590 the process doesn't really want to yield that core.  To sort this out, yield
591 will take a parameter saying that the yield is in response to a pending
592 preemption.  If the phase is over (preempted and returned), the call will not
593 yield and simply return to userspace.
594
595 4.4.5: Userspace m_yield
596 -------------------------------
597 There are a variety of ways to implement an m_yield (yield the entire MCP).
598 We could have a "no niceness" yield - just immediately preempt, but there is a
599 danger of the locking business.  We could do the usual delay game, though if
600 userspace is requesting its yield, arguably we don't need to give warning. 
601
602 Another approach would be to not have an explicit m_yield call.  Instead, we
603 can provide a notify_all call, where the notification sent to every vcore is
604 to yield.  I imagine we'll have a notify_all (or rather, flags to the notify
605 call) anyway, so we can do this for now.
606
607 The fastest way will probably be the no niceness way.  One way to make this
608 work would be for vcore0 to hold all of the low-level locks (from 4.4.1) and
609 manually unlock them when it wakes up.  Yikes!
610
611 4.5: Random Other Stuff
612 -------------------------------
613 Pre-Notification issues: how much time does userspace need to clean up and
614 yield?  How quickly does the kernel need the core back (for scheduling
615 reasons)?
616
617 Part 5: Old Arguments about Processes vs Partitions
618 ===============================
619 This is based on my interpretation of the cell (formerly what I thought was
620 called a partition).
621
622 5.1: Program vs OS
623 -------------------------------
624 A big difference is what runs inside the object.  I think trying to support
625 OS-like functionality is a quick path to unnecessary layers and complexity,
626 esp for the common case.  This leads to discussions of physical memory
627 management, spawning new programs, virtualizing HW, shadow page tables,
628 exporting protection rings, etc.
629
630 This unnecessarily brings in the baggage and complexity of supporting VMs,
631 which are a special case.  Yes, we want processes to be able to use their
632 resources, but I'd rather approach this from the perspective of "what do they
633 need?" than "how can we make it look like a real machine."  Virtual machines
634 are cool, and paravirtualization influenced a lot of my ideas, but they have
635 their place and I don't think this is it.
636
637 For example, exporting direct control of physical pages is a bad idea.  I
638 wasn't clear if anyone was advocating this or not.  By exposing actual machine
639 physical frames, we lose our ability to do all sorts of things (like swapping,
640 for all practical uses, and other VM tricks).  If the cell/process thinks it
641 is manipulating physical pages, but really isn't, we're in the VM situation of
642 managing nested or shadow page tables, which we don't want.
643
644 For memory, we'd be better off giving an allocation of a quantity frames, not
645 specific frames.  A process can pin up to X pages, for instance.  It can also
646 pick pages to be evicted when there's memory pressure.  There are already
647 similar ideas out there, both in POSIX and in ACPM.
648
649 Instead of mucking with faking multiple programs / entities within an cell,
650 just make more processes.  Otherwise, you'd have to export weird controls that
651 the kernel is doing anyway (and can do better!), and have complicated middle
652 layers.
653
654 5.2: Multiple "Things" in a "partition"
655 -------------------------------
656 In the process-world, the kernel can make a distinction between different
657 entities that are using a block of resources.  Yes, "you" can still do
658 whatever you want with your resources.  But the kernel directly supports
659 useful controls that you want. 
660 - Multiple protection domains are no problem.  They are just multiple
661   processes.  Resource allocation is a separate topic.
662 - Processes can control one another, based on a rational set of rules.  Even
663   if you have just cells, we still need them to be able to control one another
664   (it's a sysadmin thing).
665
666 "What happens in a cell, stays in a cell."  What does this really mean?  If
667 it's about resource allocation and passing of resources around, we can do that
668 with process groups.  If it's about the kernel not caring about what code runs
669 inside a protection domain, a process provides that.  If it's about a "parent"
670 program trying to control/kill/whatever a "child" (even if it's within a cell,
671 in the cell model), you *want* the kernel to be involved.  The kernel is the
672 one that can do protection between entities.
673
674 5.3: Other Things
675 -------------------------------
676 Let the kernel do what it's made to do, and in the best position to do: manage
677 protection and low-level resources.
678
679 Both processes and partitions "have" resources.  They are at different levels
680 in the system.  A process actually gets to use the resources.  A partition is
681 a collection of resources allocated to one or more processes.
682
683 In response to this:
684
685 On 2009-09-15 at 22:33 John Kubiatowicz wrote:
686 > John Shalf wrote:  
687 > >
688 > > Anyhow, Barret is asking that resource requirements attributes be 
689 > > assigned on a process basis rather than partition basis.  We need
690 > > to justify why gang scheduling of a partition and resource
691 > > management should be linked.  
692
693 I want a process to be aware of it's specific resources, as well as the other
694 members of it's partition.  An individual process (which is gang-scheduled in
695 many-core mode) has a specific list of resources.  Its just that the overall
696 'partition of system resources' is separate from the list of specific
697 resources of a process, simply because there can be many processes under the
698 same partition (collection of resources allocated).
699
700 > >  
701 > Simplicity!
702
703 > Yes, we can allow lots of options, but at the end of the day, the 
704 > simplest model that does what we need is likely the best. I don't
705 > want us to hack together a frankenscheduler.  
706
707 My view is also simple in the case of one address space/process per
708 'partition.'  Extending it to multiple address spaces is simply asking that
709 resources be shared between processes, but without design details that I
710 imagine will be brutally complicated in the Cell model.
711
712
713 Part 6: Use Cases
714 ===============================
715 6.1: Matrix Multiply / Trusting Many-core app
716 -------------------------------
717 The process is created by something (bash, for instance).  It's parent makes
718 it runnable.  The process requests a bunch of cores and RAM.  The scheduler
719 decides to give it a certain amount of resources, which creates it's partition
720 (aka, chunk of resources granted to it's process group, of which it is the
721 only member).  The sysadmin can tweak this allocation via procfs.
722
723 The process runs on its cores in it's many-core mode.  It is gang scheduled,
724 and knows how many cores there are.  When the kernel starts the process on
725 it's extra cores, it passes control to a known spot in code (the ELF entry
726 point), with the virtual core id passed as a parameter.
727
728 The code runs from a single binary image, eventually with shared
729 object/library support.  It's view of memory is a virtual address space, but
730 it also can see it's own page tables to see which pages are really resident
731 (similar to POSIX's mincore()).
732
733 When it comes time to lose a core, or be completely preempted, the process is
734 notified by the OS running a handler of the process's choosing (in userspace).
735 The process can choose what to do (pick a core to yield, prepare to be
736 preempted, etc).
737
738 To deal with memory, the process is notified when it page faults, and keeps
739 its core.  The process can pin pages in memory.  If there is memory pressure,
740 the process can tell the kernel which pages to unmap.
741
742 This is the simple case.
743
744 6.2: Browser
745 -------------------------------
746 In this case, a process wants to create multiple protection domains that share
747 the same pool of resources.  Or rather, with it's own allocated resources.
748
749 The browser process is created, as above.  It creates, but does not run, it's
750 untrusted children.  The kernel will have a variety of ways a process can
751 "mess with" a process it controls.  So for this untrusted child, the parent
752 can pass (for example), a file descriptor of what to render, "sandbox" that
753 process (only allow a whitelist of syscalls, e.g. can only read and write
754 descriptors it has).  You can't do this easily in the cell model.
755
756 The parent can also set up a shared memory mapping / channel with the child.
757
758 For resources, the parent can put the child in a subdirectory/ subpartition
759 and give a portion of its resources to that subpartition.  The scheduler will
760 ensure that both the parent and the child are run at the same time, and will
761 give the child process the resources specified.  (cores, RAM, etc).
762
763 After this setup, the parent will then make the child "runnable".  This is why
764 we want to separate the creation from the runnability of a process, which we
765 can't do with the fork/exec model.
766
767 The parent can later kill the child if it wants, reallocate the resources in
768 the partition (perhaps to another process rendering a more important page),
769 preempt that process, whatever.
770
771 6.3: SMP Virtual Machines
772 -------------------------------
773 The main issue (regardless of paravirt or full virt), is that what's running
774 on the cores may or may not trust one another.  One solution is to run each
775 VM-core in it's own process (like with Linux's KVM, it uses N tasks (part of
776 one process) for an N-way SMP VM).  The processes set up the appropriate
777 shared memory mapping between themselves early on.  Another approach would be
778 to allow a many-cored process to install specific address spaces on each
779 core, and interpose on syscalls, privileged instructions, and page faults.
780 This sounds very much like the Cell approach, which may be fine for a VM, but
781 not for the general case of a process.
782
783 Or with a paravirtualized SMP guest, you could (similar to the L4Linux way,)
784 make any Guest OS processes actual processes in our OS.  The resource
785 allocation to the Guest OS partition would be managed by the parent process of
786 the group (which would be running the Guest OS kernel).  We still need to play
787 tricks with syscall redirection.
788
789 For full virtualization, we'd need to make use of hardware virtualization
790 instructions. Dealing with the VMEXITs, emulation, and other things is a real
791 pain, but already done.  The long range plan was to wait til the
792 http://v3vee.org/ project supported Intel's instructions and eventually
793 incorporate that.
794
795 All of these ways involve subtle and not-so-subtle difficulties.  The
796 Cell-as-OS mode will have to deal with them for the common case, which seems
797 brutal.  And rather unnecessary.