More verbose multicore debugging
[akaros.git] / kern / src / env.c
index 2e9cf85..3a4abb4 100644 (file)
@@ -1,11 +1,12 @@
 /* See COPYRIGHT for copyright information. */
-#ifdef __DEPUTY__
-//#pragma nodeputy
-#pragma noasync
+
+#ifdef __SHARC__
+#pragma nosharc
 #endif
 
 #include <arch/arch.h>
 #include <arch/mmu.h>
+#include <arch/bitmask.h>
 #include <elf.h>
 #include <smp.h>
 
@@ -18,6 +19,8 @@
 #include <monitor.h>
 #include <manager.h>
 #include <stdio.h>
+#include <schedule.h>
+#include <kmalloc.h>
 
 #include <ros/syscall.h>
 #include <ros/error.h>
@@ -28,8 +31,7 @@ atomic_t num_envs;
 // This lets the kernel know what process is running on the core it traps into.
 // A lot of the Env business, including this and its usage, will change when we
 // redesign the env as a multi-process.
-env_t* curenvs[MAX_NUM_CPUS] = {[0 ... (MAX_NUM_CPUS-1)] NULL};
-static env_list_t env_free_list;       // Free list
+env_t* (RO curenvs)[MAX_NUM_CPUS] = {[0 ... (MAX_NUM_CPUS-1)] NULL};
 
 #define ENVGENSHIFT    12              // >= LOGNENV
 
@@ -80,7 +82,7 @@ envid2env(envid_t envid, env_t **env_store, bool checkperm)
 
 //
 // Mark all environments in 'envs' as free, set their env_ids to 0,
-// and insert them into the env_free_list.
+// and insert them into the proc_freelist.
 // Insert in reverse order, so that the first call to env_alloc()
 // returns envs[0].
 // TODO: get rid of this whole array bullshit
@@ -90,14 +92,23 @@ env_init(void)
 {
        int i;
 
+       schedule_init();
+       // core 0 is not idle, all others are (for now)
+       spin_lock(&idle_lock);
+       num_idlecores = num_cpus - 1;
+       for (i = 0; i < num_idlecores; i++)
+               idlecoremap[i] = i + 1;
+       spin_unlock(&idle_lock);
        atomic_init(&num_envs, 0);
-       LIST_INIT(&env_free_list);
+       TAILQ_INIT(&proc_freelist);
        assert(envs != NULL);
-       for (i = NENV-1; i >= 0; i--) { TRUSTEDBLOCK // asw ivy workaround
+       for (i = NENV-1; i >= 0; i--) {
                // these should already be set from when i memset'd the array to 0
                envs[i].state = ENV_FREE;
+               envs[i].end_text_segment = (void*)UTEXT;
+               envs[i].end_data_segment = (void*)UTEXT;
                envs[i].env_id = 0;
-               LIST_INSERT_HEAD(&env_free_list, &envs[i], env_link);
+               TAILQ_INSERT_HEAD(&proc_freelist, &envs[i], proc_link);
        }
 }
 
@@ -117,19 +128,18 @@ WRITES(e->env_pgdir, e->env_cr3, e->env_procinfo, e->env_procdata)
 {
        int i, r;
        page_t *pgdir = NULL;
-       page_t *pginfo[PROCINFO_NUM_PAGES] = {NULL}; 
+       page_t *pginfo[PROCINFO_NUM_PAGES] = {NULL};
        page_t *pgdata[PROCDATA_NUM_PAGES] = {NULL};
-       static page_t* shared_page = 0;
+       static page_t * RO shared_page = 0;
 
-       /* 
-        * First, allocate a page for the pgdir of this process and up 
+       /*
+        * First, allocate a page for the pgdir of this process and up
         * its reference count since this will never be done elsewhere
         */
-       r = page_alloc(&pgdir);
+       r = kpage_alloc(&pgdir);
        if(r < 0) return r;
-       pgdir->pp_ref++;
 
-       /* 
+       /*
         * Next, set up the e->env_pgdir and e->env_cr3 pointers to point
         * to this newly allocated page and clear its contents
         */
@@ -137,7 +147,7 @@ WRITES(e->env_pgdir, e->env_cr3, e->env_procinfo, e->env_procdata)
        e->env_pgdir = (pde_t *COUNT(NPDENTRIES)) TC(page2kva(pgdir));
        e->env_cr3 =   (physaddr_t) TC(page2pa(pgdir));
 
-       /* 
+       /*
         * Now start filling in the pgdir with mappings required by all newly
         * created address spaces
         */
@@ -152,53 +162,55 @@ WRITES(e->env_pgdir, e->env_cr3, e->env_procinfo, e->env_procdata)
 
        // VPT and UVPT map the env's own page table, with
        // different permissions.
-       e->env_pgdir[PDX(VPT)]  = PTE(PPN(e->env_cr3), PTE_P | PTE_KERN_RW);
-       e->env_pgdir[PDX(UVPT)] = PTE(PPN(e->env_cr3), PTE_P | PTE_USER_RO);
+       e->env_pgdir[PDX(VPT)]  = PTE(LA2PPN(e->env_cr3), PTE_P | PTE_KERN_RW);
+       e->env_pgdir[PDX(UVPT)] = PTE(LA2PPN(e->env_cr3), PTE_P | PTE_USER_RO);
 
        /*
-        * Now allocate and insert all pages required for the shared 
+        * Now allocate and insert all pages required for the shared
         * procinfo structure into the page table
         */
        for(int i=0; i<PROCINFO_NUM_PAGES; i++) {
-               if(page_alloc(&pginfo[i]) < 0) 
+               if(upage_alloc(e, &pginfo[i]) < 0)
                        goto env_setup_vm_error;
-               if(page_insert(e->env_pgdir, pginfo[i], (void*SNT)(UINFO + i*PGSIZE), PTE_USER_RO) < 0)
+               if(page_insert(e->env_pgdir, pginfo[i], (void*SNT)(UINFO + i*PGSIZE),
+                              PTE_USER_RO) < 0)
                        goto env_setup_vm_error;
        }
-       
+
        /*
-        * Now allocate and insert all pages required for the shared 
+        * Now allocate and insert all pages required for the shared
         * procdata structure into the page table
         */
        for(int i=0; i<PROCDATA_NUM_PAGES; i++) {
-               if(page_alloc(&pgdata[i]) < 0)
+               if(upage_alloc(e, &pgdata[i]) < 0)
                        goto env_setup_vm_error;
-               if(page_insert(e->env_pgdir, pgdata[i], (void*SNT)(UDATA + i*PGSIZE), PTE_USER_RW) < 0)
+               if(page_insert(e->env_pgdir, pgdata[i], (void*SNT)(UDATA + i*PGSIZE),
+                              PTE_USER_RW) < 0)
                        goto env_setup_vm_error;
        }
 
-       /* 
-        * Now, set e->env_procinfo, and e->env_procdata to point to 
+       /*
+        * Now, set e->env_procinfo, and e->env_procdata to point to
         * the proper pages just allocated and clear them out.
         */
        e->env_procinfo = (procinfo_t *SAFE) TC(page2kva(pginfo[0]));
        e->env_procdata = (procdata_t *SAFE) TC(page2kva(pgdata[0]));
-       
+
        memset(e->env_procinfo, 0, sizeof(procinfo_t));
        memset(e->env_procdata, 0, sizeof(procdata_t));
-       
-       /* Finally, set up the Global Shared Data page for all processes.  
-        * Can't be trusted, but still very useful at this stage for us.  
+
+       /* Finally, set up the Global Shared Data page for all processes.
+        * Can't be trusted, but still very useful at this stage for us.
         * Consider removing when we have real processes.
         * (TODO).  Note the page is alloced only the first time through
         */
        if (!shared_page) {
-               if(page_alloc(&shared_page) < 0)
+               if(upage_alloc(e, &shared_page) < 0)
                        goto env_setup_vm_error;
-       // Up it, so it never goes away.  One per user, plus one from page_alloc
-       // This is necessary, since it's in the per-process range of memory that
-       // gets freed during page_free.
-       shared_page->pp_ref++;
+               // Up it, so it never goes away.  One per user, plus one from page_alloc
+               // This is necessary, since it's in the per-process range of memory that
+               // gets freed during page_free.
+               page_incref(shared_page);
        }
 
        // Inserted into every process's address space at UGDATA
@@ -207,7 +219,7 @@ WRITES(e->env_pgdir, e->env_cr3, e->env_procinfo, e->env_procdata)
 
        return 0;
 
-env_setup_vm_error:    
+env_setup_vm_error:
        page_free(shared_page);
        for(int i=0; i< PROCDATA_NUM_PAGES; i++) {
                page_free(pgdata[i]);
@@ -220,6 +232,65 @@ env_setup_vm_error:
        return -ENOMEM;
 }
 
+static void
+proc_init_procinfo(struct proc* p)
+{
+       p->env_procinfo->id = (p->env_id & 0x3FF);
+
+       // TODO: maybe do something smarter here
+       p->env_procinfo->max_harts = MAX(1,num_cpus-1);
+}
+
+// Sets up argc/argv in procinfo.  Returns number of
+// args successfully imported (because of size restrictions).
+// The procinfo pages must have been mapped into the user's
+// address space before this function can be called.
+static size_t
+proc_init_argc_argv_v(struct proc* p, size_t nargs, va_list args)
+{
+       // TODO: right now we assume procinfo can be directly addressed
+       // by the kernel (i.e. it's continguous.
+       static_assert(sizeof(struct procinfo) <= PGSIZE);
+
+       if(nargs > PROCINFO_MAX_ARGC)
+               nargs = PROCINFO_MAX_ARGC;
+
+       char* argv[PROCINFO_MAX_ARGC] = {0};
+       static_assert(sizeof(argv) == sizeof(p->env_procinfo->argv));
+
+       size_t size = 0, argc;
+       for(argc = 0; argc < nargs; argc++)
+       {
+               const char* arg = va_arg(args,const char*);
+               size_t len = strnlen(arg,PROCINFO_MAX_ARGV_SIZE);
+               if(size+len+1 > PROCINFO_MAX_ARGV_SIZE)
+                       break;
+               memcpy(&p->env_procinfo->argv_buf[size],arg,len+1);
+               argv[argc] = (char*)(UINFO+offsetof(struct procinfo,argv_buf)+size);
+               size += len+1;
+       }
+
+       p->env_procinfo->argc = argc;
+       memcpy(p->env_procinfo->argv,argv,sizeof(argv));
+
+       return argc;
+}
+
+size_t
+proc_init_argc_argv(struct proc* p, size_t nargs, ...)
+{
+       size_t ret;
+
+       va_list list;
+       va_start(list,nargs);
+
+       ret = proc_init_argc_argv_v(p,nargs,list);
+
+       va_end(list);
+
+       return ret;
+}
+
 //
 // Allocates and initializes a new environment.
 // On success, the new environment is stored in *newenv_store.
@@ -235,14 +306,29 @@ env_alloc(env_t **newenv_store, envid_t parent_id)
        int r;
        env_t *e;
 
-       if (!(e = LIST_FIRST(&env_free_list)))
+       spin_lock(&freelist_lock);
+       e = TAILQ_FIRST(&proc_freelist);
+       if (e) {
+               TAILQ_REMOVE(&proc_freelist, e, proc_link);
+               spin_unlock(&freelist_lock);
+       } else {
+               spin_unlock(&freelist_lock);
                return -ENOFREEENV;
-       
+       }
+
     { INITSTRUCT(*e)
 
+       // Setup the default map of where to get cache colors from
+       e->cache_colors_map = global_cache_colors_map;
+       e->next_cache_color = 0;
+
        // Allocate and set up the page directory for this environment.
-       if ((r = env_setup_vm(e)) < 0)
+       if ((r = env_setup_vm(e)) < 0) {
+               spin_lock(&freelist_lock);
+               TAILQ_INSERT_HEAD(&proc_freelist, e, proc_link);
+               spin_unlock(&freelist_lock);
                return r;
+       }
 
        // Generate an env_id for this environment.
        generation = (e->env_id + (1 << ENVGENSHIFT)) & ~(NENV - 1);
@@ -251,42 +337,41 @@ env_alloc(env_t **newenv_store, envid_t parent_id)
        e->env_id = generation | (e - envs);
 
        // Set the basic status variables.
-    e->lock = 0;
+       e->proc_lock = 0;
        e->env_parent_id = parent_id;
        proc_set_state(e, PROC_CREATED);
        e->env_runs = 0;
        e->env_refcnt = 1;
        e->env_flags = 0;
-
+       e->env_entry = 0; // cheating.  this really gets set in load_icode
+       e->num_vcores = 0;
+       for (int i = 0; i < MAX_NUM_CPUS; i++)
+               e->vcoremap[i] = -1;
+       memset(&e->resources, 0, sizeof(e->resources));
 
        memset(&e->env_ancillary_state, 0, sizeof(e->env_ancillary_state));
        memset(&e->env_tf, 0, sizeof(e->env_tf));
-       env_init_trapframe(e);
+       proc_init_trapframe(&e->env_tf);
 
-       /* 
-        * Initialize the contents of the e->env_procinfo structure
-        */
-        e->env_procinfo->id = (e->env_id & 0x3FF);
-        
-       /* 
+       proc_init_procinfo(e);
+
+       /*
         * Initialize the contents of the e->env_procdata structure
         */
        // Initialize the generic syscall ring buffer
        SHARED_RING_INIT(&e->env_procdata->syscallring);
        // Initialize the backend of the syscall ring buffer
-       BACK_RING_INIT(&e->syscallbackring, 
-                      &e->env_procdata->syscallring, 
+       BACK_RING_INIT(&e->syscallbackring,
+                      &e->env_procdata->syscallring,
                       SYSCALLRINGSIZE);
-                      
+
        // Initialize the generic sysevent ring buffer
        SHARED_RING_INIT(&e->env_procdata->syseventring);
        // Initialize the frontend of the sysevent ring buffer
-       FRONT_RING_INIT(&e->syseventfrontring, 
-                       &e->env_procdata->syseventring, 
+       FRONT_RING_INIT(&e->syseventfrontring,
+                       &e->env_procdata->syseventring,
                        SYSEVENTRINGSIZE);
 
-       // commit the allocation
-       LIST_REMOVE(e, env_link);
        *newenv_store = e;
        atomic_inc(&num_envs);
 
@@ -298,12 +383,12 @@ env_alloc(env_t **newenv_store, envid_t parent_id)
 //
 // Allocate len bytes of physical memory for environment env,
 // and map it at virtual address va in the environment's address space.
-// Does not zero or otherwise initialize the mapped pages in any way.
+// Pages are zeroed by upage_alloc.
 // Pages should be writable by user and kernel.
 // Panic if any allocation attempt fails.
 //
-static void
-segment_alloc(env_t *e, void *SNT va, size_t len)
+void
+env_segment_alloc(env_t *e, void *SNT va, size_t len)
 {
        void *SNT start, *SNT end;
        size_t num_pages;
@@ -317,10 +402,7 @@ segment_alloc(env_t *e, void *SNT va, size_t len)
                panic("Wrap-around in memory allocation addresses!");
        if ((uintptr_t)end > UTOP)
                panic("Attempting to map above UTOP!");
-       // page_insert/pgdir_walk alloc a page and read/write to it via its address
-       // starting from pgdir (e's), so we need to be using e's pgdir
-       assert(e->env_cr3 == rcr3());
-       num_pages = PPN(end - start);
+       num_pages = LA2PPN(end - start);
 
        for (i = 0; i < num_pages; i++, start += PGSIZE) {
                // skip if a page is already mapped.  yes, page_insert will page_remove
@@ -330,12 +412,86 @@ segment_alloc(env_t *e, void *SNT va, size_t len)
                pte = pgdir_walk(e->env_pgdir, start, 0);
                if (pte && *pte & PTE_P)
                        continue;
-               if ((r = page_alloc(&page)) < 0)
-                       panic("segment_alloc: %e", r);
+               if ((r = upage_alloc(e, &page)) < 0)
+                       panic("env_segment_alloc: %e", r);
                page_insert(e->env_pgdir, page, start, PTE_USER_RW);
        }
 }
 
+void
+env_segment_free(env_t *e, void *SNT va, size_t len)
+{
+       void *SNT start, *SNT end;
+       size_t num_pages;
+       page_t *page;
+       pte_t *pte;
+
+       // Round this up this time so we don't free the page that va is actually on
+       start = ROUNDUP(va, PGSIZE);
+       end = ROUNDUP(va + len, PGSIZE);
+       if (start >= end)
+               panic("Wrap-around in memory free addresses!");
+       if ((uintptr_t)end > UTOP)
+               panic("Attempting to unmap above UTOP!");
+       // page_insert/pgdir_walk alloc a page and read/write to it via its address
+       // starting from pgdir (e's), so we need to be using e's pgdir
+       assert(e->env_cr3 == rcr3());
+       num_pages = LA2PPN(end - start);
+
+       for (int i = 0; i < num_pages; i++, start += PGSIZE) {
+               // skip if a page is already unmapped. 
+               pte = pgdir_walk(e->env_pgdir, start, 0);
+               if (pte && *pte & PTE_P)
+                       page_remove(e->env_pgdir,start);
+       }
+}
+
+// this helper function handles all cases of copying to/from user/kernel
+// or between two users.
+static error_t
+load_icode_memcpy(env_t* e, env_t* binary_env, void* dest, const void* src, size_t len)
+{
+       if(src < (void*)UTOP)
+       {
+               if(binary_env == NULL)
+                       return -EFAULT;
+
+               if(e == NULL)
+                       return memcpy_from_user(binary_env,dest,src,len);
+               else
+               {
+                       // TODO: do something more elegant & faster here.
+                       // e.g. a memcpy_from_user_to_user
+                       uint8_t kbuf[1024];
+                       while(len > 0)
+                       {
+                               size_t thislen = MIN(len,sizeof(kbuf));
+                               if(memcpy_from_user(binary_env,kbuf,src,thislen))
+                                       return -EFAULT;
+                               if(memcpy_to_user(e,dest,kbuf,thislen))
+                                       panic("destination env isn't mapped!");
+                               len -= thislen;
+                               src += thislen;
+                               dest += thislen;
+                       }
+                       return ESUCCESS;
+               }
+
+       }
+       else
+       {
+               if(binary_env != NULL)
+                       return -EFAULT;
+
+               if(e == NULL)
+                       memcpy(dest,src,len);
+               else if(memcpy_to_user(e,dest,src,len))
+                       panic("destination env isn't mapped!");
+
+               return ESUCCESS;
+       }
+}
+
 //
 // Set up the initial program binary, stack, and processor flags
 // for a user process.
@@ -348,13 +504,15 @@ segment_alloc(env_t *e, void *SNT va, size_t len)
 // but not actually present in the ELF file - i.e., the program's bss section.
 //
 // Finally, this function maps one page for the program's initial stack.
-static void
-load_icode(env_t *SAFE e, uint8_t *COUNT(size) binary, size_t size)
+static void*
+load_icode(env_t *SAFE e, env_t* binary_env, uint8_t *COUNT(size) binary, size_t size)
 {
        // asw: copy the headers because they might not be aligned.
        elf_t elfhdr;
        proghdr_t phdr;
-       memcpy(&elfhdr, binary, sizeof(elfhdr));
+       void* _end = 0;
+
+       assert(load_icode_memcpy(NULL,binary_env,&elfhdr, binary, sizeof(elfhdr)) == ESUCCESS);
 
        int i, r;
 
@@ -363,65 +521,67 @@ load_icode(env_t *SAFE e, uint8_t *COUNT(size) binary, size_t size)
        // make sure we have proghdrs to load
        assert(elfhdr.e_phnum);
 
-       // to actually access any pages alloc'd for this environment, we
-       // need to have the hardware use this environment's page tables.
-       uintreg_t old_cr3 = rcr3();
-       /*
-        * Even though we'll decref later and no one should be killing us at this
-        * stage, we're still going to wrap the lcr3s with incref/decref.
-        *
-        * Note we never decref on the old_cr3, since we aren't willing to let it
-        * die.  It's also not clear who the previous process is - sometimes it
-        * isn't even a process (when the kernel loads on its own, and not in
-        * response to a syscall).  Probably need to think more about this (TODO)
-        *
-        * This can get a bit tricky if this code blocks (will need to think about a
-        * decref then), if we try to change states, etc.
-        */
-       env_incref(e);
-       lcr3(e->env_cr3);
-
        // TODO: how do we do a runtime COUNT?
        {TRUSTEDBLOCK // zra: TRUSTEDBLOCK until validation is done.
        for (i = 0; i < elfhdr.e_phnum; i++) {
-               memcpy(&phdr, binary + elfhdr.e_phoff + i*sizeof(phdr), sizeof(phdr));
+               // copy phdr to kernel mem
+               assert(load_icode_memcpy(NULL,binary_env,&phdr, binary + elfhdr.e_phoff + i*sizeof(phdr), sizeof(phdr)) == ESUCCESS);
+
                if (phdr.p_type != ELF_PROG_LOAD)
                        continue;
-        // TODO: validate elf header fields!
+               // TODO: validate elf header fields!
                // seg alloc creates PTE_U|PTE_W pages.  if you ever want to change
                // this, there will be issues with overlapping sections
-               segment_alloc(e, (void*SNT)phdr.p_va, phdr.p_memsz);
-               memcpy((void*)phdr.p_va, binary + phdr.p_offset, phdr.p_filesz);
-               memset((void*)phdr.p_va + phdr.p_filesz, 0, phdr.p_memsz - phdr.p_filesz);
-       }}
+               _end = MAX(_end, (void*)(phdr.p_va + phdr.p_memsz));
+               env_segment_alloc(e, (void*SNT)phdr.p_va, phdr.p_memsz);
 
-       env_set_program_counter(e, elfhdr.e_entry);
+               // copy section to user mem
+               assert(load_icode_memcpy(e,binary_env,(void*)phdr.p_va, binary + phdr.p_offset, phdr.p_filesz) == ESUCCESS);
+
+               //no need to memclr the remaining p_memsz-p_filesz bytes
+               //because upage_alloc'd pages are zeroed
+       }}
 
-       // Now map one page for the program's initial stack
-       // at virtual address USTACKTOP - PGSIZE.
-       segment_alloc(e, (void*SNT)(USTACKTOP - PGSIZE), PGSIZE);
+       proc_set_program_counter(&e->env_tf, elfhdr.e_entry);
+       e->env_entry = elfhdr.e_entry;
 
-       // reload the original address space
-       lcr3(old_cr3);
-       env_decref(e);
+       // Now map USTACK_NUM_PAGES pages for the program's initial stack
+       // starting at virtual address USTACKTOP - USTACK_NUM_PAGES*PGSIZE.
+       env_segment_alloc(e, (void*SNT)(USTACKTOP - USTACK_NUM_PAGES*PGSIZE), 
+                         USTACK_NUM_PAGES*PGSIZE);
+       
+       return _end;
 }
 
 //
 // Allocates a new env and loads the named elf binary into it.
 //
-env_t* env_create(uint8_t *binary, size_t size)
+env_t* env_create()
 {
        env_t *e;
        int r;
        envid_t curid;
-       
-       curid = (current ? current->env_id : 0);        
+
+       curid = (current ? current->env_id : 0);
        if ((r = env_alloc(&e, curid)) < 0)
                panic("env_create: %e", r);
-       load_icode(e, binary, size);
+
+       // default PC: will cause page fault if not otherwise set.
+       proc_set_program_counter(&e->env_tf, 0);
+       e->end_text_segment = 0;
+       e->end_data_segment = 0;
+
        return e;
 }
 
+void env_load_icode(env_t* e, env_t* binary_env, uint8_t* binary, size_t size)
+{
+       /* Load the binary and set the current locations of the elf segments.
+        * All end-of-segment pointers are page aligned (invariant) */
+       e->end_text_segment = load_icode(e, binary_env, binary, size);
+       e->end_data_segment = e->end_text_segment;
+}
+
 //
 // Frees env e and all memory it uses.
 //
@@ -432,9 +592,16 @@ env_free(env_t *e)
 
        // Note the environment's demise.
        printk("[%08x] free env %08x\n", current ? current->env_id : 0, e->env_id);
-       // All parts of the kernel should have decref'd before env_free was called. 
+       // All parts of the kernel should have decref'd before env_free was called.
        assert(e->env_refcnt == 0);
 
+       // Free any colors allocated to this process
+       if(e->cache_colors_map != global_cache_colors_map) {
+               for(int i=0; i<llc_cache->num_colors; i++)
+                       cache_color_free(llc_cache, e->cache_colors_map);
+               cache_colors_map_free(e->cache_colors_map);
+       }
+
        // Flush all mapped pages in the user portion of the address space
        env_user_mem_free(e);
 
@@ -446,169 +613,48 @@ env_free(env_t *e)
 
        // return the environment to the free list
        e->state = ENV_FREE;
-       LIST_INSERT_HEAD(&env_free_list, e, env_link);
-}
-
-/*
- * The process refcnt is the number of places the process 'exists' in the
- * system.  Creation counts as 1.  Having your page tables loaded somewhere
- * (lcr3) counts as another 1.  A non-RUNNING_* process should have refcnt at
- * least 1.  If the kernel is on another core and in a processes address space
- * (like processing its backring), that counts as another 1.
- *
- * Note that the actual loading and unloading of cr3 is up to the caller, since
- * that's not the only use for this (and decoupling is more flexible).
- *
- * The refcnt should always be greater than 0 for processes that aren't dying.
- * When refcnt is 0, the process is dying and should not allow any more increfs.
- * A process can be dying with a refcnt greater than 0, since it could be
- * waiting for other cores to "get the message" to die, or a kernel core can be
- * finishing work in the processes's address space.
- *
- * Implementation aside, the important thing is that we atomically increment
- * only if it wasn't already 0.  If it was 0, then we shouldn't be attaching to
- * the process, so we return an error, which should be handled however is
- * appropriate.  We currently use spinlocks, but some sort of clever atomics
- * would work too.
- *
- * Also, no one should ever update the refcnt outside of these functions.
- * Eventually, we'll have Ivy support for this. (TODO)
- */
-error_t env_incref(env_t* e)
-{
-       error_t retval = 0;
-       spin_lock_irqsave(&e->lock);
-       if (e->env_refcnt)
-               e->env_refcnt++;
-       else
-               retval = -EBADENV;
-       spin_unlock_irqsave(&e->lock);
-       return retval;
-}
-
-/*
- * When the kernel is done with a process, it decrements its reference count.
- * When the count hits 0, no one is using it and it should be freed.
- * "Last one out" actually finalizes the death of the process.  This is tightly
- * coupled with the previous function (incref)
- * Be sure to load a different cr3 before calling this!
- */
-void env_decref(env_t* e)
-{
-       spin_lock_irqsave(&e->lock);
-       e->env_refcnt--;
-       spin_unlock_irqsave(&e->lock);
-       // if we hit 0, no one else will increment and we can check outside the lock
-       if (e->env_refcnt == 0)
-               env_free(e);
-}
-
-
-/*
- * Destroys the given process.  Can be called by a different process (checked
- * via current), though that's unable to handle an async call (TODO current does
- * not work asyncly, though it could be made to in the async processing
- * function. 
- */
-void
-env_destroy(env_t *e)
-{
-       // TODO: XME race condition with env statuses, esp when running / destroying
-       proc_set_state(e, PROC_DYING);
-
-       /*
-        * If we are currently running this address space on our core, we need a
-        * known good pgdir before releasing the old one.  This is currently the
-        * major practical implication of the kernel caring about a processes
-        * existence (the inc and decref).  This decref corresponds to the incref in
-        * proc_startcore (though it's not the only one).
-        */
-       if (current == e) {
-               lcr3(boot_cr3);
-               env_decref(e); // this decref is for the cr3
-       }
-       env_decref(e); // this decref is for the process in general
-       atomic_dec(&num_envs);
-
-       /*
-        * Could consider removing this from destroy and having the caller specify
-        * these actions
-        */
-       // for old envs that die on user cores.  since env run never returns, cores
-       // never get back to their old hlt/relaxed/spin state, so we need to force
-       // them back to an idle function.
-       uint32_t id = core_id();
-       // There is no longer a current process for this core. (TODO: Think about this.)
-       current = NULL;
-       if (id) {
-               smp_idle();
-               panic("should never see me");
-       }
-       // else we're core 0 and can do the usual
-
-       /* Instead of picking a new environment to run, or defaulting to the monitor
-        * like before, for now we'll hop into the manager() function, which
-        * dispatches jobs.  Note that for now we start the manager from the top,
-        * and not from where we left off the last time we called manager.  That
-        * would require us to save some context (and a stack to work on) here.
-        */
-       manager();
-       assert(0); // never get here
+       spin_lock(&freelist_lock);
+       TAILQ_INSERT_HEAD(&proc_freelist, e, proc_link);
+       spin_unlock(&freelist_lock);
 }
 
-/* ugly, but for now just linearly search through all possible
- * environments for a runnable one.
- * the current *policy* is to round-robin the search
- */
-void schedule(void)
-{
-       env_t *e;
-       static int last_picked = 0;
-       
-       for (int i = 0, j = last_picked + 1; i < NENV; i++, j = (j + 1) % NENV) {
-               e = &envs[ENVX(j)];
-               // TODO: XME race here, if another core is just about to start this env.
-               // Fix it by setting the status in something like env_dispatch when
-               // we have multi-contexted processes
-               if (e && e->state == PROC_RUNNABLE_S) {
-                       last_picked = j;
-                       env_run(e);
-               }
-       }
 
-       cprintf("Destroyed the only environment - nothing more to do!\n");
-       while (1)
-               monitor(NULL);
+#define PER_CPU_THING(type,name)\
+type SLOCKED(name##_lock) * RWPROTECT name;\
+type SLOCKED(name##_lock) *\
+(get_per_cpu_##name)()\
+{\
+       { R_PERMITTED(global(name))\
+               return &name[core_id()];\
+       }\
 }
 
-//
-// Context switch from curenv to env e.
-// Note: if this is the first call to env_run, curenv is NULL.
-//  (This function does not return.)
-//
-void
-env_run(env_t *e)
-{
-       // TODO: XME race here with env destroy on the status and refcnt
-       // Could up the refcnt and down it when a process is not running
-       
-       proc_set_state(e, PROC_RUNNING_S);
-       proc_startcore(e, &e->env_tf);
-}
 
 /* This is the top-half of an interrupt handler, where the bottom half is
- * env_run (which never returns).  Just add it to the delayed work queue,
+ * proc_run (which never returns).  Just add it to the delayed work queue,
  * which (incidentally) can only hold one item at this point.
+ *
+ * Note this is rather old, and meant to run a RUNNABLE_S on a worker core.
  */
-void run_env_handler(trapframe_t *tf, void *data)
+#ifdef __IVY__
+void run_env_handler(trapframe_t *tf, env_t * data)
+#else
+void run_env_handler(trapframe_t *tf, void * data)
+#endif
 {
        assert(data);
-       struct work job;
-       struct workqueue *workqueue = &per_cpu_info[core_id()].workqueue;
-       { TRUSTEDBLOCK // TODO: how do we make this func_t cast work?
-       job.func = (func_t)env_run;
+       struct work TP(env_t *) job;
+       struct workqueue TP(env_t *) *CT(1) workqueue =
+           TC(&per_cpu_info[core_id()].workqueue);
+       // this doesn't work, and making it a TP(env_t) is wrong
+       // zra: When you want to use other types, let me know, and I can help
+    // make something that Ivy is happy with. 
+#ifdef __IVY__
+       job.func = proc_run;
+#else
+       job.func = (func_t)proc_run;
+#endif
        job.data = data;
-       }
        if (enqueue_work(workqueue, &job))
                panic("Failed to enqueue work!");
 }