More verbose multicore debugging
[akaros.git] / kern / src / env.c
index 61b13fa..3a4abb4 100644 (file)
@@ -6,6 +6,7 @@
 
 #include <arch/arch.h>
 #include <arch/mmu.h>
+#include <arch/bitmask.h>
 #include <elf.h>
 #include <smp.h>
 
@@ -19,6 +20,7 @@
 #include <manager.h>
 #include <stdio.h>
 #include <schedule.h>
+#include <kmalloc.h>
 
 #include <ros/syscall.h>
 #include <ros/error.h>
@@ -29,7 +31,7 @@ atomic_t num_envs;
 // This lets the kernel know what process is running on the core it traps into.
 // A lot of the Env business, including this and its usage, will change when we
 // redesign the env as a multi-process.
-env_t* curenvs[MAX_NUM_CPUS] = {[0 ... (MAX_NUM_CPUS-1)] NULL};
+env_t* (RO curenvs)[MAX_NUM_CPUS] = {[0 ... (MAX_NUM_CPUS-1)] NULL};
 
 #define ENVGENSHIFT    12              // >= LOGNENV
 
@@ -91,16 +93,23 @@ env_init(void)
        int i;
 
        schedule_init();
+       // core 0 is not idle, all others are (for now)
+       spin_lock(&idle_lock);
+       num_idlecores = num_cpus - 1;
+       for (i = 0; i < num_idlecores; i++)
+               idlecoremap[i] = i + 1;
+       spin_unlock(&idle_lock);
        atomic_init(&num_envs, 0);
        TAILQ_INIT(&proc_freelist);
        assert(envs != NULL);
        for (i = NENV-1; i >= 0; i--) {
                // these should already be set from when i memset'd the array to 0
                envs[i].state = ENV_FREE;
+               envs[i].end_text_segment = (void*)UTEXT;
+               envs[i].end_data_segment = (void*)UTEXT;
                envs[i].env_id = 0;
                TAILQ_INSERT_HEAD(&proc_freelist, &envs[i], proc_link);
        }
-
 }
 
 //
@@ -121,15 +130,14 @@ WRITES(e->env_pgdir, e->env_cr3, e->env_procinfo, e->env_procdata)
        page_t *pgdir = NULL;
        page_t *pginfo[PROCINFO_NUM_PAGES] = {NULL};
        page_t *pgdata[PROCDATA_NUM_PAGES] = {NULL};
-       static page_t* shared_page = 0;
+       static page_t * RO shared_page = 0;
 
        /*
         * First, allocate a page for the pgdir of this process and up
         * its reference count since this will never be done elsewhere
         */
-       r = page_alloc(&pgdir);
+       r = kpage_alloc(&pgdir);
        if(r < 0) return r;
-       page_incref(pgdir);
 
        /*
         * Next, set up the e->env_pgdir and e->env_cr3 pointers to point
@@ -154,15 +162,15 @@ WRITES(e->env_pgdir, e->env_cr3, e->env_procinfo, e->env_procdata)
 
        // VPT and UVPT map the env's own page table, with
        // different permissions.
-       e->env_pgdir[PDX(VPT)]  = PTE(PPN(e->env_cr3), PTE_P | PTE_KERN_RW);
-       e->env_pgdir[PDX(UVPT)] = PTE(PPN(e->env_cr3), PTE_P | PTE_USER_RO);
+       e->env_pgdir[PDX(VPT)]  = PTE(LA2PPN(e->env_cr3), PTE_P | PTE_KERN_RW);
+       e->env_pgdir[PDX(UVPT)] = PTE(LA2PPN(e->env_cr3), PTE_P | PTE_USER_RO);
 
        /*
         * Now allocate and insert all pages required for the shared
         * procinfo structure into the page table
         */
        for(int i=0; i<PROCINFO_NUM_PAGES; i++) {
-               if(page_alloc(&pginfo[i]) < 0)
+               if(upage_alloc(e, &pginfo[i]) < 0)
                        goto env_setup_vm_error;
                if(page_insert(e->env_pgdir, pginfo[i], (void*SNT)(UINFO + i*PGSIZE),
                               PTE_USER_RO) < 0)
@@ -174,7 +182,7 @@ WRITES(e->env_pgdir, e->env_cr3, e->env_procinfo, e->env_procdata)
         * procdata structure into the page table
         */
        for(int i=0; i<PROCDATA_NUM_PAGES; i++) {
-               if(page_alloc(&pgdata[i]) < 0)
+               if(upage_alloc(e, &pgdata[i]) < 0)
                        goto env_setup_vm_error;
                if(page_insert(e->env_pgdir, pgdata[i], (void*SNT)(UDATA + i*PGSIZE),
                               PTE_USER_RW) < 0)
@@ -197,12 +205,12 @@ WRITES(e->env_pgdir, e->env_cr3, e->env_procinfo, e->env_procdata)
         * (TODO).  Note the page is alloced only the first time through
         */
        if (!shared_page) {
-               if(page_alloc(&shared_page) < 0)
+               if(upage_alloc(e, &shared_page) < 0)
                        goto env_setup_vm_error;
-       // Up it, so it never goes away.  One per user, plus one from page_alloc
-       // This is necessary, since it's in the per-process range of memory that
-       // gets freed during page_free.
-       page_incref(shared_page);
+               // Up it, so it never goes away.  One per user, plus one from page_alloc
+               // This is necessary, since it's in the per-process range of memory that
+               // gets freed during page_free.
+               page_incref(shared_page);
        }
 
        // Inserted into every process's address space at UGDATA
@@ -224,6 +232,65 @@ env_setup_vm_error:
        return -ENOMEM;
 }
 
+static void
+proc_init_procinfo(struct proc* p)
+{
+       p->env_procinfo->id = (p->env_id & 0x3FF);
+
+       // TODO: maybe do something smarter here
+       p->env_procinfo->max_harts = MAX(1,num_cpus-1);
+}
+
+// Sets up argc/argv in procinfo.  Returns number of
+// args successfully imported (because of size restrictions).
+// The procinfo pages must have been mapped into the user's
+// address space before this function can be called.
+static size_t
+proc_init_argc_argv_v(struct proc* p, size_t nargs, va_list args)
+{
+       // TODO: right now we assume procinfo can be directly addressed
+       // by the kernel (i.e. it's continguous.
+       static_assert(sizeof(struct procinfo) <= PGSIZE);
+
+       if(nargs > PROCINFO_MAX_ARGC)
+               nargs = PROCINFO_MAX_ARGC;
+
+       char* argv[PROCINFO_MAX_ARGC] = {0};
+       static_assert(sizeof(argv) == sizeof(p->env_procinfo->argv));
+
+       size_t size = 0, argc;
+       for(argc = 0; argc < nargs; argc++)
+       {
+               const char* arg = va_arg(args,const char*);
+               size_t len = strnlen(arg,PROCINFO_MAX_ARGV_SIZE);
+               if(size+len+1 > PROCINFO_MAX_ARGV_SIZE)
+                       break;
+               memcpy(&p->env_procinfo->argv_buf[size],arg,len+1);
+               argv[argc] = (char*)(UINFO+offsetof(struct procinfo,argv_buf)+size);
+               size += len+1;
+       }
+
+       p->env_procinfo->argc = argc;
+       memcpy(p->env_procinfo->argv,argv,sizeof(argv));
+
+       return argc;
+}
+
+size_t
+proc_init_argc_argv(struct proc* p, size_t nargs, ...)
+{
+       size_t ret;
+
+       va_list list;
+       va_start(list,nargs);
+
+       ret = proc_init_argc_argv_v(p,nargs,list);
+
+       va_end(list);
+
+       return ret;
+}
+
 //
 // Allocates and initializes a new environment.
 // On success, the new environment is stored in *newenv_store.
@@ -251,6 +318,10 @@ env_alloc(env_t **newenv_store, envid_t parent_id)
 
     { INITSTRUCT(*e)
 
+       // Setup the default map of where to get cache colors from
+       e->cache_colors_map = global_cache_colors_map;
+       e->next_cache_color = 0;
+
        // Allocate and set up the page directory for this environment.
        if ((r = env_setup_vm(e)) < 0) {
                spin_lock(&freelist_lock);
@@ -266,27 +337,23 @@ env_alloc(env_t **newenv_store, envid_t parent_id)
        e->env_id = generation | (e - envs);
 
        // Set the basic status variables.
-    e->proc_lock = 0;
+       e->proc_lock = 0;
        e->env_parent_id = parent_id;
        proc_set_state(e, PROC_CREATED);
        e->env_runs = 0;
        e->env_refcnt = 1;
        e->env_flags = 0;
        e->env_entry = 0; // cheating.  this really gets set in load_icode
-
-#ifdef __SHARC__
-       /* init SharC state */
-       sharC_env_init(&e->sharC_env);
-#endif
+       e->num_vcores = 0;
+       for (int i = 0; i < MAX_NUM_CPUS; i++)
+               e->vcoremap[i] = -1;
+       memset(&e->resources, 0, sizeof(e->resources));
 
        memset(&e->env_ancillary_state, 0, sizeof(e->env_ancillary_state));
        memset(&e->env_tf, 0, sizeof(e->env_tf));
-       env_init_trapframe(&e->env_tf);
+       proc_init_trapframe(&e->env_tf);
 
-       /*
-        * Initialize the contents of the e->env_procinfo structure
-        */
-        e->env_procinfo->id = (e->env_id & 0x3FF);
+       proc_init_procinfo(e);
 
        /*
         * Initialize the contents of the e->env_procdata structure
@@ -316,12 +383,12 @@ env_alloc(env_t **newenv_store, envid_t parent_id)
 //
 // Allocate len bytes of physical memory for environment env,
 // and map it at virtual address va in the environment's address space.
-// Does not zero or otherwise initialize the mapped pages in any way.
+// Pages are zeroed by upage_alloc.
 // Pages should be writable by user and kernel.
 // Panic if any allocation attempt fails.
 //
-static void
-segment_alloc(env_t *e, void *SNT va, size_t len)
+void
+env_segment_alloc(env_t *e, void *SNT va, size_t len)
 {
        void *SNT start, *SNT end;
        size_t num_pages;
@@ -335,10 +402,7 @@ segment_alloc(env_t *e, void *SNT va, size_t len)
                panic("Wrap-around in memory allocation addresses!");
        if ((uintptr_t)end > UTOP)
                panic("Attempting to map above UTOP!");
-       // page_insert/pgdir_walk alloc a page and read/write to it via its address
-       // starting from pgdir (e's), so we need to be using e's pgdir
-       assert(e->env_cr3 == rcr3());
-       num_pages = PPN(end - start);
+       num_pages = LA2PPN(end - start);
 
        for (i = 0; i < num_pages; i++, start += PGSIZE) {
                // skip if a page is already mapped.  yes, page_insert will page_remove
@@ -348,12 +412,86 @@ segment_alloc(env_t *e, void *SNT va, size_t len)
                pte = pgdir_walk(e->env_pgdir, start, 0);
                if (pte && *pte & PTE_P)
                        continue;
-               if ((r = page_alloc(&page)) < 0)
-                       panic("segment_alloc: %e", r);
+               if ((r = upage_alloc(e, &page)) < 0)
+                       panic("env_segment_alloc: %e", r);
                page_insert(e->env_pgdir, page, start, PTE_USER_RW);
        }
 }
 
+void
+env_segment_free(env_t *e, void *SNT va, size_t len)
+{
+       void *SNT start, *SNT end;
+       size_t num_pages;
+       page_t *page;
+       pte_t *pte;
+
+       // Round this up this time so we don't free the page that va is actually on
+       start = ROUNDUP(va, PGSIZE);
+       end = ROUNDUP(va + len, PGSIZE);
+       if (start >= end)
+               panic("Wrap-around in memory free addresses!");
+       if ((uintptr_t)end > UTOP)
+               panic("Attempting to unmap above UTOP!");
+       // page_insert/pgdir_walk alloc a page and read/write to it via its address
+       // starting from pgdir (e's), so we need to be using e's pgdir
+       assert(e->env_cr3 == rcr3());
+       num_pages = LA2PPN(end - start);
+
+       for (int i = 0; i < num_pages; i++, start += PGSIZE) {
+               // skip if a page is already unmapped. 
+               pte = pgdir_walk(e->env_pgdir, start, 0);
+               if (pte && *pte & PTE_P)
+                       page_remove(e->env_pgdir,start);
+       }
+}
+
+// this helper function handles all cases of copying to/from user/kernel
+// or between two users.
+static error_t
+load_icode_memcpy(env_t* e, env_t* binary_env, void* dest, const void* src, size_t len)
+{
+       if(src < (void*)UTOP)
+       {
+               if(binary_env == NULL)
+                       return -EFAULT;
+
+               if(e == NULL)
+                       return memcpy_from_user(binary_env,dest,src,len);
+               else
+               {
+                       // TODO: do something more elegant & faster here.
+                       // e.g. a memcpy_from_user_to_user
+                       uint8_t kbuf[1024];
+                       while(len > 0)
+                       {
+                               size_t thislen = MIN(len,sizeof(kbuf));
+                               if(memcpy_from_user(binary_env,kbuf,src,thislen))
+                                       return -EFAULT;
+                               if(memcpy_to_user(e,dest,kbuf,thislen))
+                                       panic("destination env isn't mapped!");
+                               len -= thislen;
+                               src += thislen;
+                               dest += thislen;
+                       }
+                       return ESUCCESS;
+               }
+
+       }
+       else
+       {
+               if(binary_env != NULL)
+                       return -EFAULT;
+
+               if(e == NULL)
+                       memcpy(dest,src,len);
+               else if(memcpy_to_user(e,dest,src,len))
+                       panic("destination env isn't mapped!");
+
+               return ESUCCESS;
+       }
+}
+
 //
 // Set up the initial program binary, stack, and processor flags
 // for a user process.
@@ -366,13 +504,15 @@ segment_alloc(env_t *e, void *SNT va, size_t len)
 // but not actually present in the ELF file - i.e., the program's bss section.
 //
 // Finally, this function maps one page for the program's initial stack.
-static void
-load_icode(env_t *SAFE e, uint8_t *COUNT(size) binary, size_t size)
+static void*
+load_icode(env_t *SAFE e, env_t* binary_env, uint8_t *COUNT(size) binary, size_t size)
 {
        // asw: copy the headers because they might not be aligned.
        elf_t elfhdr;
        proghdr_t phdr;
-       memcpy(&elfhdr, binary, sizeof(elfhdr));
+       void* _end = 0;
+
+       assert(load_icode_memcpy(NULL,binary_env,&elfhdr, binary, sizeof(elfhdr)) == ESUCCESS);
 
        int i, r;
 
@@ -381,54 +521,42 @@ load_icode(env_t *SAFE e, uint8_t *COUNT(size) binary, size_t size)
        // make sure we have proghdrs to load
        assert(elfhdr.e_phnum);
 
-       // to actually access any pages alloc'd for this environment, we
-       // need to have the hardware use this environment's page tables.
-       uintreg_t old_cr3 = rcr3();
-       /*
-        * Even though we'll decref later and no one should be killing us at this
-        * stage, we're still going to wrap the lcr3s with incref/decref.
-        *
-        * Note we never decref on the old_cr3, since we aren't willing to let it
-        * die.  It's also not clear who the previous process is - sometimes it
-        * isn't even a process (when the kernel loads on its own, and not in
-        * response to a syscall).  Probably need to think more about this (TODO)
-        *
-        * This can get a bit tricky if this code blocks (will need to think about a
-        * decref then), if we try to change states, etc.
-        */
-       proc_incref(e);
-       lcr3(e->env_cr3);
-
        // TODO: how do we do a runtime COUNT?
        {TRUSTEDBLOCK // zra: TRUSTEDBLOCK until validation is done.
        for (i = 0; i < elfhdr.e_phnum; i++) {
-               memcpy(&phdr, binary + elfhdr.e_phoff + i*sizeof(phdr), sizeof(phdr));
+               // copy phdr to kernel mem
+               assert(load_icode_memcpy(NULL,binary_env,&phdr, binary + elfhdr.e_phoff + i*sizeof(phdr), sizeof(phdr)) == ESUCCESS);
+
                if (phdr.p_type != ELF_PROG_LOAD)
                        continue;
-        // TODO: validate elf header fields!
+               // TODO: validate elf header fields!
                // seg alloc creates PTE_U|PTE_W pages.  if you ever want to change
                // this, there will be issues with overlapping sections
-               segment_alloc(e, (void*SNT)phdr.p_va, phdr.p_memsz);
-               memcpy((void*)phdr.p_va, binary + phdr.p_offset, phdr.p_filesz);
-               memset((void*)phdr.p_va + phdr.p_filesz, 0, phdr.p_memsz - phdr.p_filesz);
+               _end = MAX(_end, (void*)(phdr.p_va + phdr.p_memsz));
+               env_segment_alloc(e, (void*SNT)phdr.p_va, phdr.p_memsz);
+
+               // copy section to user mem
+               assert(load_icode_memcpy(e,binary_env,(void*)phdr.p_va, binary + phdr.p_offset, phdr.p_filesz) == ESUCCESS);
+
+               //no need to memclr the remaining p_memsz-p_filesz bytes
+               //because upage_alloc'd pages are zeroed
        }}
 
-       env_set_program_counter(e, elfhdr.e_entry);
+       proc_set_program_counter(&e->env_tf, elfhdr.e_entry);
        e->env_entry = elfhdr.e_entry;
 
-       // Now map one page for the program's initial stack
-       // at virtual address USTACKTOP - PGSIZE.
-       segment_alloc(e, (void*SNT)(USTACKTOP - PGSIZE), PGSIZE);
-
-       // reload the original address space
-       lcr3(old_cr3);
-       proc_decref(e);
+       // Now map USTACK_NUM_PAGES pages for the program's initial stack
+       // starting at virtual address USTACKTOP - USTACK_NUM_PAGES*PGSIZE.
+       env_segment_alloc(e, (void*SNT)(USTACKTOP - USTACK_NUM_PAGES*PGSIZE), 
+                         USTACK_NUM_PAGES*PGSIZE);
+       
+       return _end;
 }
 
 //
 // Allocates a new env and loads the named elf binary into it.
 //
-env_t* env_create(uint8_t *binary, size_t size)
+env_t* env_create()
 {
        env_t *e;
        int r;
@@ -437,10 +565,23 @@ env_t* env_create(uint8_t *binary, size_t size)
        curid = (current ? current->env_id : 0);
        if ((r = env_alloc(&e, curid)) < 0)
                panic("env_create: %e", r);
-       load_icode(e, binary, size);
+
+       // default PC: will cause page fault if not otherwise set.
+       proc_set_program_counter(&e->env_tf, 0);
+       e->end_text_segment = 0;
+       e->end_data_segment = 0;
+
        return e;
 }
 
+void env_load_icode(env_t* e, env_t* binary_env, uint8_t* binary, size_t size)
+{
+       /* Load the binary and set the current locations of the elf segments.
+        * All end-of-segment pointers are page aligned (invariant) */
+       e->end_text_segment = load_icode(e, binary_env, binary, size);
+       e->end_data_segment = e->end_text_segment;
+}
+
 //
 // Frees env e and all memory it uses.
 //
@@ -454,6 +595,13 @@ env_free(env_t *e)
        // All parts of the kernel should have decref'd before env_free was called.
        assert(e->env_refcnt == 0);
 
+       // Free any colors allocated to this process
+       if(e->cache_colors_map != global_cache_colors_map) {
+               for(int i=0; i<llc_cache->num_colors; i++)
+                       cache_color_free(llc_cache, e->cache_colors_map);
+               cache_colors_map_free(e->cache_colors_map);
+       }
+
        // Flush all mapped pages in the user portion of the address space
        env_user_mem_free(e);
 
@@ -465,7 +613,9 @@ env_free(env_t *e)
 
        // return the environment to the free list
        e->state = ENV_FREE;
+       spin_lock(&freelist_lock);
        TAILQ_INSERT_HEAD(&proc_freelist, e, proc_link);
+       spin_unlock(&freelist_lock);
 }
 
 
@@ -486,15 +636,25 @@ type SLOCKED(name##_lock) *\
  *
  * Note this is rather old, and meant to run a RUNNABLE_S on a worker core.
  */
-void run_env_handler(trapframe_t *tf, env_t *data)
+#ifdef __IVY__
+void run_env_handler(trapframe_t *tf, env_t * data)
+#else
+void run_env_handler(trapframe_t *tf, void * data)
+#endif
 {
        assert(data);
        struct work TP(env_t *) job;
-       struct workqueue *workqueue = &per_cpu_info[core_id()].workqueue;
-       {
+       struct workqueue TP(env_t *) *CT(1) workqueue =
+           TC(&per_cpu_info[core_id()].workqueue);
+       // this doesn't work, and making it a TP(env_t) is wrong
+       // zra: When you want to use other types, let me know, and I can help
+    // make something that Ivy is happy with. 
+#ifdef __IVY__
        job.func = proc_run;
+#else
+       job.func = (func_t)proc_run;
+#endif
        job.data = data;
-       }
        if (enqueue_work(workqueue, &job))
                panic("Failed to enqueue work!");
 }