Remove "early routine kmsg" context
[akaros.git] / kern / src / elf.c
1 #include <mm.h>
2 #include <string.h>
3 #include <kmalloc.h>
4 #include <syscall.h>
5 #include <elf.h>
6 #include <pmap.h>
7 #include <smp.h>
8 #include <arch/arch.h>
9 #include <umem.h>
10
11 #ifdef CONFIG_64BIT
12 # define elf_field(obj, field) (elf64 ? (obj##64)->field : (obj##32)->field)
13 #else
14 # define elf_field(obj, field) ((obj##32)->field)
15 #endif
16
17 /* Check if the file is valid elf file (i.e. by checking for ELF_MAGIC in the
18  * header) */
19 bool is_valid_elf(struct file_or_chan *foc)
20 {
21         elf64_t h;
22         uintptr_t c = switch_to_ktask();
23
24         if (foc_read(foc, (char*)&h, sizeof(elf64_t), 0) != sizeof(elf64_t))
25                 goto fail;
26         if (h.e_magic != ELF_MAGIC) {
27                 goto fail;
28         }
29 success:
30         switch_back_from_ktask(c);
31         return TRUE;
32 fail:
33         switch_back_from_ktask(c);
34         return FALSE;
35 }
36
37 static uintptr_t populate_stack(struct proc *p, int argc, char *argv[],
38                                                 int envc, char *envp[],
39                                                 int auxc, elf_aux_t auxv[])
40 {
41         /* Map in pages for p's stack. */
42         int flags = MAP_FIXED | MAP_ANONYMOUS | MAP_PRIVATE;
43         uintptr_t stacksz = USTACK_NUM_PAGES*PGSIZE;
44         if (do_mmap(p, USTACKTOP-stacksz, stacksz, PROT_READ | PROT_WRITE,
45                     flags, NULL, 0) == MAP_FAILED)
46                 return 0;
47
48         /* Function to get the lengths of the argument and environment strings. */
49         int get_lens(int argc, char *argv[], int arg_lens[])
50         {
51                 int total = 0;
52                 for (int i = 0; i < argc; i++) {
53                         arg_lens[i] = strlen(argv[i]) + 1;
54                         total += arg_lens[i];
55                 }
56                 return total;
57         }
58
59         /* Function to help map the argument and environment strings, to their
60          * final location. */
61         int remap(int argc, char *argv[], char *new_argv[],
62               char new_argbuf[], int arg_lens[])
63         {
64                 int offset = 0;
65                 char *temp_argv[argc + 1];
66                 for(int i = 0; i < argc; i++) {
67                         if (memcpy_to_user(p, new_argbuf + offset, argv[i], arg_lens[i]))
68                                 return -1;
69                         temp_argv[i] = new_argbuf + offset;
70                         offset += arg_lens[i];
71                 }
72                 temp_argv[argc] = NULL;
73                 if (memcpy_to_user(p, new_argv, temp_argv, sizeof(temp_argv)))
74                         return -1;
75                 return offset;
76         }
77
78         /* Start tracking the size of the buffer necessary to hold all of our data
79          * on the stack. Preallocate space for argc, argv, envp, and auxv in this
80          * buffer. */
81         int bufsize = 0;
82         bufsize += 1 * sizeof(size_t);
83         bufsize += (auxc + 1) * sizeof(elf_aux_t);
84         bufsize += (envc + 1) * sizeof(char**);
85         bufsize += (argc + 1) * sizeof(char**);
86
87         /* Add in the size of the env and arg strings. */
88         int arg_lens[argc];
89         int env_lens[envc];
90         bufsize += get_lens(argc, argv, arg_lens);
91         bufsize += get_lens(envc, envp, env_lens);
92
93         /* Adjust bufsize so that our buffer will ultimately be 16 byte aligned. */
94         bufsize = ROUNDUP(bufsize, 16);
95
96         /* Set up pointers to all of the appropriate data regions we map to. */
97         size_t *new_argc = (size_t*)(USTACKTOP - bufsize);
98         char **new_argv = (char**)(new_argc + 1);
99         char **new_envp = new_argv + argc + 1;
100         elf_aux_t *new_auxv = (elf_aux_t*)(new_envp + envc + 1);
101         char *new_argbuf = (char*)(new_auxv + auxc + 1);
102
103         /* Verify that all data associated with our argv, envp, and auxv arrays
104          * (and any corresponding strings they point to) will fit in the space
105          * alloted. */
106         if (bufsize > ARG_MAX)
107                 return 0;
108
109         /* Map argc into its final location. */
110         if (memcpy_to_user(p, new_argc, &argc, sizeof(size_t)))
111                 return 0;
112
113         /* Map all data for argv and envp into its final location. */
114         int offset = 0;
115         offset = remap(argc, argv, new_argv, new_argbuf, arg_lens);
116         if (offset == -1)
117                 return 0;
118         offset = remap(envc, envp, new_envp, new_argbuf + offset, env_lens);
119         if (offset == -1)
120                 return 0;
121
122         /* Map auxv into its final location. */
123         elf_aux_t null_aux = {0, 0};
124         if (memcpy_to_user(p, new_auxv, auxv, auxc * sizeof(elf_aux_t)))
125                 return 0;
126         if (memcpy_to_user(p, new_auxv + auxc, &null_aux, sizeof(elf_aux_t)))
127                 return 0;
128
129         return USTACKTOP - bufsize;
130 }
131
132 /* We need the writable flag for ld.  Even though the elf header says it wants
133  * RX (and not W) for its main program header, it will page fault (eip 56f0,
134  * 46f0 after being relocated to 0x1000, va 0x20f4). */
135 static int load_one_elf(struct proc *p, struct file_or_chan *foc,
136                         uintptr_t pg_num, elf_info_t *ei, bool writable)
137 {
138         int ret = -1;
139         ei->phdr = -1;
140         ei->dynamic = 0;
141         ei->highest_addr = 0;
142         off64_t f_off = 0;
143         void* phdrs = 0;
144         int mm_perms, mm_flags;
145
146         /* When reading on behalf of the kernel, we need to switch to a ktask so
147          * the VFS (and maybe other places) know. (TODO: KFOP) */
148         uintptr_t old_ret = switch_to_ktask();
149
150         /* Read in ELF header. */
151         elf64_t elfhdr_storage;
152         elf32_t* elfhdr32 = (elf32_t*)&elfhdr_storage;
153         elf64_t* elfhdr64 = &elfhdr_storage;
154         if (foc_read(foc, (char*)elfhdr64, sizeof(elf64_t), f_off)
155                 != sizeof(elf64_t)) {
156                 /* if you ever debug this, be sure to 0 out elfhrd_storage in advance */
157                 printk("[kernel] load_one_elf: failed to read file\n");
158                 goto fail;
159         }
160         if (elfhdr64->e_magic != ELF_MAGIC) {
161                 printk("[kernel] load_one_elf: file is not an elf!\n");
162                 goto fail;
163         }
164         bool elf32 = elfhdr32->e_ident[ELF_IDENT_CLASS] == ELFCLASS32;
165         bool elf64 = elfhdr64->e_ident[ELF_IDENT_CLASS] == ELFCLASS64;
166         if (elf64 == elf32) {
167                 printk("[kernel] load_one_elf: ID as both 32 and 64 bit\n");
168                 goto fail;
169         }
170         #ifndef CONFIG_64BIT
171         if (elf64) {
172                 printk("[kernel] load_one_elf: 64 bit elf on 32 bit kernel\n");
173                 goto fail;
174         }
175         #endif
176         /* Not sure what RISCV's 64 bit kernel can do here, so this check is x86
177          * only */
178         #ifdef CONFIG_X86
179         if (elf32) {
180                 printk("[kernel] load_one_elf: 32 bit elf on 64 bit kernel\n");
181                 goto fail;
182         }
183         #endif
184
185         size_t phsz = elf64 ? sizeof(proghdr64_t) : sizeof(proghdr32_t);
186         uint16_t e_phnum = elf_field(elfhdr, e_phnum);
187         uint16_t e_phoff = elf_field(elfhdr, e_phoff);
188
189         /* Read in program headers. */
190         if (e_phnum > 10000 || e_phoff % (elf32 ? 4 : 8) != 0) {
191                 printk("[kernel] load_one_elf: Bad program headers\n");
192                 goto fail;
193         }
194         phdrs = kmalloc(e_phnum * phsz, 0);
195         f_off = e_phoff;
196         if (!phdrs || foc_read(foc, phdrs, e_phnum * phsz, f_off) !=
197                       e_phnum * phsz) {
198                 printk("[kernel] load_one_elf: could not get program headers\n");
199                 goto fail;
200         }
201         for (int i = 0; i < e_phnum; i++) {
202                 proghdr32_t* ph32 = (proghdr32_t*)phdrs + i;
203                 proghdr64_t* ph64 = (proghdr64_t*)phdrs + i;
204                 uint16_t p_type = elf_field(ph, p_type);
205                 uintptr_t p_va = elf_field(ph, p_va);
206                 uintptr_t p_offset = elf_field(ph, p_offset);
207                 uintptr_t p_align = elf_field(ph, p_align);
208                 uintptr_t p_memsz = elf_field(ph, p_memsz);
209                 uintptr_t p_filesz = elf_field(ph, p_filesz);
210                 uintptr_t p_flags = elf_field(ph, p_flags);
211
212                 /* Here's the ld hack, mentioned above */
213                 p_flags |= (writable ? ELF_PROT_WRITE : 0);
214                 /* All mmaps need to be fixed to their VAs.  If the program wants it to
215                  * be a writable region, we also need the region to be private. */
216                 mm_flags = MAP_FIXED |
217                            (p_flags & ELF_PROT_WRITE ? MAP_PRIVATE : MAP_SHARED);
218
219                 if (p_type == ELF_PROG_PHDR)
220                         ei->phdr = p_va;
221                 else if (p_type == ELF_PROG_INTERP) {
222                         f_off = p_offset;
223                         ssize_t maxlen = sizeof(ei->interp);
224                         ssize_t bytes = foc_read(foc, ei->interp, maxlen, f_off);
225                         /* trying to catch errors.  don't know how big it could be, but it
226                          * should be at least 0. */
227                         if (bytes <= 0) {
228                                 printk("[kernel] load_one_elf: could not read ei->interp\n");
229                                 goto fail;
230                         }
231
232                         maxlen = MIN(maxlen, bytes);
233                         if (strnlen(ei->interp, maxlen) == maxlen) {
234                                 printk("[kernel] load_one_elf: interpreter name too long\n");
235                                 goto fail;
236                         }
237
238                         ei->dynamic = 1;
239                 }
240                 else if (p_type == ELF_PROG_LOAD && p_memsz) {
241                         if (p_align % PGSIZE) {
242                                 printk("[kernel] load_one_elf: not page aligned\n");
243                                 goto fail;
244                         }
245                         if (p_offset % PGSIZE != p_va % PGSIZE) {
246                                 printk("[kernel] load_one_elf: offset difference \n");
247                                 goto fail;
248                         }
249
250                         uintptr_t filestart = ROUNDDOWN(p_offset, PGSIZE);
251                         uintptr_t filesz = p_offset + p_filesz - filestart;
252
253                         uintptr_t memstart = ROUNDDOWN(p_va, PGSIZE);
254                         uintptr_t memsz = ROUNDUP(p_va + p_memsz, PGSIZE) - memstart;
255                         memstart += pg_num * PGSIZE;
256
257                         if (memstart + memsz > ei->highest_addr)
258                                 ei->highest_addr = memstart + memsz;
259
260                         mm_perms = 0;
261                         mm_perms |= (p_flags & ELF_PROT_READ  ? PROT_READ : 0);
262                         mm_perms |= (p_flags & ELF_PROT_WRITE ? PROT_WRITE : 0);
263                         mm_perms |= (p_flags & ELF_PROT_EXEC  ? PROT_EXEC : 0);
264
265                         if (filesz) {
266                                 /* Due to elf-ghetto-ness, we need to zero the first part of
267                                  * the BSS from the last page of the data segment.  If we end
268                                  * on a partial page, we map it in separately with
269                                  * MAP_POPULATE so that we can zero the rest of it now. We
270                                  * translate to the KVA so we don't need to worry about using
271                                  * the proc's mapping */
272                                 uintptr_t partial = PGOFF(filesz);
273
274                                 if (filesz - partial) {
275                                         /* Map the complete pages. */
276                                         if (do_mmap(p, memstart, filesz - partial, mm_perms,
277                                                     mm_flags, foc, filestart) == MAP_FAILED) {
278                                                 printk("[kernel] load_one_elf: complete mmap failed\n");
279                                                 goto fail;
280                                         }
281                                 }
282                                 /* Note that we (probably) only need to do this zeroing the end
283                                  * of a partial file page when we are dealing with
284                                  * ELF_PROT_WRITE-able PHs, and not for all cases.  */
285                                 if (partial) {
286                                         /* Need our own populated, private copy of the page so that
287                                          * we can zero the remainder - and not zero chunks of the
288                                          * real file in the page cache. */
289                                         mm_flags &= ~MAP_SHARED;
290                                         mm_flags |= MAP_PRIVATE | MAP_POPULATE;
291
292                                         /* Map the final partial page. */
293                                         uintptr_t last_page = memstart + filesz - partial;
294                                         if (do_mmap(p, last_page, PGSIZE, mm_perms, mm_flags,
295                                                     foc, filestart + filesz - partial)
296                                                 == MAP_FAILED) {
297                                                 printk("[kernel] load_one_elf: partial mmap failed\n");
298                                                 goto fail;
299                                         }
300
301                                         /* Zero the end of it.  This is a huge pain in the ass.  The
302                                          * filesystems should zero out the last bits of a page if
303                                          * the file doesn't fill the last page.  But we're dealing
304                                          * with windows into otherwise complete files. */
305                                         pte_t pte = pgdir_walk(p->env_pgdir, (void*)last_page, 0);
306                                         /* if we were able to get a PTE, then there is a real page
307                                          * backing the VMR, and we need to zero the excess.  if
308                                          * there isn't, then the page fault code should handle it.
309                                          * since we set populate above, we should have a PTE, except
310                                          * in cases where the offset + len window exceeded the file
311                                          * size.  in this case, we let them mmap it, but didn't
312                                          * populate it.  there will be a PF right away if someone
313                                          * tries to use this.  check out do_mmap for more info. */
314                                         if (pte_walk_okay(pte)) {
315                                                 void* last_page_kva = KADDR(pte_get_paddr(pte));
316                                                 memset(last_page_kva + partial, 0, PGSIZE - partial);
317                                         }
318
319                                         filesz = ROUNDUP(filesz, PGSIZE);
320                                 }
321                         }
322                         /* Any extra pages are mapped anonymously... (a bit weird) */
323                         if (filesz < memsz)
324                                 if (do_mmap(p, memstart + filesz, memsz-filesz,
325                                             PROT_READ | PROT_WRITE, MAP_PRIVATE,
326                                                 NULL, 0) == MAP_FAILED) {
327                                         printk("[kernel] load_one_elf: anon mmap failed\n");
328                                         goto fail;
329                                 }
330                 }
331         }
332         /* map in program headers anyway if not present in binary.
333          * useful for TLS in static programs. */
334         if (ei->phdr == -1) {
335                 uintptr_t filestart = ROUNDDOWN(e_phoff, PGSIZE);
336                 uintptr_t filesz = e_phoff + (e_phnum * phsz) - filestart;
337                 void *phdr_addr = do_mmap(p, 0, filesz, PROT_READ | PROT_WRITE,
338                                           MAP_PRIVATE, foc, filestart);
339                 if (phdr_addr == MAP_FAILED) {
340                         printk("[kernel] load_one_elf: prog header mmap failed\n");
341                         goto fail;
342                 }
343                 ei->phdr = (long)phdr_addr + e_phoff;
344         }
345         ei->entry = elf_field(elfhdr, e_entry) + pg_num * PGSIZE;
346         ei->phnum = e_phnum;
347         ei->elf64 = elf64;
348         ret = 0;
349         /* Fall-through */
350 fail:
351         if (phdrs)
352                 kfree(phdrs);
353         switch_back_from_ktask(old_ret);
354         return ret;
355 }
356
357 int load_elf(struct proc *p, struct file_or_chan *foc,
358              int argc, char *argv[], int envc, char *envp[])
359 {
360         elf_info_t ei, interp_ei;
361         if (load_one_elf(p, foc, 0, &ei, FALSE))
362                 return -1;
363
364         if (ei.dynamic) {
365                 struct file_or_chan *interp = foc_open(ei.interp, O_EXEC | O_READ, 0);
366
367                 if (!interp)
368                         return -1;
369                 /* Load dynamic linker at 1M. Obvious MIB joke avoided.
370                  * It used to be loaded at page 1, but the existence of valid addresses
371                  * that low masked bad derefs through NULL pointer structs. This in turn
372                  * helped us waste a full day debugging a bug in the Go runtime. True!
373                  * Note that MMAP_LOWEST_VA also has this value but we want to make this
374                  * explicit. */
375                 int error = load_one_elf(p, interp, MMAP_LD_FIXED_VA >> PGSHIFT,
376                                          &interp_ei, TRUE);
377                 foc_decref(interp);
378                 if (error)
379                         return -1;
380         }
381
382         /* Set up the auxiliary info for dynamic linker/runtime */
383         elf_aux_t auxv[] = {{ELF_AUX_PHDR, ei.phdr},
384                             {ELF_AUX_PHENT, sizeof(proghdr32_t)},
385                             {ELF_AUX_PHNUM, ei.phnum},
386                             {ELF_AUX_ENTRY, ei.entry}};
387         int auxc = sizeof(auxv)/sizeof(auxv[0]);
388
389         /* Populate the stack with the required info. */
390         uintptr_t stack_top = populate_stack(p, argc, argv, envc, envp, auxc, auxv);
391         if (!stack_top)
392                 return -1;
393
394         /* Initialize the process as an SCP. */
395         uintptr_t core0_entry = ei.dynamic ? interp_ei.entry : ei.entry;
396         proc_init_ctx(&p->scp_ctx, 0, core0_entry, stack_top, 0);
397
398         p->procinfo->program_end = ei.highest_addr;
399         p->args_base = (void *) stack_top;
400
401         return 0;
402 }
403
404 ssize_t get_startup_argc(struct proc *p)
405 {
406         const char *sptr = (const char *) p->args_base;
407         ssize_t argc = 0;
408
409         /* TODO,DL: Use copy_from_user() when available.
410          */
411         if (memcpy_from_user(p, &argc, sptr, sizeof(size_t)))
412                 return -1;
413
414         return argc;
415 }
416
417 char *get_startup_argv(struct proc *p, size_t idx, char *argp,
418                                            size_t max_size)
419 {
420         size_t stack_space = (const char *) USTACKTOP - (const char *) p->args_base;
421         const char *sptr = (const char *) p->args_base + sizeof(size_t) +
422                 idx * sizeof(char *);
423         const char *argv = NULL;
424
425         /* TODO,DL: Use copy_from_user() when available.
426          */
427         if (memcpy_from_user(p, &argv, sptr, sizeof(char *)))
428                 return NULL;
429
430         /* TODO,DL: Use strncpy_from_user() when available.
431          */
432         max_size = MIN(max_size, stack_space);
433         if (memcpy_from_user(p, argp, argv, max_size))
434                 return NULL;
435         argp[max_size - 1] = 0;
436
437         return argp;
438 }