Fixed ISOR problem and legacy pic patch.
[akaros.git] / tests / vmm / vmrunkernel.c
1 #include <stdio.h>
2 #include <pthread.h>
3 #include <sys/types.h>
4 #include <sys/stat.h>
5 #include <fcntl.h>
6 #include <parlib/arch/arch.h>
7 #include <parlib/ros_debug.h>
8 #include <unistd.h>
9 #include <errno.h>
10 #include <dirent.h>
11 #include <stdlib.h>
12 #include <string.h>
13 #include <ros/syscall.h>
14 #include <sys/mman.h>
15 #include <vmm/coreboot_tables.h>
16 #include <vmm/vmm.h>
17 #include <vmm/acpi/acpi.h>
18 #include <vmm/acpi/vmm_simple_dsdt.h>
19 #include <ros/arch/mmu.h>
20 #include <ros/arch/membar.h>
21 #include <ros/vmm.h>
22 #include <parlib/uthread.h>
23 #include <vmm/linux_bootparam.h>
24
25 #include <vmm/virtio.h>
26 #include <vmm/virtio_mmio.h>
27 #include <vmm/virtio_ids.h>
28 #include <vmm/virtio_config.h>
29 #include <vmm/virtio_console.h>
30 #include <vmm/virtio_net.h>
31 #include <vmm/virtio_lguest_console.h>
32
33 #include <vmm/sched.h>
34 #include <sys/eventfd.h>
35 #include <sys/uio.h>
36
37 struct virtual_machine local_vm, *vm = &local_vm;
38
39 struct vmm_gpcore_init gpci;
40
41 /* By 1999, you could just scan the hardware
42  * and work it out. But 2005, that was no longer possible. How sad.
43  * so we have to fake acpi to make it all work.
44  * This will be copied to memory at 0xe0000, so the kernel can find it.
45  */
46
47 /* assume they're all 256 bytes long just to make it easy.
48  * Just have pointers that point to aligned things.
49  */
50
51 struct acpi_table_rsdp rsdp = {
52         .signature = ACPI_SIG_RSDP,
53         .oem_id = "AKAROS",
54         .revision = 2,
55         .length = 36,
56 };
57
58 struct acpi_table_xsdt xsdt = {
59         .header = {
60                 .signature = ACPI_SIG_DSDT,
61                 .revision = 2,
62                 .oem_id = "AKAROS",
63                 .oem_table_id = "ALPHABET",
64                 .oem_revision = 0,
65                 .asl_compiler_id = "RON ",
66                 .asl_compiler_revision = 0,
67         },
68 };
69 struct acpi_table_fadt fadt = {
70         .header = {
71                 .signature = ACPI_SIG_FADT,
72                 .revision = 2,
73                 .oem_id = "AKAROS",
74                 .oem_table_id = "ALPHABET",
75                 .oem_revision = 0,
76                 .asl_compiler_id = "RON ",
77                 .asl_compiler_revision = 0,
78         },
79 };
80
81
82 /* This has to be dropped into memory, then the other crap just follows it.
83  */
84 struct acpi_table_madt madt = {
85         .header = {
86                 .signature = ACPI_SIG_MADT,
87                 .revision = 2,
88                 .oem_id = "AKAROS",
89                 .oem_table_id = "ALPHABET",
90                 .oem_revision = 0,
91                 .asl_compiler_id = "RON ",
92                 .asl_compiler_revision = 0,
93         },
94
95         .address = 0xfee00000ULL,
96         .flags = 0,
97 };
98
99 struct acpi_madt_local_apic Apic0 = {.header = {.type = ACPI_MADT_TYPE_LOCAL_APIC, .length = sizeof(struct acpi_madt_local_apic)},
100                                      .processor_id = 0, .id = 0, .lapic_flags = 1};
101 struct acpi_madt_io_apic Apic1 = {.header = {.type = ACPI_MADT_TYPE_IO_APIC, .length = sizeof(struct acpi_madt_io_apic)},
102                                   .id = 0, .address = 0xfec00000, .global_irq_base = 0};
103 struct acpi_madt_local_x2apic X2Apic0 = {
104         .header = {
105                 .type = ACPI_MADT_TYPE_LOCAL_X2APIC,
106                 .length = sizeof(struct acpi_madt_local_x2apic)
107         },
108         .local_apic_id = 0,
109         .uid = 0
110 };
111
112 struct acpi_madt_interrupt_override isor[] = {
113         /* From the ACPI Specification Version 6.1:
114          * For example, if your machine has the ISA Programmable Interrupt Timer
115          * (PIT) connected to ISA IRQ 0, but in APIC mode, it is connected to I/O
116          * APIC interrupt input 2, then you would need an Interrupt Source Override
117          * where the source entry is ‘0’ and the Global System Interrupt is ‘2.’
118          */
119 };
120
121
122 /* this test will run the "kernel" in the negative address space. We hope. */
123 void *low1m;
124 volatile int shared = 0;
125 volatile int quit = 0;
126
127 /* total hack. If the vm runs away we want to get control again. */
128 unsigned int maxresume = (unsigned int) -1;
129
130 #define MiB 0x100000ull
131 #define GiB (1ull << 30)
132 #define GKERNBASE (16*MiB)
133 #define KERNSIZE (128*MiB+GKERNBASE)
134 uint8_t _kernel[KERNSIZE];
135
136 unsigned long long *p512, *p1, *p2m;
137
138 void **my_retvals;
139 int nr_threads = 4;
140 int debug = 0;
141 int resumeprompt = 0;
142 /* unlike Linux, this shared struct is for both host and guest. */
143 //      struct virtqueue *constoguest =
144 //              vring_new_virtqueue(0, 512, 8192, 0, inpages, NULL, NULL, "test");
145
146 void vapic_status_dump(FILE *f, void *vapic);
147
148 #if __GNUC__ < 4 || (__GNUC__ == 4 && __GNUC_MINOR__ < 1)
149 #error "Get a gcc newer than 4.4.0"
150 #else
151 #define BITOP_ADDR(x) "+m" (*(volatile long *) (x))
152 #endif
153
154 #define LOCK_PREFIX "lock "
155 #define ADDR                            BITOP_ADDR(addr)
156 static inline int test_and_set_bit(int nr, volatile unsigned long *addr);
157 static int default_nic = 1;
158
159 pthread_t timerthread_struct;
160
161 void timer_thread(void *arg)
162 {
163         uint8_t vector;
164         uint32_t initial_count;
165         while (1) {
166                 vector = ((uint32_t *)gpci.vapic_addr)[0x32] & 0xff;
167                 initial_count = ((uint32_t *)gpci.vapic_addr)[0x38];
168                 if (vector && initial_count)
169                         vmm_interrupt_guest(vm, 0, vector);
170                 uthread_usleep(100000);
171         }
172         fprintf(stderr, "SENDING TIMER\n");
173 }
174
175
176 // FIXME.
177 volatile int consdata = 0;
178
179 /* TODO: pass a core id to poke_guest */
180 static void virtio_poke_guest(uint8_t vec)
181 {
182         vmm_interrupt_guest(vm, 0, vec);
183 }
184
185 static struct virtio_mmio_dev cons_mmio_dev = {
186         .poke_guest = virtio_poke_guest,
187 };
188
189 static struct virtio_console_config cons_cfg;
190 static struct virtio_console_config cons_cfg_d;
191
192 static struct virtio_vq_dev cons_vqdev = {
193         .name = "console",
194         .dev_id = VIRTIO_ID_CONSOLE,
195         .dev_feat =
196             (1ULL << VIRTIO_F_VERSION_1) | (1 << VIRTIO_RING_F_INDIRECT_DESC),
197         .num_vqs = 2,
198         .cfg = &cons_cfg,
199         .cfg_d = &cons_cfg_d,
200         .cfg_sz = sizeof(struct virtio_console_config),
201         .transport_dev = &cons_mmio_dev,
202         .vqs = {
203                         {
204                                 .name = "cons_receiveq",
205                                 .qnum_max = 64,
206                                 .srv_fn = cons_receiveq_fn,
207                                 .vqdev = &cons_vqdev
208                         },
209                         {
210                                 .name = "cons_transmitq",
211                                 .qnum_max = 64,
212                                 .srv_fn = cons_transmitq_fn,
213                                 .vqdev = &cons_vqdev
214                         },
215                 }
216 };
217
218 static struct virtio_mmio_dev net_mmio_dev = {
219         .poke_guest = virtio_poke_guest,
220 };
221
222 static struct virtio_net_config net_cfg = {
223         .max_virtqueue_pairs = 1
224 };
225 static struct virtio_net_config net_cfg_d = {
226         .max_virtqueue_pairs = 1
227 };
228
229 static struct virtio_vq_dev net_vqdev = {
230         .name = "network",
231         .dev_id = VIRTIO_ID_NET,
232         .dev_feat = (1ULL << VIRTIO_F_VERSION_1 | 1 << VIRTIO_NET_F_MAC),
233
234         .num_vqs = 2,
235         .cfg = &net_cfg,
236         .cfg_d = &net_cfg_d,
237         .cfg_sz = sizeof(struct virtio_net_config),
238         .transport_dev = &net_mmio_dev,
239         .vqs = {
240                 {
241                         .name = "net_receiveq",
242                         .qnum_max = 64,
243                         .srv_fn = net_receiveq_fn,
244                         .vqdev = &net_vqdev
245                 },
246                 {
247                         .name = "net_transmitq",
248                         .qnum_max = 64,
249                         .srv_fn = net_transmitq_fn,
250                         .vqdev = &net_vqdev
251                 },
252         }
253 };
254
255 void lowmem() {
256         __asm__ __volatile__ (".section .lowmem, \"aw\"\n\tlow: \n\t.=0x1000\n\t.align 0x100000\n\t.previous\n");
257 }
258
259 static uint8_t acpi_tb_checksum(uint8_t *buffer, uint32_t length)
260 {
261         uint8_t sum = 0;
262         uint8_t *end = buffer + length;
263         fprintf(stderr, "tbchecksum %p for %d", buffer, length);
264         while (buffer < end) {
265                 if (end - buffer < 2)
266                         fprintf(stderr, "%02x\n", sum);
267                 sum = (uint8_t)(sum + *(buffer++));
268         }
269         fprintf(stderr, " is %02x\n", sum);
270         return (sum);
271 }
272
273 static void gencsum(uint8_t *target, void *data, int len)
274 {
275         uint8_t csum;
276         // blast target to zero so it does not get counted
277         // (it might be in the struct we checksum) And, yes, it is, goodness.
278         fprintf(stderr, "gencsum %p target %p source %d bytes\n", target, data, len);
279         *target = 0;
280         csum  = acpi_tb_checksum((uint8_t *)data, len);
281         *target = ~csum + 1;
282         fprintf(stderr, "Cmoputed is %02x\n", *target);
283 }
284
285 static inline int test_and_set_bit(int nr, volatile unsigned long *addr)
286 {
287         int oldbit;
288
289         asm volatile(LOCK_PREFIX "bts %2,%1\n\t"
290                      "sbb %0,%0" : "=r" (oldbit), ADDR : "Ir" (nr) : "memory");
291
292         return oldbit;
293 }
294
295 static void pir_dump()
296 {
297         unsigned long *pir_ptr = gpci.posted_irq_desc;
298         int i;
299         fprintf(stderr, "-------Begin PIR dump-------\n");
300         for (i = 0; i < 8; i++){
301                 fprintf(stderr, "Byte %d: 0x%016x\n", i, pir_ptr[i]);
302         }
303         fprintf(stderr, "-------End PIR dump-------\n");
304 }
305
306 int main(int argc, char **argv)
307 {
308         struct boot_params *bp;
309         char *cmdline_default = "earlyprintk=vmcall,keep"
310                                     " console=hvc0"
311                                     " nosmp"
312                                     " maxcpus=1"
313                                     " acpi.debug_layer=0x2"
314                                     " acpi.debug_level=0xffffffff"
315                                     " apic=debug"
316                                     " noexec=off"
317                                     " nohlt"
318                                     " init=/bin/launcher"
319                                     " lapic=notscdeadline"
320                                     " lapictimerfreq=1000000"
321                                     " pit=none";
322         char *cmdline_extra = "\0";
323         char *cmdline;
324         uint64_t *p64;
325         void *a = (void *)0xe0000;
326         struct acpi_table_rsdp *r;
327         struct acpi_table_fadt *f;
328         struct acpi_table_madt *m;
329         struct acpi_table_xsdt *x;
330         // lowmem is a bump allocated pointer to 2M at the "physbase" of memory
331         void *lowmem = (void *) 0x1000000;
332         int amt;
333         int vmmflags = 0; // Disabled probably forever. VMM_VMCALL_PRINTF;
334         uint64_t entry = 0x1200000, kerneladdress = 0x1200000;
335         int ret;
336         uintptr_t size;
337         void * xp;
338         int kfd = -1;
339         static char cmd[512];
340         int i;
341         uint8_t csum;
342         void *coreboot_tables = (void *) 0x1165000;
343         void *a_page;
344         struct vm_trapframe *vm_tf;
345         uint64_t tsc_freq_khz;
346         char *cmdlinep;
347         int cmdlinesz, len;
348
349         fprintf(stderr, "%p %p %p %p\n", PGSIZE, PGSHIFT, PML1_SHIFT,
350                         PML1_PTE_REACH);
351
352
353         // mmap is not working for us at present.
354         if ((uint64_t)_kernel > GKERNBASE) {
355                 fprintf(stderr, "kernel array @%p is above , GKERNBASE@%p sucks\n", _kernel, GKERNBASE);
356                 exit(1);
357         }
358         memset(_kernel, 0, sizeof(_kernel));
359         memset(lowmem, 0xff, 2*1048576);
360         vm->low4k = malloc(PGSIZE);
361         memset(vm->low4k, 0xff, PGSIZE);
362         // avoid at all costs, requires too much instruction emulation.
363         //low4k[0x40e] = 0;
364         //low4k[0x40f] = 0xe0;
365
366         //Place mmap(Gan)
367         a_page = mmap((void *)0xfee00000, PGSIZE, PROT_READ | PROT_WRITE,
368                               MAP_POPULATE | MAP_ANONYMOUS, -1, 0);
369         fprintf(stderr, "a_page mmap pointer %p\n", a_page);
370
371         if (a_page == (void *) -1) {
372                 perror("Could not mmap APIC");
373                 exit(1);
374         }
375         if (((uint64_t)a_page & 0xfff) != 0) {
376                 perror("APIC page mapping is not page aligned");
377                 exit(1);
378         }
379
380         memset(a_page, 0, 4096);
381         ((uint32_t *)a_page)[0x30/4] = 0x01060015;
382         //((uint32_t *)a_page)[0x30/4] = 0xDEADBEEF;
383
384         argc--, argv++;
385         // switches ...
386         // Sorry, I don't much like the gnu opt parsing code.
387         while (1) {
388                 if (*argv[0] != '-')
389                         break;
390                 switch(argv[0][1]) {
391                 case 'd':
392                         debug++;
393                         break;
394                 case 'v':
395                         vmmflags |= VMM_VMCALL_PRINTF;
396                         break;
397                 case 'm':
398                         argc--, argv++;
399                         maxresume = strtoull(argv[0], 0, 0);
400                         break;
401                 case 'c':
402                         argc--, argv++;
403                         cmdline_extra = argv[0];
404                 case 'g':       /* greedy */
405                         parlib_never_yield = TRUE;
406                         break;
407                 case 's':       /* scp */
408                         parlib_wants_to_be_mcp = FALSE;
409                         break;
410                 default:
411                         fprintf(stderr, "BMAFR\n");
412                         break;
413                 }
414                 argc--, argv++;
415         }
416         if (argc < 1) {
417                 fprintf(stderr, "Usage: %s vmimage [-n (no vmcall printf)] [coreboot_tables [loadaddress [entrypoint]]]\n", argv[0]);
418                 exit(1);
419         }
420         if (argc > 1)
421                 coreboot_tables = (void *) strtoull(argv[1], 0, 0);
422         if (argc > 2)
423                 kerneladdress = strtoull(argv[2], 0, 0);
424         if (argc > 3)
425                 entry = strtoull(argv[3], 0, 0);
426         kfd = open(argv[0], O_RDONLY);
427         if (kfd < 0) {
428                 perror(argv[0]);
429                 exit(1);
430         }
431         // read in the kernel, one 2M page at a time.
432         xp = (void *)kerneladdress;
433         for(;;) {
434                 amt = read(kfd, xp, PML2_PTE_REACH);
435                 if (amt < 0) {
436                         perror("read");
437                         exit(1);
438                 }
439                 if (amt == 0) {
440                         break;
441                 }
442                 xp += amt;
443         }
444         size = ROUNDUP((uintptr_t)xp - kerneladdress, PML2_PTE_REACH);
445         fprintf(stderr, "Read in %d bytes\n", size);
446         close(kfd);
447
448         // The low 1m so we can fill in bullshit like ACPI. */
449         // And, sorry, due to the STUPID format of the RSDP for now we need the low 1M.
450         low1m = mmap((int*)4096, MiB-4096, PROT_READ | PROT_WRITE,
451                          MAP_ANONYMOUS, -1, 0);
452         if (low1m != (void *)4096) {
453                 perror("Unable to mmap low 1m");
454                 exit(1);
455         }
456         memset(low1m, 0xff, MiB-4096);
457         r = a;
458         fprintf(stderr, "install rsdp to %p\n", r);
459         *r = rsdp;
460         a += sizeof(*r);
461         r->xsdt_physical_address = (uint64_t)a;
462         gencsum(&r->checksum, r, ACPI_RSDP_CHECKSUM_LENGTH);
463         if ((csum = acpi_tb_checksum((uint8_t *) r, ACPI_RSDP_CHECKSUM_LENGTH)) != 0) {
464                 fprintf(stderr, "RSDP has bad checksum; summed to %x\n", csum);
465                 exit(1);
466         }
467
468         /* Check extended checksum if table version >= 2 */
469         gencsum(&r->extended_checksum, r, ACPI_RSDP_XCHECKSUM_LENGTH);
470         if ((rsdp.revision >= 2) &&
471             (acpi_tb_checksum((uint8_t *) r, ACPI_RSDP_XCHECKSUM_LENGTH) != 0)) {
472                 fprintf(stderr, "RSDP has bad checksum v2\n");
473                 exit(1);
474         }
475
476         /* just leave a bunch of space for the xsdt. */
477         /* we need to zero the area since it has pointers. */
478         x = a;
479         a += sizeof(*x) + 8*sizeof(void *);
480         memset(x, 0, a - (void *)x);
481         fprintf(stderr, "install xsdt to %p\n", x);
482         *x = xsdt;
483         x->table_offset_entry[0] = 0;
484         x->table_offset_entry[1] = 0;
485         x->header.length = a - (void *)x;
486
487         f = a;
488         fprintf(stderr, "install fadt to %p\n", f);
489         *f = fadt;
490         x->table_offset_entry[0] = (uint64_t)f; // fadt MUST be first in xsdt!
491         a += sizeof(*f);
492         f->header.length = a - (void *)f;
493
494         f->Xdsdt = (uint64_t) a;
495         fprintf(stderr, "install dsdt to %p\n", a);
496         memcpy(a, &DSDT_DSDTTBL_Header, 36);
497         a += 36;
498
499         gencsum(&f->header.checksum, f, f->header.length);
500         if (acpi_tb_checksum((uint8_t *)f, f->header.length) != 0) {
501                 fprintf(stderr, "fadt has bad checksum v2\n");
502                 exit(1);
503         }
504
505         m = a;
506         *m = madt;
507         x->table_offset_entry[3] = (uint64_t) m;
508         a += sizeof(*m);
509         fprintf(stderr, "install madt to %p\n", m);
510         memmove(a, &Apic0, sizeof(Apic0));
511         a += sizeof(Apic0);
512         memmove(a, &Apic1, sizeof(Apic1));
513         a += sizeof(Apic1);
514         memmove(a, &X2Apic0, sizeof(X2Apic0));
515         a += sizeof(X2Apic0);
516         memmove(a, &isor, sizeof(isor));
517         a += sizeof(isor);
518         m->header.length = a - (void *)m;
519
520         gencsum(&m->header.checksum, m, m->header.length);
521         if (acpi_tb_checksum((uint8_t *) m, m->header.length) != 0) {
522                 fprintf(stderr, "madt has bad checksum v2\n");
523                 exit(1);
524         }
525
526         gencsum(&x->header.checksum, x, x->header.length);
527         if ((csum = acpi_tb_checksum((uint8_t *) x, x->header.length)) != 0) {
528                 fprintf(stderr, "XSDT has bad checksum; summed to %x\n", csum);
529                 exit(1);
530         }
531
532         fprintf(stderr, "allchecksums ok\n");
533
534         hexdump(stdout, r, a-(void *)r);
535
536         a = (void *)(((unsigned long)a + 0xfff) & ~0xfff);
537         gpci.posted_irq_desc = a;
538         memset(a, 0, 4096);
539         a += 4096;
540         gpci.vapic_addr = a;
541         memset(a, 0, 4096);
542         ((uint32_t *)a)[0x30/4] = 0x01060014;
543         p64 = a;
544         // set up apic values? do we need to?
545         // qemu does this.
546         //((uint8_t *)a)[4] = 1;
547         a += 4096;
548         gpci.apic_addr = (void*)0xfee00000;
549
550         /* Allocate memory for, and zero the bootparams
551          * page before writing to it, or Linux thinks
552          * we're talking crazy.
553          */
554         a += 4096;
555         bp = a;
556         memset(bp, 0, 4096);
557
558         /* Put the e820 memory region information in the boot_params */
559         bp->e820_entries = 5;
560         int e820i = 0;
561
562         /* Give it just a tiny bit of memory -- 60k -- at low memory. */
563         bp->e820_map[e820i].addr = 0;
564         bp->e820_map[e820i].size = 4 * 1024;
565         bp->e820_map[e820i++].type = E820_RESERVED;
566
567         bp->e820_map[e820i].addr = 4 * 1024;
568         bp->e820_map[e820i].size = 64 * 1024 - 4 * 1024;
569         bp->e820_map[e820i++].type = E820_RAM;
570
571         bp->e820_map[e820i].addr = 64 * 1024;
572         bp->e820_map[e820i].size = 16 * 1048576 - 64 * 1024;
573         bp->e820_map[e820i++].type = E820_RESERVED;
574
575         bp->e820_map[e820i].addr = 16 * 1048576;
576         bp->e820_map[e820i].size = 128 * 1048576;
577         bp->e820_map[e820i++].type = E820_RAM;
578
579         bp->e820_map[e820i].addr = 0xf0000000;
580         bp->e820_map[e820i].size = 0x10000000;
581         bp->e820_map[e820i++].type = E820_RESERVED;
582
583         /* The MMIO address of the console device is really the address of an
584          * unbacked EPT page: accesses to this page will cause a page fault that
585          * traps to the host, which will examine the fault, see it was for the
586          * known MMIO address, and fulfill the MMIO read or write on the guest's
587          * behalf accordingly. We place the virtio space at 512 GB higher than the
588          * guest physical memory to avoid a full page table walk. */
589         uint64_t virtio_mmio_base_addr = ROUNDUP((bp->e820_map[e820i - 1].addr +
590                                                   bp->e820_map[e820i - 1].size),
591                                                  512 * GiB);
592
593         cons_mmio_dev.addr =
594             virtio_mmio_base_addr + PGSIZE * VIRTIO_MMIO_CONSOLE_DEV;
595         cons_mmio_dev.vqdev = &cons_vqdev;
596         vm->virtio_mmio_devices[VIRTIO_MMIO_CONSOLE_DEV] = &cons_mmio_dev;
597
598         net_mmio_dev.addr =
599             virtio_mmio_base_addr + PGSIZE * VIRTIO_MMIO_NETWORK_DEV;
600         net_mmio_dev.vqdev = &net_vqdev;
601         vm->virtio_mmio_devices[VIRTIO_MMIO_NETWORK_DEV] = &net_mmio_dev;
602
603         net_init_fn(&net_vqdev, default_nic);
604
605         /* Set the kernel command line parameters */
606         a += 4096;
607         cmdline = a;
608         a += 4096;
609         bp->hdr.cmd_line_ptr = (uintptr_t) cmdline;
610
611         tsc_freq_khz = get_tsc_freq()/1000;
612         len = snprintf(cmdline, 4096, "%s tscfreq=%lld %s", cmdline_default,
613                        tsc_freq_khz, cmdline_extra);
614
615         cmdlinesz = 4096 - len;
616         cmdlinep = cmdline + len;
617
618         for (int i = 0; i < VIRTIO_MMIO_MAX_NUM_DEV; i++) {
619                 if (vm->virtio_mmio_devices[i] == NULL)
620                         continue;
621
622                 /* Append all the virtio mmio base addresses. */
623
624                         /* Since the lower number irqs are no longer being used, the irqs
625                          * can now be assigned starting from 0.
626                          */
627                         vm->virtio_mmio_devices[i]->irq = i;
628                         len = snprintf(cmdlinep, cmdlinesz,
629                                " virtio_mmio.device=1K@0x%llx:%lld",
630                                vm->virtio_mmio_devices[i]->addr,
631                                vm->virtio_mmio_devices[i]->irq);
632                 if (len >= cmdlinesz) {
633                         fprintf(stderr, "Too many arguments to the linux command line.");
634                         exit(1);
635                 }
636                 cmdlinesz -= len;
637                 cmdlinep += len;
638         }
639
640         vm->nr_gpcs = 1;
641         vm->gpcis = &gpci;
642         ret = vmm_init(vm, vmmflags);
643         assert(!ret);
644
645         /* Allocate 3 pages for page table pages: a page of 512 GiB
646          * PTEs with only one entry filled to point to a page of 1 GiB
647          * PTEs; a page of 1 GiB PTEs with only one entry filled to
648          * point to a page of 2 MiB PTEs; and a page of 2 MiB PTEs,
649          * only a subset of which will be filled. */
650         ret = posix_memalign((void **)&p512, PGSIZE, 3 * PGSIZE);
651         if (ret) {
652                 perror("ptp alloc");
653                 exit(1);
654         }
655
656         /* Set up a 1:1 ("identity") page mapping from guest virtual
657          * to guest physical using the (host virtual)
658          * `kerneladdress`. This mapping is used for only a short
659          * time, until the guest sets up its own page tables. Be aware
660          * that the values stored in the table are physical addresses.
661          * This is subtle and mistakes are easily disguised due to the
662          * identity mapping, so take care when manipulating these
663          * mappings. */
664         p1 = &p512[NPTENTRIES];
665         p2m = &p512[2 * NPTENTRIES];
666
667         p512[PML4(kerneladdress)] = (uint64_t)p1 | PTE_KERN_RW;
668         p1[PML3(kerneladdress)] = (uint64_t)p2m | PTE_KERN_RW;
669         for (uintptr_t i = 0; i < size; i += PML2_PTE_REACH) {
670                 p2m[PML2(kerneladdress + i)] =
671                     (uint64_t)(kerneladdress + i) | PTE_KERN_RW | PTE_PS;
672         }
673
674         uint8_t *kernel = (void *)GKERNBASE;
675         //write_coreboot_table(coreboot_tables, ((void *)VIRTIOBASE) /*kernel*/, KERNSIZE + 1048576);
676         hexdump(stdout, coreboot_tables, 512);
677         fprintf(stderr, "p512 %p p512[0] is 0x%lx p1 %p p1[0] is 0x%x\n", p512, p512[0], p1, p1[0]);
678
679         vmm_run_task(vm, timer_thread, 0);
680
681         vm_tf = gth_to_vmtf(vm->gths[0]);
682         vm_tf->tf_cr3 = (uint64_t) p512;
683         vm_tf->tf_rip = entry;
684         vm_tf->tf_rsp = 0;
685         vm_tf->tf_rsi = (uint64_t) bp;
686         start_guest_thread(vm->gths[0]);
687
688         uthread_sleep_forever();
689         return 0;
690 }