vmm: Properly set CR4 SHADOW and GUEST_HOST_MASK registers.
[akaros.git] / kern / arch / x86 / vmm / intel / vmx.c
1 //#define DEBUG
2 /**
3  *  vmx.c - The Intel VT-x driver for Dune
4  *
5  * This file is derived from Linux KVM VT-x support.
6  * Copyright (C) 2006 Qumranet, Inc.
7  * Copyright 2010 Red Hat, Inc. and/or its affiliates.
8  *
9  * Original Authors:
10  *   Avi Kivity   <avi@qumranet.com>
11  *   Yaniv Kamay  <yaniv@qumranet.com>
12  *
13  * This modified version is simpler because it avoids the following
14  * features that are not requirements for Dune:
15  *  * Real-mode emulation
16  *  * Nested VT-x support
17  *  * I/O hardware emulation
18  *  * Any of the more esoteric X86 features and registers
19  *  * KVM-specific functionality
20  *
21  * In essence we provide only the minimum functionality needed to run
22  * a process in vmx non-root mode rather than the full hardware emulation
23  * needed to support an entire OS.
24  *
25  * This driver is a research prototype and as such has the following
26  * limitations:
27  *
28  * FIXME: Backward compatability is currently a non-goal, and only recent
29  * full-featured (EPT, PCID, VPID, etc.) Intel hardware is supported by this
30  * driver.
31  *
32  * FIXME: Eventually we should handle concurrent user's of VT-x more
33  * gracefully instead of requiring exclusive access. This would allow
34  * Dune to interoperate with KVM and other HV solutions.
35  *
36  * FIXME: We need to support hotplugged physical CPUs.
37  *
38  * Authors:
39  *   Adam Belay   <abelay@stanford.edu>
40  */
41
42 /* Basic flow.
43  * Yep, it's confusing. This is in part because the vmcs is used twice, for two different things.
44  * You're left with the feeling that they got part way through and realized they had to have one for
45  *
46  * 1) your CPU is going to be capable of running VMs, and you need state for that.
47  *
48  * 2) you're about to start a guest, and you need state for that.
49  *
50  * So there is get cpu set up to be able to run VMs stuff, and now
51  * let's start a guest stuff.  In Akaros, CPUs will always be set up
52  * to run a VM if that is possible. Processes can flip themselves into
53  * a VM and that will require another VMCS.
54  *
55  * So: at kernel startup time, the SMP boot stuff calls
56  * k/a/x86/vmm/vmm.c:vmm_init, which calls arch-dependent bits, which
57  * in the case of this file is intel_vmm_init. That does some code
58  * that sets up stuff for ALL sockets, based on the capabilities of
59  * the socket it runs on. If any cpu supports vmx, it assumes they all
60  * do. That's a realistic assumption. So the call_function_all is kind
61  * of stupid, really; it could just see what's on the current cpu and
62  * assume it's on all. HOWEVER: there are systems in the wilde that
63  * can run VMs on some but not all CPUs, due to BIOS mistakes, so we
64  * might as well allow for the chance that wel'll only all VMMCPs on a
65  * subset (not implemented yet however).  So: probe all CPUs, get a
66  * count of how many support VMX and, for now, assume they all do
67  * anyway.
68  *
69  * Next, call setup_vmcs_config to configure the GLOBAL vmcs_config struct,
70  * which contains all the naughty bits settings for all the cpus that can run a VM.
71  * Realistically, all VMX-capable cpus in a system will have identical configurations.
72  * So: 0 or more cpus can run VMX; all cpus which can run VMX will have the same configuration.
73  *
74  * configure the msr_bitmap. This is the bitmap of MSRs which the
75  * guest can manipulate.  Currently, we only allow GS and FS base.
76  *
77  * Reserve bit 0 in the vpid bitmap as guests can not use that
78  *
79  * Set up the what we call the vmxarea. The vmxarea is per-cpu, not
80  * per-guest. Once set up, it is left alone.  The ONLY think we set in
81  * there is the revision area. The VMX is page-sized per cpu and
82  * page-aligned. Note that it can be smaller, but why bother? We know
83  * the max size and alightment, and it's convenient.
84  *
85  * Now that it is set up, enable vmx on all cpus. This involves
86  * testing VMXE in cr4, to see if we've been here before (TODO: delete
87  * this test), then testing MSR_IA32_FEATURE_CONTROL to see if we can
88  * do a VM, the setting the VMXE in cr4, calling vmxon (does a vmxon
89  * instruction), and syncing vpid's and ept's.  Now the CPU is ready
90  * to host guests.
91  *
92  * Setting up a guest.
93  * We divide this into two things: vmm_proc_init and vm_run.
94  * Currently, on Intel, vmm_proc_init does nothing.
95  *
96  * vm_run is really complicated. It is called with a coreid, and
97  * vmctl struct. On intel, it calls vmx_launch. vmx_launch is set
98  * up for a few test cases. If rip is 1, it sets the guest rip to
99  * a function which will deref 0 and should exit with failure 2. If rip is 0,
100  * it calls an infinite loop in the guest.
101  *
102  * The sequence of operations:
103  * create a vcpu
104  * while (1) {
105  * get a vcpu
106  * disable irqs (required or you can't enter the VM)
107  * vmx_run_vcpu()
108  * enable irqs
109  * manage the vm exit
110  * }
111  *
112  * get a vcpu
113  * See if the current cpu has a vcpu. If so, and is the same as the vcpu we want,
114  * vmcs_load(vcpu->vmcs) -- i.e. issue a VMPTRLD.
115  *
116  * If it's not the same, see if the vcpu thinks it is on the core. If it is not, call
117  * __vmx_get_cpu_helper on the other cpu, to free it up. Else vmcs_clear the one
118  * attached to this cpu. Then vmcs_load the vmcs for vcpu on this this cpu,
119  * call __vmx_setup_cpu, mark this vcpu as being attached to this cpu, done.
120  *
121  * vmx_run_vcpu this one gets messy, mainly because it's a giant wad
122  * of inline assembly with embedded CPP crap. I suspect we'll want to
123  * un-inline it someday, but maybe not.  It's called with a vcpu
124  * struct from which it loads guest state, and to which it stores
125  * non-virtualized host state. It issues a vmlaunch or vmresume
126  * instruction depending, and on return, it evaluates if things the
127  * launch/resume had an error in that operation. Note this is NOT the
128  * same as an error while in the virtual machine; this is an error in
129  * startup due to misconfiguration. Depending on whatis returned it's
130  * either a failed vm startup or an exit for lots of many reasons.
131  *
132  */
133
134 /* basically: only rename those globals that might conflict
135  * with existing names. Leave all else the same.
136  * this code is more modern than the other code, yet still
137  * well encapsulated, it seems.
138  */
139 #include <kmalloc.h>
140 #include <string.h>
141 #include <stdio.h>
142 #include <assert.h>
143 #include <error.h>
144 #include <pmap.h>
145 #include <sys/queue.h>
146 #include <smp.h>
147 #include <kref.h>
148 #include <atomic.h>
149 #include <alarm.h>
150 #include <event.h>
151 #include <umem.h>
152 #include <bitops.h>
153 #include <arch/types.h>
154 #include <syscall.h>
155 #include <arch/io.h>
156
157 #include <ros/vmm.h>
158 #include "vmx.h"
159 #include "../vmm.h"
160
161 #include "cpufeature.h"
162
163 #include <trap.h>
164
165 #include <smp.h>
166 #include <ros/procinfo.h>
167
168 #define currentcpu (&per_cpu_info[core_id()])
169
170 static unsigned long *msr_bitmap;
171 #define VMX_IO_BITMAP_ORDER             4       /* 64 KB */
172 #define VMX_IO_BITMAP_SZ                (1 << (VMX_IO_BITMAP_ORDER + PGSHIFT))
173 static unsigned long *io_bitmap;
174
175 int x86_ept_pte_fix_ups = 0;
176
177 struct vmx_capability vmx_capability;
178 struct vmcs_config vmcs_config;
179
180 static int autoloaded_msrs[] = {
181         MSR_KERNEL_GS_BASE,
182         MSR_LSTAR,
183         MSR_STAR,
184         MSR_SFMASK,
185 };
186
187 static char *cr_access_type[] = {
188         "move to cr",
189         "move from cr",
190         "clts",
191         "lmsw"
192 };
193
194 static char *cr_gpr[] = {
195         "rax", "rcx", "rdx", "rbx", "rsp", "rbp", "rsi", "rdi",
196         "r8", "r9", "r10", "r11", "r12", "r13", "r14", "r15"
197 };
198
199 static int guest_cr_num[16] = {
200         GUEST_CR0,
201         -1,
202         -1,
203         GUEST_CR3,
204         GUEST_CR4,
205         -1,
206         -1,
207         -1,
208         -1,     /* 8? */
209         -1, -1, -1, -1, -1, -1, -1
210 };
211
212 __always_inline unsigned long vmcs_readl(unsigned long field);
213 /* See section 24-3 of The Good Book */
214 void
215 show_cr_access(uint64_t val)
216 {
217         int crnr = val & 0xf;
218         int type = (val >> 4) & 3;
219         int reg = (val >> 11) & 0xf;
220         printk("%s: %d: ", cr_access_type[type], crnr);
221         if (type < 2) {
222                 printk("%s", cr_gpr[reg]);
223                 if (guest_cr_num[crnr] > -1) {
224                         printk(": 0x%x", vmcs_readl(guest_cr_num[crnr]));
225                 }
226         }
227         printk("\n");
228 }
229
230 void
231 ept_flush(uint64_t eptp)
232 {
233         ept_sync_context(eptp);
234 }
235
236 static void
237 vmcs_clear(struct vmcs *vmcs)
238 {
239         uint64_t phys_addr = PADDR(vmcs);
240         uint8_t error;
241
242         asm volatile (ASM_VMX_VMCLEAR_RAX "; setna %0":"=qm"(error):"a"(&phys_addr),
243                                   "m"(phys_addr)
244                                   :"cc", "memory");
245         if (error)
246                 printk("vmclear fail: %p/%llx\n", vmcs, phys_addr);
247 }
248
249 static void
250 vmcs_load(struct vmcs *vmcs)
251 {
252         uint64_t phys_addr = PADDR(vmcs);
253         uint8_t error;
254
255         asm volatile (ASM_VMX_VMPTRLD_RAX "; setna %0":"=qm"(error):"a"(&phys_addr),
256                                   "m"(phys_addr)
257                                   :"cc", "memory");
258         if (error)
259                 printk("vmptrld %p/%llx failed\n", vmcs, phys_addr);
260 }
261
262 /* Returns the paddr pointer of the current CPU's VMCS region, or -1 if none. */
263 static physaddr_t
264 vmcs_get_current(void)
265 {
266         physaddr_t vmcs_paddr;
267         /* RAX contains the addr of the location to store the VMCS pointer.  The
268          * compiler doesn't know the ASM will deref that pointer, hence the =m */
269         asm volatile (ASM_VMX_VMPTRST_RAX:"=m"(vmcs_paddr):"a"(&vmcs_paddr));
270         return vmcs_paddr;
271 }
272
273 __always_inline unsigned long
274 vmcs_readl(unsigned long field)
275 {
276         return vmcs_read(field);
277 }
278
279 __always_inline uint16_t
280 vmcs_read16(unsigned long field)
281 {
282         return vmcs_readl(field);
283 }
284
285 static __always_inline uint32_t
286 vmcs_read32(unsigned long field)
287 {
288         return vmcs_readl(field);
289 }
290
291 static __always_inline uint64_t
292 vmcs_read64(unsigned long field)
293 {
294         return vmcs_readl(field);
295 }
296
297 void
298 vmwrite_error(unsigned long field, unsigned long value)
299 {
300         printk("vmwrite error: reg %lx value %lx (err %d)\n",
301                    field, value, vmcs_read32(VM_INSTRUCTION_ERROR));
302 }
303
304 void
305 vmcs_writel(unsigned long field, unsigned long value)
306 {
307         if (!vmcs_write(field, value))
308                 vmwrite_error(field, value);
309 }
310
311 static void
312 vmcs_write16(unsigned long field, uint16_t value)
313 {
314         vmcs_writel(field, value);
315 }
316
317 static void
318 vmcs_write32(unsigned long field, uint32_t value)
319 {
320         vmcs_writel(field, value);
321 }
322
323 static void
324 vmcs_write64(unsigned long field, uint64_t value)
325 {
326         vmcs_writel(field, value);
327 }
328
329 void vapic_status_dump_kernel(void *vapic);
330
331 /*
332  * A note on Things You Can't Make Up.
333  * or
334  * "George, you can type this shit, but you can't say it" -- Harrison Ford
335  *
336  * There are 5 VMCS 32-bit words that control guest permissions. If
337  * you set these correctly, you've got a guest that will behave. If
338  * you get even one bit wrong, you've got a guest that will chew your
339  * leg off. Some bits must be 1, some must be 0, and some can be set
340  * either way. To add to the fun, the docs are sort of a docudrama or,
341  * as the quote goes, "interesting if true."
342  *
343  * To determine what bit can be set in what VMCS 32-bit control word,
344  * there are 5 corresponding 64-bit MSRs.  And, to make it even more
345  * fun, the standard set of MSRs have errors in them, i.e. report
346  * incorrect values, for legacy reasons, and so you are supposed to
347  * "look around" to another set, which have correct bits in
348  * them. There are four such 'correct' registers, and they have _TRUE_
349  * in the names as you can see below. We test for the value of VMCS
350  * control bits in the _TRUE_ registers if possible. The fifth
351  * register, CPU Secondary Exec Controls, which came later, needs no
352  * _TRUE_ variant.
353  *
354  * For each MSR, the high 32 bits tell you what bits can be "1" by a
355  * "1" in that position; the low 32 bits tell you what bit can be "0"
356  * by a "0" in that position. So, for each of 32 bits in a given VMCS
357  * control word, there is a pair of bits in an MSR that tells you what
358  * values it can take. The two bits, of which there are *four*
359  * combinations, describe the *three* possible operations on a
360  * bit. The two bits, taken together, form an untruth table: There are
361  * three possibilities: The VMCS bit can be set to 0 or 1, or it can
362  * only be 0, or only 1. The fourth combination is not supposed to
363  * happen.
364  *
365  * So: there is the 1 bit from the upper 32 bits of the msr.
366  * If this bit is set, then the bit can be 1. If clear, it can not be 1.
367  *
368  * Then there is the 0 bit, from low 32 bits. If clear, the VMCS bit
369  * can be 0. If 1, the VMCS bit can not be 0.
370  *
371  * SO, let's call the 1 bit R1, and the 0 bit R0, we have:
372  *  R1 R0
373  *  0 0 -> must be 0
374  *  1 0 -> can be 1, can be 0
375  *  0 1 -> can not be 1, can not be 0. --> JACKPOT! Not seen yet.
376  *  1 1 -> must be one.
377  *
378  * It's also pretty hard to know what you can and can't set, and
379  * that's led to inadvertant opening of permissions at times.  Because
380  * of this complexity we've decided on the following: the driver must
381  * define EVERY bit, UNIQUELY, for each of the 5 registers, that it wants
382  * set. Further, for any bit that's settable, the driver must specify
383  * a setting; for any bit that's reserved, the driver settings must
384  * match that bit. If there are reserved bits we don't specify, that's
385  * ok; we'll take them as is.
386  *
387  * We use a set-means-set, and set-means-clear model, i.e. we use a
388  * 32-bit word to contain the bits we want to be 1, indicated by one;
389  * and another 32-bit word in which a bit we want to be 0 is indicated
390  * by a 1. This allows us to easily create masks of all bits we're
391  * going to set, for example.
392  *
393  * We have two 32-bit numbers for each 32-bit VMCS field: bits we want
394  * set and bits we want clear.  If you read the MSR for that field,
395  * compute the reserved 0 and 1 settings, and | them together, they
396  * need to result in 0xffffffff. You can see that we can create other
397  * tests for conflicts (i.e. overlap).
398  *
399  * At this point, I've tested check_vmx_controls in every way
400  * possible, beause I kept screwing the bitfields up. You'll get a nice
401  * error it won't work at all, which is what we want: a
402  * failure-prone setup, where even errors that might result in correct
403  * values are caught -- "right answer, wrong method, zero credit." If there's
404  * weirdness in the bits, we don't want to run.
405  * The try_set stuff adds particular ugliness but we have to have it.
406  */
407
408 static bool
409 check_vmxec_controls(struct vmxec const *v, bool have_true_msr,
410                                          uint32_t * result)
411 {
412         bool err = false;
413         uint32_t vmx_msr_low, vmx_msr_high;
414         uint32_t reserved_0, reserved_1, changeable_bits, try0, try1;
415
416         if (have_true_msr)
417                 rdmsr(v->truemsr, vmx_msr_low, vmx_msr_high);
418         else
419                 rdmsr(v->msr, vmx_msr_low, vmx_msr_high);
420
421         if (vmx_msr_low & ~vmx_msr_high)
422                 warn("JACKPOT: Conflicting VMX ec ctls for %s, high 0x%08x low 0x%08x",
423                          v->name, vmx_msr_high, vmx_msr_low);
424
425         reserved_0 = (~vmx_msr_low) & (~vmx_msr_high);
426         reserved_1 = vmx_msr_low & vmx_msr_high;
427         changeable_bits = ~(reserved_0 | reserved_1);
428
429         /*
430          * this is very much as follows:
431          * accept the things I cannot change,
432          * change the things I can,
433          * know the difference.
434          */
435
436         /* Conflict. Don't try to both set and reset bits. */
437         if ((v->must_be_1 & (v->must_be_0 | v->try_set_1 | v->try_set_0)) ||
438             (v->must_be_0 & (v->try_set_1 | v->try_set_0)) ||
439             (v->try_set_1 & v->try_set_0)) {
440                 printk("%s: must 0 (0x%x) and must be 1 (0x%x) and try_set_0 (0x%x) and try_set_1 (0x%x) overlap\n",
441                        v->name, v->must_be_0, v->must_be_1, v->try_set_0, v->try_set_1);
442                 err = true;
443         }
444
445         /* coverage */
446         if (((v->must_be_0 | v->must_be_1 | v->try_set_0 | v->try_set_1) & changeable_bits) != changeable_bits) {
447                 printk("%s: Need to cover 0x%x and have 0x%x,0x%x\n",
448                        v->name, changeable_bits, v->must_be_0, v->must_be_1, v->try_set_0, v->try_set_1);
449                 err = true;
450         }
451
452         if ((v->must_be_0 | v->must_be_1 | v->try_set_0 | v->try_set_1 | reserved_0 | reserved_1) != 0xffffffff) {
453                 printk("%s: incomplete coverage: have 0x%x, want 0x%x\n",
454                        v->name, v->must_be_0 | v->must_be_1 | v->try_set_0 | v->try_set_1 |
455                        reserved_0 | reserved_1, 0xffffffff);
456                 err = true;
457         }
458
459         /* Don't try to change bits that can't be changed. */
460         if ((v->must_be_0 & (reserved_0 | changeable_bits)) != v->must_be_0) {
461                 printk("%s: set to 0 (0x%x) can't be done\n", v->name, v->must_be_0);
462                 err = true;
463         }
464
465         if ((v->must_be_1 & (reserved_1 | changeable_bits)) != v->must_be_1) {
466                 printk("%s: set to 1 (0x%x) can't be done\n", v->name, v->must_be_1);
467                 err = true;
468         }
469         // Note we don't REQUIRE that try_set_0 or try_set_0 be possible. We just want to try it.
470
471         // Clear bits in try_set that can't be set.
472         try1 = v->try_set_1 & (reserved_1 | changeable_bits);
473
474         /* If there's been any error at all, spill our guts and return. */
475         if (err) {
476                 printk("%s: vmx_msr_high 0x%x, vmx_msr_low 0x%x, ",
477                            v->name, vmx_msr_high, vmx_msr_low);
478                 printk("must_be_0 0x%x, try_set_0 0x%x,reserved_0 0x%x",
479                            v->must_be_0, v->try_set_0, reserved_0);
480                 printk("must_be_1 0x%x, try_set_1 0x%x,reserved_1 0x%x",
481                            v->must_be_1, v->try_set_1, reserved_1);
482                 printk(" reserved_0 0x%x", reserved_0);
483                 printk(" changeable_bits 0x%x\n", changeable_bits);
484                 return false;
485         }
486
487         *result = v->must_be_1 | try1 | reserved_1;
488
489         printk("%s: check_vmxec_controls succeeds with result 0x%x\n",
490                    v->name, *result);
491         return true;
492 }
493
494 /*
495  * We're trying to make this as readable as possible. Realistically, it will
496  * rarely if ever change, if the past is any guide.
497  */
498 static const struct vmxec pbec = {
499         .name = "Pin Based Execution Controls",
500         .msr = MSR_IA32_VMX_PINBASED_CTLS,
501         .truemsr = MSR_IA32_VMX_TRUE_PINBASED_CTLS,
502
503         .must_be_1 = (PIN_BASED_EXT_INTR_MASK |
504                      PIN_BASED_NMI_EXITING |
505                      PIN_BASED_VIRTUAL_NMIS |
506                      PIN_BASED_POSTED_INTR),
507
508         .must_be_0 = (PIN_BASED_VMX_PREEMPTION_TIMER),
509 };
510
511 static const struct vmxec cbec = {
512         .name = "CPU Based Execution Controls",
513         .msr = MSR_IA32_VMX_PROCBASED_CTLS,
514         .truemsr = MSR_IA32_VMX_TRUE_PROCBASED_CTLS,
515
516         .must_be_1 = (//CPU_BASED_MWAIT_EXITING |
517                         CPU_BASED_HLT_EXITING |
518                      CPU_BASED_TPR_SHADOW |
519                      CPU_BASED_RDPMC_EXITING |
520                      CPU_BASED_CR8_LOAD_EXITING |
521                      CPU_BASED_CR8_STORE_EXITING |
522                      CPU_BASED_USE_MSR_BITMAPS |
523                      CPU_BASED_USE_IO_BITMAPS |
524                      CPU_BASED_ACTIVATE_SECONDARY_CONTROLS),
525
526         .must_be_0 = (
527                         CPU_BASED_MWAIT_EXITING |
528                         CPU_BASED_VIRTUAL_INTR_PENDING |
529                      CPU_BASED_INVLPG_EXITING |
530                      CPU_BASED_USE_TSC_OFFSETING |
531                      CPU_BASED_RDTSC_EXITING |
532                      CPU_BASED_CR3_LOAD_EXITING |
533                      CPU_BASED_CR3_STORE_EXITING |
534                      CPU_BASED_MOV_DR_EXITING |
535                      CPU_BASED_VIRTUAL_NMI_PENDING |
536                      CPU_BASED_MONITOR_TRAP |
537                      CPU_BASED_PAUSE_EXITING |
538                      CPU_BASED_UNCOND_IO_EXITING),
539
540         .try_set_0 = (CPU_BASED_MONITOR_EXITING)
541 };
542
543 static const struct vmxec cb2ec = {
544         .name = "CPU Based 2nd Execution Controls",
545         .msr = MSR_IA32_VMX_PROCBASED_CTLS2,
546         .truemsr = MSR_IA32_VMX_PROCBASED_CTLS2,
547
548         .must_be_1 = (SECONDARY_EXEC_ENABLE_EPT |
549                      SECONDARY_EXEC_APIC_REGISTER_VIRT |
550                      SECONDARY_EXEC_VIRTUAL_INTR_DELIVERY |
551                      SECONDARY_EXEC_VIRTUALIZE_X2APIC_MODE |
552                      SECONDARY_EXEC_WBINVD_EXITING),
553
554         .must_be_0 = (
555                      //SECONDARY_EXEC_APIC_REGISTER_VIRT |
556                      //SECONDARY_EXEC_VIRTUAL_INTR_DELIVERY |
557                      SECONDARY_EXEC_DESCRIPTOR_EXITING |
558                      SECONDARY_EXEC_VIRTUALIZE_APIC_ACCESSES |
559                      SECONDARY_EXEC_ENABLE_VPID |
560                      SECONDARY_EXEC_UNRESTRICTED_GUEST |
561                      SECONDARY_EXEC_PAUSE_LOOP_EXITING |
562                      SECONDARY_EXEC_RDRAND_EXITING |
563                      SECONDARY_EXEC_ENABLE_INVPCID |
564                      SECONDARY_EXEC_ENABLE_VMFUNC |
565                      SECONDARY_EXEC_SHADOW_VMCS |
566                      SECONDARY_EXEC_RDSEED_EXITING |
567                      SECONDARY_EPT_VE |
568                      SECONDARY_ENABLE_XSAV_RESTORE),
569
570         .try_set_1 = SECONDARY_EXEC_RDTSCP,
571
572         // mystery bit.
573         .try_set_0 = 0x2000000
574
575 };
576
577 static const struct vmxec vmentry = {
578         .name = "VMENTRY controls",
579         .msr = MSR_IA32_VMX_ENTRY_CTLS,
580         .truemsr = MSR_IA32_VMX_TRUE_ENTRY_CTLS,
581         /* exact order from vmx.h; only the first two are enabled. */
582
583         .must_be_1 =  (VM_ENTRY_LOAD_DEBUG_CONTROLS | /* can't set to 0 */
584                       VM_ENTRY_LOAD_IA32_EFER |
585                       VM_ENTRY_IA32E_MODE),
586
587         .must_be_0 = (VM_ENTRY_SMM |
588                      VM_ENTRY_DEACT_DUAL_MONITOR |
589                      VM_ENTRY_LOAD_IA32_PERF_GLOBAL_CTRL |
590                      VM_ENTRY_LOAD_IA32_PAT),
591 };
592
593 static const struct vmxec vmexit = {
594         .name = "VMEXIT controls",
595         .msr = MSR_IA32_VMX_EXIT_CTLS,
596         .truemsr = MSR_IA32_VMX_TRUE_EXIT_CTLS,
597
598         .must_be_1 = (VM_EXIT_SAVE_DEBUG_CONTROLS |     /* can't set to 0 */
599                                  VM_EXIT_ACK_INTR_ON_EXIT |
600                                  VM_EXIT_SAVE_IA32_EFER |
601                                 VM_EXIT_LOAD_IA32_EFER |
602                                 VM_EXIT_HOST_ADDR_SPACE_SIZE),  /* 64 bit */
603
604         .must_be_0 = (VM_EXIT_LOAD_IA32_PERF_GLOBAL_CTRL |
605                                 // VM_EXIT_ACK_INTR_ON_EXIT |
606                                  VM_EXIT_SAVE_IA32_PAT |
607                                  VM_EXIT_LOAD_IA32_PAT |
608                                 VM_EXIT_SAVE_VMX_PREEMPTION_TIMER),
609 };
610
611 static void
612 setup_vmcs_config(void *p)
613 {
614         int *ret = p;
615         struct vmcs_config *vmcs_conf = &vmcs_config;
616         uint32_t vmx_msr_high;
617         uint64_t vmx_msr;
618         bool have_true_msrs = false;
619         bool ok;
620
621         *ret = -EIO;
622
623         vmx_msr = read_msr(MSR_IA32_VMX_BASIC);
624         vmx_msr_high = vmx_msr >> 32;
625
626         /*
627          * If bit 55 (VMX_BASIC_HAVE_TRUE_MSRS) is set, then we
628          * can go for the true MSRs.  Else, we ask you to get a better CPU.
629          */
630         if (vmx_msr & VMX_BASIC_TRUE_CTLS) {
631                 have_true_msrs = true;
632                 printd("Running with TRUE MSRs\n");
633         } else {
634                 printk("Running with non-TRUE MSRs, this is old hardware\n");
635         }
636
637         /*
638          * Don't worry that one or more of these might fail and leave
639          * the VMCS in some kind of incomplete state. If one of these
640          * fails, the caller is going to discard the VMCS.
641          * It is written this way to ensure we get results of all tests and avoid
642          * BMAFR behavior.
643          */
644         ok = check_vmxec_controls(&pbec, have_true_msrs,
645                                   &vmcs_conf->pin_based_exec_ctrl);
646         ok = check_vmxec_controls(&cbec, have_true_msrs,
647                                   &vmcs_conf->cpu_based_exec_ctrl) && ok;
648         /* Only check cb2ec if we're still ok, o/w we may GPF */
649         ok = ok && check_vmxec_controls(&cb2ec, have_true_msrs,
650                                         &vmcs_conf->cpu_based_2nd_exec_ctrl);
651         ok = check_vmxec_controls(&vmentry, have_true_msrs,
652                                   &vmcs_conf->vmentry_ctrl) && ok;
653         ok = check_vmxec_controls(&vmexit, have_true_msrs,
654                                   &vmcs_conf->vmexit_ctrl) && ok;
655         if (! ok) {
656                 printk("vmxexec controls is no good.\n");
657                 return;
658         }
659
660         /* IA-32 SDM Vol 3B: VMCS size is never greater than 4kB. */
661         if ((vmx_msr_high & 0x1fff) > PGSIZE) {
662                 printk("vmx_msr_high & 0x1fff) is 0x%x, > PAGE_SIZE 0x%x\n",
663                            vmx_msr_high & 0x1fff, PGSIZE);
664                 return;
665         }
666
667         /* IA-32 SDM Vol 3B: 64-bit CPUs always have VMX_BASIC_MSR[48]==0. */
668         if (vmx_msr & VMX_BASIC_64) {
669                 printk("VMX doesn't support 64 bit width!\n");
670                 return;
671         }
672
673         if (((vmx_msr & VMX_BASIC_MEM_TYPE_MASK) >> VMX_BASIC_MEM_TYPE_SHIFT)
674                 != VMX_BASIC_MEM_TYPE_WB) {
675                 printk("VMX doesn't support WB memory for VMCS accesses!\n");
676                 return;
677         }
678
679         vmcs_conf->size = vmx_msr_high & 0x1fff;
680         vmcs_conf->order = LOG2_UP(nr_pages(vmcs_config.size));
681         vmcs_conf->revision_id = (uint32_t) vmx_msr;
682
683         /* Read in the caps for runtime checks.  This MSR is only available if
684          * secondary controls and ept or vpid is on, which we check earlier */
685         rdmsr(MSR_IA32_VMX_EPT_VPID_CAP, vmx_capability.ept, vmx_capability.vpid);
686
687         *ret = 0;
688 }
689
690 static struct vmcs *
691 __vmx_alloc_vmcs(int node)
692 {
693         struct vmcs *vmcs;
694
695         vmcs = get_cont_pages_node(node, vmcs_config.order, MEM_WAIT);
696         if (!vmcs)
697                 return 0;
698         memset(vmcs, 0, vmcs_config.size);
699         vmcs->revision_id = vmcs_config.revision_id;    /* vmcs revision id */
700         printd("%d: set rev id %d\n", core_id(), vmcs->revision_id);
701         return vmcs;
702 }
703
704 /**
705  * vmx_alloc_vmcs - allocates a VMCS region
706  *
707  * NOTE: Assumes the new region will be used by the current CPU.
708  *
709  * Returns a valid VMCS region.
710  */
711 static struct vmcs *
712 vmx_alloc_vmcs(void)
713 {
714         return __vmx_alloc_vmcs(numa_id());
715 }
716
717 /**
718  * vmx_free_vmcs - frees a VMCS region
719  */
720 static void
721 vmx_free_vmcs(struct vmcs *vmcs)
722 {
723         //free_pages((unsigned long)vmcs, vmcs_config.order);
724 }
725
726 /*
727  * Set up the vmcs's constant host-state fields, i.e., host-state fields that
728  * will not change in the lifetime of the guest.
729  * Note that host-state that does change is set elsewhere. E.g., host-state
730  * that is set differently for each CPU is set in __vmx_setup_pcpu(), not here.
731  */
732 static void
733 vmx_setup_constant_host_state(void)
734 {
735         uint32_t low32, high32;
736         unsigned long tmpl;
737         pseudodesc_t dt;
738
739         vmcs_writel(HOST_CR0, rcr0() & ~X86_CR0_TS);    /* 22.2.3 */
740         vmcs_writel(HOST_CR4, rcr4());  /* 22.2.3, 22.2.5 */
741         vmcs_writel(HOST_CR3, rcr3());  /* 22.2.3 */
742
743         vmcs_write16(HOST_CS_SELECTOR, GD_KT);  /* 22.2.4 */
744         vmcs_write16(HOST_DS_SELECTOR, GD_KD);  /* 22.2.4 */
745         vmcs_write16(HOST_ES_SELECTOR, GD_KD);  /* 22.2.4 */
746         vmcs_write16(HOST_SS_SELECTOR, GD_KD);  /* 22.2.4 */
747         vmcs_write16(HOST_TR_SELECTOR, GD_TSS); /* 22.2.4 */
748
749         native_store_idt(&dt);
750         vmcs_writel(HOST_IDTR_BASE, dt.pd_base);        /* 22.2.4 */
751
752         extern void vmexit_handler(void);
753         vmcs_writel(HOST_RIP, (unsigned long)vmexit_handler);
754
755         rdmsr(MSR_IA32_SYSENTER_CS, low32, high32);
756         vmcs_write32(HOST_IA32_SYSENTER_CS, low32);
757         rdmsrl(MSR_IA32_SYSENTER_EIP, tmpl);
758         vmcs_writel(HOST_IA32_SYSENTER_EIP, tmpl);      /* 22.2.3 */
759
760         rdmsr(MSR_EFER, low32, high32);
761         vmcs_write32(HOST_IA32_EFER, low32);
762
763         if (vmcs_config.vmexit_ctrl & VM_EXIT_LOAD_IA32_PAT) {
764                 rdmsr(MSR_IA32_CR_PAT, low32, high32);
765                 vmcs_write64(HOST_IA32_PAT, low32 | ((uint64_t) high32 << 32));
766         }
767
768         vmcs_write16(HOST_FS_SELECTOR, 0);      /* 22.2.4 */
769         vmcs_write16(HOST_GS_SELECTOR, 0);      /* 22.2.4 */
770         vmcs_write(HOST_FS_BASE, 0);
771 }
772
773 /* Set up the per-core VMCS fields.  This is the host state that varies from
774  * core to core, which the hardware will switch for us on VM enters/exits. */
775 static void __vmx_setup_pcpu(struct guest_pcore *gpc)
776 {
777         struct per_cpu_info *pcpui = &per_cpu_info[core_id()];
778
779         vmcs_write(HOST_TR_BASE, (uintptr_t)pcpui->tss);
780         vmcs_writel(HOST_GDTR_BASE, (uintptr_t)pcpui->gdt);
781         vmcs_write(HOST_RSP, pcpui->stacktop);
782         vmcs_write(HOST_GS_BASE, (uintptr_t)pcpui);
783         /* TODO: this is MSR_KERNEL_GS_BASE, the 0'th autoload.  This array API is a
784          * little dangerous. */
785         gpc->msr_autoload.host[0].value = (uintptr_t)pcpui;
786         /* TODO: we might need to also set HOST_IA32_PERF_GLOBAL_CTRL.  Need to
787          * think about how perf will work with VMs */
788 }
789
790 uint64_t
791 construct_eptp(physaddr_t root_hpa)
792 {
793         uint64_t eptp;
794
795         /* set WB memory and 4 levels of walk.  we checked these in ept_init */
796         eptp = VMX_EPT_MEM_TYPE_WB | (VMX_EPT_GAW_4_LVL << VMX_EPT_GAW_EPTP_SHIFT);
797         if (cpu_has_vmx_ept_ad_bits())
798                 eptp |= VMX_EPT_AD_ENABLE_BIT;
799         eptp |= (root_hpa & PAGE_MASK);
800
801         return eptp;
802 }
803
804 /* Helper: some fields of the VMCS need a physical page address, e.g. the VAPIC
805  * page.  We have the user address.  This converts the user to phys addr and
806  * sets that up in the VMCS.  Returns 0 on success, -1 o/w. */
807 static int vmcs_set_pgaddr(struct proc *p, void *u_addr, unsigned long field)
808 {
809         uintptr_t kva;
810         physaddr_t paddr;
811
812         /* Enforce page alignment */
813         kva = uva2kva(p, ROUNDDOWN(u_addr, PGSIZE), PGSIZE, PROT_WRITE);
814         if (!kva) {
815                 set_error(EINVAL, "Unmapped pgaddr %p for VMCS", u_addr);
816                 return -1;
817         }
818         paddr = PADDR(kva);
819         /* TODO: need to pin the page.  A munmap would actually be okay (though
820          * probably we should kill the process), but we need to keep the page from
821          * being reused.  A refcnt would do the trick, which we decref when we
822          * destroy the guest core/vcpu. */
823         assert(!PGOFF(paddr));
824         vmcs_writel(field, paddr);
825         /* Pages are inserted twice.  Once, with the full paddr.  The next field is
826          * the upper 32 bits of the paddr. */
827         vmcs_writel(field + 1, paddr >> 32);
828         return 0;
829 }
830
831 /**
832  * vmx_setup_initial_guest_state - configures the initial state of guest
833  * registers and the VMCS.  Returns 0 on success, -1 o/w.
834  */
835 static int vmx_setup_initial_guest_state(struct proc *p,
836                                          struct vmm_gpcore_init *gpci)
837 {
838         unsigned long tmpl;
839         unsigned long cr4 = X86_CR4_PAE | X86_CR4_VMXE | X86_CR4_OSXMMEXCPT |
840                 X86_CR4_PGE | X86_CR4_OSFXSR;
841         uint32_t protected_mode = X86_CR0_PG | X86_CR0_PE;
842         int ret = 0;
843
844 #if 0
845         do
846                 we need it if (boot_cpu_has(X86_FEATURE_PCID))
847                         cr4 |= X86_CR4_PCIDE;
848         if (boot_cpu_has(X86_FEATURE_OSXSAVE))
849                 cr4 |= X86_CR4_OSXSAVE;
850 #endif
851         /* we almost certainly have this */
852         /* we'll go sour if we don't. */
853         if (1)  //boot_cpu_has(X86_FEATURE_FSGSBASE))
854                 cr4 |= X86_CR4_RDWRGSFS;
855
856         /* configure control and data registers */
857         vmcs_writel(GUEST_CR0, protected_mode | X86_CR0_WP |
858                                 X86_CR0_MP | X86_CR0_ET | X86_CR0_NE);
859         vmcs_writel(CR0_READ_SHADOW, protected_mode | X86_CR0_WP |
860                                 X86_CR0_MP | X86_CR0_ET | X86_CR0_NE);
861         vmcs_writel(GUEST_CR3, rcr3());
862         vmcs_writel(GUEST_CR4, cr4);
863         /* The only bits that matter in this shadow are those that are
864          * set in CR4_GUEST_HOST_MASK.  TODO: do we need to separate
865          * the setting of this value from that of
866          * CR4_GUEST_HOST_MASK? */
867         vmcs_writel(CR4_READ_SHADOW, 0);
868         vmcs_writel(GUEST_IA32_EFER, EFER_LME | EFER_LMA |
869                                 EFER_SCE /*| EFER_FFXSR */ );
870         vmcs_writel(GUEST_GDTR_BASE, 0);
871         vmcs_writel(GUEST_GDTR_LIMIT, 0);
872         vmcs_writel(GUEST_IDTR_BASE, 0);
873         vmcs_writel(GUEST_IDTR_LIMIT, 0);
874         vmcs_writel(GUEST_RIP, 0xdeadbeef);
875         vmcs_writel(GUEST_RSP, 0xdeadbeef);
876         vmcs_writel(GUEST_RFLAGS, FL_RSVD_1);
877         vmcs_writel(GUEST_DR7, 0);
878
879         /* guest segment bases */
880         vmcs_writel(GUEST_CS_BASE, 0);
881         vmcs_writel(GUEST_DS_BASE, 0);
882         vmcs_writel(GUEST_ES_BASE, 0);
883         vmcs_writel(GUEST_GS_BASE, 0);
884         vmcs_writel(GUEST_SS_BASE, 0);
885         tmpl = read_fsbase();
886         vmcs_writel(GUEST_FS_BASE, tmpl);
887
888         /* guest segment access rights */
889         vmcs_writel(GUEST_CS_AR_BYTES, 0xA09B);
890         vmcs_writel(GUEST_DS_AR_BYTES, 0xA093);
891         vmcs_writel(GUEST_ES_AR_BYTES, 0xA093);
892         vmcs_writel(GUEST_FS_AR_BYTES, 0xA093);
893         vmcs_writel(GUEST_GS_AR_BYTES, 0xA093);
894         vmcs_writel(GUEST_SS_AR_BYTES, 0xA093);
895
896         /* guest segment limits */
897         vmcs_write32(GUEST_CS_LIMIT, 0xFFFFFFFF);
898         vmcs_write32(GUEST_DS_LIMIT, 0xFFFFFFFF);
899         vmcs_write32(GUEST_ES_LIMIT, 0xFFFFFFFF);
900         vmcs_write32(GUEST_FS_LIMIT, 0xFFFFFFFF);
901         vmcs_write32(GUEST_GS_LIMIT, 0xFFFFFFFF);
902         vmcs_write32(GUEST_SS_LIMIT, 0xFFFFFFFF);
903
904         /* configure segment selectors */
905         vmcs_write16(GUEST_CS_SELECTOR, 0);
906         vmcs_write16(GUEST_DS_SELECTOR, 0);
907         vmcs_write16(GUEST_ES_SELECTOR, 0);
908         vmcs_write16(GUEST_FS_SELECTOR, 0);
909         vmcs_write16(GUEST_GS_SELECTOR, 0);
910         vmcs_write16(GUEST_SS_SELECTOR, 0);
911         vmcs_write16(GUEST_TR_SELECTOR, 0);
912
913         /* guest LDTR */
914         vmcs_write16(GUEST_LDTR_SELECTOR, 0);
915         vmcs_writel(GUEST_LDTR_AR_BYTES, 0x0082);
916         vmcs_writel(GUEST_LDTR_BASE, 0);
917         vmcs_writel(GUEST_LDTR_LIMIT, 0);
918
919         /* guest TSS */
920         vmcs_writel(GUEST_TR_BASE, 0);
921         vmcs_writel(GUEST_TR_AR_BYTES, 0x0080 | AR_TYPE_BUSY_64_TSS);
922         vmcs_writel(GUEST_TR_LIMIT, 0xff);
923
924         /* initialize sysenter */
925         vmcs_write32(GUEST_SYSENTER_CS, 0);
926         vmcs_writel(GUEST_SYSENTER_ESP, 0);
927         vmcs_writel(GUEST_SYSENTER_EIP, 0);
928
929         /* other random initialization */
930         vmcs_write32(GUEST_ACTIVITY_STATE, GUEST_ACTIVITY_ACTIVE);
931         vmcs_write32(GUEST_INTERRUPTIBILITY_INFO, 0);
932         vmcs_write32(GUEST_PENDING_DBG_EXCEPTIONS, 0);
933         vmcs_write64(GUEST_IA32_DEBUGCTL, 0);
934         vmcs_write32(VM_ENTRY_INTR_INFO_FIELD, 0);      /* 22.2.1 */
935
936         /* Initialize posted interrupt notification vector */
937         vmcs_write16(POSTED_NOTIFICATION_VEC, I_POKE_CORE);
938
939         /* Clear the EOI exit bitmap */
940         vmcs_writel(EOI_EXIT_BITMAP0, 0);
941         vmcs_writel(EOI_EXIT_BITMAP0_HIGH, 0);
942         vmcs_writel(EOI_EXIT_BITMAP1, 0);
943         vmcs_writel(EOI_EXIT_BITMAP1_HIGH, 0);
944         vmcs_writel(EOI_EXIT_BITMAP2, 0);
945         vmcs_writel(EOI_EXIT_BITMAP2_HIGH, 0);
946         vmcs_writel(EOI_EXIT_BITMAP3, 0);
947         vmcs_writel(EOI_EXIT_BITMAP3_HIGH, 0);
948
949         /* Initialize parts based on the users info.  If one of them fails, we'll do
950          * the others but then error out. */
951         ret |= vmcs_set_pgaddr(p, gpci->posted_irq_desc, POSTED_INTR_DESC_ADDR);
952         ret |= vmcs_set_pgaddr(p, gpci->vapic_addr, VIRTUAL_APIC_PAGE_ADDR);
953         ret |= vmcs_set_pgaddr(p, gpci->apic_addr, APIC_ACCESS_ADDR);
954
955         return ret;
956 }
957
958 static void __vmx_disable_intercept_for_msr(unsigned long *msr_bitmap,
959                                             uint32_t msr) {
960         int f = sizeof(unsigned long);
961         /*
962          * See Intel PRM Vol. 3, 20.6.9 (MSR-Bitmap Address). Early manuals
963          * have the write-low and read-high bitmap offsets the wrong way round.
964          * We can control MSRs 0x00000000-0x00001fff and 0xc0000000-0xc0001fff.
965          */
966         if (msr <= 0x1fff) {
967                 __clear_bit(msr, msr_bitmap + 0x000 / f);       /* read-low */
968                 __clear_bit(msr, msr_bitmap + 0x800 / f);       /* write-low */
969         } else if ((msr >= 0xc0000000) && (msr <= 0xc0001fff)) {
970                 msr &= 0x1fff;
971                 __clear_bit(msr, msr_bitmap + 0x400 / f);       /* read-high */
972                 __clear_bit(msr, msr_bitmap + 0xc00 / f);       /* write-high */
973         }
974 }
975
976 /* note the io_bitmap is big enough for the 64K port space. */
977 static void __vmx_disable_intercept_for_io(unsigned long *io_bitmap,
978                                            uint16_t port) {
979         __clear_bit(port, io_bitmap);
980 }
981
982 static void gpc_print_autoloads(struct guest_pcore *gpc)
983 {
984         struct vmx_msr_entry *e;
985         int sz = sizeof(autoloaded_msrs) / sizeof(*autoloaded_msrs);
986         printk("Host Autoloads:\n-------------------\n");
987         for (int i = 0; i < sz; i++) {
988                 e = &gpc->msr_autoload.host[i];
989                 printk("\tMSR 0x%08x: %p\n", e->index, e->value);
990         }
991         printk("Guest Autoloads:\n-------------------\n");
992         for (int i = 0; i < sz; i++) {
993                 e = &gpc->msr_autoload.guest[i];
994                 printk("\tMSR 0x%08x %p\n", e->index, e->value);
995         }
996 }
997
998 static void dumpmsrs(void) {
999         int i;
1000         int set[] = {
1001                 MSR_LSTAR,
1002                 MSR_FS_BASE,
1003                 MSR_GS_BASE,
1004                 MSR_KERNEL_GS_BASE,
1005                 MSR_SFMASK,
1006                 MSR_IA32_PEBS_ENABLE
1007         };
1008         for (i = 0; i < ARRAY_SIZE(set); i++) {
1009                 printk("%p: %p\n", set[i], read_msr(set[i]));
1010         }
1011         printk("core id %d\n", core_id());
1012 }
1013
1014 /* Notes on autoloading.  We can't autoload FS_BASE or GS_BASE, according to the
1015  * manual, but that's because they are automatically saved and restored when all
1016  * of the other architectural registers are saved and restored, such as cs, ds,
1017  * es, and other fun things. (See 24.4.1).  We need to make sure we don't
1018  * accidentally intercept them too, since they are magically autloaded..
1019  *
1020  * We'll need to be careful of any MSR we neither autoload nor intercept
1021  * whenever we vmenter/vmexit, and we intercept by default.
1022  *
1023  * Other MSRs, such as MSR_IA32_PEBS_ENABLE only work on certain architectures
1024  * only work on certain architectures. */
1025 static void setup_msr(struct guest_pcore *gpc)
1026 {
1027         struct vmx_msr_entry *e;
1028         int sz = sizeof(autoloaded_msrs) / sizeof(*autoloaded_msrs);
1029         int i;
1030
1031         static_assert((sizeof(autoloaded_msrs) / sizeof(*autoloaded_msrs)) <=
1032                       NR_AUTOLOAD_MSRS);
1033
1034         gpc->msr_autoload.nr = sz;
1035
1036         /* Since PADDR(msr_bitmap) is non-zero, and the bitmap is all 0xff, we now
1037          * intercept all MSRs */
1038         vmcs_write64(MSR_BITMAP, PADDR(msr_bitmap));
1039
1040         vmcs_write64(IO_BITMAP_A, PADDR(io_bitmap));
1041         vmcs_write64(IO_BITMAP_B, PADDR((uintptr_t)io_bitmap +
1042                                         (VMX_IO_BITMAP_SZ / 2)));
1043
1044         vmcs_write32(VM_EXIT_MSR_STORE_COUNT, gpc->msr_autoload.nr);
1045         vmcs_write32(VM_EXIT_MSR_LOAD_COUNT, gpc->msr_autoload.nr);
1046         vmcs_write32(VM_ENTRY_MSR_LOAD_COUNT, gpc->msr_autoload.nr);
1047
1048         vmcs_write64(VM_EXIT_MSR_LOAD_ADDR, PADDR(gpc->msr_autoload.host));
1049         vmcs_write64(VM_EXIT_MSR_STORE_ADDR, PADDR(gpc->msr_autoload.guest));
1050         vmcs_write64(VM_ENTRY_MSR_LOAD_ADDR, PADDR(gpc->msr_autoload.guest));
1051
1052         for (i = 0; i < sz; i++) {
1053                 uint64_t val;
1054
1055                 e = &gpc->msr_autoload.host[i];
1056                 e->index = autoloaded_msrs[i];
1057                 __vmx_disable_intercept_for_msr(msr_bitmap, e->index);
1058                 rdmsrl(e->index, val);
1059                 e->value = val;
1060                 printk("host index %p val %p\n", e->index, e->value);
1061
1062                 e = &gpc->msr_autoload.guest[i];
1063                 e->index = autoloaded_msrs[i];
1064                 e->value = 0xDEADBEEF;
1065                 printk("guest index %p val %p\n", e->index, e->value);
1066         }
1067 }
1068
1069 /**
1070  *  vmx_setup_vmcs - configures the vmcs with starting parameters
1071  */
1072 static void vmx_setup_vmcs(struct guest_pcore *gpc)
1073 {
1074         vmcs_write16(VIRTUAL_PROCESSOR_ID, 0);
1075         vmcs_write64(VMCS_LINK_POINTER, -1ull); /* 22.3.1.5 */
1076
1077         /* Control */
1078         vmcs_write32(PIN_BASED_VM_EXEC_CONTROL,
1079                      vmcs_config.pin_based_exec_ctrl);
1080
1081         vmcs_write32(CPU_BASED_VM_EXEC_CONTROL,
1082                      vmcs_config.cpu_based_exec_ctrl);
1083
1084         if (cpu_has_secondary_exec_ctrls()) {
1085                 vmcs_write32(SECONDARY_VM_EXEC_CONTROL,
1086                              vmcs_config.cpu_based_2nd_exec_ctrl);
1087         }
1088
1089         vmcs_write64(EPT_POINTER, gpc_get_eptp(gpc));
1090
1091         vmcs_write32(PAGE_FAULT_ERROR_CODE_MASK, 0);
1092         vmcs_write32(PAGE_FAULT_ERROR_CODE_MATCH, 0);
1093         vmcs_write32(CR3_TARGET_COUNT, 0);      /* 22.2.1 */
1094
1095         setup_msr(gpc);
1096
1097         vmcs_config.vmentry_ctrl |= VM_ENTRY_IA32E_MODE;
1098
1099         vmcs_write32(VM_EXIT_CONTROLS, vmcs_config.vmexit_ctrl);
1100         vmcs_write32(VM_ENTRY_CONTROLS, vmcs_config.vmentry_ctrl);
1101
1102         vmcs_writel(CR0_GUEST_HOST_MASK, 0);    // ~0ul);
1103
1104         /* Mask some bits in CR4 as host-owned by setting them in this
1105          * VMCS entry.  For example, for now, we mark the CR4_VMXE bit
1106          * as host owned.  Right now, when Linux boots, it wants to
1107          * set CR4_VMXE to 0 at first, which is fine -- we do not want
1108          * to think about nested virtualization yet. But if we don't
1109          * mark this bit as host owned we get a VMEXIT. Marking
1110          * CR4_VMXE as host owned means that the writes will succeed
1111          * with no vmexit if the value written matches the
1112          * corresponding bit in the shadow register. */
1113         vmcs_writel(CR4_GUEST_HOST_MASK, CR4_VMXE);
1114
1115         //kvm_write_tsc(&vmx->gpc, 0);
1116         vmcs_writel(TSC_OFFSET, 0);
1117
1118         vmx_setup_constant_host_state();
1119 }
1120
1121 /**
1122  * create_guest_pcore - allocates and initializes a guest physical core
1123  *
1124  * Returns: A new VCPU structure
1125  */
1126 struct guest_pcore *create_guest_pcore(struct proc *p,
1127                                        struct vmm_gpcore_init *gpci)
1128 {
1129         struct guest_pcore *gpc = kmalloc(sizeof(struct guest_pcore),
1130                                           MEM_WAIT);
1131         int ret;
1132
1133         if (!gpc)
1134                 return NULL;
1135
1136         memset(gpc, 0, sizeof(*gpc));
1137
1138         gpc->proc = p;  /* uncounted (weak) reference */
1139         gpc->vmcs = vmx_alloc_vmcs();
1140         printd("%d: gpc->vmcs is %p\n", core_id(), gpc->vmcs);
1141         if (!gpc->vmcs)
1142                 goto fail_vmcs;
1143
1144         gpc->cpu = -1;
1145
1146         vmx_load_guest_pcore(gpc);
1147         vmx_setup_vmcs(gpc);
1148         ret = vmx_setup_initial_guest_state(p, gpci);
1149         vmx_unload_guest_pcore(gpc);
1150         gpc->xcr0 = __proc_global_info.x86_default_xcr0;
1151
1152         gpc->posted_irq_desc = gpci->posted_irq_desc;
1153
1154         if (!ret)
1155                 return gpc;
1156
1157 fail_vmcs:
1158         kfree(gpc);
1159         return NULL;
1160 }
1161
1162 /**
1163  * destroy_guest_pcore - destroys and frees an existing guest physical core
1164  * @gpc: the GPC to destroy
1165  */
1166 void destroy_guest_pcore(struct guest_pcore *gpc)
1167 {
1168         vmx_free_vmcs(gpc->vmcs);
1169         kfree(gpc);
1170 }
1171
1172 static void vmx_step_instruction(void) {
1173         vmcs_writel(GUEST_RIP, vmcs_readl(GUEST_RIP) +
1174                     vmcs_read32(VM_EXIT_INSTRUCTION_LEN));
1175 }
1176
1177 /**
1178  * __vmx_enable - low-level enable of VMX mode on the current CPU
1179  * @vmxon_buf: an opaque buffer for use as the VMXON region
1180  */
1181 static int __vmx_enable(struct vmcs *vmxon_buf) {
1182         uint64_t phys_addr = PADDR(vmxon_buf);
1183         uint64_t old, test_bits;
1184
1185         if (rcr4() & X86_CR4_VMXE) {
1186                 panic("Should never have this happen");
1187                 return -EBUSY;
1188         }
1189
1190         rdmsrl(MSR_IA32_FEATURE_CONTROL, old);
1191
1192         test_bits = FEATURE_CONTROL_LOCKED;
1193         test_bits |= FEATURE_CONTROL_VMXON_ENABLED_OUTSIDE_SMX;
1194
1195         if (0)  // tboot_enabled())
1196                 test_bits |= FEATURE_CONTROL_VMXON_ENABLED_INSIDE_SMX;
1197
1198         if ((old & test_bits) != test_bits) {
1199                 /* If it's locked, then trying to set it will cause a GPF.
1200                  * No Dune for you!
1201                  */
1202                 if (old & FEATURE_CONTROL_LOCKED) {
1203                         printk("Dune: MSR_IA32_FEATURE_CONTROL is locked!\n");
1204                         return -1;
1205                 }
1206
1207                 /* enable and lock */
1208                 write_msr(MSR_IA32_FEATURE_CONTROL, old | test_bits);
1209         }
1210         lcr4(rcr4() | X86_CR4_VMXE);
1211
1212         __vmxon(phys_addr);
1213         vpid_sync_gpc_global(); /* good idea, even if we aren't using vpids */
1214         ept_sync_global();
1215
1216         return 0;
1217 }
1218
1219 /**
1220  * vmx_disable - disables VMX mode on the current CPU
1221  */
1222 static void vmx_disable(void *unused) {
1223         if (currentcpu->vmx_enabled) {
1224                 __vmxoff();
1225                 lcr4(rcr4() & ~X86_CR4_VMXE);
1226                 currentcpu->vmx_enabled = 0;
1227         }
1228 }
1229
1230 /* Probe the cpus to see which ones can do vmx.
1231  * Return -errno if it fails, and 1 if it succeeds.
1232  */
1233 static bool probe_cpu_vmx(void) {
1234         /* The best way to test this code is:
1235          * wrmsr -p <cpu> 0x3a 1
1236          * This will lock vmx off; then modprobe dune.
1237          * Frequently, however, systems have all 0x3a registers set to 5,
1238          * meaning testing is impossible, as vmx can not be disabled.
1239          * We have to simulate it being unavailable in most cases.
1240          * The 'test' variable provides an easy way to simulate
1241          * unavailability of vmx on some, none, or all cpus.
1242          */
1243         if (!cpu_has_vmx()) {
1244                 printk("Machine does not support VT-x\n");
1245                 return FALSE;
1246         } else {
1247                 printk("Machine supports VT-x\n");
1248                 return TRUE;
1249         }
1250 }
1251
1252 static int ept_init(void) {
1253         if (!cpu_has_vmx_ept()) {
1254                 printk("VMX doesn't support EPT!\n");
1255                 return -1;
1256         }
1257         if (!cpu_has_vmx_eptp_writeback()) {
1258                 printk("VMX EPT doesn't support WB memory!\n");
1259                 return -1;
1260         }
1261         if (!cpu_has_vmx_ept_4levels()) {
1262                 printk("VMX EPT doesn't support 4 level walks!\n");
1263                 return -1;
1264         }
1265         switch (arch_max_jumbo_page_shift()) {
1266         case PML3_SHIFT:
1267                 if (!cpu_has_vmx_ept_1g_page()) {
1268                         printk("VMX EPT doesn't support 1 GB pages!\n");
1269                         return -1;
1270                 }
1271                 break;
1272         case PML2_SHIFT:
1273                 if (!cpu_has_vmx_ept_2m_page()) {
1274                         printk("VMX EPT doesn't support 2 MB pages!\n");
1275                         return -1;
1276                 }
1277                 break;
1278         default:
1279                 printk("Unexpected jumbo page size %d\n",
1280                        arch_max_jumbo_page_shift());
1281                 return -1;
1282         }
1283         if (!cpu_has_vmx_ept_ad_bits()) {
1284                 printk("VMX EPT doesn't support accessed/dirty!\n");
1285                 x86_ept_pte_fix_ups |= EPTE_A | EPTE_D;
1286         }
1287         if (!cpu_has_vmx_invept() || !cpu_has_vmx_invept_global()) {
1288                 printk("VMX EPT can't invalidate PTEs/TLBs!\n");
1289                 return -1;
1290         }
1291
1292         return 0;
1293 }
1294
1295 /**
1296  * vmx_init sets up physical core data areas that are required to run a vm at all.
1297  * These data areas are not connected to a specific user process in any way. Instead,
1298  * they are in some sense externalizing what would other wise be a very large ball of
1299  * state that would be inside the CPU.
1300  */
1301 int intel_vmm_init(void) {
1302         int r, cpu, ret;
1303
1304         if (!probe_cpu_vmx()) {
1305                 return -EOPNOTSUPP;
1306         }
1307
1308         setup_vmcs_config(&ret);
1309
1310         if (ret) {
1311                 printk("setup_vmcs_config failed: %d\n", ret);
1312                 return ret;
1313         }
1314
1315         msr_bitmap = (unsigned long *)kpage_zalloc_addr();
1316         if (!msr_bitmap) {
1317                 printk("Could not allocate msr_bitmap\n");
1318                 return -ENOMEM;
1319         }
1320         io_bitmap = (unsigned long *)get_cont_pages(VMX_IO_BITMAP_ORDER,
1321                                                     MEM_WAIT);
1322         if (!io_bitmap) {
1323                 printk("Could not allocate msr_bitmap\n");
1324                 kfree(msr_bitmap);
1325                 return -ENOMEM;
1326         }
1327         /* FIXME: do we need APIC virtualization (flexpriority?) */
1328
1329         memset(msr_bitmap, 0xff, PAGE_SIZE);
1330
1331         /* The following MSRs are virtualized to the vapic page so there is no
1332          * write or read from the actual MSR. */
1333         memset((void *)msr_bitmap + INTEL_X2APIC_MSR_START, 0,
1334                INTEL_X2APIC_MSR_LENGTH);
1335         __vmx_disable_intercept_for_msr(msr_bitmap, MSR_LAPIC_EOI);
1336         __vmx_disable_intercept_for_msr(msr_bitmap, MSR_LAPIC_TPR);
1337         __vmx_disable_intercept_for_msr(msr_bitmap, MSR_LAPIC_SELF_IPI);
1338
1339         memset(io_bitmap, 0xff, VMX_IO_BITMAP_SZ);
1340
1341         /* These are the only MSRs that are not autoloaded and not intercepted */
1342         __vmx_disable_intercept_for_msr(msr_bitmap, MSR_FS_BASE);
1343         __vmx_disable_intercept_for_msr(msr_bitmap, MSR_GS_BASE);
1344         __vmx_disable_intercept_for_msr(msr_bitmap, MSR_EFER);
1345
1346         /* TODO: this might be dangerous, since they can do more than just read the
1347          * CMOS */
1348         __vmx_disable_intercept_for_io(io_bitmap, CMOS_RAM_IDX);
1349         __vmx_disable_intercept_for_io(io_bitmap, CMOS_RAM_DATA);
1350
1351         if ((ret = ept_init())) {
1352                 printk("EPT init failed, %d\n", ret);
1353                 return ret;
1354         }
1355         printk("VMX setup succeeded\n");
1356         return 0;
1357 }
1358
1359 int intel_vmm_pcpu_init(void)
1360 {
1361         struct vmcs *vmxon_buf;
1362         int ret;
1363
1364         vmxon_buf = __vmx_alloc_vmcs(core_id());
1365         if (!vmxon_buf) {
1366                 printk("setup_vmxarea failed on node %d\n", core_id());
1367                 return -1;
1368         }
1369
1370         ret = __vmx_enable(vmxon_buf);
1371         if (ret)
1372                 goto failed;
1373         currentcpu->vmx_enabled = 1;
1374         printk("VMX enabled on CPU %d\n", core_id());
1375         return 0;
1376 failed:
1377         printk("Failed to enable VMX on core %d, err = %d\n", core_id(), ret);
1378         return ret;
1379 }
1380
1381
1382 void vapic_status_dump_kernel(void *vapic)
1383 {
1384         uint32_t *p = (uint32_t *)vapic;
1385         int i;
1386         printk("-- BEGIN KERNEL APIC STATUS DUMP --\n");
1387         for (i = 0x100/sizeof(*p); i < 0x180/sizeof(*p); i+=4) {
1388                 printk("VISR : 0x%x: 0x%08x\n", i, p[i]);
1389         }
1390         for (i = 0x200/sizeof(*p); i < 0x280/sizeof(*p); i+=4) {
1391                 printk("VIRR : 0x%x: 0x%08x\n", i, p[i]);
1392         }
1393         i = 0x0B0/sizeof(*p);
1394         printk("EOI FIELD : 0x%x, 0x%08x\n", i, p[i]);
1395
1396         printk("-- END KERNEL APIC STATUS DUMP --\n");
1397 }
1398
1399 void vmx_load_guest_pcore(struct guest_pcore *gpc)
1400 {
1401         vmcs_load(gpc->vmcs);
1402         __vmx_setup_pcpu(gpc);
1403 }
1404
1405 void vmx_unload_guest_pcore(struct guest_pcore *gpc)
1406 {
1407         vmcs_clear(gpc->vmcs);
1408 }