Barret pointed out that the inclusion of regions was a mistake.
[akaros.git] / kern / arch / x86 / vmm / vmm.h
1 /*-
2  * Copyright (c) 2011 NetApp, Inc.
3  * All rights reserved.
4  *
5  * Redistribution and use in source and binary forms, with or without
6  * modification, are permitted provided that the following conditions
7  * are met:
8  * 1. Redistributions of source code must retain the above copyright
9  *    notice, this list of conditions and the following disclaimer.
10  * 2. Redistributions in binary form must reproduce the above copyright
11  *    notice, this list of conditions and the following disclaimer in the
12  *    documentation and/or other materials provided with the distribution.
13  *
14  * THIS SOFTWARE IS PROVIDED BY NETAPP, INC ``AS IS'' AND
15  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
16  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
17  * ARE DISCLAIMED.  IN NO EVENT SHALL NETAPP, INC OR CONTRIBUTORS BE LIABLE
18  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
19  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
20  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
21  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
22  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
23  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
24  * SUCH DAMAGE.
25  *
26  * $FreeBSD$
27  */
28
29 #ifndef _VMM_H_
30 #define _VMM_H_
31
32 enum vm_suspend_how {
33         VM_SUSPEND_NONE,
34         VM_SUSPEND_RESET,
35         VM_SUSPEND_POWEROFF,
36         VM_SUSPEND_HALT,
37         VM_SUSPEND_TRIPLEFAULT,
38         VM_SUSPEND_LAST
39 };
40
41 /*
42  * Identifiers for architecturally defined registers.
43  */
44 enum vm_reg_name {
45         VM_REG_GUEST_RAX,
46         VM_REG_GUEST_RBX,
47         VM_REG_GUEST_RCX,
48         VM_REG_GUEST_RDX,
49         VM_REG_GUEST_RSI,
50         VM_REG_GUEST_RDI,
51         VM_REG_GUEST_RBP,
52         VM_REG_GUEST_R8,
53         VM_REG_GUEST_R9,
54         VM_REG_GUEST_R10,
55         VM_REG_GUEST_R11,
56         VM_REG_GUEST_R12,
57         VM_REG_GUEST_R13,
58         VM_REG_GUEST_R14,
59         VM_REG_GUEST_R15,
60         VM_REG_GUEST_CR0,
61         VM_REG_GUEST_CR3,
62         VM_REG_GUEST_CR4,
63         VM_REG_GUEST_DR7,
64         VM_REG_GUEST_RSP,
65         VM_REG_GUEST_RIP,
66         VM_REG_GUEST_RFLAGS,
67         VM_REG_GUEST_ES,
68         VM_REG_GUEST_CS,
69         VM_REG_GUEST_SS,
70         VM_REG_GUEST_DS,
71         VM_REG_GUEST_FS,
72         VM_REG_GUEST_GS,
73         VM_REG_GUEST_LDTR,
74         VM_REG_GUEST_TR,
75         VM_REG_GUEST_IDTR,
76         VM_REG_GUEST_GDTR,
77         VM_REG_GUEST_EFER,
78         VM_REG_GUEST_CR2,
79         VM_REG_GUEST_PDPTE0,
80         VM_REG_GUEST_PDPTE1,
81         VM_REG_GUEST_PDPTE2,
82         VM_REG_GUEST_PDPTE3,
83         VM_REG_GUEST_INTR_SHADOW,
84         VM_REG_LAST
85 };
86
87 enum x2apic_state {
88         X2APIC_DISABLED,
89         X2APIC_ENABLED,
90         X2APIC_STATE_LAST
91 };
92
93 #define VM_INTINFO_VECTOR(info) ((info) & 0xff)
94 #define VM_INTINFO_DEL_ERRCODE  0x800
95 #define VM_INTINFO_RSVD         0x7ffff000
96 #define VM_INTINFO_VALID        0x80000000
97 #define VM_INTINFO_TYPE         0x700
98 #define VM_INTINFO_HWINTR       (0 << 8)
99 #define VM_INTINFO_NMI          (2 << 8)
100 #define VM_INTINFO_HWEXCEPTION  (3 << 8)
101 #define VM_INTINFO_SWINTR       (4 << 8)
102
103 enum vcpu_state {
104         VCPU_IDLE,
105         VCPU_FROZEN,
106         VCPU_RUNNING,
107         VCPU_SLEEPING,
108 };
109
110 /*
111  * Identifiers for optional vmm capabilities
112  */
113 enum vm_cap_type {
114         VM_CAP_HALT_EXIT,
115         VM_CAP_MTRAP_EXIT,
116         VM_CAP_PAUSE_EXIT,
117         VM_CAP_UNRESTRICTED_GUEST,
118         VM_CAP_ENABLE_INVPCID,
119         VM_CAP_MAX
120 };
121
122 enum vm_intr_trigger {
123         EDGE_TRIGGER,
124         LEVEL_TRIGGER
125 };
126         
127 /*
128  * The 'access' field has the format specified in Table 21-2 of the Intel
129  * Architecture Manual vol 3b.
130  *
131  * XXX The contents of the 'access' field are architecturally defined except
132  * bit 16 - Segment Unusable.
133  */
134 struct seg_desc {
135         uint64_t        base;
136         uint32_t        limit;
137         uint32_t        access;
138 };
139 #define SEG_DESC_TYPE(access)           ((access) & 0x001f)
140 #define SEG_DESC_DPL(access)            (((access) >> 5) & 0x3)
141 #define SEG_DESC_PRESENT(access)        (((access) & 0x0080) ? 1 : 0)
142 #define SEG_DESC_DEF32(access)          (((access) & 0x4000) ? 1 : 0)
143 #define SEG_DESC_GRANULARITY(access)    (((access) & 0x8000) ? 1 : 0)
144 #define SEG_DESC_UNUSABLE(access)       (((access) & 0x10000) ? 1 : 0)
145
146 enum vm_cpu_mode {
147         CPU_MODE_REAL,
148         CPU_MODE_PROTECTED,
149         CPU_MODE_COMPATIBILITY,         /* IA-32E mode (CS.L = 0) */
150         CPU_MODE_64BIT,                 /* IA-32E mode (CS.L = 1) */
151 };
152
153 enum vm_paging_mode {
154         PAGING_MODE_FLAT,
155         PAGING_MODE_32,
156         PAGING_MODE_PAE,
157         PAGING_MODE_64,
158 };
159
160 struct vm_guest_paging {
161         uint64_t        cr3;
162         int             cpl;
163         enum vm_cpu_mode cpu_mode;
164         enum vm_paging_mode paging_mode;
165 };
166
167 /*
168  * The data structures 'vie' and 'vie_op' are meant to be opaque to the
169  * consumers of instruction decoding. The only reason why their contents
170  * need to be exposed is because they are part of the 'vm_exit' structure.
171  */
172 struct vie_op {
173         uint8_t         op_byte;        /* actual opcode byte */
174         uint8_t         op_type;        /* type of operation (e.g. MOV) */
175         uint16_t        op_flags;
176 };
177
178 #define VIE_INST_SIZE   15
179 struct vie {
180         uint8_t         inst[VIE_INST_SIZE];    /* instruction bytes */
181         uint8_t         num_valid;              /* size of the instruction */
182         uint8_t         num_processed;
183
184         uint8_t         addrsize:4, opsize:4;   /* address and operand sizes */
185         uint8_t         rex_w:1,                /* REX prefix */
186                         rex_r:1,
187                         rex_x:1,
188                         rex_b:1,
189                         rex_present:1,
190                         opsize_override:1,      /* Operand size override */
191                         addrsize_override:1;    /* Address size override */
192
193         uint8_t         mod:2,                  /* ModRM byte */
194                         reg:4,
195                         rm:4;
196
197         uint8_t         ss:2,                   /* SIB byte */
198                         index:4,
199                         base:4;
200
201         uint8_t         disp_bytes;
202         uint8_t         imm_bytes;
203
204         uint8_t         scale;
205         int             base_register;          /* VM_REG_GUEST_xyz */
206         int             index_register;         /* VM_REG_GUEST_xyz */
207
208         int64_t         displacement;           /* optional addr displacement */
209         int64_t         immediate;              /* optional immediate operand */
210
211         uint8_t         decoded;        /* set to 1 if successfully decoded */
212
213         struct vie_op   op;                     /* opcode description */
214 };
215
216 enum vm_exitcode {
217         VM_EXITCODE_INOUT,
218         VM_EXITCODE_VMX,
219         VM_EXITCODE_BOGUS,
220         VM_EXITCODE_RDMSR,
221         VM_EXITCODE_WRMSR,
222         VM_EXITCODE_HLT,
223         VM_EXITCODE_MTRAP,
224         VM_EXITCODE_PAUSE,
225         VM_EXITCODE_PAGING,
226         VM_EXITCODE_INST_EMUL,
227         VM_EXITCODE_SPINUP_AP,
228         VM_EXITCODE_DEPRECATED1,        /* used to be SPINDOWN_CPU */
229         VM_EXITCODE_RENDEZVOUS,
230         VM_EXITCODE_IOAPIC_EOI,
231         VM_EXITCODE_SUSPENDED,
232         VM_EXITCODE_INOUT_STR,
233         VM_EXITCODE_TASK_SWITCH,
234         VM_EXITCODE_MONITOR,
235         VM_EXITCODE_MWAIT,
236         VM_EXITCODE_SVM,
237         VM_EXITCODE_MAX
238 };
239
240 struct vm_inout {
241         uint16_t        bytes:3;        /* 1 or 2 or 4 */
242         uint16_t        in:1;
243         uint16_t        string:1;
244         uint16_t        rep:1;
245         uint16_t        port;
246         uint32_t        eax;            /* valid for out */
247 };
248
249 struct vm_inout_str {
250         struct vm_inout inout;          /* must be the first element */
251         struct vm_guest_paging paging;
252         uint64_t        rflags;
253         uint64_t        cr0;
254         uint64_t        index;
255         uint64_t        count;          /* rep=1 (%rcx), rep=0 (1) */
256         int             addrsize;
257         enum vm_reg_name seg_name;
258         struct seg_desc seg_desc;
259 };
260
261 enum task_switch_reason {
262         TSR_CALL,
263         TSR_IRET,
264         TSR_JMP,
265         TSR_IDT_GATE,   /* task gate in IDT */
266 };
267
268 struct vm_task_switch {
269         uint16_t        tsssel;         /* new TSS selector */
270         int             ext;            /* task switch due to external event */
271         uint32_t        errcode;
272         int             errcode_valid;  /* push 'errcode' on the new stack */
273         enum task_switch_reason reason;
274         struct vm_guest_paging paging;
275 };
276
277 struct vm_exit {
278         enum vm_exitcode        exitcode;
279         int                     inst_length;    /* 0 means unknown */
280         uint64_t                rip;
281         union {
282                 struct vm_inout inout;
283                 struct vm_inout_str inout_str;
284                 struct {
285                         uint64_t        gpa;
286                         int             fault_type;
287                 } paging;
288                 struct {
289                         uint64_t        gpa;
290                         uint64_t        gla;
291                         int             cs_d;           /* CS.D */
292                         struct vm_guest_paging paging;
293                         struct vie      vie;
294                 } inst_emul;
295                 /*
296                  * VMX specific payload. Used when there is no "better"
297                  * exitcode to represent the VM-exit.
298                  */
299                 struct {
300                         int             status;         /* vmx inst status */
301                         /*
302                          * 'exit_reason' and 'exit_qualification' are valid
303                          * only if 'status' is zero.
304                          */
305                         uint32_t        exit_reason;
306                         uint64_t        exit_qualification;
307                         /*
308                          * 'inst_error' and 'inst_type' are valid
309                          * only if 'status' is non-zero.
310                          */
311                         int             inst_type;
312                         int             inst_error;
313                 } vmx;
314                 /*
315                  * SVM specific payload.
316                  */
317                 struct {
318                         uint64_t        exitcode;
319                         uint64_t        exitinfo1;
320                         uint64_t        exitinfo2;
321                 } svm;
322                 struct {
323                         uint32_t        code;           /* ecx value */
324                         uint64_t        wval;
325                 } msr;
326                 struct {
327                         int             vcpu;
328                         uint64_t        rip;
329                 } spinup_ap;
330                 struct {
331                         uint64_t        rflags;
332                 } hlt;
333                 struct {
334                         int             vector;
335                 } ioapic_eoi;
336                 struct {
337                         enum vm_suspend_how how;
338                 } suspended;
339                 struct vm_task_switch task_switch;
340         } u;
341 };
342
343 struct vmm {
344         // true if this is a VMMCP.
345         bool vmmcp;
346
347         // Number of cores in this VMMCP.
348         int ncores;
349         // The EPT entries are incompatible in just a few bit
350         // positions. Very few. You could *almost* use the same page
351         // tables for EPT and process page tables, but ... not quite.
352         // Really: you put X in bit two of the EPT and in bit 63 of
353         // the standard one.  Setting WB (6 in bits 5:3) in the EPT
354         // versions disables caching (CD is bit 4) in the native
355         // versions.  WTF?
356         //
357         // As a result we have to keep these two in sync, IFF
358         // we have a VMMCP. N.B. only for the sie of the EPT
359         // address space, which is limited to much less than
360         // the virtual address space.
361         physaddr_t eptpt;
362
363         // The VMCS is intel-specific. But, maybe, someday, AMD will
364         // be back.  Just make this an anon union and we'll work it
365         // all out later. Again, remember, we're compiling in support
366         // for both architectures to ensure that we can correctly
367         // figure out at boot time what we're on and what we should
368         // do. This avoids the problem seen years ago with RH6 where
369         // you could install a kernel from the ISO, but the kernel it
370         // installed would GPF on a K7.
371         union {
372                 struct vmcs *vmcs;
373         };
374 };
375
376 #endif  /* _VMM_H_ */