vfs: Remove syscall access to the VFS
[akaros.git] / kern / src / kfs.c
1 /* Copyright (c) 2009, 2010 The Regents of the University of California
2  * Barret Rhoden <brho@cs.berkeley.edu>
3  * See LICENSE for details.
4  *
5  * Implementation of the KFS file system.  It is a RAM based, read-only FS
6  * consisting of files that are added to the kernel binary image.  Might turn
7  * this into a read/write FS with directories someday. */
8 #include <vfs.h>
9 #include <kfs.h>
10 #include <slab.h>
11 #include <kmalloc.h>
12 #include <string.h>
13 #include <stdio.h>
14 #include <assert.h>
15 #include <error.h>
16 #include <cpio.h>
17 #include <pmap.h>
18 #include <smp.h>
19
20 #define KFS_MAX_FILE_SIZE 1024*1024*128
21 #define KFS_MAGIC 0xdead0001
22
23 /* VFS required Functions */
24 /* These structs are declared again and initialized farther down */
25 struct page_map_operations kfs_pm_op;
26 struct super_operations kfs_s_op;
27 struct inode_operations kfs_i_op;
28 struct dentry_operations kfs_d_op;
29 struct file_operations kfs_f_op_file;
30 struct file_operations kfs_f_op_dir;
31 struct file_operations kfs_f_op_sym;
32
33 static int add_kfs_entry(struct cpio_bin_hdr *c_bhdr, void *cb_arg);
34
35 /* TODO: something more better.  Prob something like the vmem cache, for this,
36  * pids, etc.  Good enough for now.  This also means we can only have one
37  * KFS instance, and we also aren't synchronizing access. */
38 static unsigned long kfs_get_free_ino(void)
39 {
40         static unsigned long last_ino = 1;       /* 1 is reserved for the root */
41         last_ino++;
42         if (!last_ino)
43                 panic("Out of inos in KFS!");
44         return last_ino;
45 }
46
47 /* Slabs for KFS specific info chunks */
48 struct kmem_cache *kfs_i_kcache;
49
50 static void kfs_init(void)
51 {
52         kfs_i_kcache = kmem_cache_create("kfs_ino_info",
53                                          sizeof(struct kfs_i_info),
54                                          __alignof__(struct kfs_i_info), 0,
55                                          NULL, 0, 0, NULL);
56 }
57
58 /* Creates the SB (normally would read in from disc and create).  Passes its
59  * ref out to whoever consumes this.  Returns 0 on failure.
60  * TODO: consider pulling out more of the FS-independent stuff, if possible.
61  * There are only two things, but the pain in the ass is that you'd need to read
62  * the disc to get that first inode, and it's a FS-specific thing. */
63 struct super_block *kfs_get_sb(struct fs_type *fs, int flags,
64                                char *dev_name, struct vfsmount *vmnt)
65 {
66         /* Ought to check that dev_name has our FS on it.  in this case, it's
67          * irrelevant. */
68         //if (something_bad)
69         //      return 0;
70         static bool ran_once = FALSE;
71         if (!ran_once) {
72                 ran_once = TRUE;
73                 kfs_init();
74         }
75
76         /* Build and init the SB.  No need to read off disc. */
77         struct super_block *sb = get_sb();
78         sb->s_dev = 1337;
79         sb->s_blocksize = 1;
80         sb->s_maxbytes = KFS_MAX_FILE_SIZE;
81         sb->s_type = &kfs_fs_type;
82         sb->s_op = &kfs_s_op;
83         sb->s_flags = flags;
84         sb->s_magic = KFS_MAGIC;
85         sb->s_mount = vmnt;
86         sb->s_syncing = FALSE;
87         sb->s_bdev = 0;
88         strlcpy(sb->s_name, "KFS", 32);
89         /* store the location of the CPIO archive.  make this more generic later. */
90         extern uint8_t _binary_obj_kern_initramfs_cpio_size[];
91         extern uint8_t _binary_obj_kern_initramfs_cpio_start[];
92         sb->s_fs_info = (void*)_binary_obj_kern_initramfs_cpio_start;
93
94         /* Final stages of initializing the sb, mostly FS-independent */
95         /* 1 is the KFS root ino (inode number) */
96         init_sb(sb, vmnt, &kfs_d_op, 1, 0);
97         /* Parses the CPIO entries and builds the in-memory KFS tree. */
98         parse_cpio_entries(sb->s_fs_info,
99                            (size_t)_binary_obj_kern_initramfs_cpio_size,
100                            add_kfs_entry, sb);
101         printk("KFS superblock loaded\n");
102         return sb;
103 }
104
105 void kfs_kill_sb(struct super_block *sb)
106 {
107         panic("Killing KFS is not supported!");
108 }
109
110 /* Every FS must have a static FS Type, with which the VFS code can bootstrap */
111 struct fs_type kfs_fs_type = {"KFS", 0, kfs_get_sb, kfs_kill_sb, {0, 0},
112                TAILQ_HEAD_INITIALIZER(kfs_fs_type.fs_supers)};
113
114 /* Page Map Operations */
115
116 /* Fills page with its contents from its backing store file.  Note that we do
117  * the zero padding here, instead of higher in the VFS.  Might change in the
118  * future. */
119 int kfs_readpage(struct page_map *pm, struct page *page)
120 {
121         size_t pg_idx_byte = page->pg_index * PGSIZE;
122         struct kfs_i_info *k_i_info = (struct kfs_i_info*)
123                                       pm->pm_host->i_fs_info;
124         uintptr_t begin = (size_t)k_i_info->filestart + pg_idx_byte;
125
126         /* Pretend that we blocked while filing this page.  This catches a lot of
127          * bugs.  It does slightly slow down the kernel, but it's only when filling
128          * the page cache, and considering we are using a RAMFS, you shouldn't
129          * measure things that actually rely on KFS's performance. */
130         kthread_usleep(1);
131         /* If we're beyond the initial start point, we just need a zero page.  This
132          * is for a hole or for extending a file (even though it won't be saved).
133          * Otherwise, we want the data from KFS, being careful to not copy from
134          * beyond the original EOF (and zero padding anything extra). */
135         if (pg_idx_byte >= k_i_info->init_size) {
136                 memset(page2kva(page), 0, PGSIZE);
137         } else {
138                 size_t copy_amt = MIN(PGSIZE, k_i_info->init_size - pg_idx_byte);
139                 memcpy(page2kva(page), (void*)begin, copy_amt);
140                 memset(page2kva(page) + copy_amt, 0, PGSIZE - copy_amt);
141         }
142         struct buffer_head *bh = kmem_cache_alloc(bh_kcache, 0);
143         if (!bh)
144                 return -1;                      /* untested, un-thought-through */
145         atomic_or(&page->pg_flags, PG_BUFFER);
146         /* KFS does a 1:1 BH to page mapping */
147         bh->bh_page = page;                                                             /* weak ref */
148         bh->bh_buffer = page2kva(page);
149         bh->bh_flags = 0;                                                               /* whatever... */
150         bh->bh_next = 0;                                                                /* only one BH needed */
151         bh->bh_bdev = pm->pm_host->i_sb->s_bdev;                /* uncounted */
152         bh->bh_sector = page->pg_index;
153         bh->bh_nr_sector = 1;                                                   /* sector size = PGSIZE */
154         page->pg_private = bh;
155         /* This is supposed to be done in the IO system when the operation is
156          * complete.  Since we aren't doing a real IO request, and it is already
157          * done, we can do it here. */
158         atomic_or(&page->pg_flags, PG_UPTODATE);
159         return 0;
160 }
161
162 int kfs_writepage(struct page_map *pm, struct page *page)
163 {
164         warn_once("KFS writepage does not save file contents!\n");
165         return -1;
166 }
167
168 /* Super Operations */
169
170 /* Creates and initializes a new inode.  FS specific, yet inode-generic fields
171  * are filled in.  inode-specific fields are filled in in read_inode() based on
172  * what's on the disk for a given i_no.  i_no and i_fop are set by the caller.
173  *
174  * Note that this means this inode can be for an inode that is already on disk,
175  * or it can be used when creating.  The i_fop depends on the type of file
176  * (file, directory, symlink, etc). */
177 struct inode *kfs_alloc_inode(struct super_block *sb)
178 {
179         struct inode *inode = kmem_cache_alloc(inode_kcache, 0);
180         memset(inode, 0, sizeof(struct inode));
181         inode->i_op = &kfs_i_op;
182         inode->i_pm.pm_op = &kfs_pm_op;
183         inode->i_fs_info = kmem_cache_alloc(kfs_i_kcache, 0);
184         TAILQ_INIT(&((struct kfs_i_info*)inode->i_fs_info)->children);
185         ((struct kfs_i_info*)inode->i_fs_info)->filestart = 0;
186         ((struct kfs_i_info*)inode->i_fs_info)->init_size = 0;
187         return inode;
188 }
189
190 /* FS-specific clean up when an inode is dealloced.  this is just cleaning up
191  * the in-memory version, and only the FS-specific parts.  whether or not the
192  * inode is still on disc is irrelevant. */
193 void kfs_dealloc_inode(struct inode *inode)
194 {
195         /* If we're a symlink, give up our storage for the symname */
196         if (S_ISLNK(inode->i_mode))
197                 kfree(((struct kfs_i_info*)inode->i_fs_info)->filestart);
198         kmem_cache_free(kfs_i_kcache, inode->i_fs_info);
199 }
200
201 /* reads the inode data on disk specified by inode->i_ino into the inode.
202  * basically, it's a "make this inode the one for i_ino (i number)" */
203 void kfs_read_inode(struct inode *inode)
204 {
205         /* need to do something to link this inode/file to the actual "blocks" on
206          * "disk". */
207
208         /* TODO: what does it mean to ask for an inode->i_ino that doesn't exist?
209          *      possibly a bug, since these inos come from directories */
210         if (inode->i_ino == 1) {
211                 inode->i_mode = S_IRWXU | S_IRWXG | S_IRWXO;
212                 SET_FTYPE(inode->i_mode, __S_IFDIR);
213                 inode->i_fop = &kfs_f_op_dir;
214                 inode->i_nlink = 1;                             /* assuming only one hardlink */
215                 inode->i_uid = 0;
216                 inode->i_gid = 0;
217                 inode->i_size = 0;                              /* make sense for KFS? */
218                 inode->i_atime.tv_sec = 0;
219                 inode->i_atime.tv_nsec = 0;
220                 inode->i_mtime.tv_sec = 0;
221                 inode->i_mtime.tv_nsec = 0;
222                 inode->i_ctime.tv_sec = 0;
223                 inode->i_ctime.tv_nsec = 0;
224                 inode->i_blocks = 0;
225                 inode->i_flags = 0;
226                 inode->i_socket = FALSE;
227         } else {
228                 panic("Not implemented");
229         }
230         /* TODO: unused: inode->i_hash add to hash (saves on disc reading) */
231 }
232
233 /* called when an inode in memory is modified (journalling FS's care) */
234 void kfs_dirty_inode(struct inode *inode)
235 {       // KFS doesn't care
236 }
237
238 /* write the inode to disk (specifically, to inode inode->i_ino), synchronously
239  * if we're asked to wait */
240 void kfs_write_inode(struct inode *inode, bool wait)
241 {       // KFS doesn't care
242 }
243
244 /* called when an inode is decref'd, to do any FS specific work */
245 void kfs_put_inode(struct inode *inode)
246 {       // KFS doesn't care
247 }
248
249 /* called when an inode is about to be destroyed.  the generic version ought to
250  * remove every reference to the inode from the VFS, and if the inode isn't in
251  * any directory, calls delete_inode */
252 void kfs_drop_inode(struct inode *inode)
253 { // TODO: should call a generic one instead.  or at least do something...
254         // remove from lists
255 }
256
257 /* delete the inode from disk (all data) */
258 void kfs_delete_inode(struct inode *inode)
259 {
260         // would remove from "disk" here
261         /* TODO: give up our i_ino */
262 }
263
264 /* unmount and release the super block */
265 void kfs_put_super(struct super_block *sb)
266 {
267         panic("Shazbot! KFS can't be unmounted yet!");
268 }
269
270 /* updates the on-disk SB with the in-memory SB */
271 void kfs_write_super(struct super_block *sb)
272 {       // KFS doesn't care
273 }
274
275 /* syncs FS metadata with the disc, synchronously if we're waiting.  this info
276  * also includes anything pointed to by s_fs_info. */
277 int kfs_sync_fs(struct super_block *sb, bool wait)
278 {
279         return 0;
280 }
281
282 /* remount the FS with the new flags */
283 int kfs_remount_fs(struct super_block *sb, int flags, char *data)
284 {
285         warn("KFS will not remount.");
286         return -1; // can't remount
287 }
288
289 /* interrupts a mount operation - used by NFS and friends */
290 void kfs_umount_begin(struct super_block *sb)
291 {
292         panic("Cannot abort a KFS mount, and why would you?");
293 }
294
295 /* inode_operations */
296
297 /* Little helper, used for initializing new inodes for file-like objects (files,
298  * symlinks, etc).  We pass the dentry, since we need to up it. */
299 static void kfs_init_inode(struct inode *dir, struct dentry *dentry)
300 {
301         struct inode *inode = dentry->d_inode;
302         kref_get(&dentry->d_kref, 1);   /* to pin the dentry in RAM, KFS-style... */
303         inode->i_ino = kfs_get_free_ino();
304         /* our parent dentry's inode tracks our dentry info.  We do this
305          * since it's all in memory and we aren't using the dcache yet.
306          * We're reusing the subdirs link, which is used by the VFS when
307          * we're a directory.  But since we're a file, it's okay to reuse
308          * it. */
309         TAILQ_INSERT_TAIL(&((struct kfs_i_info*)dir->i_fs_info)->children,
310                           dentry, d_subdirs_link);
311 }
312
313 /* Called when creating a new disk inode in dir associated with dentry.  We need
314  * to fill out the i_ino, set the type, and do whatever else we need */
315 int kfs_create(struct inode *dir, struct dentry *dentry, int mode,
316                struct nameidata *nd)
317 {
318         struct inode *inode = dentry->d_inode;
319         kfs_init_inode(dir, dentry);
320         SET_FTYPE(inode->i_mode, __S_IFREG);
321         inode->i_fop = &kfs_f_op_file;
322         /* fs_info->filestart is set by the caller, or else when first written (for
323          * new files.  it was set to 0 in alloc_inode(). */
324         return 0;
325 }
326
327 /* Searches the directory for the filename in the dentry, filling in the dentry
328  * with the FS specific info of this file.  If it succeeds, it will pass back
329  * the *dentry you should use.  If this fails, it will return 0.  It will NOT
330  * take your dentry ref (it used to).  It probably will not be the same dentry
331  * you passed in.  This is ugly.
332  *
333  * Callers, make sure you alloc and fill out the name parts of the dentry, and
334  * an initialized nameidata. TODO: not sure why we need an ND.  Don't use it in
335  * a fs_lookup for now!
336  *
337  * Because of the way KFS currently works, if there is ever a dentry, it's
338  * already in memory, along with its inode (all path's pinned).  So we just find
339  * it and return it, freeing the one that came in. */
340 struct dentry *kfs_lookup(struct inode *dir, struct dentry *dentry,
341                           struct nameidata *nd)
342 {
343         struct kfs_i_info *k_i_info = (struct kfs_i_info*)dir->i_fs_info;
344         struct dentry *dir_dent = TAILQ_FIRST(&dir->i_dentry);
345         struct dentry *d_i;
346
347         assert(dir_dent && dir_dent == TAILQ_LAST(&dir->i_dentry, dentry_tailq));
348         /* had this fail when kern/kfs has a symlink go -> ../../../go, though
349          * a symlink like lib2 -> lib work okay. */
350         assert(S_ISDIR(dir->i_mode));
351         assert(kref_refcnt(&dentry->d_kref) == 1);
352         TAILQ_FOREACH(d_i, &dir_dent->d_subdirs, d_subdirs_link) {
353                 if (!strcmp(d_i->d_name.name, dentry->d_name.name)) {
354                         /* since this dentry is already in memory (that's how KFS works), we
355                          * just return the real one (with another refcnt) */
356                         kref_get(&d_i->d_kref, 1);
357                         return d_i;
358                 }
359         }
360         TAILQ_FOREACH(d_i, &k_i_info->children, d_subdirs_link) {
361                 if (!strcmp(d_i->d_name.name, dentry->d_name.name)) {
362                         /* since this dentry is already in memory (that's how KFS works), we
363                          * just return the real one (with another refcnt) */
364                         kref_get(&d_i->d_kref, 1);
365                         return d_i;
366                 }
367         }
368         printd("Not Found %s!!\n", dentry->d_name.name);
369         return 0;
370 }
371
372 /* Hard link to old_dentry in directory dir with a name specified by new_dentry.
373  * At the very least, set the new_dentry's FS-specific fields. */
374 int kfs_link(struct dentry *old_dentry, struct inode *dir,
375              struct dentry *new_dentry)
376 {
377         assert(new_dentry->d_op = &kfs_d_op);
378         kref_get(&new_dentry->d_kref, 1);               /* pin the dentry, KFS-style */
379         /* KFS-style directory-tracking-of-kids */
380         TAILQ_INSERT_TAIL(&((struct kfs_i_info*)dir->i_fs_info)->children,
381                           new_dentry, d_subdirs_link);
382         return 0;
383 }
384
385 /* Removes the link from the dentry in the directory */
386 int kfs_unlink(struct inode *dir, struct dentry *dentry)
387 {
388         /* Stop tracking our child */
389         TAILQ_REMOVE(&((struct kfs_i_info*)dir->i_fs_info)->children, dentry,
390                      d_subdirs_link);
391         kref_put(&dentry->d_kref);                              /* unpin the dentry, KFS-style */
392         return 0;
393 }
394
395 /* Creates a new inode for a symlink dir, linking to / containing the name
396  * symname.  dentry is the controlling dentry of the inode. */
397 int kfs_symlink(struct inode *dir, struct dentry *dentry, const char *symname)
398 {
399         struct inode *inode = dentry->d_inode;
400         struct kfs_i_info *k_i_info = (struct kfs_i_info*)inode->i_fs_info;
401         size_t len = strlen(symname);
402         char *string = kmalloc(len + 1, 0);
403
404         kfs_init_inode(dir, dentry);
405         SET_FTYPE(inode->i_mode, __S_IFLNK);
406         inode->i_fop = &kfs_f_op_sym;
407         strlcpy(string, symname, len + 1);
408         k_i_info->filestart = string;   /* reusing this void* to hold the char* */
409         return 0;
410 }
411
412 /* Called when creating a new inode for a directory associated with dentry in
413  * dir with the given mode.  Note, we might (later) need to track subdirs within
414  * the parent inode, like we do with regular files.  I'd rather not, so we'll
415  * see if we need it. */
416 int kfs_mkdir(struct inode *dir, struct dentry *dentry, int mode)
417 {
418         struct inode *inode = dentry->d_inode;
419         kref_get(&dentry->d_kref, 1);   /* to pin the dentry in RAM, KFS-style... */
420         inode->i_ino = kfs_get_free_ino();
421         SET_FTYPE(inode->i_mode, __S_IFDIR);
422         inode->i_fop = &kfs_f_op_dir;
423         /* get ready to have our own kids */
424         TAILQ_INIT(&((struct kfs_i_info*)inode->i_fs_info)->children);
425         ((struct kfs_i_info*)inode->i_fs_info)->filestart = 0;
426         return 0;
427 }
428
429 /* Removes from dir the directory 'dentry.'  KFS doesn't store anything in the
430  * inode for which children it has.  It probably should, but since everything is
431  * pinned, it just relies on the dentry connections. */
432 int kfs_rmdir(struct inode *dir, struct dentry *dentry)
433 {
434         struct kfs_i_info *d_info = (struct kfs_i_info*)dentry->d_inode->i_fs_info;
435         struct dentry *d_i;
436         bool empty = TRUE;
437         /* Check if we are empty.  If not, error out, need to check the sub-dirs as
438          * well as the sub-"files" */
439         TAILQ_FOREACH(d_i, &dentry->d_subdirs, d_subdirs_link) {
440                 empty = FALSE;
441                 break;
442         }
443         TAILQ_FOREACH(d_i, &d_info->children, d_subdirs_link) {
444                 empty = FALSE;
445                 break;
446         }
447         if (!empty)
448                 return -ENOTEMPTY;
449         kref_put(&dentry->d_kref);                              /* unpin the dentry, KFS-style */
450         printd("DENTRY %s REFCNT %d\n", dentry->d_name.name, kref_refcnt(&dentry->d_kref));
451         return 0;
452 }
453
454 /* Used to make a generic file, based on the type and the major/minor numbers
455  * (in rdev), with the given mode.  As with others, this creates a new disk
456  * inode for the file */
457 int kfs_mknod(struct inode *dir, struct dentry *dentry, int mode, dev_t rdev)
458 {
459         return -1;
460 }
461
462 /* Moves old_d from old_dir to new_d in new_dir.  TODO: super racy */
463 int kfs_rename(struct inode *old_dir, struct dentry *old_d,
464                struct inode *new_dir, struct dentry *new_d)
465 {
466         /* new_d is already gone, we just use it for its name.  kfs might not care
467          * about the name.  it might just use whatever the dentry says. */
468         struct kfs_i_info *old_info = (struct kfs_i_info*)old_dir->i_fs_info;
469         struct kfs_i_info *new_info = (struct kfs_i_info*)new_dir->i_fs_info;
470         printd("KFS rename: %s/%s -> %s/%s\n",
471                TAILQ_FIRST(&old_dir->i_dentry)->d_name.name, old_d->d_name.name,
472                TAILQ_FIRST(&new_dir->i_dentry)->d_name.name, new_d->d_name.name);
473         /* we want to remove from the old and add to the new.  for non-directories,
474          * we need to adjust parent's children lists (which reuses subdirs_link,
475          * yikes!).  directories aren't actually tracked by KFS; it just hopes the
476          * VFS's pinned dentry tree is enough (aka, "all paths pinned"). */
477         if (!S_ISDIR(old_d->d_inode->i_mode)) {
478                 TAILQ_REMOVE(&old_info->children, old_d, d_subdirs_link);
479                 TAILQ_INSERT_TAIL(&new_info->children, old_d, d_subdirs_link);
480         }
481         return 0;
482 }
483
484 /* Returns the char* for the symname for the given dentry.  The VFS code that
485  * calls this for real FS's might assume it's already read in, so if the char *
486  * isn't already in memory, we'd need to read it in here.  Regarding the char*
487  * storage, the char* only will last as long as the dentry and inode are in
488  * memory. */
489 char *kfs_readlink(struct dentry *dentry)
490 {
491         struct inode *inode = dentry->d_inode;
492         struct kfs_i_info *k_i_info = (struct kfs_i_info*)inode->i_fs_info;
493         if (!S_ISLNK(inode->i_mode))
494                 return 0;
495         return k_i_info->filestart;
496 }
497
498 /* Modifies the size of the file of inode to whatever its i_size is set to */
499 void kfs_truncate(struct inode *inode)
500 {
501         struct kfs_i_info *k_i_info = (struct kfs_i_info*)inode->i_fs_info;
502         /* init_size tracks how much of the file KFS has.  everything else is 0s.
503          * we only need to update it if we are dropping data.  as with other data
504          * beyond init_size, KFS will not save it during a write page! */
505         k_i_info->init_size = MIN(k_i_info->init_size, inode->i_size);
506 }
507
508 /* Checks whether the the access mode is allowed for the file belonging to the
509  * inode.  Implies that the permissions are on the file, and not the hardlink */
510 int kfs_permission(struct inode *inode, int mode, struct nameidata *nd)
511 {
512         return -1;
513 }
514
515
516 /* dentry_operations */
517 /* Determines if the dentry is still valid before using it to translate a path.
518  * Network FS's need to deal with this. */
519 int kfs_d_revalidate(struct dentry *dir, struct nameidata *nd)
520 { // default, nothing
521         return -1;
522 }
523
524 /* Compares name1 and name2.  name1 should be a member of dir. */
525 int kfs_d_compare(struct dentry *dir, struct qstr *name1, struct qstr *name2)
526 { // default, string comp (case sensitive)
527         return -1;
528 }
529
530 /* Called when the last ref is deleted (refcnt == 0) */
531 int kfs_d_delete(struct dentry *dentry)
532 { // default, nothin
533         return -1;
534 }
535
536 /* Called when it's about to be slab-freed */
537 int kfs_d_release(struct dentry *dentry)
538 {
539         return -1;
540 }
541
542 /* Called when the dentry loses its inode (becomes "negative") */
543 void kfs_d_iput(struct dentry *dentry, struct inode *inode)
544 { // default, call i_put to release the inode object
545 }
546
547
548 /* file_operations */
549
550 /* Updates the file pointer.  TODO: think about locking. */
551 int kfs_llseek(struct file *file, off64_t offset, off64_t *ret, int whence)
552 {
553         off64_t temp_off = 0;
554         switch (whence) {
555                 case SEEK_SET:
556                         temp_off = offset;
557                         break;
558                 case SEEK_CUR:
559                         temp_off = file->f_pos + offset;
560                         break;
561                 case SEEK_END:
562                         temp_off = file->f_dentry->d_inode->i_size + offset;
563                         break;
564                 default:
565                         set_errno(EINVAL);
566                         warn("Unknown 'whence' in llseek()!\n");
567                         return -1;
568         }
569         file->f_pos = temp_off;
570         *ret = temp_off;
571         return 0;
572 }
573
574 /* Fills in the next directory entry (dirent), starting with d_off.  KFS treats
575  * the size of each dirent as 1 byte, which we can get away with since the d_off
576  * is a way of communicating with future calls to readdir (FS-specific).
577  *
578  * Like with read and write, there will be issues with userspace and the *dirent
579  * buf.  TODO: we don't really do anything with userspace concerns here, in part
580  * because memcpy_to doesn't work well.  When we fix how we want to handle the
581  * userbuffers, we can write this accordingly. (UMEM)  */
582 int kfs_readdir(struct file *dir, struct kdirent *dirent)
583 {
584         int count = 2;  /* total num dirents, gets incremented in check_entry() */
585         int desired_file = dirent->d_off;
586         bool found = FALSE;
587         struct dentry *subent;
588         struct dentry *dir_d = dir->f_dentry;
589         struct kfs_i_info *k_i_info = (struct kfs_i_info*)dir_d->d_inode->i_fs_info;
590
591         /* how we check inside the for loops below.  moderately ghetto. */
592         void check_entry(void)
593         {
594                 if (count++ == desired_file) {
595                         dirent->d_ino = subent->d_inode->i_ino;
596                         dirent->d_off = count;
597                         dirent->d_reclen = subent->d_name.len;
598                         /* d_name.name is null terminated, the byte after d_name.len.
599                          * Regardless, exercise caution as we copy into d_name, should
600                          * the size of the quickstring buffer and the size of d_name
601                          * fall out of sync with one another. */
602                         assert(subent->d_name.len < sizeof(dirent->d_name));
603                         strncpy(dirent->d_name, subent->d_name.name,
604                                 sizeof(dirent->d_name) - 1);
605                         dirent->d_name[sizeof(dirent->d_name) - 1] = '\0';
606                         found = TRUE;
607                 }
608         }
609
610         /* Handle . and .. (first two dirents) */
611         if (desired_file == 0) {
612                 dirent->d_ino = dir_d->d_inode->i_ino;
613                 dirent->d_off = 1;
614                 dirent->d_reclen = 1;
615                 strlcpy(dirent->d_name, ".", sizeof(dirent->d_name));
616                 found = TRUE;
617         } else if (desired_file == 1) {
618                 dirent->d_ino = dir_d->d_parent->d_inode->i_ino;
619                 dirent->d_off = 2;
620                 dirent->d_reclen = 2;
621                 strlcpy(dirent->d_name, "..", sizeof(dirent->d_name));
622                 found = TRUE;
623         }
624         /* need to check the sub-dirs as well as the sub-"files".  The main
625          * ghetto-ness with this is that we check even though we have our result,
626          * simply to figure out how big our directory is.  It's just not worth
627          * changing at this point. */
628         TAILQ_FOREACH(subent, &dir_d->d_subdirs, d_subdirs_link)
629                 check_entry();
630         TAILQ_FOREACH(subent, &k_i_info->children, d_subdirs_link)
631                 check_entry();
632         if (!found)
633                 return -ENOENT;
634         if (count - 1 == desired_file)          /* found the last dir in the list */
635                 return 0;
636         return 1;                                                       /* normal success for readdir */
637 }
638
639 /* This is called when a VMR is mapping a particular file.  The FS needs to do
640  * whatever it needs so that faults can be handled by read_page(), and handle all
641  * of the cases of MAP_SHARED, MAP_PRIVATE, whatever.  It also needs to ensure
642  * the file is not being mmaped in a way that conflicts with the manner in which
643  * the file was opened or the file type. */
644 int kfs_mmap(struct file *file, struct vm_region *vmr)
645 {
646         if (S_ISREG(file->f_dentry->d_inode->i_mode))
647                 return 0;
648         return -1;
649 }
650
651 /* Called by the VFS while opening the file, which corresponds to inode,  for
652  * the FS to do whatever it needs. */
653 int kfs_open(struct inode *inode, struct file *file)
654 {
655         return 0;
656 }
657
658 /* Called when a file descriptor is closed. */
659 int kfs_flush(struct file *file)
660 {
661         return -1;
662 }
663
664 /* Called when the file is about to be closed (file obj freed) */
665 int kfs_release(struct inode *inode, struct file *file)
666 {
667         return 0;
668 }
669
670 /* Flushes the file's dirty contents to disc */
671 int kfs_fsync(struct file *file, struct dentry *dentry, int datasync)
672 {
673         return -1;
674 }
675
676 /* Traditionally, sleeps until there is file activity.  We probably won't
677  * support this, or we'll handle it differently. */
678 unsigned int kfs_poll(struct file *file, struct poll_table_struct *poll_table)
679 {
680         return -1;
681 }
682
683 /* Reads count bytes from a file, starting from (and modifiying) offset, and
684  * putting the bytes into buffers described by vector */
685 ssize_t kfs_readv(struct file *file, const struct iovec *vector,
686                   unsigned long count, off64_t *offset)
687 {
688         return -1;
689 }
690
691 /* Writes count bytes to a file, starting from (and modifiying) offset, and
692  * taking the bytes from buffers described by vector */
693 ssize_t kfs_writev(struct file *file, const struct iovec *vector,
694                   unsigned long count, off64_t *offset)
695 {
696         return -1;
697 }
698
699 /* Write the contents of file to the page.  Will sort the params later */
700 ssize_t kfs_sendpage(struct file *file, struct page *page, int offset,
701                      size_t size, off64_t pos, int more)
702 {
703         return -1;
704 }
705
706 /* Checks random FS flags.  Used by NFS. */
707 int kfs_check_flags(int flags)
708 { // default, nothing
709         return -1;
710 }
711
712 /* Redeclaration and initialization of the FS ops structures */
713 struct page_map_operations kfs_pm_op = {
714         kfs_readpage,
715         kfs_writepage,
716 };
717
718 struct super_operations kfs_s_op = {
719         kfs_alloc_inode,
720         kfs_dealloc_inode,
721         kfs_read_inode,
722         kfs_dirty_inode,
723         kfs_write_inode,
724         kfs_put_inode,
725         kfs_drop_inode,
726         kfs_delete_inode,
727         kfs_put_super,
728         kfs_write_super,
729         kfs_sync_fs,
730         kfs_remount_fs,
731         kfs_umount_begin,
732 };
733
734 struct inode_operations kfs_i_op = {
735         kfs_create,
736         kfs_lookup,
737         kfs_link,
738         kfs_unlink,
739         kfs_symlink,
740         kfs_mkdir,
741         kfs_rmdir,
742         kfs_mknod,
743         kfs_rename,
744         kfs_readlink,
745         kfs_truncate,
746         kfs_permission,
747 };
748
749 struct dentry_operations kfs_d_op = {
750         kfs_d_revalidate,
751         generic_dentry_hash,
752         kfs_d_compare,
753         kfs_d_delete,
754         kfs_d_release,
755         kfs_d_iput,
756 };
757
758 struct file_operations kfs_f_op_file = {
759         kfs_llseek,
760         generic_file_read,
761         generic_file_write,
762         kfs_readdir,
763         kfs_mmap,
764         kfs_open,
765         kfs_flush,
766         kfs_release,
767         kfs_fsync,
768         kfs_poll,
769         kfs_readv,
770         kfs_writev,
771         kfs_sendpage,
772         kfs_check_flags,
773 };
774
775 struct file_operations kfs_f_op_dir = {
776         kfs_llseek,
777         generic_dir_read,
778         0,
779         kfs_readdir,
780         kfs_mmap,
781         kfs_open,
782         kfs_flush,
783         kfs_release,
784         kfs_fsync,
785         kfs_poll,
786         kfs_readv,
787         kfs_writev,
788         kfs_sendpage,
789         kfs_check_flags,
790 };
791
792 struct file_operations kfs_f_op_sym = {
793         kfs_llseek,
794         generic_file_read,
795         generic_file_write,
796         kfs_readdir,
797         kfs_mmap,
798         kfs_open,
799         kfs_flush,
800         kfs_release,
801         kfs_fsync,
802         kfs_poll,
803         kfs_readv,
804         kfs_writev,
805         kfs_sendpage,
806         kfs_check_flags,
807 };
808
809 /* KFS Specific Internal Functions */
810
811 /* Need to pass path separately, since we'll recurse on it.  TODO: this recurses,
812  * and takes up a lot of stack space (~270 bytes).  Core 0's KSTACK is 8 pages,
813  * which can handle about 120 levels deep...  Other cores are not so fortunate.
814  * Can rework this if it becomes an issue. */
815 static int __add_kfs_entry(struct dentry *parent, char *path,
816                            struct cpio_bin_hdr *c_bhdr)
817 {
818         char *first_slash = strchr(path, '/');
819         char dir[MAX_FILENAME_SZ + 1];  /* room for the \0 */
820         size_t dirname_sz;                              /* not counting the \0 */
821         struct dentry *dentry = 0;
822         struct inode *inode;
823         int err, retval;
824         char *symname, old_end;                 /* for symlink manipulation */
825
826         if (first_slash) {
827                 /* get the first part, find that dentry, pass in the second part,
828                  * recurse.  this isn't being smart about extra slashes, dots, or
829                  * anything like that. */
830                 dirname_sz = first_slash - path;
831                 assert(dirname_sz <= MAX_FILENAME_SZ);
832                 memmove(dir, path, dirname_sz);
833                 dir[dirname_sz] = '\0';
834                 printd("Finding DIR %s in dentry %s (start: %p, size %d)\n", dir,
835                        parent->d_name.name, c_bhdr->c_filestart, c_bhdr->c_filesize);
836                 /* Need to create a dentry for the lookup, and fill in the basic nd */
837                 dentry = get_dentry(parent->d_sb, parent, dir);
838                 /* TODO: use a VFS lookup instead, to use the dcache, thought its not a
839                  * big deal since KFS currently pins all metadata. */
840                 dentry = kfs_lookup(parent->d_inode, dentry, 0);
841                 if (!dentry) {
842                         printk("Missing dir in CPIO archive or something, aborting.\n");
843                         return -1;
844                 }
845                 retval = __add_kfs_entry(dentry, first_slash + 1, c_bhdr);
846                 kref_put(&dentry->d_kref);
847                 return retval;
848         } else {
849                 /* no directories left in the path.  add the 'file' to the dentry */
850                 printd("Adding file/dir %s to dentry %s (start: %p, size %d)\n", path,
851                        parent->d_name.name, c_bhdr->c_filestart, c_bhdr->c_filesize);
852                 /* Init the dentry for this path */
853                 dentry = get_dentry(parent->d_sb, parent, path);
854                 // want to test the regular/natural dentry caching paths
855                 //dcache_put(dentry->d_sb, dentry);
856                 /* build the inode */
857                 switch (c_bhdr->c_mode & CPIO_FILE_MASK) {
858                         case (CPIO_DIRECTORY):
859                                 err = create_dir(parent->d_inode, dentry, c_bhdr->c_mode);
860                                 assert(!err);
861                                 break;
862                         case (CPIO_SYMLINK):
863                                 /* writing the '\0' is safe since the next entry is always still
864                                  * in the CPIO (and we are processing sequentially). */
865                                 symname = c_bhdr->c_filestart;
866                                 old_end = symname[c_bhdr->c_filesize];
867                                 symname[c_bhdr->c_filesize] = '\0';
868                                 err = create_symlink(parent->d_inode, dentry, symname,
869                                                      c_bhdr->c_mode & CPIO_PERM_MASK);
870                                 assert(!err);
871                                 symname[c_bhdr->c_filesize] = old_end;
872                                 break;
873                         case (CPIO_REG_FILE):
874                                 err = create_file(parent->d_inode, dentry,
875                                                   c_bhdr->c_mode & CPIO_PERM_MASK);
876                                 assert(!err);
877                                 ((struct kfs_i_info*)dentry->d_inode->i_fs_info)->filestart =
878                                                                                                                 c_bhdr->c_filestart;
879                                 ((struct kfs_i_info*)dentry->d_inode->i_fs_info)->init_size =
880                                                                                                                 c_bhdr->c_filesize;
881                                 break;
882                         default:
883                                 printk("Unknown file type %d in the CPIO!",
884                                        c_bhdr->c_mode & CPIO_FILE_MASK);
885                                 kref_put(&dentry->d_kref);
886                                 return -1;
887                 }
888                 inode = dentry->d_inode;
889                 /* Set other info from the CPIO entry */
890                 inode->i_uid = c_bhdr->c_uid;
891                 inode->i_gid = c_bhdr->c_gid;
892                 inode->i_atime.tv_sec = c_bhdr->c_mtime;
893                 inode->i_ctime.tv_sec = c_bhdr->c_mtime;
894                 inode->i_mtime.tv_sec = c_bhdr->c_mtime;
895                 inode->i_size = c_bhdr->c_filesize;
896                 //inode->i_XXX = c_bhdr->c_dev;                 /* and friends */
897                 inode->i_bdev = 0;                                              /* assuming blockdev? */
898                 inode->i_socket = FALSE;
899                 inode->i_blocks = c_bhdr->c_filesize;   /* blocksize == 1 */
900                 kref_put(&dentry->d_kref);
901         }
902         return 0;
903 }
904
905 /* Adds an entry (from a CPIO archive) to KFS.  This will put all the FS
906  * metadata in memory, instead of having to reparse the entire archive each time
907  * we need to traverse.
908  *
909  * The other option is to just maintain a LL of {FN, FS}, and O(n) scan it.
910  *
911  * The path is a complete path, interpreted from the root of the mount point.
912  * Directories have a size of 0.  so do symlinks, but we don't handle those yet.
913  *
914  * If a directory does not exist for a file, this will return an error.  Don't
915  * use the -depth flag to find when building the CPIO archive, and this won't be
916  * a problem.  (Maybe) */
917 static int add_kfs_entry(struct cpio_bin_hdr *c_bhdr, void *cb_arg)
918 {
919         struct super_block *sb = cb_arg;
920         char *path = c_bhdr->c_filename;
921
922         /* Root of the FS, already part of KFS */
923         if (!strcmp(path, "."))
924                 return 0;
925         return __add_kfs_entry(sb->s_mount->mnt_root, path, c_bhdr);
926 }