Fix Plan 9 partial write() return values
[akaros.git] / kern / src / ns / sysfile.c
index f28968f..16cd623 100644 (file)
@@ -1,4 +1,31 @@
-// INFERNO
+/* Copyright © 1994-1999 Lucent Technologies Inc.  All rights reserved.
+ * Portions Copyright © 1997-1999 Vita Nuova Limited
+ * Portions Copyright © 2000-2007 Vita Nuova Holdings Limited
+ *                                (www.vitanuova.com)
+ * Revisions Copyright © 2000-2007 Lucent Technologies Inc. and others
+ *
+ * Modified for the Akaros operating system:
+ * Copyright (c) 2013-2014 The Regents of the University of California
+ * Copyright (c) 2013-2015 Google Inc.
+ *
+ * Permission is hereby granted, free of charge, to any person obtaining a copy
+ * of this software and associated documentation files (the "Software"), to deal
+ * in the Software without restriction, including without limitation the rights
+ * to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+ * copies of the Software, and to permit persons to whom the Software is
+ * furnished to do so, subject to the following conditions:
+ *
+ * The above copyright notice and this permission notice shall be included in
+ * all copies or substantial portions of the Software.
+ *
+ * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+ * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+ * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT.  IN NO EVENT SHALL THE
+ * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+ * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+ * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+ * SOFTWARE. */
+
 #include <vfs.h>
 #include <kfs.h>
 #include <slab.h>
@@ -19,127 +46,43 @@ enum {
        DIRREADSIZE=8192,       /* Just read a lot. Memory is cheap, lots of bandwidth,
                                 * and RPCs are very expensive. At the same time,
                                 * let's not yet exceed a common MSIZE. */
-
 };
 
-static int growfd(struct fgrp *f, int fd)
-{
-       
-       int n;
-       struct chan **nfd, **ofd;
-
-       if (fd < f->nfd) {
-               return 0;
-       }
-       n = f->nfd + DELTAFD;
-       if (n > MAXNFD)
-               n = MAXNFD;
-       if (fd >= n) {
-               return -1;
-       }
-       nfd = kzmalloc(n * sizeof(struct chan *), 0);
-       if (nfd == NULL) {
-               return -1;
-       }
-       ofd = f->fd;
-       memmove(nfd, ofd, f->nfd * sizeof(struct chan *));
-       f->fd = nfd;
-       f->nfd = n;
-       kfree(ofd);
-       return 0;
-}
-
-int newfd(struct chan *c)
+int newfd(struct chan *c, int oflags)
 {
-       
-       int i;
-       struct fgrp *f = current->fgrp;
-
-       spin_lock(&f->lock);
-       if (f->closed) {
-               spin_unlock(&f->lock);
-               return -1;
-       }
-       /* VFS hack */
-       /* We'd like to ask it to start at f->minfd, but that would require us to
-        * know if we closed anything.  Since we share the FD numbers with the VFS,
-        * there is no way to know that. */
-       i = get_fd(&current->open_files, 0);
-       while (i >= f->nfd) {
-               if (growfd(f, i) < 0) {
-                       spin_unlock(&f->lock);
-                       exhausted("file descriptors");
-                       return -1;
-               }
-               cpu_relax();
-       }
-       assert(f->fd[i] == 0);
-#if 0  // 9ns style
-       /* TODO: use a unique integer allocator */
-       for (i = f->minfd; i < f->nfd; i++)
-               if (f->fd[i] == 0)
-                       break;
-       if (i >= f->nfd && growfd(f, i) < 0) {
-               spin_unlock(&f->lock);
-               exhausted("file descriptors");
-               return -1;
-       }
-#endif
-       f->minfd = i + 1;
-       if (i > f->maxfd)
-               f->maxfd = i;
-       f->fd[i] = c;
-       spin_unlock(&f->lock);
-       return i;
+       int ret = insert_obj_fdt(&current->open_files, c, 0,
+                                oflags & O_CLOEXEC ? FD_CLOEXEC : 0,
+                                FALSE, FALSE);
+       if (ret >= 0)
+               cclose(c);
+       return ret;
 }
 
-struct chan *fdtochan(struct fgrp *f, int fd, int mode, int chkmnt, int iref)
+struct chan *fdtochan(struct fd_table *fdt, int fd, int mode, int chkmnt,
+                      int iref)
 {
-       
        struct chan *c;
 
-       c = 0;
-
-       spin_lock(&f->lock);
-       if (f->closed) {
-               spin_unlock(&f->lock);
-               error("File group closed");
-       }
-       if (fd < 0 || f->maxfd < fd || (c = f->fd[fd]) == 0) {
-               spin_unlock(&f->lock);
-               error(Ebadfd);
+       c = lookup_fd(fdt, fd, iref, FALSE);
+       if (!c) {
+               /* We lost the info about why there was a problem (we used to track file
+                * group closed too, can add that in later). */
+               error(EBADF, ERROR_FIXME);
        }
-       if (iref)
-               chan_incref(c);
-       spin_unlock(&f->lock);
-
        if (chkmnt && (c->flag & CMSG)) {
                if (iref)
                        cclose(c);
-               error(Ebadusefd);
+               error(EBADF, ERROR_FIXME);
        }
-
-       if (mode < 0 || c->mode == ORDWR) {
+       if (mode < 0)
                return c;
-       }
-
-       if ((mode & OTRUNC) && IS_RDONLY(c->mode)) {
-               if (iref)
-                       cclose(c);
-               error(Ebadusefd);
-       }
-
-       /* TODO: this is probably wrong.  if you get this from a dev, in the dev's
-        * open, you are probably saving mode directly, without passing it through
-        * openmode. */
-       if ((mode & ~OTRUNC) != c->mode) {
-               warn("Trunc mode issue: mode %o, mode minus trunc %o, chan mode %o\n",
-                        mode, mode & ~OTRUNC, c->mode);
+       if ((mode & c->mode) != mode) {
                if (iref)
                        cclose(c);
-               error(Ebadusefd);
+               error(EBADF,
+                     "FD access mode failure: chan mode 0x%x, wanted 0x%x (opened with 0 instead of O_READ?)",
+                     c->mode, mode);
        }
-
        return c;
 }
 
@@ -155,10 +98,12 @@ long kchanio(void *vc, void *buf, int n, int mode)
                return -1;
        }
 
-       if (IS_RDONLY(mode))
+       if (mode == O_READ)
                r = devtab[c->type].read(c, buf, n, c->offset);
-       else
+       else if (mode == O_WRITE)
                r = devtab[c->type].write(c, buf, n, c->offset);
+       else
+               error(ENOSYS, "kchanio: use only O_READ xor O_WRITE");
 
        spin_lock(&c->lock);
        c->offset += r;
@@ -175,51 +120,27 @@ int openmode(uint32_t omode)
        /* this is the old plan9 style.  i think they want to turn exec into read,
         * and strip off anything higher, and just return the RD/WR style bits.  not
         * stuff like ORCLOSE.  the lack of OEXCL might be a bug on their part (it's
-        * the only one of their non-RW-related flags that isn't masked out) */
+        * the only one of their non-RW-related flags that isn't masked out).
+        *
+        * Note that we no longer convert OEXEC/O_EXEC to O_READ, and instead return
+        * just the O_ACCMODE bits. */
        if (o >= (OTRUNC | OCEXEC | ORCLOSE | OEXEC))
-               error(Ebadarg);
+               error(EINVAL, ERROR_FIXME);
        o &= ~(OTRUNC | OCEXEC | ORCLOSE);
        if (o > OEXEC)
-               error(Ebadarg);
+               error(EINVAL, ERROR_FIXME);
        if (o == OEXEC)
                return OREAD;
        return o;
 #endif
        /* no error checking (we have a shitload of flags anyway), and we return the
         * basic access modes (RD/WR/ETC) */
-       if (omode == O_EXEC) {
-       return O_RDONLY;
-       }
        return omode & O_ACCMODE;
 }
 
-void fdclose(struct fgrp *f, int fd)
+void fdclose(struct fd_table *fdt, int fd)
 {
-       
-       int i;
-       struct chan *c;
-
-       spin_lock(&f->lock);
-       if (f->closed) {
-               spin_unlock(&f->lock);
-               return;
-       }
-       c = f->fd[fd];
-       if (c == 0) {
-               /* can happen for users with shared fd tables */
-               spin_unlock(&f->lock);
-               return;
-       }
-       f->fd[fd] = 0;
-       if (fd == f->maxfd)
-               for (i = fd; --i >= 0 && f->fd[i] == 0;)
-                       f->maxfd = i;
-       if (fd < f->minfd)
-               f->minfd = fd;
-       /* VFS hack: give the FD back to VFS */
-       put_fd(&current->open_files, fd);
-       spin_unlock(&f->lock);
-       cclose(c);
+       close_fd(fdt, fd);
 }
 
 int syschdir(char *path)
@@ -241,30 +162,26 @@ int syschdir(char *path)
        return 0;
 }
 
-int fgrpclose(struct fgrp *f, int fd)
+int sysclose(int fd)
 {
        ERRSTACK(1);
+       struct fd_table *fdt = &current->open_files;
+
        if (waserror()) {
                poperror();
                return -1;
        }
-
        /*
         * Take no reference on the chan because we don't really need the
         * data structure, and are calling fdtochan only for error checks.
         * fdclose takes care of processes racing through here.
         */
-       fdtochan(f, fd, -1, 0, 0);
-       fdclose(f, fd);
+       fdtochan(fdt, fd, -1, 0, 0);
+       fdclose(fdt, fd);
        poperror();
        return 0;
 }
 
-int sysclose(int fd)
-{
-       return fgrpclose(current->fgrp, fd);
-}
-
 int syscreate(char *path, int mode, uint32_t perm)
 {
        ERRSTACK(2);
@@ -276,75 +193,73 @@ int syscreate(char *path, int mode, uint32_t perm)
                return -1;
        }
 
-       openmode(mode & ~OEXCL);        /* error check only; OEXCL okay here */
+       openmode(mode & ~O_EXCL);       /* error check only; OEXCL okay here */
        c = namec(path, Acreate, mode, perm);
        if (waserror()) {
                cclose(c);
                nexterror();
        }
-       fd = newfd(c);
+       fd = newfd(c, mode);    /* 9ns mode is the O_FLAGS and perm is glibc mode */
        if (fd < 0)
-               error(Enofd);
+               error(-fd, ERROR_FIXME);
        poperror();
 
        poperror();
        return fd;
 }
 
-int sysdup(int old, int new)
+int sysdup(int old)
 {
-       ERRSTACK(2);
+       ERRSTACK(1);
        int fd;
-       struct chan *c, *oc;
-       struct fgrp *f = current->fgrp;
+       struct chan *c;
 
        if (waserror()) {
                poperror();
                return -1;
        }
-
-       c = fdtochan(current->fgrp, old, -1, 0, 1);
+       c = fdtochan(&current->open_files, old, -1, 0, 1);
        if (c->qid.type & QTAUTH) {
                cclose(c);
-               error(Eperm);
-       }
-       fd = new;
-       if (fd != -1) {
-               /* ideally we'll be done with the VFS before we fix this */
-               /* double check the ccloses when you fix this */
-               panic("Need to sync with the VFS");
-               spin_lock(&f->lock);
-               if (f->closed) {
-                       spin_unlock(&f->lock);
-                       cclose(c);
-                       return -1;
-               }
-               if (fd < 0 || growfd(f, fd) < 0) {
-                       spin_unlock(&f->lock);
-                       cclose(c);
-                       error(Ebadfd);
-               }
-               if (fd > f->maxfd)
-                       f->maxfd = fd;
-               oc = f->fd[fd];
-               f->fd[fd] = c;
-               spin_unlock(&f->lock);
-               if (oc)
-                       cclose(oc);
-       } else {
-               if (waserror()) {
-                       cclose(c);
-                       nexterror();
-               }
-               fd = newfd(c);
-               if (fd < 0)
-                       error(Enofd);
-               poperror();
+               error(EPERM, ERROR_FIXME);
+       }
+       fd = newfd(c, 0);
+       if (fd < 0) {
+               cclose(c);
+               error(-fd, ERROR_FIXME);
        }
        poperror();
        return fd;
 }
 
+/* Could pass in the fdt instead of the proc, but we used to need the to_proc
+ * for now so we can claim a VFS FD.  Careful, we don't close the old chan. */
+int sys_dup_to(struct proc *from_proc, unsigned int from_fd,
+               struct proc *to_proc, unsigned int to_fd)
+{
+       ERRSTACK(1);
+       int ret;
+       struct chan *c;
+
+       if (waserror()) {
+               poperror();
+               return -1;
+       }
+       c = fdtochan(&from_proc->open_files, from_fd, -1, 0, 1);
+       if (c->qid.type & QTAUTH) {
+               cclose(c);
+               error(EPERM, ERROR_FIXME);
+       }
+       ret = insert_obj_fdt(&to_proc->open_files, c, to_fd, 0, TRUE, FALSE);
+       /* drop the ref from fdtochan.  if insert succeeded, there is one other ref
+        * stored in the FDT */
+       cclose(c);
+       if (ret < 0)
+               error(EFAIL, "Can't insert FD %d into FDG", to_fd);
+       poperror();
+       return 0;
+}
+
 char *sysfd2path(int fd)
 {
        ERRSTACK(1);
@@ -355,13 +270,13 @@ char *sysfd2path(int fd)
                poperror();
                return NULL;
        }
-       c = fdtochan(current->fgrp, fd, -1, 0, 1);
+       c = fdtochan(&current->open_files, fd, -1, 0, 1);
        s = NULL;
        if (c->name != NULL) {
                s = kzmalloc(c->name->len + 1, 0);
                if (s == NULL) {
                        cclose(c);
-                       error(Enomem);
+                       error(ENOMEM, ERROR_FIXME);
                }
                memmove(s, c->name->s, c->name->len + 1);
        }
@@ -381,7 +296,7 @@ int sysfauth(int fd, char *aname)
        }
 
        validname(aname, 0);
-       c = fdtochan(current->fgrp, fd, ORDWR, 0, 1);
+       c = fdtochan(&current->open_files, fd, O_RDWR, 0, 1);
        if (waserror()) {
                cclose(c);
                nexterror();
@@ -398,9 +313,9 @@ int sysfauth(int fd, char *aname)
                nexterror();
        }
 
-       fd = newfd(ac);
+       fd = newfd(ac, 0);
        if (fd < 0)
-               error(Enofd);
+               error(-fd, ERROR_FIXME);
        poperror();     /* ac */
 
        poperror();
@@ -421,9 +336,9 @@ int sysfversion(int fd, unsigned int msize, char *vers, unsigned int arglen)
 
        /* check there's a NUL in the version string */
        if (arglen == 0 || memchr(vers, 0, arglen) == 0)
-               error(Ebadarg);
+               error(EINVAL, ERROR_FIXME);
 
-       c = fdtochan(current->fgrp, fd, ORDWR, 0, 1);
+       c = fdtochan(&current->open_files, fd, O_RDWR, 0, 1);
        if (waserror()) {
                cclose(c);
                nexterror();
@@ -438,56 +353,6 @@ int sysfversion(int fd, unsigned int msize, char *vers, unsigned int arglen)
        return m;
 }
 
-int syspipe(int fd[2])
-{
-       ERRSTACK(1);
-       struct dev *d;
-       struct fgrp *f;
-       struct chan *c[2];
-       static char *names[] = { "data", "data1" };
-
-       f = current->fgrp;
-
-       d = &devtab[devno('|', 0)];
-       c[0] = namec("#|", Atodir, 0, 0);
-       c[1] = 0;
-       fd[0] = -1;
-       fd[1] = -1;
-       if (waserror()) {
-               if (c[0] != 0)
-                       cclose(c[0]);
-               if (c[1] != 0)
-                       cclose(c[1]);
-               if (fd[0] >= 0) {
-                       /* VFS hack */
-                       f->fd[fd[0]] = 0;
-                       put_fd(&current->open_files, fd[0]);
-               }
-               if (fd[1] >= 0) {
-                       /* VFS hack */
-                       f->fd[fd[1]] = 0;
-                       put_fd(&current->open_files, fd[1]);
-               }
-               poperror();
-               return -1;
-       }
-       c[1] = cclone(c[0]);
-       if (walk(&c[0], &names[0], 1, 1, NULL) < 0)
-               error(Egreg);
-       if (walk(&c[1], &names[1], 1, 1, NULL) < 0)
-               error(Egreg);
-       c[0] = d->open(c[0], ORDWR);
-       c[1] = d->open(c[1], ORDWR);
-       fd[0] = newfd(c[0]);
-       if (fd[0] < 0)
-               error(Enofd);
-       fd[1] = newfd(c[1]);
-       if (fd[1] < 0)
-               error(Enofd);
-       poperror();
-       return 0;
-}
-
 int sysfwstat(int fd, uint8_t * buf, int n)
 {
        ERRSTACK(2);
@@ -498,8 +363,8 @@ int sysfwstat(int fd, uint8_t * buf, int n)
                return -1;
        }
 
-       validstat(buf, n);
-       c = fdtochan(current->fgrp, fd, -1, 1, 1);
+       validstat(buf, n, 0);
+       c = fdtochan(&current->open_files, fd, -1, 1, 1);
        if (waserror()) {
                cclose(c);
                nexterror();
@@ -519,7 +384,7 @@ long bindmount(struct chan *c, char *old, int flag, char *spec)
        struct chan *c1;
 
        if (flag > MMASK || (flag & MORDER) == (MBEFORE | MAFTER))
-               error(Ebadarg);
+               error(EINVAL, ERROR_FIXME);
 
        c1 = namec(old, Amount, 0, 0);
        if (waserror()) {
@@ -582,14 +447,14 @@ int sysmount(int fd, int afd, char *old, int flags, char *spec)
                poperror();
                return -1;
        }
-       bc.c = fdtochan(current->fgrp, fd, ORDWR, 0, 1);
+       bc.c = fdtochan(&current->open_files, fd, O_RDWR, 0, 1);
        if (afd >= 0)
-               ac.c = fdtochan(current->fgrp, afd, ORDWR, 0, 1);
+               ac.c = fdtochan(&current->open_files, afd, O_RDWR, 0, 1);
        mntparam.chan = bc.c;
        mntparam.authchan = ac.c;
        mntparam.spec = spec;
        mntparam.flags = flags;
-       c0.c = devtab[devno('M', 0)].attach((char *)&mntparam);
+       c0.c = devtab[devno("mnt", 0)].attach((char *)&mntparam);
 
        r = bindmount(c0.c, old, flags, spec);
        poperror();
@@ -600,7 +465,7 @@ int sysmount(int fd, int afd, char *old, int flags, char *spec)
        return r;
 }
 
-int sysunmount(char *old, char *new)
+int sysunmount(char *src_path, char *onto_path)
 {
        ERRSTACK(1);
        volatile struct {
@@ -619,15 +484,15 @@ int sysunmount(char *old, char *new)
                return -1;
        }
 
-       cmount.c = namec(new, Amount, 0, 0);
-       if (old != NULL && old[0] != '\0') {
+       cmount.c = namec(onto_path, Amount, 0, 0);
+       if (src_path != NULL && src_path[0] != '\0') {
                /*
                 * This has to be namec(..., Aopen, ...) because
                 * if arg[0] is something like /srv/cs or /fd/0,
                 * opening it is the only way to get at the real
                 * Chan underneath.
                 */
-               cmounted.c = namec(old, Aopen, OREAD, 0);
+               cmounted.c = namec(src_path, Aopen, O_READ, 0);
        }
 
        cunmount(cmount.c, cmounted.c);
@@ -637,32 +502,42 @@ int sysunmount(char *old, char *new)
        return 0;
 }
 
-int sysopen(char *path, int vfs_flags)
+int sysopenat(int fromfd, char *path, int vfs_flags)
 {
-       ERRSTACK(2);
+       ERRSTACK(1);
        int fd;
-       struct chan *c;
+       struct chan *c = 0, *from = 0;
 
        if (waserror()) {
+               cclose(c);
                poperror();
                return -1;
        }
-
        openmode(vfs_flags);    /* error check only */
-       c = namec(path, Aopen, vfs_flags, 0);
-       if (waserror()) {
-               cclose(c);
-               nexterror();
-       }
-       fd = newfd(c);
+       if ((path[0] == '/') || (fromfd == AT_FDCWD)) {
+               c = namec(path, Aopen, vfs_flags, 0);
+       } else {
+               /* We don't cclose from.  namec_from will convert it to the new chan
+                * during the walk process (c).  It'll probably close from internally,
+                * and give us something new for c.  On error, namec_from will cclose
+                * from. */
+               from = fdtochan(&current->open_files, fromfd, -1, FALSE, TRUE);
+               if (!(from->flag & O_PATH))
+                       error(EINVAL, "Cannot openat from a non-O_PATH FD");
+               c = namec_from(from, path, Aopen, vfs_flags, 0);
+       }
+       fd = newfd(c, vfs_flags);
        if (fd < 0)
-               error(Enofd);
-       poperror();
-
+               error(-fd, ERROR_FIXME);
        poperror();
        return fd;
 }
 
+int sysopen(char *path, int vfs_flags)
+{
+       return sysopenat(AT_FDCWD, path, vfs_flags);
+}
+
 long unionread(struct chan *c, void *va, long n)
 {
        ERRSTACK(1);
@@ -684,9 +559,9 @@ long unionread(struct chan *c, void *va, long n)
                /* Error causes component of union to be skipped */
                if (mount->to) {
                        /* normally we want to discard the error, but for our ghetto kdirent
-                        * hack, we need to repeat unionread if we saw a Eshort */
+                        * hack, we need to repeat unionread if we saw a ENODATA */
                        if (waserror()) {
-                               if (!strcmp(current_errstr(), Eshort)) {
+                               if (get_errno() == ENODATA) {
                                        runlock(&m->lock);
                                        qunlock(&c->umqlock);
                                        nexterror();
@@ -695,7 +570,8 @@ long unionread(struct chan *c, void *va, long n)
                        } else {
                                if (c->umc == NULL) {
                                        c->umc = cclone(mount->to);
-                                       c->umc = devtab[c->umc->type].open(c->umc, OREAD);
+                                       c->umc = devtab[c->umc->type].open(c->umc,
+                                                                          O_READ);
                                }
 
                                nr = devtab[c->umc->type].read(c->umc, va, n, c->umc->offset);
@@ -747,14 +623,14 @@ static long rread(int fd, void *va, long n, int64_t * offp)
                return -1;
        }
 
-       c = fdtochan(current->fgrp, fd, OREAD, 1, 1);
+       c = fdtochan(&current->open_files, fd, O_READ, 1, 1);
        if (waserror()) {
                cclose(c);
                nexterror();
        }
 
        if (n < 0)
-               error(Etoosmall);
+               error(EINVAL, ERROR_FIXME);
 
        dir = c->qid.type & QTDIR;
 
@@ -763,12 +639,21 @@ static long rread(int fd, void *va, long n, int64_t * offp)
         * new stuff later. Allocate DIRREADSIZE bytes for that purpose.
         */
        if (dir) {
+               int amt;
                /* expecting only one dirent at a time, o/w we're busted */
                assert(n >= sizeof(struct kdirent));
                if (!c->buf) {
-                       c->buf=kmalloc(DIRREADSIZE, KMALLOC_WAIT);
+                       c->buf = kmalloc(DIRREADSIZE, MEM_WAIT);
                        c->bufused = 0;
                }
+               /* Attempt to extract an M, in case there was some already */
+               amt = convM2kdirent(c->buf, c->bufused, real_va, 0);
+               if (amt) {
+                       c->bufused -= amt;
+                       memmove(c->buf, c->buf + amt, c->bufused);
+                       n = sizeof(struct kdirent);
+                       goto out;
+               }
                /* debugging */
                if (waserror()) {
                        printk("Well, sysread of a dir sucks.%s \n", current_errstr());
@@ -789,7 +674,7 @@ static long rread(int fd, void *va, long n, int64_t * offp)
                } else
                        off = *offp;
                if (off < 0)
-                       error(Enegoff);
+                       error(EINVAL, ERROR_FIXME);
                if (off == 0) {
                        if (offp == NULL) {
                                spin_lock(&c->lock);
@@ -799,7 +684,13 @@ static long rread(int fd, void *va, long n, int64_t * offp)
                        }
                        unionrewind(c);
                }
-               n = devtab[c->type].read(c, va, n, off);
+               if (! c->ateof) {
+                       n = devtab[c->type].read(c, va, n, off);
+                       if (n == 0 && dir)
+                               c->ateof = 1;
+               } else {
+                       n = 0;
+               }
                spin_lock(&c->lock);
                c->offset += n;
                spin_unlock(&c->lock);
@@ -809,13 +700,15 @@ static long rread(int fd, void *va, long n, int64_t * offp)
        if (dir) {
                int amt;
                c->bufused = c->bufused + n;
+               /* extract an M from the front, then shift the remainder back */
                amt = convM2kdirent(c->buf, c->bufused, real_va, 0);
                c->bufused -= amt;
                memmove(c->buf, c->buf + amt, c->bufused);
-               n = amt;
+               n = amt ? sizeof(struct kdirent) : 0;
                poperror();     /* matching our debugging waserror */
        }
 
+out:
        poperror();
        cclose(c);
 
@@ -823,6 +716,31 @@ static long rread(int fd, void *va, long n, int64_t * offp)
        return n;
 }
 
+/* Reads exactly n bytes from chan c, starting at its offset.  Can block, but if
+ * we get 0 back too soon (EOF or error), then we'll error out with ENODATA.
+ * That might need a little work - if there was a previous error, then we
+ * clobbered it and only know ENODATA but not why we completed early. */
+void read_exactly_n(struct chan *c, void *vp, long n)
+{
+       char *p;
+       long nn;
+       int total = 0, want = n;
+
+       p = vp;
+       while (n > 0) {
+               nn = devtab[c->type].read(c, p, n, c->offset);
+               printd("readn: Got %d@%lld\n", nn, c->offset);
+               if (nn == 0)
+                       error(ENODATA, "wanted %d, got %d", want, total);
+               spin_lock(&c->lock);
+               c->offset += nn;
+               spin_unlock(&c->lock);
+               p += nn;
+               n -= nn;
+               total += nn;
+       }
+}
+
 long sysread(int fd, void *va, long n)
 {
        return rread(fd, va, n, NULL);
@@ -873,23 +791,19 @@ int64_t sysseek(int fd, int64_t off, int whence)
                return -1;
        }
 
-       c = fdtochan(current->fgrp, fd, -1, 1, 1);
+       c = fdtochan(&current->open_files, fd, -1, 1, 1);
        if (waserror()) {
                cclose(c);
                nexterror();
        }
-
-       if (devtab[c->type].dc == '|')
-               error(Eisstream);
-
        switch (whence) {
                case 0:
                        if (c->qid.type & QTDIR) {
                                if (off != 0)
-                                       error(Eisdir);
+                                       error(EISDIR, ERROR_FIXME);
                                unionrewind(c);
                        } else if (off < 0)
-                               error(Enegoff);
+                               error(EINVAL, ERROR_FIXME);
                        spin_lock(&c->lock);    /* lock for int64_t assignment */
                        c->offset = off;
                        spin_unlock(&c->lock);
@@ -897,12 +811,12 @@ int64_t sysseek(int fd, int64_t off, int whence)
 
                case 1:
                        if (c->qid.type & QTDIR)
-                               error(Eisdir);
+                               error(EISDIR, ERROR_FIXME);
                        spin_lock(&c->lock);    /* lock for read/write update */
                        off += c->offset;
                        if (off < 0) {
                                spin_unlock(&c->lock);
-                               error(Enegoff);
+                               error(EINVAL, ERROR_FIXME);
                        }
                        c->offset = off;
                        spin_unlock(&c->lock);
@@ -910,21 +824,21 @@ int64_t sysseek(int fd, int64_t off, int whence)
 
                case 2:
                        if (c->qid.type & QTDIR)
-                               error(Eisdir);
+                               error(EISDIR, ERROR_FIXME);
                        dir = chandirstat(c);
                        if (dir == NULL)
-                               error("internal error: stat error in seek");
+                               error(EFAIL, "internal error: stat error in seek");
                        off += dir->length;
                        kfree(dir);
                        if (off < 0)
-                               error(Enegoff);
+                               error(EINVAL, ERROR_FIXME);
                        spin_lock(&c->lock);    /* lock for read/write update */
                        c->offset = off;
                        spin_unlock(&c->lock);
                        break;
 
                default:
-                       error(Ebadarg);
+                       error(EINVAL, ERROR_FIXME);
                        break;
        }
        poperror();
@@ -934,14 +848,14 @@ int64_t sysseek(int fd, int64_t off, int whence)
        return off;
 }
 
-void validstat(uint8_t * s, int n)
+void validstat(uint8_t * s, int n, int slashok)
 {
-       
+
        int m;
        char buf[64];
 
        if (statcheck(s, n) < 0)
-               error(Ebadstat);
+               error(EINVAL, ERROR_FIXME);
        /* verify that name entry is acceptable */
        s += STATFIXLEN - 4 * BIT16SZ;  /* location of first string */
        /*
@@ -959,7 +873,7 @@ void validstat(uint8_t * s, int n)
        buf[m] = '\0';
        /* name could be '/' */
        if (strcmp(buf, "/") != 0)
-               validname(buf, 0);
+               validname(buf, slashok);
 }
 
 int sysfstat(int fd, uint8_t *buf, int n)
@@ -972,7 +886,7 @@ int sysfstat(int fd, uint8_t *buf, int n)
                return -1;
        }
 
-       c = fdtochan(current->fgrp, fd, -1, 0, 1);
+       c = fdtochan(&current->open_files, fd, -1, 0, 1);
        if (waserror()) {
                cclose(c);
                nexterror();
@@ -988,10 +902,10 @@ int sysfstat(int fd, uint8_t *buf, int n)
 
 int sysfstatakaros(int fd, struct kstat *ks)
 {
-       
+
        int n = 4096;
        uint8_t *buf;
-       buf = kmalloc(n, KMALLOC_WAIT);
+       buf = kmalloc(n, MEM_WAIT);
        n = sysfstat(fd, buf, n);
        if (n > 0) {
                convM2kstat(buf, n, ks);
@@ -1027,10 +941,10 @@ int sysstat(char *path, uint8_t *buf, int n)
 
 int sysstatakaros(char *path, struct kstat *ks)
 {
-       
+
        int n = 4096;
        uint8_t *buf;
-       buf = kmalloc(n, KMALLOC_WAIT);
+       buf = kmalloc(n, MEM_WAIT);
        n = sysstat(path, buf, n);
        if (n > 0) {
                convM2kstat(buf, n, ks);
@@ -1052,24 +966,24 @@ static long rwrite(int fd, void *va, long n, int64_t * offp)
                poperror();
                return -1;
        }
-       c = fdtochan(current->fgrp, fd, OWRITE, 1, 1);
+       c = fdtochan(&current->open_files, fd, O_WRITE, 1, 1);
        if (waserror()) {
                cclose(c);
                nexterror();
        }
        if (c->qid.type & QTDIR)
-               error(Eisdir);
+               error(EISDIR, ERROR_FIXME);
 
        if (n < 0)
-               error(Etoosmall);
+               error(EINVAL, ERROR_FIXME);
 
        if (offp == NULL) {
                /* append changes the offset to the end, and even if we fail later, this
                 * change will persist */
-               if (c->flag & CAPPEND) {
+               if (c->flag & O_APPEND) {
                        dir = chandirstat(c);
                        if (!dir)
-                               error("internal error: stat error in append write");
+                               error(EFAIL, "internal error: stat error in append write");
                        spin_lock(&c->lock);    /* legacy lock for int64 assignment */
                        c->offset = dir->length;
                        spin_unlock(&c->lock);
@@ -1091,7 +1005,7 @@ static long rwrite(int fd, void *va, long n, int64_t * offp)
                nexterror();
        }
        if (off < 0)
-               error(Enegoff);
+               error(EINVAL, ERROR_FIXME);
        m = devtab[c->type].write(c, va, n, off);
        poperror();
 
@@ -1105,7 +1019,7 @@ static long rwrite(int fd, void *va, long n, int64_t * offp)
        cclose(c);
 
        poperror();
-       return n;
+       return m;
 }
 
 long syswrite(int fd, void *va, long n)
@@ -1128,7 +1042,7 @@ int syswstat(char *path, uint8_t * buf, int n)
                return -1;
        }
 
-       validstat(buf, n);
+       validstat(buf, n, 0);
        c = namec(path, Aaccess, 0, 0);
        if (waserror()) {
                cclose(c);
@@ -1211,7 +1125,7 @@ struct dir *sysdirfstat(int fd)
                return NULL;
        }
 
-       c = fdtochan(current->fgrp, fd, -1, 0, 1);
+       c = fdtochan(&current->open_files, fd, -1, 0, 1);
        if (waserror()) {
                cclose(c);
                nexterror();
@@ -1226,7 +1140,7 @@ struct dir *sysdirfstat(int fd)
 
 int sysdirwstat(char *name, struct dir *dir)
 {
-       
+
        uint8_t *buf;
        int r;
 
@@ -1240,7 +1154,7 @@ int sysdirwstat(char *name, struct dir *dir)
 
 int sysdirfwstat(int fd, struct dir *dir)
 {
-       
+
        uint8_t *buf;
        int r;
 
@@ -1254,7 +1168,7 @@ int sysdirfwstat(int fd, struct dir *dir)
 
 static long dirpackage(uint8_t * buf, long ts, struct kdirent **d)
 {
-       
+
        char *s;
        long ss, i, n, nn, m = 0;
 
@@ -1277,11 +1191,11 @@ static long dirpackage(uint8_t * buf, long ts, struct kdirent **d)
        }
 
        if (i != ts)
-               error("bad directory format");
+               error(EFAIL, "bad directory format");
 
        *d = kzmalloc(n * sizeof(**d) + ss, 0);
        if (*d == NULL)
-               error(Enomem);
+               error(ENOMEM, ERROR_FIXME);
 
        /*
         * then convert all buffers
@@ -1293,7 +1207,7 @@ static long dirpackage(uint8_t * buf, long ts, struct kdirent **d)
                if (nn >= n || /*convM2D */ convM2kdirent(&buf[i], m, *d + nn, s) != m) {
                        kfree(*d);
                        *d = NULL;
-                       error("bad directory entry");
+                       error(EFAIL, "bad directory entry");
                }
                nn++;
                s += m;
@@ -1315,7 +1229,7 @@ long sysdirread(int fd, struct kdirent **d)
        }
        buf = kzmalloc(DIRREADLIM, 0);
        if (buf == NULL)
-               error(Enomem);
+               error(ENOMEM, ERROR_FIXME);
        if (waserror()) {
                kfree(buf);
                nexterror();
@@ -1335,7 +1249,7 @@ int sysiounit(int fd)
        struct chan *c;
        int n;
 
-       c = fdtochan(current->fgrp, fd, -1, 0, 1);
+       c = fdtochan(&current->open_files, fd, -1, 0, 1);
        if (waserror()) {
                cclose(c);
                poperror();
@@ -1347,84 +1261,30 @@ int sysiounit(int fd)
        return n;
 }
 
-/* Notes on concurrency:
- * - Can't hold spinlocks while we call cclose, since it might sleep eventually.
- * - We're called from proc_destroy, so we could have concurrent openers trying
- *   to add to the group (other syscalls), hence the "closed" flag.
- * - dot and slash chans are dealt with in proc_free.  its difficult to close
- *   and zero those with concurrent syscalls, since those are a source of krefs.
- * - the memory is freed in proc_free().  need to wait to do it, since we can
- *   have concurrent accesses to fgrp before free.
- * - Once we lock and set closed, no further additions can happen.  To simplify
- *   our closes, we also allow multiple calls to this func (though that should
- *   never happen with the current code). */
-void close_9ns_files(struct proc *p, bool only_cloexec)
-{
-       
-       struct fgrp *f = p->fgrp;
-
-       spin_lock(&f->lock);
-       if (f->closed) {
-               spin_unlock(&f->lock);
-               warn("Unexpected double-close");
-               return;
-       }
-       if (!only_cloexec)
-               f->closed = TRUE;
-       spin_unlock(&f->lock);
-
-       /* maxfd is a legit val, not a +1 */
-       for (int i = 0; i <= f->maxfd; i++) {
-               if (!f->fd[i])
-                       continue;
-               if (only_cloexec && !(f->fd[i]->flag & CCEXEC))
-                       continue;
-               cclose(f->fd[i]);
-               f->fd[i] = 0;
-       }
-}
-
 void print_chaninfo(struct chan *c)
 {
-       
-       char buf[64] = { 0 };
+
+       char buf[128] = { 0 };
        bool has_dev = c->type != -1;
-       if (has_dev && !devtab[c->type].chaninfo) {
-               printk("Chan type %d has no chaninfo!\n", c->type);
-               has_dev = FALSE;
-       }
-       printk("Chan pathname: %s ref %d, Dev: %s, Devinfo: %s",
+       bool has_chaninfo = has_dev && devtab[c->type].chaninfo;
+
+       printk("Chan flags: %p, pathname: %s, ref: %d, Dev: %s, Devinfo: %s",
+                  c->flag,
                   c->name ? c->name->s : "no cname",
                   kref_refcnt(&c->ref),
                   has_dev ? devtab[c->type].name : "no dev",
-                  has_dev ? devtab[c->type].chaninfo(c, buf, sizeof(buf)) : "");
-       if (!has_dev)
+                  has_chaninfo ? devtab[c->type].chaninfo(c, buf, sizeof(buf)) : "");
+       if (!has_chaninfo)
                printk("qid.path: %p\n", c->qid.path);
        printk("\n");
 }
 
-void print_9ns_files(struct proc *p)
-{
-       
-       struct fgrp *f = p->fgrp;
-       spin_lock(&f->lock);
-       printk("9ns files for proc %d:\n", p->pid);
-       /* maxfd is a legit val, not a +1 */
-       for (int i = 0; i <= f->maxfd; i++) {
-               if (!f->fd[i])
-                       continue;
-               printk("\t9fs %4d, ", i);
-               print_chaninfo(f->fd[i]);
-       }
-       spin_unlock(&f->lock);
-}
-
-/* TODO: 9ns ns inheritance flags: Shared, copied, or empty.  Looks like we're
- * copying the fgrp, and sharing the pgrp. */
+/* TODO: 9ns ns inheritance flags: Shared, copied, or empty.  The old fgrp is
+ * managed by the fd_table, which is handled outside this function.  We share
+ * the pgrp. */
 int plan9setup(struct proc *new_proc, struct proc *parent, int flags)
 {
-       
-       struct proc *old_current;
+
        struct kref *new_dot_ref;
        ERRSTACK(1);
        if (waserror()) {
@@ -1434,31 +1294,18 @@ int plan9setup(struct proc *new_proc, struct proc *parent, int flags)
        }
        if (!parent) {
                /* We are probably spawned by the kernel directly, and have no parent to
-                * inherit from.  Be sure to set up fgrp/pgrp before calling namec().
-                *
-                * TODO: One problem is namec wants a current set for things like
-                * genbuf.  So we'll use new_proc for this bootstrapping.  Note
-                * switch_to() also loads the cr3. */
-               new_proc->fgrp = newfgrp();
+                * inherit from. */
                new_proc->pgrp = newpgrp();
-               old_current = switch_to(new_proc);
-               new_proc->slash = namec("#r", Atodir, 0, 0);
+               new_proc->slash = namec("#root", Atodir, 0, 0);
                if (!new_proc->slash)
                        panic("no root device");
-               switch_back(new_proc, old_current);
-               /* Want the name to be "/" instead of "#r" */
+               /* Want the name to be "/" instead of "#root" */
                cnameclose(new_proc->slash->name);
                new_proc->slash->name = newcname("/");
                new_proc->dot = cclone(new_proc->slash);
                poperror();
                return 0;
        }
-       /* When we use the old fgrp, we have copy semantics: do not change this
-        * without revisiting proc_destroy, close_9ns_files, and closefgrp. */
-       if (flags & PROC_DUP_FGRP)
-               new_proc->fgrp = dupfgrp(new_proc, parent->fgrp);
-       else
-               new_proc->fgrp = newfgrp();
        /* Shared semantics */
        kref_get(&parent->pgrp->ref, 1);
        new_proc->pgrp = parent->pgrp;
@@ -1518,32 +1365,53 @@ int fd_getfl(int fd)
                poperror();
                return -1;
        }
-       c = fdtochan(current->fgrp, fd, -1, 0, 1);
+       c = fdtochan(&current->open_files, fd, -1, 0, 1);
 
        ret = c->mode;
-       if (c->flag & CAPPEND)
-               ret |= O_APPEND;
+       ret |= c->flag & CEXTERNAL_FLAGS;
 
        cclose(c);
        poperror();
        return ret;
 }
 
+static bool cexternal_flags_differ(int set1, int set2, int flags)
+{
+       flags &= CEXTERNAL_FLAGS;
+       return (set1 & flags) ^ (set2 & flags);
+}
+
 int fd_setfl(int fd, int flags)
 {
-       ERRSTACK(1);
+       ERRSTACK(2);
        struct chan *c;
+       int ret = 0;
 
        if (waserror()) {
                poperror();
                return -1;
        }
-       c = fdtochan(current->fgrp, fd, -1, 0, 1);
-
-       if (flags & O_APPEND)
-               c->flag |= CAPPEND;
-
+       c = fdtochan(&current->open_files, fd, -1, 0, 1);
+       if (waserror()) {
+               cclose(c);
+               nexterror();
+       }
+       if (cexternal_flags_differ(flags, c->flag, O_CLOEXEC)) {
+               /* TODO: The whole CCEXEC / O_CLOEXEC on 9ns needs work */
+               error(EINVAL, "can't toggle O_CLOEXEC with setfl");
+       }
+       if (cexternal_flags_differ(flags, c->flag, O_REMCLO))
+               error(EINVAL, "can't toggle O_REMCLO with setfl");
+       if (cexternal_flags_differ(flags, c->flag, O_PATH))
+               error(EINVAL, "can't toggle O_PATH with setfl");
+       /* Devices can do various prep work, including RPCs to other servers (#mnt)
+        * for a chan_ctl operation.  If they want to not support the new flags,
+        * they can throw an error. */
+       if (devtab[c->type].chan_ctl)
+               ret = devtab[c->type].chan_ctl(c, flags & CEXTERNAL_FLAGS);
+       c->flag = (c->flag & ~CEXTERNAL_FLAGS) | (flags & CEXTERNAL_FLAGS);
+       poperror();
        cclose(c);
        poperror();
-       return 0;
+       return ret;
 }