Allow for certain device APIs to be NULL
[akaros.git] / kern / src / ns / chan.c
1 /* Copyright © 1994-1999 Lucent Technologies Inc.  All rights reserved.
2  * Portions Copyright © 1997-1999 Vita Nuova Limited
3  * Portions Copyright © 2000-2007 Vita Nuova Holdings Limited
4  *                                (www.vitanuova.com)
5  * Revisions Copyright © 2000-2007 Lucent Technologies Inc. and others
6  *
7  * Modified for the Akaros operating system:
8  * Copyright (c) 2013-2014 The Regents of the University of California
9  * Copyright (c) 2013-2015 Google Inc.
10  *
11  * Permission is hereby granted, free of charge, to any person obtaining a copy
12  * of this software and associated documentation files (the "Software"), to deal
13  * in the Software without restriction, including without limitation the rights
14  * to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
15  * copies of the Software, and to permit persons to whom the Software is
16  * furnished to do so, subject to the following conditions:
17  *
18  * The above copyright notice and this permission notice shall be included in
19  * all copies or substantial portions of the Software.
20  *
21  * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
22  * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
23  * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT.  IN NO EVENT SHALL THE
24  * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
25  * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
26  * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
27  * SOFTWARE. */
28
29 #include <vfs.h>
30 #include <kfs.h>
31 #include <slab.h>
32 #include <kmalloc.h>
33 #include <kref.h>
34 #include <string.h>
35 #include <stdio.h>
36 #include <assert.h>
37 #include <error.h>
38 #include <cpio.h>
39 #include <pmap.h>
40 #include <smp.h>
41 #include <syscall.h>
42
43 char *channame(struct chan *c)
44 {       /* DEBUGGING */
45         if (c == NULL)
46                 return "<NULL chan>";
47         if (c->name == NULL)
48                 return "<NULL name>";
49         if (c->name->s == NULL)
50                 return "<NULL name.s>";
51         return c->name->s;
52 }
53
54 enum {
55         CNAMESLOP = 20
56 };
57
58 struct {
59         spinlock_t lock;
60         int fid;
61         struct chan *free;
62         struct chan *list;
63 } chanalloc;
64
65 typedef struct Elemlist Elemlist;
66
67 struct Elemlist {
68         char *name;                                     /* copy of name, so '/' can be overwritten */
69         int ARRAY_SIZEs;
70         char **elems;
71         int *off;
72         int mustbedir;
73 };
74
75 #define SEP(c) ((c) == 0 || (c) == '/')
76 void cleancname(struct cname *);
77
78 int isdotdot(char *p)
79 {
80         return p[0] == '.' && p[1] == '.' && p[2] == '\0';
81 }
82
83 int emptystr(char *s)
84 {
85         if (s == NULL)
86                 return 1;
87         if (s[0] == '\0')
88                 return 1;
89         return 0;
90 }
91
92 /*
93  * Atomically replace *p with copy of s
94  */
95 void kstrdup(char **p, char *s)
96 {
97         int n;
98         char *t, *prev;
99
100         n = strlen(s) + 1;
101         /* if it's a user, we can wait for memory; if not, something's very wrong */
102         if (current) {
103                 t = kzmalloc(n, 0);
104         } else {
105                 t = kzmalloc(n, 0);
106                 if (t == NULL)
107                         panic("kstrdup: no memory");
108         }
109         memmove(t, s, n);
110         prev = *p;
111         *p = t;
112         kfree(prev);
113 }
114
115 void chandevreset(void)
116 {
117         int i;
118
119         for (i = 0; &devtab[i] < __devtabend; i++) {
120                 if (devtab[i].reset)
121                         devtab[i].reset();
122         }
123 }
124
125 void chandevinit(void)
126 {
127         int i;
128
129         for (i = 0; &devtab[i] < __devtabend; i++) {
130                 if (devtab[i].init)
131                         devtab[i].init();
132         }
133 }
134
135 void chandevshutdown(void)
136 {
137         int i;
138
139         /* shutdown in reverse order */
140         for (i = 0; &devtab[i] < __devtabend; i++) ;
141         for (i--; i >= 0; i--) {
142                 if (devtab[i].shutdown)
143                         devtab[i].shutdown();
144         }
145 }
146
147 static void chan_release(struct kref *kref)
148 {
149         struct chan *c = container_of(kref, struct chan, ref);
150         ERRSTACK(1);
151         /* this style discards the error from close().  picture it as
152          * if (waserror()) { } else { close(); } chanfree_no_matter_what();  */
153         if (!waserror()) {
154                 printd("releasing chan %p, type %d\n", c, c->type);
155                 /* -1 means there is no dev yet.  wants a noop for close() */
156                 if (c->type != -1)
157                         devtab[c->type].close(c);
158         }
159         /* need to poperror regardless of whether we error'd or not */
160         poperror();
161         /* and chan free no matter what */
162         chanfree(c);
163 }
164
165 struct chan *newchan(void)
166 {
167         struct chan *c;
168
169         spin_lock(&(&chanalloc)->lock);
170         c = chanalloc.free;
171         if (c != 0)
172                 chanalloc.free = c->next;
173         spin_unlock(&(&chanalloc)->lock);
174
175         if (c == NULL) {
176                 c = kzmalloc(sizeof(struct chan), 0);
177                 spin_lock(&(&chanalloc)->lock);
178                 c->fid = ++chanalloc.fid;
179                 c->link = chanalloc.list;
180                 chanalloc.list = c;
181                 spin_unlock(&(&chanalloc)->lock);
182                 spinlock_init(&c->lock);
183                 qlock_init(&c->umqlock);
184         }
185
186         /* if you get an error before associating with a dev, cclose skips calling
187          * the dev's close */
188         c->type = -1;
189         c->flag = 0;
190         kref_init(&c->ref, chan_release, 1);
191         c->dev = 0;
192         c->offset = 0;
193         c->iounit = 0;
194         c->umh = 0;
195         c->uri = 0;
196         c->dri = 0;
197         c->aux = 0;
198         c->mchan = 0;
199         c->mcp = 0;
200         c->mux = 0;
201         c->mqid.path = 0;
202         c->mqid.vers = 0;
203         c->mqid.type = 0;
204         c->name = 0;
205         c->buf = NULL;
206         c->mountpoint = NULL;
207         return c;
208 }
209
210 static void __cname_release(struct kref *kref)
211 {
212         struct cname *n = container_of(kref, struct cname, ref);
213         kfree(n->s);
214         kfree(n);
215 }
216
217 struct cname *newcname(char *s)
218 {
219         struct cname *n;
220         int i;
221
222         n = kzmalloc(sizeof(*n), 0);
223         i = strlen(s);
224         n->len = i;
225         n->alen = i + CNAMESLOP;
226         n->s = kzmalloc(n->alen, 0);
227         memmove(n->s, s, i + 1);
228         kref_init(&n->ref, __cname_release, 1);
229         return n;
230 }
231
232 void cnameclose(struct cname *n)
233 {
234         if (n == NULL)
235                 return;
236         kref_put(&n->ref);
237 }
238
239 struct cname *addelem(struct cname *n, char *s)
240 {
241         int i, a;
242         char *t;
243         struct cname *new;
244
245         if (s[0] == '.' && s[1] == '\0')
246                 return n;
247
248         if (kref_refcnt(&n->ref) > 1) {
249                 /* copy on write */
250                 new = newcname(n->s);
251                 cnameclose(n);
252                 n = new;
253         }
254
255         i = strlen(s);
256         if (n->len + 1 + i + 1 > n->alen) {
257                 a = n->len + 1 + i + 1 + CNAMESLOP;
258                 t = kzmalloc(a, 0);
259                 memmove(t, n->s, n->len + 1);
260                 kfree(n->s);
261                 n->s = t;
262                 n->alen = a;
263         }
264         if (n->len > 0 && n->s[n->len - 1] != '/' && s[0] != '/')       /* don't insert extra slash if one is present */
265                 n->s[n->len++] = '/';
266         memmove(n->s + n->len, s, i + 1);
267         n->len += i;
268         if (isdotdot(s))
269                 cleancname(n);
270         return n;
271 }
272
273 void chanfree(struct chan *c)
274 {
275         c->flag = CFREE;
276
277         if (c->umh != NULL) {
278                 putmhead(c->umh);
279                 c->umh = NULL;
280         }
281         if (c->umc != NULL) {
282                 cclose(c->umc);
283                 c->umc = NULL;
284         }
285         if (c->mux != NULL) {
286                 //
287                 muxclose(c->mux);
288                 c->mux = NULL;
289         }
290         if (c->mchan != NULL) {
291                 cclose(c->mchan);
292                 c->mchan = NULL;
293         }
294
295         cnameclose(c->name);
296         if (c->buf)
297                 kfree(c->buf);
298         c->buf = NULL;
299         c->bufused = 0;
300         c->ateof = 0;
301
302         spin_lock(&(&chanalloc)->lock);
303         c->next = chanalloc.free;
304         chanalloc.free = c;
305         spin_unlock(&(&chanalloc)->lock);
306 }
307
308 void cclose(struct chan *c)
309 {
310         if (c == 0)
311                 return;
312
313         if (c->flag & CFREE)
314                 panic("cclose %p", getcallerpc(&c));
315
316         kref_put(&c->ref);
317 }
318
319 /* convenience wrapper for interposition.  if you do use this, don't forget
320  * about the kref_get_not_zero in plan9setup() */
321 void chan_incref(struct chan *c)
322 {
323         kref_get(&c->ref, 1);
324 }
325
326 /*
327  * Make sure we have the only copy of c.  (Copy on write.)
328  */
329 struct chan *cunique(struct chan *c)
330 {
331         struct chan *nc;
332
333         if (kref_refcnt(&c->ref) != 1) {
334                 nc = cclone(c);
335                 cclose(c);
336                 c = nc;
337         }
338
339         return c;
340 }
341
342 int eqqid(struct qid a, struct qid b)
343 {
344         return a.path == b.path && a.vers == b.vers;
345 }
346
347 int eqchan(struct chan *a, struct chan *b, int pathonly)
348 {
349         if (a->qid.path != b->qid.path)
350                 return 0;
351         if (!pathonly && a->qid.vers != b->qid.vers)
352                 return 0;
353         if (a->type != b->type)
354                 return 0;
355         if (a->dev != b->dev)
356                 return 0;
357         return 1;
358 }
359
360 int eqchantdqid(struct chan *a, int type, int dev, struct qid qid, int pathonly)
361 {
362         if (a->qid.path != qid.path)
363                 return 0;
364         if (!pathonly && a->qid.vers != qid.vers)
365                 return 0;
366         if (a->type != type)
367                 return 0;
368         if (a->dev != dev)
369                 return 0;
370         return 1;
371 }
372
373 static void mh_release(struct kref *kref)
374 {
375         struct mhead *mh = container_of(kref, struct mhead, ref);
376         mh->mount = (struct mount *)0xCafeBeef;
377         kfree(mh);
378 }
379
380 struct mhead *newmhead(struct chan *from)
381 {
382         struct mhead *mh;
383
384         mh = kzmalloc(sizeof(struct mhead), 0);
385         kref_init(&mh->ref, mh_release, 1);
386         rwinit(&mh->lock);
387         mh->from = from;
388         chan_incref(from);
389
390 /*
391         n = from->name->len;
392         if(n >= sizeof(mh->fromname))
393                 n = sizeof(mh->fromname)-1;
394         memmove(mh->fromname, from->name->s, n);
395         mh->fromname[n] = 0;
396 */
397         return mh;
398 }
399
400 int cmount(struct chan *new, struct chan *old, int flag, char *spec)
401 {
402         ERRSTACK(1);
403         struct pgrp *pg;
404         int order, flg;
405         struct mhead *m, **l, *mh;
406         struct mount *nm, *f, *um, **h;
407
408         if (QTDIR & (old->qid.type ^ new->qid.type))
409                 error(EINVAL, NULL);
410
411         if (old->umh)
412                 printd("cmount old extra umh\n");
413
414         order = flag & MORDER;
415
416         if ((old->qid.type & QTDIR) == 0 && order != MREPL)
417                 error(EINVAL, NULL);
418
419         mh = new->umh;
420
421         /*
422          * Not allowed to bind when the old directory
423          * is itself a union.  (Maybe it should be allowed, but I don't see
424          * what the semantics would be.)
425          *
426          * We need to check mh->mount->next to tell unions apart from
427          * simple mount points, so that things like
428          *  mount -c fd /root
429          *  bind -c /root /
430          * work.  The check of mount->mflag catches things like
431          *  mount fd /root
432          *  bind -c /root /
433          *
434          * This is far more complicated than it should be, but I don't
435          * see an easier way at the moment.     -rsc
436          */
437         if ((flag & MCREATE) && mh && mh->mount
438                 && (mh->mount->next || !(mh->mount->mflag & MCREATE)))
439                 error(EEXIST, NULL);
440
441         pg = current->pgrp;
442         wlock(&pg->ns);
443
444         l = &MOUNTH(pg, old->qid);
445         for (m = *l; m; m = m->hash) {
446                 if (eqchan(m->from, old, 1))
447                         break;
448                 l = &m->hash;
449         }
450
451         if (m == NULL) {
452                 /*
453                  *  nothing mounted here yet.  create a mount
454                  *  head and add to the hash table.
455                  */
456                 m = newmhead(old);
457                 *l = m;
458
459                 /*
460                  *  if this is a union mount, add the old
461                  *  node to the mount chain.
462                  */
463                 if (order != MREPL)
464                         m->mount = newmount(m, old, 0, 0);
465         }
466         wlock(&m->lock);
467         if (waserror()) {
468                 wunlock(&m->lock);
469                 nexterror();
470         }
471         wunlock(&pg->ns);
472
473         nm = newmount(m, new, flag, spec);
474         if (mh != NULL && mh->mount != NULL) {
475                 /*
476                  *  copy a union when binding it onto a directory
477                  */
478                 flg = order;
479                 if (order == MREPL)
480                         flg = MAFTER;
481                 h = &nm->next;
482                 um = mh->mount;
483                 for (um = um->next; um; um = um->next) {
484                         f = newmount(m, um->to, flg, um->spec);
485                         *h = f;
486                         h = &f->next;
487                 }
488         }
489
490         if (m->mount && order == MREPL) {
491                 mountfree(m->mount);
492                 m->mount = 0;
493         }
494
495         if (flag & MCREATE)
496                 nm->mflag |= MCREATE;
497
498         if (m->mount && order == MAFTER) {
499                 for (f = m->mount; f->next; f = f->next) ;
500                 f->next = nm;
501         } else {
502                 for (f = nm; f->next; f = f->next) ;
503                 f->next = m->mount;
504                 m->mount = nm;
505         }
506
507         wunlock(&m->lock);
508         poperror();
509         return nm->mountid;
510 }
511
512 void cunmount(struct chan *mnt, struct chan *mounted)
513 {
514         struct pgrp *pg;
515         struct mhead *m, **l;
516         struct mount *f, **p;
517
518         if (mnt->umh)   /* should not happen */
519                 printd("cunmount newp extra umh %p has %p\n", mnt, mnt->umh);
520
521         /*
522          * It _can_ happen that mounted->umh is non-NULL,
523          * because mounted is the result of namec(Aopen)
524          * (see sysfile.c:/^sysunmount).
525          * If we open a union directory, it will have a umh.
526          * Although surprising, this is okay, since the
527          * cclose will take care of freeing the umh.
528          */
529
530         pg = current->pgrp;
531         wlock(&pg->ns);
532
533         l = &MOUNTH(pg, mnt->qid);
534         for (m = *l; m; m = m->hash) {
535                 if (eqchan(m->from, mnt, 1))
536                         break;
537                 l = &m->hash;
538         }
539
540         if (m == 0) {
541                 wunlock(&pg->ns);
542                 error(ENOENT, NULL);
543         }
544
545         wlock(&m->lock);
546         if (mounted == 0) {
547                 *l = m->hash;
548                 wunlock(&pg->ns);
549                 mountfree(m->mount);
550                 m->mount = NULL;
551                 cclose(m->from);
552                 wunlock(&m->lock);
553                 putmhead(m);
554                 return;
555         }
556
557         p = &m->mount;
558         for (f = *p; f; f = f->next) {
559                 /* BUG: Needs to be 2 pass */
560                 if (eqchan(f->to, mounted, 1) ||
561                         (f->to->mchan && eqchan(f->to->mchan, mounted, 1))) {
562                         *p = f->next;
563                         f->next = 0;
564                         mountfree(f);
565                         if (m->mount == NULL) {
566                                 *l = m->hash;
567                                 cclose(m->from);
568                                 wunlock(&m->lock);
569                                 wunlock(&pg->ns);
570                                 putmhead(m);
571                                 return;
572                         }
573                         wunlock(&m->lock);
574                         wunlock(&pg->ns);
575                         return;
576                 }
577                 p = &f->next;
578         }
579         wunlock(&m->lock);
580         wunlock(&pg->ns);
581         error(ENOENT, NULL);
582 }
583
584 struct chan *cclone(struct chan *c)
585 {
586         struct chan *nc;
587         struct walkqid *wq;
588
589         wq = devtab[c->type].walk(c, NULL, NULL, 0);
590         if (wq == NULL)
591                 error(EFAIL, "clone failed");
592         nc = wq->clone;
593         kfree(wq);
594         nc->name = c->name;
595         if (c->name)
596                 kref_get(&c->name->ref, 1);
597         return nc;
598 }
599
600 int
601 findmount(struct chan **cp,
602                   struct mhead **mp, int type, int dev, struct qid qid)
603 {
604         struct pgrp *pg;
605         struct mhead *m;
606
607         pg = current->pgrp;
608         rlock(&pg->ns);
609         for (m = MOUNTH(pg, qid); m; m = m->hash) {
610                 rlock(&m->lock);
611                 if (m->from == NULL) {
612                         printd("m %p m->from 0\n", m);
613                         runlock(&m->lock);
614                         continue;
615                 }
616                 if (eqchantdqid(m->from, type, dev, qid, 1)) {
617                         runlock(&pg->ns);
618                         if (mp != NULL) {
619                                 kref_get(&m->ref, 1);
620                                 if (*mp != NULL)
621                                         putmhead(*mp);
622                                 *mp = m;
623                         }
624                         if (*cp != NULL)
625                                 cclose(*cp);
626                         chan_incref(m->mount->to);
627                         *cp = m->mount->to;
628                         runlock(&m->lock);
629                         return 1;
630                 }
631                 runlock(&m->lock);
632         }
633
634         runlock(&pg->ns);
635         return 0;
636 }
637
638 int domount(struct chan **cp, struct mhead **mp)
639 {
640         return findmount(cp, mp, (*cp)->type, (*cp)->dev, (*cp)->qid);
641 }
642
643 struct chan *undomount(struct chan *c, struct cname *name)
644 {
645         ERRSTACK(1);
646         struct chan *nc;
647         struct pgrp *pg;
648         struct mount *t;
649         struct mhead **h, **he, *f;
650
651         pg = current->pgrp;
652         rlock(&pg->ns);
653         if (waserror()) {
654                 runlock(&pg->ns);
655                 nexterror();
656         }
657
658         he = &pg->mnthash[MNTHASH];
659         for (h = pg->mnthash; h < he; h++) {
660                 for (f = *h; f; f = f->hash) {
661                         if (strcmp(f->from->name->s, name->s) != 0)
662                                 continue;
663                         for (t = f->mount; t; t = t->next) {
664                                 if (eqchan(c, t->to, 1)) {
665                                         /*
666                                          * We want to come out on the left hand side of the mount
667                                          * point using the element of the union that we entered on.
668                                          * To do this, find the element that has a from name of
669                                          * c->name->s.
670                                          */
671                                         if (strcmp(t->head->from->name->s, name->s) != 0)
672                                                 continue;
673                                         nc = t->head->from;
674                                         chan_incref(nc);
675                                         cclose(c);
676                                         c = nc;
677                                         break;
678                                 }
679                         }
680                 }
681         }
682         poperror();
683         runlock(&pg->ns);
684         return c;
685 }
686
687 /*
688  * Either walks all the way or not at all.  No partial results in *cp.
689  * *nerror is the number of names to display in an error message.
690  */
691 static char Edoesnotexist[] = "does not exist";
692 int walk(struct chan **cp, char **names, int nnames, bool can_mount, int *nerror)
693 {
694         int dev, dotdot, i, n, nhave, ntry, type;
695         struct chan *c, *nc, *lastmountpoint = NULL;
696         struct cname *cname;
697         struct mount *f;
698         struct mhead *mh, *nmh;
699         struct walkqid *wq;
700
701         c = *cp;
702         chan_incref(c);
703         cname = c->name;
704         kref_get(&cname->ref, 1);
705         mh = NULL;
706
707         /*
708          * While we haven't gotten all the way down the path:
709          *    1. step through a mount point, if any
710          *    2. send a walk request for initial dotdot or initial prefix without dotdot
711          *    3. move to the first mountpoint along the way.
712          *    4. repeat.
713          *
714          * An invariant is that each time through the loop, c is on the undomount
715          * side of the mount point, and c's name is cname.
716          */
717         for (nhave = 0; nhave < nnames; nhave += n) {
718                 if ((c->qid.type & QTDIR) == 0) {
719                         if (nerror)
720                                 *nerror = nhave;
721                         cnameclose(cname);
722                         cclose(c);
723                         set_error(ENOTDIR, NULL);
724                         if (mh != NULL)
725                                 putmhead(mh);
726                         return -1;
727                 }
728                 ntry = nnames - nhave;
729                 if (ntry > MAXWELEM)
730                         ntry = MAXWELEM;
731                 dotdot = 0;
732                 for (i = 0; i < ntry; i++) {
733                         if (isdotdot(names[nhave + i])) {
734                                 if (i == 0) {
735                                         dotdot = 1;
736                                         ntry = 1;
737                                 } else
738                                         ntry = i;
739                                 break;
740                         }
741                 }
742
743                 if (!dotdot && can_mount)
744                         domount(&c, &mh);
745
746                 type = c->type;
747                 dev = c->dev;
748
749                 if ((wq = devtab[type].walk(c, NULL, names + nhave, ntry)) == NULL) {
750                         /* try a union mount, if any */
751                         if (mh && can_mount) {
752                                 /*
753                                  * mh->mount == c, so start at mh->mount->next
754                                  */
755                                 rlock(&mh->lock);
756                                 for (f = mh->mount->next; f; f = f->next)
757                                         if ((wq =
758                                                  devtab[f->to->type].walk(f->to, NULL, names + nhave,
759                                                                                                   ntry)) != NULL)
760                                                 break;
761                                 runlock(&mh->lock);
762                                 if (f != NULL) {
763                                         type = f->to->type;
764                                         dev = f->to->dev;
765                                 }
766                         }
767                         if (wq == NULL) {
768                                 cclose(c);
769                                 cnameclose(cname);
770                                 if (nerror)
771                                         *nerror = nhave + 1;
772                                 if (mh != NULL)
773                                         putmhead(mh);
774                                 return -1;
775                         }
776                 }
777
778                 nmh = NULL;
779                 if (dotdot) {
780                         assert(wq->nqid == 1);
781                         assert(wq->clone != NULL);
782
783                         cname = addelem(cname, "..");
784                         nc = undomount(wq->clone, cname);
785                         n = 1;
786                 } else {
787                         nc = NULL;
788                         if (can_mount)
789                                 for (i = 0; i < wq->nqid && i < ntry - 1; i++)
790                                         if (findmount(&nc, &nmh, type, dev, wq->qid[i]))
791                                                 break;
792                         if (nc == NULL) {       /* no mount points along path */
793                                 if (wq->clone == NULL) {
794                                         cclose(c);
795                                         cnameclose(cname);
796                                         if (wq->nqid == 0 || (wq->qid[wq->nqid - 1].type & QTDIR)) {
797                                                 if (nerror)
798                                                         *nerror = nhave + wq->nqid + 1;
799                                                 set_errstr(Edoesnotexist);
800                                         } else {
801                                                 if (nerror)
802                                                         *nerror = nhave + wq->nqid;
803                                                 set_errstr(errno_to_string(ENOTDIR));
804                                         }
805                                         kfree(wq);
806                                         if (mh != NULL)
807                                                 putmhead(mh);
808                                         return -1;
809                                 }
810                                 n = wq->nqid;
811                                 nc = wq->clone;
812                         } else {        /* stopped early, at a mount point */
813                                 if (wq->clone != NULL) {
814                                         cclose(wq->clone);
815                                         wq->clone = NULL;
816                                 }
817                                 lastmountpoint = nc;
818                                 n = i + 1;
819                         }
820                         for (i = 0; i < n; i++)
821                                 cname = addelem(cname, names[nhave + i]);
822                 }
823                 cclose(c);
824                 c = nc;
825                 putmhead(mh);
826                 mh = nmh;
827                 kfree(wq);
828         }
829
830         putmhead(mh);
831
832         c = cunique(c);
833
834         if (c->umh != NULL) {   //BUG
835                 printd("walk umh\n");
836                 putmhead(c->umh);
837                 c->umh = NULL;
838         }
839
840         cnameclose(c->name);
841         c->name = cname;
842         c->mountpoint = lastmountpoint;
843
844         cclose(*cp);
845         *cp = c;
846         if (nerror)
847                 *nerror = 0;
848         return 0;
849 }
850
851 /*
852  * c is a mounted non-creatable directory.  find a creatable one.
853  */
854 struct chan *createdir(struct chan *c, struct mhead *m)
855 {
856         ERRSTACK(1);
857         struct chan *nc;
858         struct mount *f;
859
860         rlock(&m->lock);
861         if (waserror()) {
862                 runlock(&m->lock);
863                 nexterror();
864         }
865         for (f = m->mount; f; f = f->next) {
866                 if (f->mflag & MCREATE) {
867                         nc = cclone(f->to);
868                         runlock(&m->lock);
869                         poperror();
870                         cclose(c);
871                         return nc;
872                 }
873         }
874         error(EPERM, NULL);
875         poperror();
876         return 0;
877 }
878
879 /*
880  * In place, rewrite name to compress multiple /, eliminate ., and process ..
881  */
882 void cleancname(struct cname *n)
883 {
884         char *p;
885
886         if (n->s[0] == '#') {
887                 p = strchr(n->s, '/');
888                 if (p == NULL)
889                         return;
890                 cleanname(p);
891
892                 /*
893                  * The correct name is #i rather than #i/,
894                  * but the correct name of #/ is #/.
895                  */
896                 if (strcmp(p, "/") == 0 && n->s[1] != '/')
897                         *p = '\0';
898         } else
899                 cleanname(n->s);
900         n->len = strlen(n->s);
901 }
902
903 static void growparse(Elemlist * e)
904 {
905         char **new;
906         int *inew;
907         enum { Delta = 8 };
908
909         if (e->ARRAY_SIZEs % Delta == 0) {
910                 new = kzmalloc((e->ARRAY_SIZEs + Delta) * sizeof(char *), 0);
911                 memmove(new, e->elems, e->ARRAY_SIZEs * sizeof(char *));
912                 kfree(e->elems);
913                 e->elems = new;
914                 inew = kzmalloc((e->ARRAY_SIZEs + Delta + 1) * sizeof(int), 0);
915                 memmove(inew, e->off, e->ARRAY_SIZEs * sizeof(int));
916                 kfree(e->off);
917                 e->off = inew;
918         }
919 }
920
921 /*
922  * The name is known to be valid.
923  * Copy the name so slashes can be overwritten.
924  * An empty string will set ARRAY_SIZE=0.
925  * A path ending in / or /. or /.//./ etc. will have
926  * e.mustbedir = 1, so that we correctly
927  * reject, e.g., "/adm/users/." when /adm/users is a file
928  * rather than a directory.
929  */
930 static void parsename(char *name, Elemlist * e)
931 {
932         char *slash;
933
934         kstrdup(&e->name, name);
935         name = e->name;
936         e->ARRAY_SIZEs = 0;
937         e->elems = NULL;
938         e->off = kzmalloc(sizeof(int), 0);
939         e->off[0] = skipslash(name) - name;
940         for (;;) {
941                 name = skipslash(name);
942                 if (*name == '\0') {
943                         e->mustbedir = 1;
944                         break;
945                 }
946                 growparse(e);
947
948                 e->elems[e->ARRAY_SIZEs++] = name;
949                 /* we may want to do this again some day
950                    slash = utfrune(name, '/');
951                  */
952                 slash = strchr(name, '/');
953                 if (slash == NULL) {
954                         e->off[e->ARRAY_SIZEs] = name + strlen(name) - e->name;
955                         e->mustbedir = 0;
956                         break;
957                 }
958                 e->off[e->ARRAY_SIZEs] = slash - e->name;
959                 *slash++ = '\0';
960                 name = slash;
961         }
962 }
963
964 void *memrchr(void *va, int c, long n)
965 {
966         uint8_t *a, *e;
967
968         a = va;
969         for (e = a + n - 1; e > a; e--)
970                 if (*e == c)
971                         return e;
972         return NULL;
973 }
974
975 /*
976  * Turn a name into a channel.
977  * &name[0] is known to be a valid address.  It may be a kernel address.
978  *
979  * Opening with amode Aopen, Acreate, or Aremove guarantees
980  * that the result will be the only reference to that particular fid.
981  * This is necessary since we might pass the result to
982  * devtab[].remove().
983  *
984  * Opening Atodir, Amount, or Aaccess does not guarantee this.
985  *
986  * Opening Aaccess can, under certain conditions, return a
987  * correct Chan* but with an incorrect struct cname attached.
988  * Since the functions that open Aaccess (sysstat, syswstat, sys_stat)
989  * do not use the struct cname*, this avoids an unnecessary clone.
990  *
991  * Acreatechan will never open. It will do all the tests and return a chan
992  * for the directory where an open will succeed.
993  *
994  * The classic namec() is broken into a front end to get the starting point and
995  * a __namec_from, which does the guts of the lookup.  */
996 static struct chan *__namec_from(struct chan *c, char *aname, int amode,
997                                  int omode, uint32_t perm, bool can_mount)
998 {
999         ERRSTACK(2);
1000         int len, npath;
1001         struct chan *cnew;
1002         struct cname *cname;
1003         Elemlist e;
1004         struct mhead *m;
1005         char tmperrbuf[ERRMAX];
1006         int saved_errno;
1007         // Rune r;
1008
1009         static_assert(!(CINTERNAL_FLAGS & CEXTERNAL_FLAGS));
1010
1011         e.name = NULL;
1012         e.elems = NULL;
1013         e.off = NULL;
1014         e.ARRAY_SIZEs = 0;
1015         if (waserror()) {
1016                 cclose(c);
1017                 kfree(e.name);
1018                 kfree(e.elems);
1019                 kfree(e.off);
1020                 //dumpmount();
1021                 nexterror();
1022         }
1023
1024         /*
1025          * Build a list of elements in the path.
1026          */
1027         parsename(aname, &e);
1028
1029         /*
1030          * On create, ....
1031          */
1032         if ((amode == Acreate) || (amode == Acreatechan)) {
1033                 /* perm must have DMDIR if last element is / or /. */
1034                 if (e.mustbedir && !(perm & DMDIR)) {
1035                         npath = e.ARRAY_SIZEs;
1036                         strlcpy(tmperrbuf, "create without DMDIR", sizeof(tmperrbuf));
1037                         goto NameError;
1038                 }
1039
1040                 /* don't try to walk the last path element just yet. */
1041                 if (e.ARRAY_SIZEs == 0)
1042                         error(EEXIST, NULL);
1043                 e.ARRAY_SIZEs--;
1044         }
1045
1046         if (walk(&c, e.elems, e.ARRAY_SIZEs, can_mount, &npath) < 0) {
1047                 if (npath < 0 || npath > e.ARRAY_SIZEs) {
1048                         printd("namec %s walk error npath=%d\n", aname, npath);
1049                         error(EFAIL, "walk failed");
1050                 }
1051 NameError:
1052                 if (current_errstr()[0]) {
1053                         /* errstr is set, we'll just stick with it and error out */
1054                         longjmp(&get_cur_errbuf()->jmpbuf, 1);
1055                 } else {
1056                         error(EFAIL, "Name to chan lookup failed");
1057                 }
1058                 /* brho: skipping the namec custom error string business, since it hides
1059                  * the underlying failure.  implement this if you want the old stuff. */
1060 #if 0
1061                 strlcpy(tmperrbuf, current->errstr, sizeof(tmperrbuf));
1062                 len = prefix + e.off[npath]; // prefix was name - aname, the start pt
1063                 if (len < ERRMAX / 3 || (name = memrchr(aname, '/', len)) == NULL
1064                         || name == aname)
1065                         snprintf(get_cur_genbuf(), sizeof current->genbuf, "%.*s", len,
1066                                          aname);
1067                 else
1068                         snprintf(get_cur_genbuf(), sizeof current->genbuf, "...%.*s",
1069                                          (int)(len - (name - aname)), name);
1070                 snprintf(current->errstr, ERRMAX, "%#q %s", get_cur_genbuf(),
1071                                  tmperrbuf);
1072 #endif
1073         }
1074
1075         if (e.mustbedir && !(c->qid.type & QTDIR)) {
1076                 npath = e.ARRAY_SIZEs;
1077                 strlcpy(tmperrbuf, "not a directory", sizeof(tmperrbuf));
1078                 goto NameError;
1079         }
1080
1081         if ((amode == Aopen) && (omode & O_EXEC) && (c->qid.type & QTDIR)) {
1082                 npath = e.ARRAY_SIZEs;
1083                 error(EFAIL, "cannot exec directory");
1084         }
1085
1086         switch (amode) {
1087                 case Aaccess:
1088                         if (can_mount)
1089                                 domount(&c, NULL);
1090                         break;
1091
1092                 case Abind:
1093                         m = NULL;
1094                         if (can_mount)
1095                                 domount(&c, &m);
1096                         if (c->umh != NULL)
1097                                 putmhead(c->umh);
1098                         c->umh = m;
1099                         break;
1100
1101                 case Aremove:
1102                 case Aopen:
1103 Open:
1104                         /* save the name; domount might change c */
1105                         cname = c->name;
1106                         kref_get(&cname->ref, 1);
1107                         m = NULL;
1108                         if (can_mount)
1109                                 domount(&c, &m);
1110
1111                         /* our own copy to open or remove */
1112                         c = cunique(c);
1113
1114                         /* now it's our copy anyway, we can put the name back */
1115                         cnameclose(c->name);
1116                         c->name = cname;
1117
1118                         switch (amode) {
1119                                 case Aremove:
1120                                         putmhead(m);
1121                                         break;
1122
1123                                 case Aopen:
1124                                 case Acreate:
1125                                         if (c->umh != NULL) {
1126                                                 printd("cunique umh\n");
1127                                                 putmhead(c->umh);
1128                                                 c->umh = NULL;
1129                                         }
1130
1131                                         /* only save the mount head if it's a multiple element union */
1132                                         if (m && m->mount && m->mount->next)
1133                                                 c->umh = m;
1134                                         else
1135                                                 putmhead(m);
1136                                         if (omode == O_EXEC)
1137                                                 c->flag &= ~CCACHE;
1138                                         /* here is where convert omode/vfs flags to c->flags.
1139                                          * careful, O_CLOEXEC and O_REMCLO are in there.  might need
1140                                          * to change that. */
1141                                         c->flag |= omode & CEXTERNAL_FLAGS;
1142                                         c = devtab[c->type].open(c,
1143                                                                  omode & ~O_CLOEXEC);
1144                                         /* if you get this from a dev, in the dev's open, you are
1145                                          * probably saving mode directly, without passing it through
1146                                          * openmode. */
1147                                         if (c->mode & O_TRUNC)
1148                                                 error(EFAIL, "Device %s open failed to clear O_TRUNC",
1149                                                       devtab[c->type].name);
1150                                         break;
1151                         }
1152                         break;
1153
1154                 case Atodir:
1155                         /*
1156                          * Directories (e.g. for cd) are left before the mount point,
1157                          * so one may mount on / or . and see the effect.
1158                          */
1159                         if (!(c->qid.type & QTDIR))
1160                                 error(ENOTDIR, NULL);
1161                         break;
1162
1163                 case Amount:
1164                         /*
1165                          * When mounting on an already mounted upon directory,
1166                          * one wants subsequent mounts to be attached to the
1167                          * original directory, not the replacement.  Don't domount.
1168                          */
1169                         break;
1170
1171                 case Acreatechan:
1172                         /*
1173                          * We've walked to the place where it *could* be created.
1174                          * Return that chan.
1175                          */
1176                         break;
1177
1178                 case Acreate:
1179                         /*
1180                          * We've already walked all but the last element.
1181                          * If the last exists, try to open it OTRUNC.
1182                          * If omode&OEXCL is set, just give up.
1183                          */
1184                         e.ARRAY_SIZEs++;
1185                         if (walk(&c, e.elems + e.ARRAY_SIZEs - 1, 1, can_mount, NULL) == 0) {
1186                                 if (omode & O_EXCL)
1187                                         error(EEXIST, NULL);
1188                                 omode |= O_TRUNC;
1189                                 goto Open;
1190                         }
1191
1192                         /*
1193                          * The semantics of the create(2) system call are that if the
1194                          * file exists and can be written, it is to be opened with truncation.
1195                          * On the other hand, the create(5) message fails if the file exists.
1196                          * If we get two create(2) calls happening simultaneously,
1197                          * they might both get here and send create(5) messages, but only
1198                          * one of the messages will succeed.  To provide the expected create(2)
1199                          * semantics, the call with the failed message needs to try the above
1200                          * walk again, opening for truncation.  This correctly solves the
1201                          * create/create race, in the sense that any observable outcome can
1202                          * be explained as one happening before the other.
1203                          * The create/create race is quite common.  For example, it happens
1204                          * when two rc subshells simultaneously update the same
1205                          * environment variable.
1206                          *
1207                          * The implementation still admits a create/create/remove race:
1208                          * (A) walk to file, fails
1209                          * (B) walk to file, fails
1210                          * (A) create file, succeeds, returns
1211                          * (B) create file, fails
1212                          * (A) remove file, succeeds, returns
1213                          * (B) walk to file, return failure.
1214                          *
1215                          * This is hardly as common as the create/create race, and is really
1216                          * not too much worse than what might happen if (B) got a hold of a
1217                          * file descriptor and then the file was removed -- either way (B) can't do
1218                          * anything with the result of the create call.  So we don't care about this race.
1219                          *
1220                          * Applications that care about more fine-grained decision of the races
1221                          * can use the OEXCL flag to get at the underlying create(5) semantics;
1222                          * by default we provide the common case.
1223                          *
1224                          * We need to stay behind the mount point in case we
1225                          * need to do the first walk again (should the create fail).
1226                          *
1227                          * We also need to cross the mount point and find the directory
1228                          * in the union in which we should be creating.
1229                          *
1230                          * The channel staying behind is c, the one moving forward is cnew.
1231                          */
1232                         m = NULL;
1233                         cnew = NULL;    /* is this assignment necessary? */
1234                         /* discard error */
1235                         if (!waserror()) {      /* try create */
1236                                 if (can_mount && findmount(&cnew, &m, c->type, c->dev, c->qid))
1237                                         cnew = createdir(cnew, m);
1238                                 else {
1239                                         cnew = c;
1240                                         chan_incref(cnew);
1241                                 }
1242
1243                                 /*
1244                                  * We need our own copy of the Chan because we're
1245                                  * about to send a create, which will move it.  Once we have
1246                                  * our own copy, we can fix the name, which might be wrong
1247                                  * if findmount gave us a new Chan.
1248                                  */
1249                                 cnew = cunique(cnew);
1250                                 cnameclose(cnew->name);
1251                                 cnew->name = c->name;
1252                                 kref_get(&cnew->name->ref, 1);
1253
1254                                 devtab[cnew->type].create(cnew, e.elems[e.ARRAY_SIZEs - 1],
1255                                                                                   omode & ~(O_EXCL | O_CLOEXEC),
1256                                                           perm);
1257                                 poperror();
1258                                 if (omode & O_APPEND)
1259                                         cnew->flag |= O_APPEND;
1260                                 if (omode & O_CLOEXEC)
1261                                         cnew->flag |= O_CLOEXEC;
1262                                 if (omode & O_REMCLO)
1263                                         cnew->flag |= O_REMCLO;
1264                                 if (m)
1265                                         putmhead(m);
1266                                 cclose(c);
1267                                 c = cnew;
1268                                 c->name = addelem(c->name, e.elems[e.ARRAY_SIZEs - 1]);
1269                                 break;
1270                         }
1271
1272                         /* create failed */
1273                         cclose(cnew);
1274                         if (m)
1275                                 putmhead(m);
1276                         if (omode & O_EXCL)
1277                                 nexterror();    /* safe since we're in a waserror() */
1278                         poperror();     /* matching the if(!waserror) */
1279
1280                         /* save error, so walk doesn't clobber our existing errstr */
1281                         strlcpy(tmperrbuf, current_errstr(), sizeof(tmperrbuf));
1282                         saved_errno = get_errno();
1283                         /* note: we depend that walk does not error */
1284                         if (walk(&c, e.elems + e.ARRAY_SIZEs - 1, 1, can_mount, NULL) < 0) {
1285                                 set_errno(saved_errno);
1286                                 /* Report the error we had originally */
1287                                 error(EFAIL, tmperrbuf);
1288                         }
1289                         strlcpy(current_errstr(), tmperrbuf, MAX_ERRSTR_LEN);
1290                         omode |= O_TRUNC;
1291                         goto Open;
1292
1293                 default:
1294                         panic("unknown namec access %d\n", amode);
1295         }
1296
1297         poperror();
1298
1299         if (e.ARRAY_SIZEs > 0)
1300                 strlcpy(get_cur_genbuf(), e.elems[e.ARRAY_SIZEs - 1], GENBUF_SZ);
1301         else
1302                 strlcpy(get_cur_genbuf(), ".", GENBUF_SZ);
1303
1304         kfree(e.name);
1305         kfree(e.elems);
1306         kfree(e.off);
1307
1308         return c;
1309 }
1310
1311 struct chan *namec(char *name, int amode, int omode, uint32_t perm)
1312 {
1313         bool can_mount = TRUE;
1314         struct chan *c;
1315         char *devname, *devspec;
1316         int n, devtype;
1317
1318         if (name[0] == '\0')
1319                 error(EFAIL, "empty file name");
1320         validname(name, 1);
1321         /*
1322          * Find the starting off point (the current slash, the root of
1323          * a device tree, or the current dot) as well as the name to
1324          * evaluate starting there.
1325          */
1326         switch (name[0]) {
1327                 case '/':
1328                         c = current->slash;
1329                         if (!c)
1330                                 panic("no slash!");
1331                         chan_incref(c);
1332                         break;
1333
1334                 case '#':
1335                         can_mount = FALSE;
1336                         devname = get_cur_genbuf();
1337                         devname[0] = '\0';
1338                         n = 0;
1339                         name++; /* drop the # */
1340                         while ((*name != '\0') && (*name != '/')) {
1341                                 if (n >= GENBUF_SZ - 1)
1342                                         error(ENAMETOOLONG, NULL);
1343                                 devname[n++] = *name++;
1344                         }
1345                         devname[n] = '\0';
1346                         /* for a name #foo.spec, devname = foo\0, devspec = spec\0.
1347                          * genbuf contains foo\0spec\0.  for no spec, devspec = \0 */
1348                         devspec = strchr(devname, '.');
1349                         if (devspec) {
1350                                 *devspec = '\0';
1351                                 devspec++;
1352                         } else {
1353                                 devspec = &devname[n];
1354                         }
1355                         if (!strcmp(devname, "mnt"))
1356                                 error(EINVAL, NULL);
1357                         /* TODO: deal with this "nodevs" business. */
1358                         #if 0
1359                         /*
1360                          *  the nodevs exceptions are
1361                          *  |  it only gives access to pipes you create
1362                          *  e  this process's environment
1363                          *  s  private file2chan creation space
1364                          *  D private secure sockets name space
1365                          *  a private TLS name space
1366                          */
1367                         if (current->pgrp->nodevs &&
1368                                 //          (utfrune("|esDa", r) == NULL
1369                                 ((strchr("|esDa", get_cur_genbuf()[1]) == NULL)
1370                                  || (get_cur_genbuf()[1] == 's' // || r == 's'
1371                                          && get_cur_genbuf()[n] != '\0')))
1372                                 error(EINVAL, NULL);
1373                         #endif
1374                         devtype = devno(devname, 1);
1375                         if (devtype == -1)
1376                                 error(EFAIL, "Unknown #device %s (spec %s)", devname, devspec);
1377                         c = devtab[devtype].attach(devspec);
1378                         break;
1379                 default:
1380                         /* this case also covers \0 */
1381                         c = current->dot;
1382                         if (!c)
1383                                 panic("no dot!");
1384                         chan_incref(c);
1385                         break;
1386         }
1387         return __namec_from(c, name, amode, omode, perm, can_mount);
1388 }
1389
1390 struct chan *namec_from(struct chan *c, char *name, int amode, int omode,
1391                         uint32_t perm)
1392 {
1393         if (name[0] == '\0') {
1394                 /* Our responsibility to cclose 'c' on our error */
1395                 cclose(c);
1396                 error(EFAIL, "empty file name");
1397         }
1398         validname(name, 1);
1399         return __namec_from(c, name, amode, omode, perm, TRUE);
1400 }
1401
1402 /*
1403  * name is valid. skip leading / and ./ as much as possible
1404  */
1405 char *skipslash(char *name)
1406 {
1407         while (name[0] == '/'
1408                    || (name[0] == '.' && (name[1] == 0 || name[1] == '/')))
1409                 name++;
1410         return name;
1411 }
1412
1413 char isfrog[256] = {
1414          /*NUL*/ 1, 1, 1, 1, 1, 1, 1, 1,
1415          /*BKS*/ 1, 1, 1, 1, 1, 1, 1, 1,
1416          /*DLE*/ 1, 1, 1, 1, 1, 1, 1, 1,
1417          /*CAN*/ 1, 1, 1, 1, 1, 1, 1, 1,
1418         ['/'] 1,
1419         [0x7f] 1,
1420 };
1421
1422 /*
1423  * Check that the name
1424  *  a) is in valid memory.
1425  *  b) is shorter than 2^16 bytes, so it can fit in a 9P string field.
1426  *  c) contains no frogs.
1427  * The first byte is known to be addressible by the requester, so the
1428  * routine works for kernel and user memory both.
1429  * The parameter slashok flags whether a slash character is an error
1430  * or a valid character.
1431  */
1432 void validname(char *aname, int slashok)
1433 {
1434         char *ename, *name;
1435         int c;
1436
1437         name = aname;
1438         ename = memchr(name, 0, (1 << 16));
1439
1440         if (ename == NULL || ename - name >= (1 << 16))
1441                 error(EINVAL, "Name too long");
1442
1443         while (*name) {
1444                 /* all characters above '~' are ok */
1445                 c = *(uint8_t *) name;
1446 #if 0
1447                 if (c >= Runeself)
1448                         name += chartorune(&r, name);
1449 #endif
1450                 if (c >= 0x7f) {
1451                         error(EFAIL, "Akaros doesn't do UTF-8");
1452                 } else {
1453                         if (isfrog[c])
1454                                 if (!slashok || c != '/') {
1455                                         error(EINVAL, "%s (%p), at char %c", aname, aname, c);
1456                                 }
1457                         name++;
1458                 }
1459         }
1460 }
1461
1462 void isdir(struct chan *c)
1463 {
1464         if (c->qid.type & QTDIR)
1465                 return;
1466         error(ENOTDIR, NULL);
1467 }
1468
1469 /*
1470  * This is necessary because there are many
1471  * pointers to the top of a given mount list:
1472  *
1473  *      - the mhead in the namespace hash table
1474  *      - the mhead in chans returned from findmount:
1475  *        used in namec and then by unionread.
1476  *      - the mhead in chans returned from createdir:
1477  *        used in the open/create race protect, which is gone.
1478  *
1479  * The RWlock in the Mhead protects the mount list it contains.
1480  * The mount list is deleted when we cunmount.
1481  * The RWlock ensures that nothing is using the mount list at that time.
1482  *
1483  * It is okay to replace c->mh with whatever you want as
1484  * long as you are sure you have a unique reference to it.
1485  *
1486  * This comment might belong somewhere else.
1487  */
1488 void putmhead(struct mhead *m)
1489 {
1490         if (m)
1491                 kref_put(&m->ref);
1492 }