Merge origin/netpush (networking code) (XCC)
[akaros.git] / kern / src / net / tcp.c
1 /**
2  * @file
3  * Transmission Control Protocol for IP
4  *
5  * This file contains common functions for the TCP implementation, such as functinos
6  * for manipulating the data structures and the TCP timer functions. TCP functions
7  * related to input and output is found in tcp_in.c and tcp_out.c respectively.
8  *
9  */
10
11 /*
12  * Copyright (c) 2001-2004 Swedish Institute of Computer Science.
13  * All rights reserved. 
14  * 
15  * Redistribution and use in source and binary forms, with or without modification, 
16  * are permitted provided that the following conditions are met:
17  *
18  * 1. Redistributions of source code must retain the above copyright notice,
19  *    this list of conditions and the following disclaimer.
20  * 2. Redistributions in binary form must reproduce the above copyright notice,
21  *    this list of conditions and the following disclaimer in the documentation
22  *    and/or other materials provided with the distribution.
23  * 3. The name of the author may not be used to endorse or promote products
24  *    derived from this software without specific prior written permission. 
25  *
26  * THIS SOFTWARE IS PROVIDED BY THE AUTHOR ``AS IS'' AND ANY EXPRESS OR IMPLIED 
27  * WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF 
28  * MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT 
29  * SHALL THE AUTHOR BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, 
30  * EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT 
31  * OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS 
32  * INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN 
33  * CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING 
34  * IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY 
35  * OF SUCH DAMAGE.
36  *
37  * This file is part of the lwIP TCP/IP stack.
38  * 
39  * Author: Adam Dunkels <adam@sics.se>
40  * Modified by David Zhu <yuzhu@cs.berkeley.edu> to be used for Akaros
41  *
42  */
43
44 #include <ros/common.h>
45 #include <string.h>
46 #include <kmalloc.h>
47 #include <net.h>
48 #include <sys/queue.h>
49 #include <atomic.h>
50
51 #include <bits/netinet.h>
52 #include <net/ip.h>
53 #include <net/tcp.h>
54 #include <net/tcp_impl.h>
55 #include <slab.h>
56 #include <socket.h>
57 #include <string.h>
58 #include <debug.h>
59
60 /* String array used to display different TCP states */
61 const char * const tcp_state_str[] = {
62   "CLOSED",      
63   "LISTEN",      
64   "SYN_SENT",    
65   "SYN_RCVD",    
66   "ESTABLISHED", 
67   "FIN_WAIT_1",  
68   "FIN_WAIT_2",  
69   "CLOSE_WAIT",  
70   "CLOSING",     
71   "LAST_ACK",    
72   "TIME_WAIT"   
73 };
74
75 const uint8_t tcp_backoff[13] =
76     { 1, 2, 3, 4, 5, 6, 7, 7, 7, 7, 7, 7, 7};
77  /* Times per slowtmr hits */
78 const uint8_t tcp_persist_backoff[7] = { 3, 6, 12, 24, 48, 96, 120 };
79
80 struct tcp_pcb *tcp_pcbs;
81
82 /** List of all TCP PCBs bound but not yet (connected || listening) */
83 struct tcp_pcb *tcp_bound_pcbs;
84 /** List of all TCP PCBs in LISTEN state */
85 union tcp_listen_pcbs_t tcp_listen_pcbs;
86 /** List of all TCP PCBs that are in a state in which
87  * they accept or send data. */
88 struct tcp_pcb *tcp_active_pcbs;
89 /** List of all TCP PCBs in TIME-WAIT state */
90 struct tcp_pcb *tcp_tw_pcbs;
91
92 #define NUM_TCP_PCB_LISTS               4
93 #define NUM_TCP_PCB_LISTS_NO_TIME_WAIT  3
94 /** An array with all (non-temporary) PCB lists, mainly used for smaller code size */
95 struct tcp_pcb **tcp_pcb_lists[] = {&tcp_listen_pcbs.pcbs, &tcp_bound_pcbs,
96   &tcp_active_pcbs, &tcp_tw_pcbs};
97
98 /** Timer counter to handle calling slow-timer from tcp_tmr() */ 
99 static uint8_t tcp_timer;
100 static uint16_t tcp_new_port(void);
101
102 /** Only used for temporary storage. */
103 struct tcp_pcb *tcp_tmp_pcb;
104
105 /* Incremented every coarse grained timer shot (typically every 500 ms). */
106 uint32_t tcp_ticks;
107 uint16_t tcp_port_num = SOCKET_PORT_START;
108
109 static uint16_t tcp_new_port(void);
110 /**
111  * Abandons a connection and optionally sends a RST to the remote
112  * host.  Deletes the local protocol control block. This is done when
113  * a connection is killed because of shortage of memory.
114  *
115  * @param pcb the tcp_pcb to abort
116  * @param reset boolean to indicate whether a reset should be sent
117  */
118 void
119 tcp_abandon(struct tcp_pcb *pcb, int reset)
120 {
121   uint32_t seqno, ackno;
122   uint16_t remote_port, local_port;
123   ip_addr_t remote_ip, local_ip;
124 #if LWIP_CALLBACK_API  
125   tcp_err_fn errf;
126 #endif /* LWIP_CALLBACK_API */
127   void *errf_arg;
128
129   /* pcb->state LISTEN not allowed here */
130   LWIP_ASSERT("don't call tcp_abort/tcp_abandon for listen-pcbs",
131     pcb->state != LISTEN);
132   /* Figure out on which TCP PCB list we are, and remove us. If we
133      are in an active state, call the receive function associated with
134      the PCB with a NULL argument, and send an RST to the remote end. */
135   if (pcb->state == TIME_WAIT) {
136     tcp_pcb_remove(&tcp_tw_pcbs, pcb);
137                 kmem_cache_free(tcp_pcb_kcache, (void*)pcb);
138   } else {
139     seqno = pcb->snd_nxt;
140     ackno = pcb->rcv_nxt;
141     ip_addr_copy(local_ip, pcb->local_ip);
142     ip_addr_copy(remote_ip, pcb->remote_ip);
143     local_port = pcb->local_port;
144     remote_port = pcb->remote_port;
145 #if LWIP_CALLBACK_API
146     errf = pcb->errf;
147 #endif /* LWIP_CALLBACK_API */
148     errf_arg = pcb->callback_arg;
149     tcp_pcb_remove(&tcp_active_pcbs, pcb);
150     if (pcb->unacked != NULL) {
151       tcp_segs_free(pcb->unacked);
152     }
153     if (pcb->unsent != NULL) {
154       tcp_segs_free(pcb->unsent);
155     }
156 #if TCP_QUEUE_OOSEQ    
157     if (pcb->ooseq != NULL) {
158       tcp_segs_free(pcb->ooseq);
159     }
160 #endif /* TCP_QUEUE_OOSEQ */
161                 kmem_cache_free(tcp_pcb_kcache, (void*)pcb);
162     TCP_EVENT_ERR(errf, errf_arg, ECONNABORTED);
163     if (reset) {
164       LWIP_DEBUGF(TCP_RST_DEBUG, ("tcp_abandon: sending RST\n"));
165       tcp_rst(seqno, ackno, &local_ip, &remote_ip, local_port, remote_port);
166     }
167   }
168 }
169
170 /**
171  * Aborts the connection by sending a RST (reset) segment to the remote
172  * host. The pcb is deallocated. This function never fails.
173  *
174  * ATTENTION: When calling this from one of the TCP callbacks, make
175  * sure you always return ECONNABORTED (and never return ECONNABORTED otherwise
176  * or you will risk accessing deallocated memory or memory leaks!
177  *
178  * @param pcb the tcp pcb to abort
179  */
180 void
181 tcp_abort(struct tcp_pcb *pcb)
182 {
183   tcp_abandon(pcb, 1);
184 }
185
186
187 /** 
188  * Update the state that tracks the available window space to advertise.
189  *
190  * Returns how much extra window would be advertised if we sent an
191  * update now.
192  */
193 uint32_t tcp_update_rcv_ann_wnd(struct tcp_pcb *pcb)
194 {
195   uint32_t new_right_edge = pcb->rcv_nxt + pcb->rcv_wnd;
196
197   if (TCP_SEQ_GEQ(new_right_edge, pcb->rcv_ann_right_edge + MIN((TCP_WND / 2), pcb->mss))) {
198     /* we can advertise more window */
199     pcb->rcv_ann_wnd = pcb->rcv_wnd;
200     return new_right_edge - pcb->rcv_ann_right_edge;
201   } else {
202     if (TCP_SEQ_GT(pcb->rcv_nxt, pcb->rcv_ann_right_edge)) {
203       /* Can happen due to other end sending out of advertised window,
204        * but within actual available (but not yet advertised) window */
205       pcb->rcv_ann_wnd = 0;
206     } else {
207       /* keep the right edge of window constant */
208       uint32_t new_rcv_ann_wnd = pcb->rcv_ann_right_edge - pcb->rcv_nxt;
209       pcb->rcv_ann_wnd = (uint16_t)new_rcv_ann_wnd;
210     }
211     return 0;
212   }
213 }
214
215 /**
216  * Kills the oldest connection that is in TIME_WAIT state.
217  * Called from tcp_alloc() if no more connections are available.
218  */
219 static void
220 tcp_kill_timewait(void)
221 {
222   struct tcp_pcb *pcb, *inactive;
223   uint32_t inactivity;
224
225   inactivity = 0;
226   inactive = NULL;
227   /* Go through the list of TIME_WAIT pcbs and get the oldest pcb. */
228   for(pcb = tcp_tw_pcbs; pcb != NULL; pcb = pcb->next) {
229     if ((uint32_t)(tcp_ticks - pcb->tmr) >= inactivity) {
230       inactivity = tcp_ticks - pcb->tmr;
231       inactive = pcb;
232     }
233   }
234   if (inactive != NULL) {
235     LWIP_DEBUGF(TCP_DEBUG, ("tcp_kill_timewait: killing oldest TIME-WAIT PCB %p (%"S32_F")\n",
236            (void *)inactive, inactivity));
237     tcp_abort(inactive);
238   }
239 }
240
241 /**
242  * Kills the oldest active connection that has lower priority than prio.
243  *
244  * @param prio minimum priority
245  */
246 static void
247 tcp_kill_prio(uint8_t prio)
248 {
249   struct tcp_pcb *pcb, *inactive;
250   uint32_t inactivity;
251   uint8_t mprio;
252
253
254   mprio = TCP_PRIO_MAX;
255   
256   /* We kill the oldest active connection that has lower priority than prio. */
257   inactivity = 0;
258   inactive = NULL;
259   for(pcb = tcp_active_pcbs; pcb != NULL; pcb = pcb->next) {
260     if (pcb->prio <= prio &&
261        pcb->prio <= mprio &&
262        (uint32_t)(tcp_ticks - pcb->tmr) >= inactivity) {
263       inactivity = tcp_ticks - pcb->tmr;
264       inactive = pcb;
265       mprio = pcb->prio;
266     }
267   }
268   if (inactive != NULL) {
269     LWIP_DEBUGF(TCP_DEBUG, ("tcp_kill_prio: killing oldest PCB %p (%"S32_F")\n",
270            (void *)inactive, inactivity));
271     tcp_abort(inactive);
272   }
273 }
274 /**
275  * This function should be called by the application when it has
276  * processed the data. The purpose is to advertise a larger window
277  * when the data has been processed.
278  *
279  * @param pcb the tcp_pcb for which data is read
280  * @param len the amount of bytes that have been read by the application
281  */
282 void
283 tcp_recved(struct tcp_pcb *pcb, uint16_t len)
284 {
285   int wnd_inflation;
286
287   check(len <= 0xffff - pcb->rcv_wnd);
288
289   pcb->rcv_wnd += len;
290   if (pcb->rcv_wnd > TCP_WND) {
291     pcb->rcv_wnd = TCP_WND;
292   }
293
294   wnd_inflation = tcp_update_rcv_ann_wnd(pcb);
295
296   /* If the change in the right edge of window is significant (default
297    * watermark is TCP_WND/4), then send an explicit update now.
298    * Otherwise wait for a packet to be sent in the normal course of
299    * events (or more window to be available later) */
300   if (wnd_inflation >= TCP_WND_UPDATE_THRESHOLD) {
301     tcp_ack_now(pcb);
302     //XXX: tcp_output(pcb);
303   }
304
305   printk("tcp_recved: received %d  bytes, wnd %d (%d).\n",
306          len, pcb->rcv_wnd, TCP_WND - pcb->rcv_wnd);
307 }
308
309 /**
310  * Default receive callback that is called if the user didn't register
311  * a recv callback for the pcb.
312  */
313 error_t tcp_recv_null(void *arg, struct tcp_pcb *pcb, struct pbuf *p, error_t err) {
314         int8_t irq_state = 0;
315         if (pcb == NULL || pcb->pcbsock == NULL) {
316                 pbuf_free(p);
317                 return -1;
318         }
319   if (p != NULL && pcb != NULL) {
320                 // notify that we have recved and increase the recv window
321                 // attach it to socket
322                 struct socket *sock = pcb->pcbsock;
323                 // TODO: attach_pbuf needs to return stuff that can not fit in the buffer right now
324                 attach_pbuf(p, &sock->recv_buff);
325                 struct kthread *kthread;
326                 /* First notify any blocking recv calls,
327                  * then notify anyone who might be waiting in a select
328                  */ 
329                 // multiple people might be waiting on the socket here..
330                 if (!sem_up_irqsave(&sock->sem, &irq_state)) {
331                         // wake up all waiters
332                         struct semaphore_entry *sentry, *sentry_tmp;
333                         spin_lock(&sock->waiter_lock);
334                         LIST_FOREACH_SAFE(sentry, &sock->waiters, link, sentry_tmp) {
335                                 sem_up_irqsave(&sentry->sem, &irq_state);
336                                 LIST_REMOVE(sentry, link);
337                                 /* do not need to free since all the sentry are stack-based vars
338                                  * */
339                         }
340                         spin_unlock(&sock->waiter_lock);
341                 }
342         }
343         printk ("received total length tcp %d\n", p->tot_len);
344         tcp_recved(pcb, p->tot_len);
345         // decref
346         pbuf_free(p);
347   return ESUCCESS;
348 }
349
350
351 /**
352  * Creates a new TCP protocol control block but doesn't place it on
353  * any of the TCP PCB lists.
354  * The pcb is not put on any list until binding using tcp_bind().
355  *
356  * @internal: Maybe there should be a idle TCP PCB list where these
357  * PCBs are put on. Port reservation using tcp_bind() is implemented but
358  * allocated pcbs that are not bound can't be killed automatically if wanting
359  * to allocate a pcb with higher prio (@see tcp_kill_prio())
360  *
361  * @return a new tcp_pcb that initially is in state CLOSED
362  */
363 struct tcp_pcb* tcp_new(void) {
364   return tcp_alloc(TCP_PRIO_NORMAL);
365 }
366
367 /**
368  * Calculates a new initial sequence number for new connections.
369  * TODO: Consider use a secure pseduo ISN
370  *
371  * @return uint32_t pseudo random sequence number
372  */
373 uint32_t tcp_next_iss(void)
374 {
375   static uint32_t iss = 6510;
376   
377   iss += tcp_ticks;       /* XXX */
378   return iss;
379 }
380
381 /**
382  * Allocate a new tcp_pcb structure.
383  *
384  * @param prio priority for the new pcb
385  * @return a new tcp_pcb that initially is in state CLOSED
386  */
387 struct tcp_pcb* tcp_alloc(uint8_t prio) {
388   struct tcp_pcb *pcb;
389   uint32_t iss;
390   pcb = kmem_cache_alloc(tcp_pcb_kcache, 0);
391   if (pcb == NULL) {
392                 /* Try killing oldest connection in TIME-WAIT. */
393                 printd("tcp_alloc: killing off oldest TIME-WAIT connection\n");
394                 tcp_kill_timewait();
395                 /* Try to allocate a tcp_pcb again. */
396                 pcb = (struct tcp_pcb *)kmem_cache_alloc(tcp_pcb_kcache, 0);
397                 if (pcb == NULL) {
398                         /* Try killing active connections with lower priority than the new one. */
399                         printd("tcp_alloc: killing connection with prio lower than %d\n", prio);
400                         tcp_kill_prio(prio);
401                         /* Try to allocate a tcp_pcb again. */
402                         pcb = (struct tcp_pcb *)kmem_cache_alloc(tcp_pcb_kcache, 0);
403                 }
404         }
405   if (pcb != NULL) {
406     memset(pcb, 0, sizeof(struct tcp_pcb));
407     pcb->prio = prio;
408     pcb->snd_buf = TCP_SND_BUF;
409     pcb->snd_queuelen = 0;
410     pcb->rcv_wnd = TCP_WND;
411     pcb->rcv_ann_wnd = TCP_WND;
412     pcb->tos = 0;
413     pcb->ttl = TCP_TTL;
414     /* As initial send MSS, we use TCP_MSS but limit it to 536.
415        The send MSS is updated when an MSS option is received. */
416     pcb->mss = (TCP_MSS > 536) ? 536 : TCP_MSS;
417     pcb->rto = 3000 / TCP_SLOW_INTERVAL;
418     pcb->sa = 0;
419     pcb->sv = 3000 / TCP_SLOW_INTERVAL;
420     pcb->rtime = -1;
421     pcb->cwnd = 1;
422     iss = tcp_next_iss();
423     pcb->snd_wl2 = iss;
424     pcb->snd_nxt = iss;
425     pcb->lastack = iss;
426     pcb->snd_lbb = iss;   
427     pcb->tmr = tcp_ticks;
428
429     pcb->polltmr = 0;
430
431 /* Basically we need to use the callback api because then we can switch
432  * handlers based on the state that the pcb is in. 
433  */
434
435     pcb->recv = tcp_recv_null;
436     
437     /* Init KEEPALIVE timer */
438     pcb->keep_idle  = TCP_KEEPIDLE_DEFAULT;
439     
440 #if LWIP_TCP_KEEPALIVE
441     pcb->keep_intvl = TCP_KEEPINTVL_DEFAULT;
442     pcb->keep_cnt   = TCP_KEEPCNT_DEFAULT;
443 #endif /* LWIP_TCP_KEEPALIVE */
444
445     pcb->keep_cnt_sent = 0;
446   }
447   return pcb;
448 }
449
450 /**
451  * A nastly hack featuring 'goto' statements that allocates a
452  * new TCP local port.
453  *
454  * @return a new (free) local TCP port number
455  */
456 static uint16_t tcp_new_port(void) {
457   int i;
458   struct tcp_pcb *pcb;
459   static uint16_t port = TCP_LOCAL_PORT_RANGE_START;
460   
461  again:
462   if (++port > TCP_LOCAL_PORT_RANGE_END) {
463     port = TCP_LOCAL_PORT_RANGE_START;
464   }
465   /* Check all PCB lists. */
466   for (i = 0; i < NUM_TCP_PCB_LISTS; i++) {  
467     for(pcb = *tcp_pcb_lists[i]; pcb != NULL; pcb = pcb->next) {
468       if (pcb->local_port == port) {
469         goto again;
470       }
471     }
472   }
473   return port;
474 }
475
476
477 /**
478  * Binds the connection to a local portnumber and IP address. If the
479  * IP address is not given (i.e., ipaddr == NULL), the IP address of
480  * the outgoing network interface is used instead.
481  *
482  * @param pcb the tcp_pcb to bind (no check is done whether this pcb is
483  *        already bound!)
484  * @param ipaddr the local ip address to bind to (use IP_ADDR_ANY to bind
485  *        to any local address
486  * @param port the local port to bind to
487  * @return ERR_USE if the port is already in use
488  *         ESUCCESS if bound
489  */
490 error_t tcp_bind(struct tcp_pcb *pcb, const struct in_addr *ipaddr, uint16_t port) {
491   int i;
492   int max_pcb_list = NUM_TCP_PCB_LISTS;
493   struct tcp_pcb *cpcb;
494
495   LWIP_ERROR("tcp_bind: can only bind in state CLOSED", pcb->state == CLOSED, return -EISCONN);
496
497 #if SO_REUSE
498   /* Unless the REUSEADDR flag is set,
499      we have to check the pcbs in TIME-WAIT state, also.
500      We do not dump TIME_WAIT pcb's; they can still be matched by incoming
501      packets using both local and remote IP addresses and ports to distinguish.
502    */
503   if ((pcb->so_options & SO_REUSEADDR) != 0) {
504     max_pcb_list = NUM_TCP_PCB_LISTS_NO_TIME_WAIT;
505   }
506 #endif /* SO_REUSE */
507
508   if (port == 0) {
509     port = tcp_new_port();
510   }
511
512   /* Check if the address already is in use (on all lists) */
513   for (i = 0; i < max_pcb_list; i++) {
514     for(cpcb = *tcp_pcb_lists[i]; cpcb != NULL; cpcb = cpcb->next) {
515       if (cpcb->local_port == port) {
516 #if SO_REUSE
517         /* Omit checking for the same port if both pcbs have REUSEADDR set.
518            For SO_REUSEADDR, the duplicate-check for a 5-tuple is done in
519            tcp_connect. */
520         if (((pcb->so_options & SO_REUSEADDR) == 0) ||
521           ((cpcb->so_options & SO_REUSEADDR) == 0))
522 #endif /* SO_REUSE */
523         {
524           if (ip_addr_isany(&(cpcb->local_ip)) ||
525               ip_addr_isany(ipaddr) ||
526               ip_addr_cmp(&(cpcb->local_ip), ipaddr)) {
527             return EADDRINUSE;
528           }
529         }
530       }
531     }
532   }
533
534   if (!ip_addr_isany(ipaddr)) {
535     pcb->local_ip = *ipaddr;
536   }
537   pcb->local_port = port;
538   TCP_REG(&tcp_bound_pcbs, pcb);
539   LWIP_DEBUGF(TCP_DEBUG, ("tcp_bind: bind to port %"U16_F"\n", port));
540   return 0;
541 }
542
543 /**
544  * Is called every TCP_FAST_INTERVAL (250 ms) and process data previously
545  * "refused" by upper layer (application) and sends delayed ACKs.
546  *
547  * Automatically called from tcp_tmr().
548  */
549 void tcp_fasttmr(void) {
550   struct tcp_pcb *pcb = tcp_active_pcbs;
551
552   while(pcb != NULL) {
553     struct tcp_pcb *next = pcb->next;
554     /* If there is data which was previously "refused" by upper layer */
555     if (pcb->refused_data != NULL) {
556       /* Notify again application with data previously received. */
557       error_t err;
558       LWIP_DEBUGF(TCP_INPUT_DEBUG, ("tcp_fasttmr: notify kept packet\n"));
559       TCP_EVENT_RECV(pcb, pcb->refused_data, ESUCCESS, err);
560       if (err == ESUCCESS) {
561         pcb->refused_data = NULL;
562       } else if (err == ECONNABORTED) {
563         /* if err == ECONNABORTED, 'pcb' is already deallocated */
564         pcb = NULL;
565       }
566     }
567
568     /* send delayed ACKs */
569     if (pcb && (pcb->flags & TF_ACK_DELAY)) {
570       printd("tcp_fasttmr: delayed ACK\n");
571       tcp_ack_now(pcb);
572       // XXX: tcp_output(pcb);
573       pcb->flags &= ~(TF_ACK_DELAY | TF_ACK_NOW);
574     }
575
576     pcb = next;
577   }
578 }
579
580 /**
581  * Called periodically to dispatch TCP timers.
582  *
583  */
584 void tcp_tmr(void) {
585         /* Call tcp_fasttmr() every 250 ms */
586   tcp_fasttmr();
587
588   if (++tcp_timer & 1) {
589     /* Call tcp_tmr() every 500 ms, i.e., every other timer
590        tcp_tmr() is called. */
591     tcp_slowtmr();
592   }
593 }
594
595 /**
596  * Closes the TX side of a connection held by the PCB.
597  * For tcp_close(), a RST is sent if the application didn't receive all data
598  * (tcp_recved() not called for all data passed to recv callback).
599  *
600  * Listening pcbs are freed and may not be referenced any more.
601  * Connection pcbs are freed if not yet connected and may not be referenced
602  * any more. If a connection is established (at least SYN received or in
603  * a closing state), the connection is closed, and put in a closing state.
604  * The pcb is then automatically freed in tcp_slowtmr(). It is therefore
605  * unsafe to reference it.
606  *
607  * @param pcb the tcp_pcb to close
608  * @return ESUCCESS if connection has been closed
609  *         another error_t if closing failed and pcb is not freed
610  */
611 static error_t
612 tcp_close_shutdown(struct tcp_pcb *pcb, uint8_t rst_on_unacked_data)
613 {
614   error_t err;
615
616   if (rst_on_unacked_data && (pcb->state != LISTEN)) {
617     if ((pcb->refused_data != NULL) || (pcb->rcv_wnd != TCP_WND)) {
618       /* Not all data received by application, send RST to tell the remote
619          side about this. */
620       LWIP_ASSERT("pcb->flags & TF_RXCLOSED", pcb->flags & TF_RXCLOSED);
621
622       /* don't call tcp_abort here: we must not deallocate the pcb since
623          that might not be expected when calling tcp_close */
624       tcp_rst(pcb->snd_nxt, pcb->rcv_nxt, &pcb->local_ip, &pcb->remote_ip,
625         pcb->local_port, pcb->remote_port);
626
627       tcp_pcb_purge(pcb);
628
629       /* TODO: to which state do we move now? */
630
631       /* move to TIME_WAIT since we close actively */
632       TCP_RMV(&tcp_active_pcbs, pcb);
633       pcb->state = TIME_WAIT;
634       TCP_REG(&tcp_tw_pcbs, pcb);
635
636       return ESUCCESS;
637     }
638   }
639
640   switch (pcb->state) {
641   case CLOSED:
642     /* Closing a pcb in the CLOSED state might seem erroneous,
643      * however, it is in this state once allocated and as yet unused
644      * and the user needs some way to free it should the need arise.
645      * Calling tcp_close() with a pcb that has already been closed, (i.e. twice)
646      * or for a pcb that has been used and then entered the CLOSED state 
647      * is erroneous, but this should never happen as the pcb has in those cases
648      * been freed, and so any remaining handles are bogus. */
649     err = ESUCCESS;
650     TCP_RMV(&tcp_bound_pcbs, pcb);
651                 kmem_cache_free(tcp_pcb_kcache, (void*)pcb);
652     pcb = NULL;
653     break;
654   case LISTEN:
655     err = ESUCCESS;
656     tcp_pcb_remove(&tcp_listen_pcbs.pcbs, pcb);
657                 kmem_cache_free(tcp_pcb_kcache, (void*)pcb);
658     pcb = NULL;
659     break;
660   case SYN_SENT:
661     err = ESUCCESS;
662     tcp_pcb_remove(&tcp_active_pcbs, pcb);
663                 kmem_cache_free(tcp_pcb_kcache, (void*)pcb);
664     pcb = NULL;
665     break;
666   case SYN_RCVD:
667     err = tcp_send_fin(pcb);
668     if (err == ESUCCESS) {
669       pcb->state = FIN_WAIT_1;
670     }
671     break;
672   case ESTABLISHED:
673     err = tcp_send_fin(pcb);
674     if (err == ESUCCESS) {
675       pcb->state = FIN_WAIT_1;
676     }
677     break;
678   case CLOSE_WAIT:
679     err = tcp_send_fin(pcb);
680     if (err == ESUCCESS) {
681       pcb->state = LAST_ACK;
682     }
683     break;
684   default:
685     /* Has already been closed, do nothing. */
686     err = ESUCCESS;
687     pcb = NULL;
688     break;
689   }
690
691   if (pcb != NULL && err == ESUCCESS) {
692     /* To ensure all data has been sent when tcp_close returns, we have
693        to make sure tcp_output doesn't fail.
694        Since we don't really have to ensure all data has been sent when tcp_close
695        returns (unsent data is sent from tcp timer functions, also), we don't care
696        for the return value of tcp_output for now. */
697     /* @todo: When implementing SO_LINGER, this must be changed somehow:
698        If SOF_LINGER is set, the data should be sent and acked before close returns.
699        This can only be valid for sequential APIs, not for the raw API. */
700     tcp_output(pcb);
701   }
702   return err;
703 }
704
705 /**
706  * Closes the connection held by the PCB.
707  *
708  * Listening pcbs are freed and may not be referenced any more.
709  * Connection pcbs are freed if not yet connected and may not be referenced
710  * any more. If a connection is established (at least SYN received or in
711  * a closing state), the connection is closed, and put in a closing state.
712  * The pcb is then automatically freed in tcp_slowtmr(). It is therefore
713  * unsafe to reference it (unless an error is returned).
714  *
715  * @param pcb the tcp_pcb to close
716  * @return ESUCCESS if connection has been closed
717  *         another error_t if closing failed and pcb is not freed
718  */
719 error_t
720 tcp_close(struct tcp_pcb *pcb)
721 {
722 #if TCP_DEBUG
723   LWIP_DEBUGF(TCP_DEBUG, ("tcp_close: closing in "));
724   tcp_debug_print_state(pcb->state);
725 #endif /* TCP_DEBUG */
726
727   if (pcb->state != LISTEN) {
728     /* Set a flag not to receive any more data... */
729     pcb->flags |= TF_RXCLOSED;
730   }
731   /* ... and close */
732   return tcp_close_shutdown(pcb, 1);
733 }
734
735 /**
736  * Causes all or part of a full-duplex connection of this PCB to be shut down.
737  * This doesn't deallocate the PCB!
738  *
739  * @param pcb PCB to shutdown
740  * @param shut_rx shut down receive side if this is != 0
741  * @param shut_tx shut down send side if this is != 0
742  * @return ESUCCESS if shutdown succeeded (or the PCB has already been shut down)
743  *         another error_t on error.
744  */
745 error_t
746 tcp_shutdown(struct tcp_pcb *pcb, int shut_rx, int shut_tx)
747 {
748   if (pcb->state == LISTEN) {
749     return ENOTCONN;
750   }
751   if (shut_rx) {
752     /* shut down the receive side: free buffered data... */
753     if (pcb->refused_data != NULL) {
754       pbuf_free(pcb->refused_data);
755       pcb->refused_data = NULL;
756     }
757     /* ... and set a flag not to receive any more data */
758     pcb->flags |= TF_RXCLOSED;
759   }
760   if (shut_tx) {
761     /* This can't happen twice since if it succeeds, the pcb's state is changed.
762        Only close in these states as the others directly deallocate the PCB */
763     switch (pcb->state) {
764   case SYN_RCVD:
765   case ESTABLISHED:
766   case CLOSE_WAIT:
767     return tcp_close_shutdown(pcb, 0);
768   default:
769     /* don't shut down other states */
770     break;
771     }
772   }
773   /* @todo: return another error_t if not in correct state or already shut? */
774   return ESUCCESS;
775 }
776
777 /**
778  * Default accept callback if no accept callback is specified by the user.
779  */
780 static error_t
781 tcp_accept_null(void *arg, struct tcp_pcb *pcb, error_t err)
782 {
783         //XXX: IMPLEMENT ACCEPT
784
785   return ECONNABORTED;
786 }
787
788 /**
789  * Set the state of the connection to be LISTEN, which means that it
790  * is able to accept incoming connections. The protocol control block
791  * is reallocated in order to consume less memory. Setting the
792  * connection to LISTEN is an irreversible process.
793  *
794  * @param pcb the original tcp_pcb
795  * @param backlog the incoming connections queue limit
796  * @return tcp_pcb used for listening, consumes less memory.
797  *
798  * @note The original tcp_pcb is freed. This function therefore has to be
799  *       called like this:
800  *             tpcb = tcp_listen(tpcb);
801  */
802 struct tcp_pcb *
803 tcp_listen_with_backlog(struct tcp_pcb *pcb, uint8_t backlog)
804 {
805   struct tcp_pcb_listen *lpcb;
806
807   LWIP_ERROR("tcp_listen: pcb already connected", pcb->state == CLOSED, return NULL);
808
809   /* already listening? */
810   if (pcb->state == LISTEN) {
811     return pcb;
812   }
813 #if SO_REUSE
814   if ((pcb->so_options & SO_REUSEADDR) != 0) {
815     /* Since SO_REUSEADDR allows reusing a local address before the pcb's usage
816        is declared (listen-/connection-pcb), we have to make sure now that
817        this port is only used once for every local IP. */
818     for(lpcb = tcp_listen_pcbs.listen_pcbs; lpcb != NULL; lpcb = lpcb->next) {
819       if (lpcb->local_port == pcb->local_port) {
820         if (ip_addr_cmp(&lpcb->local_ip, &pcb->local_ip)) {
821           /* this address/port is already used */
822           return NULL;
823         }
824       }
825     }
826   }
827 #endif /* SO_REUSE */
828         lpcb = kmem_cache_alloc(tcp_pcb_listen_kcache, 0);
829   if (lpcb == NULL) {
830     return NULL;
831   }
832   lpcb->callback_arg = pcb->callback_arg;
833   lpcb->local_port = pcb->local_port;
834   lpcb->state = LISTEN;
835   lpcb->prio = pcb->prio;
836   lpcb->so_options = pcb->so_options;
837   lpcb->so_options |= SO_ACCEPTCONN;
838   lpcb->ttl = pcb->ttl;
839   lpcb->tos = pcb->tos;
840   ip_addr_copy(lpcb->local_ip, pcb->local_ip);
841   TCP_RMV(&tcp_bound_pcbs, pcb);
842         kmem_cache_free(tcp_pcb_kcache, (void*)pcb);
843 #if LWIP_CALLBACK_API
844   lpcb->accept = tcp_accept_null;
845 #endif /* LWIP_CALLBACK_API */
846 #if TCP_LISTEN_BACKLOG
847   lpcb->accepts_pending = 0;
848   lpcb->backlog = (backlog ? backlog : 1);
849 #endif /* TCP_LISTEN_BACKLOG */
850   TCP_REG(&tcp_listen_pcbs.pcbs, (struct tcp_pcb *)lpcb);
851   return (struct tcp_pcb *)lpcb;
852 }
853
854
855 /**
856  * Connects to another host. The function given as the "connected"
857  * argument will be called when the connection has been established.
858  *
859  * @param pcb the tcp_pcb used to establish the connection
860  * @param ipaddr the remote ip address to connect to
861  * @param port the remote tcp port to connect to
862  * @param connected callback function to call when connected (or on error)
863  * @return ERR_VAL if invalid arguments are given
864  *         ESUCCESS if connect request has been sent
865  *         other error_t values if connect request couldn't be sent
866  */
867 error_t
868 tcp_connect(struct tcp_pcb *pcb, ip_addr_t *ipaddr, uint16_t port,
869       tcp_connected_fn connected)
870 {
871   error_t ret;
872   uint32_t iss;
873
874   LWIP_ERROR("tcp_connect: can only connected from state CLOSED", pcb->state == CLOSED, return EISCONN);
875
876   LWIP_DEBUGF(TCP_DEBUG, ("tcp_connect to port %"U16_F"\n", port));
877   if (ipaddr != NULL) {
878     pcb->remote_ip = *ipaddr;
879   } else {
880     return ENETUNREACH;
881   }
882   pcb->remote_port = port;
883
884   /* check if we have a route to the remote host */
885   if (ip_addr_isany(&(pcb->local_ip))) {
886                 // assume we have a route anywhere..
887
888     /* no local IP address set, yet. */
889     // struct netif *netif = ip_route(&(pcb->remote_ip));
890     /* Use the netif's IP address as local address. */
891                 pcb->local_ip = LOCAL_IP_ADDR;
892   }
893
894   if (pcb->local_port == 0) {
895     pcb->local_port = tcp_new_port();
896   }
897 #if SO_REUSE
898   if ((pcb->so_options & SO_REUSEADDR) != 0) {
899     /* Since SO_REUSEADDR allows reusing a local address, we have to make sure
900        now that the 5-tuple is unique. */
901     struct tcp_pcb *cpcb;
902     int i;
903     /* Don't check listen- and bound-PCBs, check active- and TIME-WAIT PCBs. */
904     for (i = 2; i < NUM_TCP_PCB_LISTS; i++) {
905       for(cpcb = *tcp_pcb_lists[i]; cpcb != NULL; cpcb = cpcb->next) {
906         if ((cpcb->local_port == pcb->local_port) &&
907             (cpcb->remote_port == port) &&
908             ip_addr_cmp(&cpcb->local_ip, &pcb->local_ip) &&
909             ip_addr_cmp(&cpcb->remote_ip, ipaddr)) {
910           /* linux returns EISCONN here, but ERR_USE should be OK for us */
911           return ERR_USE;
912         }
913       }
914     }
915   }
916 #endif /* SO_REUSE */
917   iss = tcp_next_iss();
918   pcb->rcv_nxt = 0;
919   pcb->snd_nxt = iss;
920   pcb->lastack = iss - 1;
921   pcb->snd_lbb = iss - 1;
922   pcb->rcv_wnd = TCP_WND;
923   pcb->rcv_ann_wnd = TCP_WND;
924   pcb->rcv_ann_right_edge = pcb->rcv_nxt;
925   pcb->snd_wnd = TCP_WND;
926   /* As initial send MSS, we use TCP_MSS but limit it to 536.
927      The send MSS is updated when an MSS option is received. */
928   pcb->mss = (TCP_MSS > 536) ? 536 : TCP_MSS;
929 #if TCP_CALCULATE_EFF_SEND_MSS 
930   pcb->mss = tcp_eff_send_mss(pcb->mss, ipaddr);
931 #endif /* TCP_CALCULATE_EFF_SEND_MSS */
932   pcb->cwnd = 1;
933   pcb->ssthresh = pcb->mss * 10;
934 #if LWIP_CALLBACK_API
935   pcb->connected = connected;
936 #else /* LWIP_CALLBACK_API */  
937 #endif /* LWIP_CALLBACK_API */
938
939   /* Send a SYN together with the MSS option. */
940   ret = tcp_enqueue_flags(pcb, TCP_SYN);
941   if (ret == ESUCCESS) {
942     /* SYN segment was enqueued, changed the pcbs state now */
943     pcb->state = SYN_SENT;
944     TCP_RMV(&tcp_bound_pcbs, pcb);
945     TCP_REG(&tcp_active_pcbs, pcb);
946     //snmp_inc_tcpactiveopens();
947
948     tcp_output(pcb);
949   }
950   return ret;
951 }
952
953 /**
954  * Called every 500 ms and implements the retransmission timer and the timer that
955  * removes PCBs that have been in TIME-WAIT for enough time. It also increments
956  * various timers such as the inactivity timer in each PCB.
957  *
958  * Automatically called from tcp_tmr().
959  */
960 void
961 tcp_slowtmr(void)
962 {
963   struct tcp_pcb *pcb, *prev;
964   uint16_t eff_wnd;
965   uint8_t pcb_remove;      /* flag if a PCB should be removed */
966   uint8_t pcb_reset;       /* flag if a RST should be sent when removing */
967   error_t err;
968
969   err = ESUCCESS;
970
971   ++tcp_ticks;
972
973   /* Steps through all of the active PCBs. */
974   prev = NULL;
975   pcb = tcp_active_pcbs;
976   if (pcb == NULL) {
977     LWIP_DEBUGF(TCP_DEBUG, ("tcp_slowtmr: no active pcbs\n"));
978   }
979   while (pcb != NULL) {
980     LWIP_DEBUGF(TCP_DEBUG, ("tcp_slowtmr: processing active pcb\n"));
981     LWIP_ASSERT("tcp_slowtmr: active pcb->state != CLOSED\n", pcb->state != CLOSED);
982     LWIP_ASSERT("tcp_slowtmr: active pcb->state != LISTEN\n", pcb->state != LISTEN);
983     LWIP_ASSERT("tcp_slowtmr: active pcb->state != TIME-WAIT\n", pcb->state != TIME_WAIT);
984
985     pcb_remove = 0;
986     pcb_reset = 0;
987
988     if (pcb->state == SYN_SENT && pcb->nrtx == TCP_SYNMAXRTX) {
989       ++pcb_remove;
990       LWIP_DEBUGF(TCP_DEBUG, ("tcp_slowtmr: max SYN retries reached\n"));
991     }
992     else if (pcb->nrtx == TCP_MAXRTX) {
993       ++pcb_remove;
994       LWIP_DEBUGF(TCP_DEBUG, ("tcp_slowtmr: max DATA retries reached\n"));
995     } else {
996       if (pcb->persist_backoff > 0) {
997         /* If snd_wnd is zero, use persist timer to send 1 byte probes
998          * instead of using the standard retransmission mechanism. */
999         pcb->persist_cnt++;
1000         if (pcb->persist_cnt >= tcp_persist_backoff[pcb->persist_backoff-1]) {
1001           pcb->persist_cnt = 0;
1002           if (pcb->persist_backoff < sizeof(tcp_persist_backoff)) {
1003             pcb->persist_backoff++;
1004           }
1005           tcp_zero_window_probe(pcb);
1006         }
1007       } else {
1008         /* Increase the retransmission timer if it is running */
1009         if(pcb->rtime >= 0)
1010           ++pcb->rtime;
1011
1012         if (pcb->unacked != NULL && pcb->rtime >= pcb->rto) {
1013           /* Time for a retransmission. */
1014           LWIP_DEBUGF(TCP_RTO_DEBUG, ("tcp_slowtmr: rtime %"S16_F
1015                                       " pcb->rto %"S16_F"\n",
1016                                       pcb->rtime, pcb->rto));
1017
1018           /* Double retransmission time-out unless we are trying to
1019            * connect to somebody (i.e., we are in SYN_SENT). */
1020           if (pcb->state != SYN_SENT) {
1021             pcb->rto = ((pcb->sa >> 3) + pcb->sv) << tcp_backoff[pcb->nrtx];
1022           }
1023
1024           /* Reset the retransmission timer. */
1025           pcb->rtime = 0;
1026
1027           /* Reduce congestion window and ssthresh. */
1028           eff_wnd = MIN(pcb->cwnd, pcb->snd_wnd);
1029           pcb->ssthresh = eff_wnd >> 1;
1030           if (pcb->ssthresh < (pcb->mss << 1)) {
1031             pcb->ssthresh = (pcb->mss << 1);
1032           }
1033           pcb->cwnd = pcb->mss;
1034           LWIP_DEBUGF(TCP_CWND_DEBUG, ("tcp_slowtmr: cwnd %"U16_F
1035                                        " ssthresh %"U16_F"\n",
1036                                        pcb->cwnd, pcb->ssthresh));
1037  
1038           /* The following needs to be called AFTER cwnd is set to one
1039              mss - STJ */
1040           tcp_rexmit_rto(pcb);
1041         }
1042       }
1043     }
1044     /* Check if this PCB has stayed too long in FIN-WAIT-2 */
1045     if (pcb->state == FIN_WAIT_2) {
1046       if ((uint32_t)(tcp_ticks - pcb->tmr) >
1047           TCP_FIN_WAIT_TIMEOUT / TCP_SLOW_INTERVAL) {
1048         ++pcb_remove;
1049         LWIP_DEBUGF(TCP_DEBUG, ("tcp_slowtmr: removing pcb stuck in FIN-WAIT-2\n"));
1050       }
1051     }
1052
1053     /* Check if KEEPALIVE should be sent */
1054     if((pcb->so_options & SO_KEEPALIVE) &&
1055        ((pcb->state == ESTABLISHED) ||
1056         (pcb->state == CLOSE_WAIT))) {
1057 #if LWIP_TCP_KEEPALIVE
1058       if((uint32_t)(tcp_ticks - pcb->tmr) >
1059          (pcb->keep_idle + (pcb->keep_cnt*pcb->keep_intvl))
1060          / TCP_SLOW_INTERVAL)
1061 #else      
1062       if((uint32_t)(tcp_ticks - pcb->tmr) >
1063          (pcb->keep_idle + TCP_MAXIDLE) / TCP_SLOW_INTERVAL)
1064 #endif /* LWIP_TCP_KEEPALIVE */
1065       {
1066         LWIP_DEBUGF(TCP_DEBUG, ("tcp_slowtmr: KEEPALIVE timeout. Aborting connection to %"U16_F".%"U16_F".%"U16_F".%"U16_F".\n",
1067                                 ip4_addr1_16(&pcb->remote_ip), ip4_addr2_16(&pcb->remote_ip),
1068                                 ip4_addr3_16(&pcb->remote_ip), ip4_addr4_16(&pcb->remote_ip)));
1069         
1070         ++pcb_remove;
1071         ++pcb_reset;
1072       }
1073 #if LWIP_TCP_KEEPALIVE
1074       else if((uint32_t)(tcp_ticks - pcb->tmr) > 
1075               (pcb->keep_idle + pcb->keep_cnt_sent * pcb->keep_intvl)
1076               / TCP_SLOW_INTERVAL)
1077 #else
1078       else if((uint32_t)(tcp_ticks - pcb->tmr) > 
1079               (pcb->keep_idle + pcb->keep_cnt_sent * TCP_KEEPINTVL_DEFAULT) 
1080               / TCP_SLOW_INTERVAL)
1081 #endif /* LWIP_TCP_KEEPALIVE */
1082       {
1083         tcp_keepalive(pcb);
1084         pcb->keep_cnt_sent++;
1085       }
1086     }
1087
1088     /* If this PCB has queued out of sequence data, but has been
1089        inactive for too long, will drop the data (it will eventually
1090        be retransmitted). */
1091 #if TCP_QUEUE_OOSEQ
1092     if (pcb->ooseq != NULL &&
1093         (uint32_t)tcp_ticks - pcb->tmr >= pcb->rto * TCP_OOSEQ_TIMEOUT) {
1094       tcp_segs_free(pcb->ooseq);
1095       pcb->ooseq = NULL;
1096       LWIP_DEBUGF(TCP_CWND_DEBUG, ("tcp_slowtmr: dropping OOSEQ queued data\n"));
1097     }
1098 #endif /* TCP_QUEUE_OOSEQ */
1099
1100     /* Check if this PCB has stayed too long in SYN-RCVD */
1101     if (pcb->state == SYN_RCVD) {
1102       if ((uint32_t)(tcp_ticks - pcb->tmr) >
1103           TCP_SYN_RCVD_TIMEOUT / TCP_SLOW_INTERVAL) {
1104         ++pcb_remove;
1105         LWIP_DEBUGF(TCP_DEBUG, ("tcp_slowtmr: removing pcb stuck in SYN-RCVD\n"));
1106       }
1107     }
1108
1109     /* Check if this PCB has stayed too long in LAST-ACK */
1110     if (pcb->state == LAST_ACK) {
1111       if ((uint32_t)(tcp_ticks - pcb->tmr) > 2 * TCP_MSL / TCP_SLOW_INTERVAL) {
1112         ++pcb_remove;
1113         LWIP_DEBUGF(TCP_DEBUG, ("tcp_slowtmr: removing pcb stuck in LAST-ACK\n"));
1114       }
1115     }
1116
1117     /* If the PCB should be removed, do it. */
1118     if (pcb_remove) {
1119       struct tcp_pcb *pcb2;
1120       tcp_pcb_purge(pcb);
1121       /* Remove PCB from tcp_active_pcbs list. */
1122       if (prev != NULL) {
1123         LWIP_ASSERT("tcp_slowtmr: middle tcp != tcp_active_pcbs", pcb != tcp_active_pcbs);
1124         prev->next = pcb->next;
1125       } else {
1126         /* This PCB was the first. */
1127         LWIP_ASSERT("tcp_slowtmr: first pcb == tcp_active_pcbs", tcp_active_pcbs == pcb);
1128         tcp_active_pcbs = pcb->next;
1129       }
1130
1131       TCP_EVENT_ERR(pcb->errf, pcb->callback_arg, ECONNABORTED);
1132       if (pcb_reset) {
1133         tcp_rst(pcb->snd_nxt, pcb->rcv_nxt, &pcb->local_ip, &pcb->remote_ip,
1134           pcb->local_port, pcb->remote_port);
1135       }
1136
1137       pcb2 = pcb;
1138       pcb = pcb->next;
1139                         kmem_cache_free(tcp_pcb_kcache, (void*)pcb2);
1140     } else {
1141       /* get the 'next' element now and work with 'prev' below (in case of abort) */
1142       prev = pcb;
1143       pcb = pcb->next;
1144
1145       /* We check if we should poll the connection. */
1146       ++prev->polltmr;
1147       if (prev->polltmr >= prev->pollinterval) {
1148         prev->polltmr = 0;
1149         LWIP_DEBUGF(TCP_DEBUG, ("tcp_slowtmr: polling application\n"));
1150         TCP_EVENT_POLL(prev, err);
1151         /* if err == ECONNABORTED, 'prev' is already deallocated */
1152         if (err == ESUCCESS) {
1153           tcp_output(prev);
1154         }
1155       }
1156     }
1157   }
1158
1159   
1160   /* Steps through all of the TIME-WAIT PCBs. */
1161   prev = NULL;
1162   pcb = tcp_tw_pcbs;
1163   while (pcb != NULL) {
1164     LWIP_ASSERT("tcp_slowtmr: TIME-WAIT pcb->state == TIME-WAIT", pcb->state == TIME_WAIT);
1165     pcb_remove = 0;
1166
1167     /* Check if this PCB has stayed long enough in TIME-WAIT */
1168     if ((uint32_t)(tcp_ticks - pcb->tmr) > 2 * TCP_MSL / TCP_SLOW_INTERVAL) {
1169       ++pcb_remove;
1170     }
1171     
1172
1173
1174     /* If the PCB should be removed, do it. */
1175     if (pcb_remove) {
1176       struct tcp_pcb *pcb2;
1177       tcp_pcb_purge(pcb);
1178       /* Remove PCB from tcp_tw_pcbs list. */
1179       if (prev != NULL) {
1180         LWIP_ASSERT("tcp_slowtmr: middle tcp != tcp_tw_pcbs", pcb != tcp_tw_pcbs);
1181         prev->next = pcb->next;
1182       } else {
1183         /* This PCB was the first. */
1184         LWIP_ASSERT("tcp_slowtmr: first pcb == tcp_tw_pcbs", tcp_tw_pcbs == pcb);
1185         tcp_tw_pcbs = pcb->next;
1186       }
1187       pcb2 = pcb;
1188       pcb = pcb->next;
1189                         kmem_cache_free(tcp_pcb_kcache, (void*)pcb2);
1190     } else {
1191       prev = pcb;
1192       pcb = pcb->next;
1193     }
1194   }
1195 }
1196
1197
1198 /**
1199  * Deallocates a list of TCP segments (tcp_seg structures).
1200  *
1201  * @param seg tcp_seg list of TCP segments to free
1202  */
1203 void
1204 tcp_segs_free(struct tcp_seg *seg)
1205 {
1206   while (seg != NULL) {
1207     struct tcp_seg *next = seg->next;
1208     tcp_seg_free(seg);
1209     seg = next;
1210   }
1211 }
1212
1213 /**
1214  * Frees a TCP segment (tcp_seg structure).
1215  *
1216  * @param seg single tcp_seg to free
1217  */
1218 void
1219 tcp_seg_free(struct tcp_seg *seg)
1220 {
1221   if (seg != NULL) {
1222     if (seg->p != NULL) {
1223       pbuf_free(seg->p);
1224 #if TCP_DEBUG
1225       seg->p = NULL;
1226 #endif /* TCP_DEBUG */
1227     }
1228                 kmem_cache_free(tcp_segment_kcache, seg);
1229   }
1230 }
1231
1232 /**
1233  * Sets the priority of a connection.
1234  *
1235  * @param pcb the tcp_pcb to manipulate
1236  * @param prio new priority
1237  */
1238 void
1239 tcp_setprio(struct tcp_pcb *pcb, uint8_t prio)
1240 {
1241   pcb->prio = prio;
1242 }
1243
1244 #if TCP_QUEUE_OOSEQ
1245 /**
1246  * Returns a copy of the given TCP segment.
1247  * The pbuf and data are not copied, only the pointers
1248  *
1249  * @param seg the old tcp_seg
1250  * @return a copy of seg
1251  */ 
1252 struct tcp_seg *
1253 tcp_seg_copy(struct tcp_seg *seg)
1254 {
1255   struct tcp_seg *cseg;
1256
1257   cseg = (struct tcp_seg *)kmem_cache_alloc(tcp_segment_kcache, 0);
1258   if (cseg == NULL) {
1259     return NULL;
1260   }
1261   memcpy((uint8_t *)cseg, (const uint8_t *)seg, sizeof(struct tcp_seg)); 
1262   pbuf_ref(cseg->p);
1263   return cseg;
1264 }
1265 #endif /* TCP_QUEUE_OOSEQ */
1266
1267
1268
1269 /**
1270  * Used to specify the argument that should be passed callback
1271  * functions.
1272  *
1273  * @param pcb tcp_pcb to set the callback argument
1274  * @param arg void pointer argument to pass to callback functions
1275  */ 
1276 void
1277 tcp_arg(struct tcp_pcb *pcb, void *arg)
1278 {  
1279   pcb->callback_arg = arg;
1280 }
1281 #if LWIP_CALLBACK_API
1282
1283 /**
1284  * Used to specify the function that should be called when a TCP
1285  * connection receives data.
1286  *
1287  * @param pcb tcp_pcb to set the recv callback
1288  * @param recv callback function to call for this pcb when data is received
1289  */ 
1290 void
1291 tcp_recv(struct tcp_pcb *pcb, tcp_recv_fn recv)
1292 {
1293   pcb->recv = recv;
1294 }
1295
1296 /**
1297  * Used to specify the function that should be called when TCP data
1298  * has been successfully delivered to the remote host.
1299  *
1300  * @param pcb tcp_pcb to set the sent callback
1301  * @param sent callback function to call for this pcb when data is successfully sent
1302  */ 
1303 void
1304 tcp_sent(struct tcp_pcb *pcb, tcp_sent_fn sent)
1305 {
1306   pcb->sent = sent;
1307 }
1308
1309 /**
1310  * Used to specify the function that should be called when a fatal error
1311  * has occured on the connection.
1312  *
1313  * @param pcb tcp_pcb to set the err callback
1314  * @param err callback function to call for this pcb when a fatal error
1315  *        has occured on the connection
1316  */ 
1317 void
1318 tcp_err(struct tcp_pcb *pcb, tcp_err_fn err)
1319 {
1320   pcb->errf = err;
1321 }
1322
1323 /**
1324  * Used for specifying the function that should be called when a
1325  * LISTENing connection has been connected to another host.
1326  *
1327  * @param pcb tcp_pcb to set the accept callback
1328  * @param accept callback function to call for this pcb when LISTENing
1329  *        connection has been connected to another host
1330  */ 
1331 void
1332 tcp_accept(struct tcp_pcb *pcb, tcp_accept_fn accept)
1333 {
1334   pcb->accept = accept;
1335 }
1336 #endif /* LWIP_CALLBACK_API */
1337
1338
1339 /**
1340  * Used to specify the function that should be called periodically
1341  * from TCP. The interval is specified in terms of the TCP coarse
1342  * timer interval, which is called twice a second.
1343  *
1344  */ 
1345 void
1346 tcp_poll(struct tcp_pcb *pcb, tcp_poll_fn poll, uint8_t interval)
1347 {
1348 #if LWIP_CALLBACK_API
1349   pcb->poll = poll;
1350 #else /* LWIP_CALLBACK_API */  
1351   LWIP_UNUSED_ARG(poll);
1352 #endif /* LWIP_CALLBACK_API */  
1353   pcb->pollinterval = interval;
1354 }
1355
1356 /**
1357  * Purges a TCP PCB. Removes any buffered data and frees the buffer memory
1358  * (pcb->ooseq, pcb->unsent and pcb->unacked are freed).
1359  *
1360  * @param pcb tcp_pcb to purge. The pcb itself is not deallocated!
1361  */
1362 void
1363 tcp_pcb_purge(struct tcp_pcb *pcb)
1364 {
1365   if (pcb->state != CLOSED &&
1366      pcb->state != TIME_WAIT &&
1367      pcb->state != LISTEN) {
1368
1369     printd("tcp_pcb_purge\n");
1370
1371 #if TCP_LISTEN_BACKLOG
1372     if (pcb->state == SYN_RCVD) {
1373       /* Need to find the corresponding listen_pcb and decrease its accepts_pending */
1374       struct tcp_pcb_listen *lpcb;
1375       LWIP_ASSERT("tcp_pcb_purge: pcb->state == SYN_RCVD but tcp_listen_pcbs is NULL",
1376         tcp_listen_pcbs.listen_pcbs != NULL);
1377       for (lpcb = tcp_listen_pcbs.listen_pcbs; lpcb != NULL; lpcb = lpcb->next) {
1378         if ((lpcb->local_port == pcb->local_port) &&
1379             (ip_addr_isany(&lpcb->local_ip) ||
1380              ip_addr_cmp(&pcb->local_ip, &lpcb->local_ip))) {
1381             /* port and address of the listen pcb match the timed-out pcb */
1382             LWIP_ASSERT("tcp_pcb_purge: listen pcb does not have accepts pending",
1383               lpcb->accepts_pending > 0);
1384             lpcb->accepts_pending--;
1385             break;
1386           }
1387       }
1388     }
1389 #endif /* TCP_LISTEN_BACKLOG */
1390
1391
1392     if (pcb->refused_data != NULL) {
1393       LWIP_DEBUGF(TCP_DEBUG, ("tcp_pcb_purge: data left on ->refused_data\n"));
1394       pbuf_free(pcb->refused_data);
1395       pcb->refused_data = NULL;
1396     }
1397     if (pcb->unsent != NULL) {
1398       LWIP_DEBUGF(TCP_DEBUG, ("tcp_pcb_purge: not all data sent\n"));
1399     }
1400     if (pcb->unacked != NULL) {
1401       LWIP_DEBUGF(TCP_DEBUG, ("tcp_pcb_purge: data left on ->unacked\n"));
1402     }
1403 #if TCP_QUEUE_OOSEQ
1404     if (pcb->ooseq != NULL) {
1405       LWIP_DEBUGF(TCP_DEBUG, ("tcp_pcb_purge: data left on ->ooseq\n"));
1406     }
1407     tcp_segs_free(pcb->ooseq);
1408     pcb->ooseq = NULL;
1409 #endif /* TCP_QUEUE_OOSEQ */
1410
1411     /* Stop the retransmission timer as it will expect data on unacked
1412        queue if it fires */
1413     pcb->rtime = -1;
1414
1415     tcp_segs_free(pcb->unsent);
1416     tcp_segs_free(pcb->unacked);
1417     pcb->unacked = pcb->unsent = NULL;
1418 #if TCP_OVERSIZE
1419     pcb->unsent_oversize = 0;
1420 #endif /* TCP_OVERSIZE */
1421   }
1422 }
1423
1424 /**
1425  * Purges the PCB and removes it from a PCB list. Any delayed ACKs are sent first.
1426  *
1427  * @param pcblist PCB list to purge.
1428  * @param pcb tcp_pcb to purge. The pcb itself is NOT deallocated!
1429  */
1430 void
1431 tcp_pcb_remove(struct tcp_pcb **pcblist, struct tcp_pcb *pcb)
1432 {
1433   TCP_RMV(pcblist, pcb);
1434
1435   tcp_pcb_purge(pcb);
1436   
1437   /* if there is an outstanding delayed ACKs, send it */
1438   if (pcb->state != TIME_WAIT &&
1439      pcb->state != LISTEN &&
1440      pcb->flags & TF_ACK_DELAY) {
1441     pcb->flags |= TF_ACK_NOW;
1442     tcp_output(pcb);
1443   }
1444
1445   if (pcb->state != LISTEN) {
1446     LWIP_ASSERT("unsent segments leaking", pcb->unsent == NULL);
1447     LWIP_ASSERT("unacked segments leaking", pcb->unacked == NULL);
1448 #if TCP_QUEUE_OOSEQ
1449     LWIP_ASSERT("ooseq segments leaking", pcb->ooseq == NULL);
1450 #endif /* TCP_QUEUE_OOSEQ */
1451   }
1452
1453   pcb->state = CLOSED;
1454
1455   LWIP_ASSERT("tcp_pcb_remove: tcp_pcbs_sane()", tcp_pcbs_sane());
1456 }
1457
1458 #if TCP_CALCULATE_EFF_SEND_MSS
1459 /**
1460  * Calcluates the effective send mss that can be used for a specific IP address
1461  * by using ip_route to determin the netif used to send to the address and
1462  * calculating the minimum of TCP_MSS and that netif's mtu (if set).
1463  */
1464 uint16_t
1465 tcp_eff_send_mss(uint16_t sendmss, ip_addr_t *addr)
1466 {
1467   uint16_t mss_s;
1468   struct netif *outif;
1469
1470   //outif = ip_route(addr);
1471     mss_s = DEFAULT_MTU - IP_HDR_SZ - TCP_HLEN;
1472     /* RFC 1122, chap 4.2.2.6:
1473      * Eff.snd.MSS = min(SendMSS+20, MMS_S) - TCPhdrsize - IPoptionsize
1474      * We correct for TCP options in tcp_write(), and don't support IP options.
1475      */
1476     sendmss = MIN(sendmss, mss_s);
1477   return sendmss;
1478 }
1479 #endif /* TCP_CALCULATE_EFF_SEND_MSS */
1480
1481 const char*
1482 tcp_debug_state_str(enum tcp_state s)
1483 {
1484   return tcp_state_str[s];
1485 }
1486
1487 #if TCP_DEBUG || TCP_INPUT_DEBUG || TCP_OUTPUT_DEBUG
1488 /**
1489  * Print a tcp header for debugging purposes.
1490  *
1491  * @param tcphdr pointer to a struct tcp_hdr
1492  */
1493 void
1494 tcp_debug_print(struct tcp_hdr *tcphdr)
1495 {
1496   LWIP_DEBUGF(TCP_DEBUG, ("TCP header:\n"));
1497   LWIP_DEBUGF(TCP_DEBUG, ("+-------------------------------+\n"));
1498   LWIP_DEBUGF(TCP_DEBUG, ("|    %5"U16_F"      |    %5"U16_F"      | (src port, dest port)\n",
1499          ntohs(tcphdr->src), ntohs(tcphdr->dest)));
1500   LWIP_DEBUGF(TCP_DEBUG, ("+-------------------------------+\n"));
1501   LWIP_DEBUGF(TCP_DEBUG, ("|           %010"U32_F"          | (seq no)\n",
1502           ntohl(tcphdr->seqno)));
1503   LWIP_DEBUGF(TCP_DEBUG, ("+-------------------------------+\n"));
1504   LWIP_DEBUGF(TCP_DEBUG, ("|           %010"U32_F"          | (ack no)\n",
1505          ntohl(tcphdr->ackno)));
1506   LWIP_DEBUGF(TCP_DEBUG, ("+-------------------------------+\n"));
1507   LWIP_DEBUGF(TCP_DEBUG, ("| %2"U16_F" |   |%"U16_F"%"U16_F"%"U16_F"%"U16_F"%"U16_F"%"U16_F"|     %5"U16_F"     | (hdrlen, flags (",
1508        TCPH_HDRLEN(tcphdr),
1509          TCPH_FLAGS(tcphdr) >> 5 & 1,
1510          TCPH_FLAGS(tcphdr) >> 4 & 1,
1511          TCPH_FLAGS(tcphdr) >> 3 & 1,
1512          TCPH_FLAGS(tcphdr) >> 2 & 1,
1513          TCPH_FLAGS(tcphdr) >> 1 & 1,
1514          TCPH_FLAGS(tcphdr) & 1,
1515          ntohs(tcphdr->wnd)));
1516   tcp_debug_print_flags(TCPH_FLAGS(tcphdr));
1517   LWIP_DEBUGF(TCP_DEBUG, ("), win)\n"));
1518   LWIP_DEBUGF(TCP_DEBUG, ("+-------------------------------+\n"));
1519   LWIP_DEBUGF(TCP_DEBUG, ("|    0x%04"X16_F"     |     %5"U16_F"     | (chksum, urgp)\n",
1520          ntohs(tcphdr->chksum), ntohs(tcphdr->urgp)));
1521   LWIP_DEBUGF(TCP_DEBUG, ("+-------------------------------+\n"));
1522 }
1523
1524 /**
1525  * Print a tcp state for debugging purposes.
1526  *
1527  * @param s enum tcp_state to print
1528  */
1529 void
1530 tcp_debug_print_state(enum tcp_state s)
1531 {
1532   LWIP_DEBUGF(TCP_DEBUG, ("State: %s\n", tcp_state_str[s]));
1533 }
1534
1535 /**
1536  * Print tcp flags for debugging purposes.
1537  *
1538  * @param flags tcp flags, all active flags are printed
1539  */
1540 void
1541 tcp_debug_print_flags(uint8_t flags)
1542 {
1543   if (flags & TCP_FIN) {
1544     LWIP_DEBUGF(TCP_DEBUG, ("FIN "));
1545   }
1546   if (flags & TCP_SYN) {
1547     LWIP_DEBUGF(TCP_DEBUG, ("SYN "));
1548   }
1549   if (flags & TCP_RST) {
1550     LWIP_DEBUGF(TCP_DEBUG, ("RST "));
1551   }
1552   if (flags & TCP_PSH) {
1553     LWIP_DEBUGF(TCP_DEBUG, ("PSH "));
1554   }
1555   if (flags & TCP_ACK) {
1556     LWIP_DEBUGF(TCP_DEBUG, ("ACK "));
1557   }
1558   if (flags & TCP_URG) {
1559     LWIP_DEBUGF(TCP_DEBUG, ("URG "));
1560   }
1561   if (flags & TCP_ECE) {
1562     LWIP_DEBUGF(TCP_DEBUG, ("ECE "));
1563   }
1564   if (flags & TCP_CWR) {
1565     LWIP_DEBUGF(TCP_DEBUG, ("CWR "));
1566   }
1567   LWIP_DEBUGF(TCP_DEBUG, ("\n"));
1568 }
1569
1570 /**
1571  * Print all tcp_pcbs in every list for debugging purposes.
1572  */
1573 void
1574 tcp_debug_print_pcbs(void)
1575 {
1576   struct tcp_pcb *pcb;
1577   LWIP_DEBUGF(TCP_DEBUG, ("Active PCB states:\n"));
1578   for(pcb = tcp_active_pcbs; pcb != NULL; pcb = pcb->next) {
1579     LWIP_DEBUGF(TCP_DEBUG, ("Local port %"U16_F", foreign port %"U16_F" snd_nxt %"U32_F" rcv_nxt %"U32_F" ",
1580                        pcb->local_port, pcb->remote_port,
1581                        pcb->snd_nxt, pcb->rcv_nxt));
1582     tcp_debug_print_state(pcb->state);
1583   }    
1584   LWIP_DEBUGF(TCP_DEBUG, ("Listen PCB states:\n"));
1585   for(pcb = (struct tcp_pcb *)tcp_listen_pcbs.pcbs; pcb != NULL; pcb = pcb->next) {
1586     LWIP_DEBUGF(TCP_DEBUG, ("Local port %"U16_F", foreign port %"U16_F" snd_nxt %"U32_F" rcv_nxt %"U32_F" ",
1587                        pcb->local_port, pcb->remote_port,
1588                        pcb->snd_nxt, pcb->rcv_nxt));
1589     tcp_debug_print_state(pcb->state);
1590   }    
1591   LWIP_DEBUGF(TCP_DEBUG, ("TIME-WAIT PCB states:\n"));
1592   for(pcb = tcp_tw_pcbs; pcb != NULL; pcb = pcb->next) {
1593     LWIP_DEBUGF(TCP_DEBUG, ("Local port %"U16_F", foreign port %"U16_F" snd_nxt %"U32_F" rcv_nxt %"U32_F" ",
1594                        pcb->local_port, pcb->remote_port,
1595                        pcb->snd_nxt, pcb->rcv_nxt));
1596     tcp_debug_print_state(pcb->state);
1597   }    
1598 }
1599
1600 /**
1601  * Check state consistency of the tcp_pcb lists.
1602  */
1603 s16_t tcp_pcbs_sane(void)
1604 {
1605   struct tcp_pcb *pcb;
1606   for(pcb = tcp_active_pcbs; pcb != NULL; pcb = pcb->next) {
1607     LWIP_ASSERT("tcp_pcbs_sane: active pcb->state != CLOSED", pcb->state != CLOSED);
1608     LWIP_ASSERT("tcp_pcbs_sane: active pcb->state != LISTEN", pcb->state != LISTEN);
1609     LWIP_ASSERT("tcp_pcbs_sane: active pcb->state != TIME-WAIT", pcb->state != TIME_WAIT);
1610   }
1611   for(pcb = tcp_tw_pcbs; pcb != NULL; pcb = pcb->next) {
1612     LWIP_ASSERT("tcp_pcbs_sane: tw pcb->state == TIME-WAIT", pcb->state == TIME_WAIT);
1613   }
1614   return 1;
1615 }
1616 #endif /* TCP_DEBUG */