すみません、少し書き漏れました。
一般的なTCP送信アルゴリズムは、「通信相手の受信ウィンドウサイズに空きがあればACKが返ってこなくてもお構いなしに送信する」です。
このように実装するためには、通信相手の受信ウィンドウサイズの最大値(0xffff=64KB)の容量の送信バッファが必要です。
しかも、通信相手が複数同時に居る場合は通信相手の数分だけ64KBの送信バッファが要ります。もちろん受信ウィンドウも要ります。
従って、多くの(オープンソース系)組み込み用TCP/IPは多くのマイコンで動作させることを優先し、
バッファサイズを制限し通信速度を犠牲にしたのだと思います。
組み込みソフトを専業でやっているソフトウェアハウスのTCP/IPの場合、この辺りが柔軟に設定できるものがあると聞きますので
本格的に量産製品を作られる場合は一度ソフトウェアハウスに相談してみるのが良いかと思います。