büyük bağlam LLM ile tek GPUda 100K+ bağlam mümkün. büyük bağlam LLM için SSD tabanlı offloading, FP16 ve FlashAttention 2 ile VRAM 8-10 GBda kalır.