مسابقه‌ی AMD و NVIDIA، دو کمپانی تولید تراشه‌های گرافیکی، گاهی به نفع یکی و گاهی به نفع رقیب پیش رفته است. برای معرفی یک معماری جدید همیشه چند مدل از نسل جدید محصولات معرفی می‌شوند و عملکردشان در بازی‌ها و نرم‌افزارهای گرافیکی زیر ذره‌بین قرار می‌گیرد تا صحت و سقم ادعای سازنده مشخص شود.

معماری کپلر یک معماری موفق بود که با کارت گرافیک GTX 680 مبتنی بر سیلیکون‌های GK110 شروع شد. کارت گرافیک‌های قدرتمندی مثل GTX Titan هم از این معماری استفاده می‌کنند، حتی در سوپرکامپیوتر تایتان واقع در آزمایشگاه ملی Oak Ridge در تِنسی هم از کارت گرافیک تایتان بهره گرفته شده است. معماری بعدی که جانشین کپلر می‌شود هم باید یک معماری کارآمد و در عین حال کم‌مصرف باشد و مَکسوِل هم دقیقاً همین‌طور است.
انویدیا پس از Maxwell ابتدا از مدل‌های بهینه‌تر و کم‌مصرف‌تر شروع می‌کند

معماری مکسول بر خلاف کپلر که با یک کارت گرافیک قدرتمند شروع کرد، با معرفی دو کارت گرافیک رده متوسط پا به عرصه‌ی ظهور گذاشته است. GTX 750 و GTX 750 Ti دو برادر مکسولی هستند که در میان کارت گرافیک‌های خانواده‌ی GTX 700 که معماری کپلر را دارند، استثناء به حساب می‌آیند. بنابراین وقتی GTX 750 با 1 گیگابایت حافظه‌ی بافر برای فریم‌ها به قیمت 119 دلار وارد بازار می‌شود و برادر بزرگ‌ترش GTX 750 Ti با 2 گیگابایت حافظه و قیمت 149 دلار به فروش می‌رسد، تصور نکنید که دو کارت گرافیک دیگر با همان معماری قبلی عرضه شده است.

در نمودار فوق روند طراحی معماری‌ها به تصویر کشیده شده و نکته‌ی کلیدی در روند طراحی جدید انویدیا مشخص است. انویدیا پس از تگرا کی‌وان در طراحی تراشه‌های کم‌مصرف مخصوص وسایل همراه و کارت گرافیک‌های قدرتمند و پرمصرف پی‌سی به این صورت عمل می‌کند که در ابتدا از مدل‌های کم‌مصرف وسایل همراه شروع کرده و سپس آن را ارتقا و تعمیم می‌دهد تا یک کارت گرافیک رده اول با قدرت پردازشی بالا و مصرف بهینه متولد شود. مکسول نقطه‌ی شروع این تغییر استراتژی به حساب می‌آید.
GTX 750 و GTX 750 Ti، پیشگامان معماری Maxwell

در جدول زیر مشخصات اصلی این دو کارت گرافیک و مدل‌های مشابه از دو نسل قبلی را بررسی کنید:

در معماری مکسول هم مثل کپلر، تعداد زیادی از هسته‌های پردازشی CUDA به موازات هم فعالیت می‌کنند. تعداد هسته‌های CUDA در دو کارت گرافیک جدید به ترتیب 512 و 640 عدد است. به عبارت دیگر به ترتیب 4 و 5 واحد 128 هسته‌ای SMM استفاده شده که در ادامه بیشتر به آن می‌پردازیم. 16 واحد خروجی رندر و 40 واحد بافت در 750 Ti دیده می‌شود.
به نمودار بلوکی GTX 750 Ti و 5 واحد SMM آن توجه کنید:

توجه کنید که GTX 660 با وجود اینکه 960 هسته‌ی CUDA دارد، عملکرد بهینه‌ای در قیاس با مکسول ندارد، به عبارت دیگر مکسول از حد و اندازه‌ی خود فراتر عمل می‌کند. در GK106 یا GTX 660، تراشه 118 میلی‌متر مربع مساحت و 1.3 میلیارد ترانزیستور داشت که در مکسول به ترتیب 148 میلی‌متر مربع و 1.87 میلیارد است. 43 درصد افزایش سطح و 25 درصد افزایش تعداد ترانزیستور حاصل بهینه‌سازی‌های انجام شده است. بنابراین بی‌دلیل نیست که GTX 750 Ti با GTX 660 قابل قیاس باشد.
به توان مصرفی توجه کنید، در مکسول یک تغییر جدی وجود دارد که موجب کاهش توان مصرفی تا حد قابل توجه شده است.
سرعت حافظه GDDR5 کمی پایین به نظر می‌رسد، 5.4 گیگاهرتز، به نظر می‌رسد که برد مدار چاپی GTX 750 Ti مشابه GTX 660 Ti است، این احتمال وجود دارد که محدودیت‌های برد مشکل‌ساز شده است.
سرعت 640 هسته‌ی CUDA در GTX 750 Ti در حالت پایه 1020 مگاهرتز و در حالت بوست 1085 مگاهرتز است. توجه کنید که این سرعت‌ها به مدل مرجعی که انویدیا تولید کرده مربوط می‌شوند. سایر سازندگان با به کار گرفتن برد مدار چاپی و قطعات بهتر و همچنین خنک‌کاری پیشرفته‌تر، سرعت‌های بالاتری ارایه خواهند داد.
کارت گرافیک GTX 750 مشابه مدل GTX 750 Ti است با این تفاوت که تعداد هسته‌های CUDA در آن، 128 عدد کمتر است. توان مصرفی هم 5 وات کمتر است. انویدیا می‌گوید قدرت GTX 750 سه برابر بیشتر از کارت گرافیک رده‌پایین GTX 450 است.
با توجه به تغییر جدی در معماری مکسول، توان مصرفی GTX 750 Ti یا به عبارتی توان طراحی حرارتی آن تنها 60 وات است. یک شکاف PCIe قادر به تأمین توان نهایتاً 75 وات است لذا دو کارت گرافیک مکسولی به هیچ تغذیه‌ی جداگانه‌ای نیاز ندارند و خبری از کابل 6 پین و 8 پین اضافه نیست. این موضوع به ظاهر ساده در بازار پی‌سی در ارتقای سخت‌افزار بسیار مهم است. به یک مثال ساده از انویدیا توجه کنید:
یک دستاپ با پردازنده‌ی Core i5 هسول را در نظر بگیرید، پردازنده‌ی گرافیکی مجتمع آن HD 4600 است که در اجرای بازی Batman: Arkham Origins با رزولوشن فول ‌اچ‌دی، آنتی‌الیاسینگ 4X و کیفیت متوسط در تنظیمات گرافیکی، سرعتی برابر با 8 فریم بر ثانیه دارد.

یک کارت گرافیک GTX 750 Ti را به این دستاپ اضافه می‌کنیم، سرعت از 8 به 53 فریم بر ثانیه افزایش می‌یابد.
Maxwell چطور بهینه شده تا توان مصرفی کمتری داشته باشد

همان‌طور که در تصویر زیر مشاهده می‌کنید، انویدیا در نقشه راه خود دو برابر کردن کارایی مکسول نسبت به کپلر در ازای توان مصرفی برابر را در دستور کار خود قرار داده بود:

شاید مکسول از نظر کارایی و قابلیت‌های جدید چندان جالب به نظر نرسد اما توجه کنید که هدف اصلی انویدیا افزایش کارایی در برابر توان مصرفی بوده و تغییرات خوبی در این زمینه اعمال کرده است.
انویدیا در مکسول از همان لیتوگرافی 28 نانومتری سابق بهره برده بنابراین کاهش توان به لیتوگرافی مربوط نمی‌شود. در واقع تولیدکننده‌ی بزرگ سیلیکون در تایوان یعنی کمپانی TSMC هنوز لیتوگرافی بهتری برای تولید کارت گرافیک‌های جدید آماده نکرده و این موضوع دقیقاً همان مسأله‌ای است که AMD هم با آن روبرو شد و نهایتاً سری جدید کارت گرافیک‌های این کمپانی یعنی R200 یا هاوایی با همان لیتوگرافی 28 نانومتری سابق تولید شدند.
نکته‌ی مهم این است که مهندسین انویدیا از تجربیات خود در طراحی و آزمایش کپلر استفاده کرده و به این نتیجه رسیده‌اند که بسیاری از هسته‌های CUDA در زمان پردازش هم بی‌کار باقی می‌مانند و مشکل اینجاست که در این حالت هم انرژی مصرف می‌کنند. موضوع به منطق کنترلی پردازنده‌ی گرافیکی مربوط می‌شود که قادر نیست این هسته‌ها را به صورت تک‌تک خاموش کرده و مانع از هدر رفتن توان الکتریکی شود.
لذا مهندسین طراحی مکسول چند سرنخ از تیم طراحی تراشه‌ی معروف تگرا گرفته و معماری مکسول را بهینه کردند. شایان ذکر تگرا یک سیستم-روی-یک-چیپ برای وسایل همراه است لذا بسیار کم‌مصرف طراحی شده است. قبلاً در بررسی عمیق تراشه‌ی تگرا کی‌وان به بررسی دقیق معماری آن پرداختیم.
در مکسول منطق یکپارچه‌ی هسته‌ها به اجزایی کوچک‌تر و مستقل تقسیم شده که هر یک مأمور کنترل کردن تعدادی از هسته‌های CUDA است. نتیجه این است که وقتی یکی از پردازنده‌ها بی‌کار است، منطق کنترل‌کننده‌ی آن قادر به خاموش کردن موقتی آن است.
واحد حافظه هم بهینه شده که در ادامه به آن می‌پردازیم. از مسائل اصلی که بگذریم، انویدیا و ای‌ام‌دی همواره در حال بهینه کردن عملکرد قطعی متناوب کلاک در تراشه‌های خود بوده و هستند. در مکسول هم نسبت به کپلر تغییرات گیتینگ کلاک وجود دارد ولیکن اهمیت آن نسبت به تقسیم به دسته‌های کوچک‌تر، کمتر است.
احتمالاً عملکرد در سطح ترانزیستورها هم بهینه شده باشد ولیکن انویدیا هنوز اطلاعات بیشتری در این زمینه منتشر نکرده است.
انویدیا می‌گوید این روش کنترلی دقیق‌تر باعث افزایش 135 درصدی کارایی هر هسته می‌شود و کارایی کلی پردازنده‌ی گرافیکی را به ازای هر وات توان مصرفی، 2 برابر می‌کند. باور کردن این ادعا بسیار مشکل است اما با توجه به منطقی که انویدیا بیان کرده، قطعاً بازدهی خوبی خواهد داشت.

بنابراین در طول 4 سال، کارایی مدل‌های رده متوسط در ازای هر وات توان مصرفی مطابق نمودار زیر بهینه شده است:

نگاهی دقیق‌تر به چگونه کار کردن و بهینه شدن توان مصرفی در Maxwell

نگاهی به طراحی شماتیک مالتی‌پراسِزور کپلر یعنی SMX و مکسول یعنی SMM داشته باشید:


تفاوت SMX و SMM نوظهور کاملاً مشخص است. در SMX از طراحی با 4 واحد زمان‌بندی و 15 بلوک پردازشی استفاده شده ولیکن SMM به اجزای کوچک‌تری تقسیم شده است. حالا هر واحد زمان‌بندی به واحدهای کوچک‌تری دسترسی دارد اما هنوز هم واحد‌های مختلف به هم متصل هستند. در کپلر هر SMX شامل 4 واحد زمان‌بندی بود که بیشتر منابع پردازشی خود را با هم شریک می‌شدند و در هر سیکل، هر یک روی یکی از منابع پردازشی کار می‌کرد اما در SMM هر واحد زمان‌بندی به تعداد کمتری از بلوک‌های پردازشی دسترسی دارد. هسته‌های ممیز شناوری 32 بیتی یا FP32 CUDA، واحد‌هایی با کارایی خاص و واحد‌های بارگذاری و ذخیره‌سازی دیگر به صورت مشترک مورد استفاده‌ی زمان‌بندها قرار نمی‌گیرند. تنها واحد بافت و FP64 CUDA هستند که هنوز هم به شکل اشتراکی مورد استفاده قرار می‌گیرند.
به تصویر زیر توجه کنید:

منابع اشتراکی در کاهش توان مصرفی و البته استفاده بهتر از سطح تراشه موثرند به شرطی که بار پردازشی زیاد باشد و بتوان از طریق بلوکی که در تصویر فوق Crossbar نامیده شده، دستورات پردازشی را به تمام بخش‌های اجرایی آن ارسال کرد.
اما در بار پردازشی کم اوضاع به نفع منابع اشتراکی نیست چرا که بسیاری از واحدهای اجرایی بی‌کار هستند و بلوک Crossbar بیهوده انرژی مصرف می‌کند. علاوه بر این برای اطلاع از وضعیت هر واحد زمان‌بندی هم پردازش اضافی نیاز است. بنابراین مدل اجرایی به شکل تصویر زیر مناسب‌تر خواهد بود:

انویدیا در مورد بازدهی SMM اطلاعات دقیقی ارایه نکرده ولیکن از نظر سطح تراشه به این نتیجه رسیده که یک SMM دارای 128 هسته‌ی CUDA حدود 90 درصد کارایی یک SMX با 192 هسته‌ی CUDA را ارایه می‌کند و در عین حال مساحت بسیار کمتری دارد.
علاوه بر بهینه کردن چیدمان، تصحیحات کوچک دیگری برای افزایش IPC یا تعداد دستوراتی که در یک سیکل کلاک اجرا می‌شوند هم اعمال شده است. واحد زمان‌بندی برای اجتناب از توقف از نو نوشته شده و لذا با استفاده‌ی بهتر از سخت‌افزار موجود، به واحدهای بیشتر برای دستیابی به کارایی بالاتر نیاز نیست. بنابراین سطح تراشه و توان مصرفی کاهش می‌یابد.
استفاده از باس 128 بیتی در GTX 750 و GTX 750 Ti برای کاهش توان مصرفی

حافظه‌های GDDR5 در کارت گرافیک‌های رده‌اول امروزی به کار می‌روند و کارایی بسیار بالایی دارند، اما توان مورد نیاز هم زیاد است. انویدیا برای دو کارت گرافیک خود که از سیلیکون GM107 بهره می‌برند، به فکر استفاده از حافظه‌ی معمولی‌تر GDDR5 افتاده که پهنای باس آن تنها 128 بیت است. قرار است این دو مدل جانشین GK106 شوند که از باس 192 بیتی استفاده می‌کند. بنابراین انویدیا کش L2 را به شدت افزایش داده تا ترافیکی که قرار است از باس حافظه عبور کند، کاهش بیابد و مشکل پهنای باند حل شود. در نتیجه کش سطح دوم از 256 کیلوبایت در GK106 به 2 مگابایت در GM107 افزایش یافته است.
البته استفاده از سطح مفید تراشه برای افزایش کش یک جنبه‌ی منفی هم دارد، گاهی بهتر است تعداد واحدهای اجرایی افزایش یابد. اصولاً کش زمانی مفید است که در عملکرد حافظه‌ی اصلی وقفه‌هایی وجود داشته باشد و یا بهینه‌سازی‌های دیگری به کش بیشتر نیاز داشته باشند. انویدیا پس از سال‌ها توازن جدیدی بین اندازه‌ی کش و تعداد واحدهای پردازشی پیدا کرده و به این نتیجه رسیده که بهتر است کش بیشتری در تراشه وجود داشته باشد.
Maxwell و قابلیت‌های جدید

معماری کپلر از تکامل اجمالی Fermi به دست آمده بود، حالا مکسول هم تکامل کوچک‌تر کپلر است. خلاصه بگوییم، از منظر کارایی در بازی‌ها و نرم‌افزارهای گرافیکی تغییر خاصی دیده نمی‌شود، اما امکانات انگشت‌شماری در مکسول وجود دارد که مفید واقع می‌شوند.
مکسول با Direct3D 11 سازگار است به این صورت که قابلیت‌های نسخه‌ی 11.0 را پشتیبانی کرده و بیشتر قابلیت‌های نسخه‌ی فرعی 11.1 و 11.2 را هم پشتیبانی می‌کند. شاید این عادت انویدیاست که از نسخه‌های فرعی سریعاً استقبال نمی‌کند چرا که در گذشته هم به نسخه‌ی 10.1 توجه زیادی نشان نداده بود. با توجه به بازار خوب محصولات انویدیا، احتمالاً در سال جاری عناوین جدید بازی‌ها بر مبنای نسخه‌ی 11.1 یا 11.2 عرضه نمی‌شوند و در واقع سازندگان بازی‌ها، همان نسخه‌ی اصلی 11.0 را مورد توجه قرار خواهند داد.
دو مدل کارت گرافیک مکسولی رونمایی شده درست مثل سایر اعضای سری 700 هستند، به این معنی که همان قابلیت‌ها را دارند. حتی امکانات نرم‌افزاری اکوسیستم انویدیا مثل GameWorks، NVENC و G-Sync هم مثل کپلری‌هاست.

واسط حافظه در دو مدل جدید 128 بیتی است. 4 کنترلر نمایش‌گر در نظر گرفته شده، درست مثل کپلر. حداقل 2 پورت دو لینکی DVI و 1 پورت mini HDMI در دو مدل رونمایی شده وجود دارد. DisplayPort 1.2 انتخابی است. دقت کنید که برای استفاده از تکنولوژی G-Sync که به نمایشگر و تطبیق بهتر فرکانس کاری آن و کارت گرافیک مربوط می‌شود، داشتن DisplayPort الزامی است. HDMI 1.4 هم پورت اصلی است.
Maxwell و اینکُد یا فشرده‌سازی سخت‌افزاری ویدیو

در سال‌های اخیر کدک‌های صوتی و تصویری پیشرفت کرده و حجم فایل‌های مالتی‌مدیا کاهش یافته است. اما در عوض برای باز کردن یک فایل ویدیویی با رزولوشن بالا، درصد زیادی از پردازنده‌ی اصلی مشغول می‌شود مگر اینکه decode یا رمزگشایی و به عبارت دیگر از حالت فشرده خارج کردن آن به صورت سخت‌افزاری انجام شود. در همین راستا تراشه‌ها به پردازنده‌های اختصاصی برای encode و decode انواع کدک‌ها تجهیز می‌شوند.

انویدیا در تراشه‌های گرافیکی خود بخشی به نام NVENC دارد که در واقع موتور اینکد ویدیو است. این بخش در مکسول به شدت ارتقا یافته در حدی که انویدیا می‌گوید مکسول بین 1.5 تا 2 برابر سریع‌تر از کپلر اینکد یا به عبارتی فشرده‌سازی می‌کند. اگر سرعت اینکد را با سرعت ویدیو مقایسه کنیم، مکسول بین 6 تا 8 برابر سریع‌تر از سرعت ویدیو، عمل رمزگذاری یا اینکد را انجام می‌دهد.