مسابقهی AMD و NVIDIA، دو کمپانی تولید تراشههای گرافیکی، گاهی به نفع یکی و گاهی به نفع رقیب پیش رفته است. برای معرفی یک معماری جدید همیشه چند مدل از نسل جدید محصولات معرفی میشوند و عملکردشان در بازیها و نرمافزارهای گرافیکی زیر ذرهبین قرار میگیرد تا صحت و سقم ادعای سازنده مشخص شود.
معماری کپلر یک معماری موفق بود که با کارت گرافیک GTX 680 مبتنی بر سیلیکونهای GK110 شروع شد. کارت گرافیکهای قدرتمندی مثل GTX Titan هم از این معماری استفاده میکنند، حتی در سوپرکامپیوتر تایتان واقع در آزمایشگاه ملی Oak Ridge در تِنسی هم از کارت گرافیک تایتان بهره گرفته شده است. معماری بعدی که جانشین کپلر میشود هم باید یک معماری کارآمد و در عین حال کممصرف باشد و مَکسوِل هم دقیقاً همینطور است.
انویدیا پس از Maxwell ابتدا از مدلهای بهینهتر و کممصرفتر شروع میکند
معماری مکسول بر خلاف کپلر که با یک کارت گرافیک قدرتمند شروع کرد، با معرفی دو کارت گرافیک رده متوسط پا به عرصهی ظهور گذاشته است. GTX 750 و GTX 750 Ti دو برادر مکسولی هستند که در میان کارت گرافیکهای خانوادهی GTX 700 که معماری کپلر را دارند، استثناء به حساب میآیند. بنابراین وقتی GTX 750 با 1 گیگابایت حافظهی بافر برای فریمها به قیمت 119 دلار وارد بازار میشود و برادر بزرگترش GTX 750 Ti با 2 گیگابایت حافظه و قیمت 149 دلار به فروش میرسد، تصور نکنید که دو کارت گرافیک دیگر با همان معماری قبلی عرضه شده است.
در نمودار فوق روند طراحی معماریها به تصویر کشیده شده و نکتهی کلیدی در روند طراحی جدید انویدیا مشخص است. انویدیا پس از تگرا کیوان در طراحی تراشههای کممصرف مخصوص وسایل همراه و کارت گرافیکهای قدرتمند و پرمصرف پیسی به این صورت عمل میکند که در ابتدا از مدلهای کممصرف وسایل همراه شروع کرده و سپس آن را ارتقا و تعمیم میدهد تا یک کارت گرافیک رده اول با قدرت پردازشی بالا و مصرف بهینه متولد شود. مکسول نقطهی شروع این تغییر استراتژی به حساب میآید.
GTX 750 و GTX 750 Ti، پیشگامان معماری Maxwell
در جدول زیر مشخصات اصلی این دو کارت گرافیک و مدلهای مشابه از دو نسل قبلی را بررسی کنید:
در معماری مکسول هم مثل کپلر، تعداد زیادی از هستههای پردازشی CUDA به موازات هم فعالیت میکنند. تعداد هستههای CUDA در دو کارت گرافیک جدید به ترتیب 512 و 640 عدد است. به عبارت دیگر به ترتیب 4 و 5 واحد 128 هستهای SMM استفاده شده که در ادامه بیشتر به آن میپردازیم. 16 واحد خروجی رندر و 40 واحد بافت در 750 Ti دیده میشود.
به نمودار بلوکی GTX 750 Ti و 5 واحد SMM آن توجه کنید:
توجه کنید که GTX 660 با وجود اینکه 960 هستهی CUDA دارد، عملکرد بهینهای در قیاس با مکسول ندارد، به عبارت دیگر مکسول از حد و اندازهی خود فراتر عمل میکند. در GK106 یا GTX 660، تراشه 118 میلیمتر مربع مساحت و 1.3 میلیارد ترانزیستور داشت که در مکسول به ترتیب 148 میلیمتر مربع و 1.87 میلیارد است. 43 درصد افزایش سطح و 25 درصد افزایش تعداد ترانزیستور حاصل بهینهسازیهای انجام شده است. بنابراین بیدلیل نیست که GTX 750 Ti با GTX 660 قابل قیاس باشد.
به توان مصرفی توجه کنید، در مکسول یک تغییر جدی وجود دارد که موجب کاهش توان مصرفی تا حد قابل توجه شده است.
سرعت حافظه GDDR5 کمی پایین به نظر میرسد، 5.4 گیگاهرتز، به نظر میرسد که برد مدار چاپی GTX 750 Ti مشابه GTX 660 Ti است، این احتمال وجود دارد که محدودیتهای برد مشکلساز شده است.
سرعت 640 هستهی CUDA در GTX 750 Ti در حالت پایه 1020 مگاهرتز و در حالت بوست 1085 مگاهرتز است. توجه کنید که این سرعتها به مدل مرجعی که انویدیا تولید کرده مربوط میشوند. سایر سازندگان با به کار گرفتن برد مدار چاپی و قطعات بهتر و همچنین خنککاری پیشرفتهتر، سرعتهای بالاتری ارایه خواهند داد.
کارت گرافیک GTX 750 مشابه مدل GTX 750 Ti است با این تفاوت که تعداد هستههای CUDA در آن، 128 عدد کمتر است. توان مصرفی هم 5 وات کمتر است. انویدیا میگوید قدرت GTX 750 سه برابر بیشتر از کارت گرافیک ردهپایین GTX 450 است.
با توجه به تغییر جدی در معماری مکسول، توان مصرفی GTX 750 Ti یا به عبارتی توان طراحی حرارتی آن تنها 60 وات است. یک شکاف PCIe قادر به تأمین توان نهایتاً 75 وات است لذا دو کارت گرافیک مکسولی به هیچ تغذیهی جداگانهای نیاز ندارند و خبری از کابل 6 پین و 8 پین اضافه نیست. این موضوع به ظاهر ساده در بازار پیسی در ارتقای سختافزار بسیار مهم است. به یک مثال ساده از انویدیا توجه کنید:
یک دستاپ با پردازندهی Core i5 هسول را در نظر بگیرید، پردازندهی گرافیکی مجتمع آن HD 4600 است که در اجرای بازی Batman: Arkham Origins با رزولوشن فول اچدی، آنتیالیاسینگ 4X و کیفیت متوسط در تنظیمات گرافیکی، سرعتی برابر با 8 فریم بر ثانیه دارد.
یک کارت گرافیک GTX 750 Ti را به این دستاپ اضافه میکنیم، سرعت از 8 به 53 فریم بر ثانیه افزایش مییابد.
Maxwell چطور بهینه شده تا توان مصرفی کمتری داشته باشد
همانطور که در تصویر زیر مشاهده میکنید، انویدیا در نقشه راه خود دو برابر کردن کارایی مکسول نسبت به کپلر در ازای توان مصرفی برابر را در دستور کار خود قرار داده بود:
شاید مکسول از نظر کارایی و قابلیتهای جدید چندان جالب به نظر نرسد اما توجه کنید که هدف اصلی انویدیا افزایش کارایی در برابر توان مصرفی بوده و تغییرات خوبی در این زمینه اعمال کرده است.
انویدیا در مکسول از همان لیتوگرافی 28 نانومتری سابق بهره برده بنابراین کاهش توان به لیتوگرافی مربوط نمیشود. در واقع تولیدکنندهی بزرگ سیلیکون در تایوان یعنی کمپانی TSMC هنوز لیتوگرافی بهتری برای تولید کارت گرافیکهای جدید آماده نکرده و این موضوع دقیقاً همان مسألهای است که AMD هم با آن روبرو شد و نهایتاً سری جدید کارت گرافیکهای این کمپانی یعنی R200 یا هاوایی با همان لیتوگرافی 28 نانومتری سابق تولید شدند.
نکتهی مهم این است که مهندسین انویدیا از تجربیات خود در طراحی و آزمایش کپلر استفاده کرده و به این نتیجه رسیدهاند که بسیاری از هستههای CUDA در زمان پردازش هم بیکار باقی میمانند و مشکل اینجاست که در این حالت هم انرژی مصرف میکنند. موضوع به منطق کنترلی پردازندهی گرافیکی مربوط میشود که قادر نیست این هستهها را به صورت تکتک خاموش کرده و مانع از هدر رفتن توان الکتریکی شود.
لذا مهندسین طراحی مکسول چند سرنخ از تیم طراحی تراشهی معروف تگرا گرفته و معماری مکسول را بهینه کردند. شایان ذکر تگرا یک سیستم-روی-یک-چیپ برای وسایل همراه است لذا بسیار کممصرف طراحی شده است. قبلاً در بررسی عمیق تراشهی تگرا کیوان به بررسی دقیق معماری آن پرداختیم.
در مکسول منطق یکپارچهی هستهها به اجزایی کوچکتر و مستقل تقسیم شده که هر یک مأمور کنترل کردن تعدادی از هستههای CUDA است. نتیجه این است که وقتی یکی از پردازندهها بیکار است، منطق کنترلکنندهی آن قادر به خاموش کردن موقتی آن است.
واحد حافظه هم بهینه شده که در ادامه به آن میپردازیم. از مسائل اصلی که بگذریم، انویدیا و ایامدی همواره در حال بهینه کردن عملکرد قطعی متناوب کلاک در تراشههای خود بوده و هستند. در مکسول هم نسبت به کپلر تغییرات گیتینگ کلاک وجود دارد ولیکن اهمیت آن نسبت به تقسیم به دستههای کوچکتر، کمتر است.
احتمالاً عملکرد در سطح ترانزیستورها هم بهینه شده باشد ولیکن انویدیا هنوز اطلاعات بیشتری در این زمینه منتشر نکرده است.
انویدیا میگوید این روش کنترلی دقیقتر باعث افزایش 135 درصدی کارایی هر هسته میشود و کارایی کلی پردازندهی گرافیکی را به ازای هر وات توان مصرفی، 2 برابر میکند. باور کردن این ادعا بسیار مشکل است اما با توجه به منطقی که انویدیا بیان کرده، قطعاً بازدهی خوبی خواهد داشت.
بنابراین در طول 4 سال، کارایی مدلهای رده متوسط در ازای هر وات توان مصرفی مطابق نمودار زیر بهینه شده است:
نگاهی دقیقتر به چگونه کار کردن و بهینه شدن توان مصرفی در Maxwell
نگاهی به طراحی شماتیک مالتیپراسِزور کپلر یعنی SMX و مکسول یعنی SMM داشته باشید:
تفاوت SMX و SMM نوظهور کاملاً مشخص است. در SMX از طراحی با 4 واحد زمانبندی و 15 بلوک پردازشی استفاده شده ولیکن SMM به اجزای کوچکتری تقسیم شده است. حالا هر واحد زمانبندی به واحدهای کوچکتری دسترسی دارد اما هنوز هم واحدهای مختلف به هم متصل هستند. در کپلر هر SMX شامل 4 واحد زمانبندی بود که بیشتر منابع پردازشی خود را با هم شریک میشدند و در هر سیکل، هر یک روی یکی از منابع پردازشی کار میکرد اما در SMM هر واحد زمانبندی به تعداد کمتری از بلوکهای پردازشی دسترسی دارد. هستههای ممیز شناوری 32 بیتی یا FP32 CUDA، واحدهایی با کارایی خاص و واحدهای بارگذاری و ذخیرهسازی دیگر به صورت مشترک مورد استفادهی زمانبندها قرار نمیگیرند. تنها واحد بافت و FP64 CUDA هستند که هنوز هم به شکل اشتراکی مورد استفاده قرار میگیرند.
به تصویر زیر توجه کنید:
منابع اشتراکی در کاهش توان مصرفی و البته استفاده بهتر از سطح تراشه موثرند به شرطی که بار پردازشی زیاد باشد و بتوان از طریق بلوکی که در تصویر فوق Crossbar نامیده شده، دستورات پردازشی را به تمام بخشهای اجرایی آن ارسال کرد.
اما در بار پردازشی کم اوضاع به نفع منابع اشتراکی نیست چرا که بسیاری از واحدهای اجرایی بیکار هستند و بلوک Crossbar بیهوده انرژی مصرف میکند. علاوه بر این برای اطلاع از وضعیت هر واحد زمانبندی هم پردازش اضافی نیاز است. بنابراین مدل اجرایی به شکل تصویر زیر مناسبتر خواهد بود:
انویدیا در مورد بازدهی SMM اطلاعات دقیقی ارایه نکرده ولیکن از نظر سطح تراشه به این نتیجه رسیده که یک SMM دارای 128 هستهی CUDA حدود 90 درصد کارایی یک SMX با 192 هستهی CUDA را ارایه میکند و در عین حال مساحت بسیار کمتری دارد.
علاوه بر بهینه کردن چیدمان، تصحیحات کوچک دیگری برای افزایش IPC یا تعداد دستوراتی که در یک سیکل کلاک اجرا میشوند هم اعمال شده است. واحد زمانبندی برای اجتناب از توقف از نو نوشته شده و لذا با استفادهی بهتر از سختافزار موجود، به واحدهای بیشتر برای دستیابی به کارایی بالاتر نیاز نیست. بنابراین سطح تراشه و توان مصرفی کاهش مییابد.
استفاده از باس 128 بیتی در GTX 750 و GTX 750 Ti برای کاهش توان مصرفی
حافظههای GDDR5 در کارت گرافیکهای ردهاول امروزی به کار میروند و کارایی بسیار بالایی دارند، اما توان مورد نیاز هم زیاد است. انویدیا برای دو کارت گرافیک خود که از سیلیکون GM107 بهره میبرند، به فکر استفاده از حافظهی معمولیتر GDDR5 افتاده که پهنای باس آن تنها 128 بیت است. قرار است این دو مدل جانشین GK106 شوند که از باس 192 بیتی استفاده میکند. بنابراین انویدیا کش L2 را به شدت افزایش داده تا ترافیکی که قرار است از باس حافظه عبور کند، کاهش بیابد و مشکل پهنای باند حل شود. در نتیجه کش سطح دوم از 256 کیلوبایت در GK106 به 2 مگابایت در GM107 افزایش یافته است.
البته استفاده از سطح مفید تراشه برای افزایش کش یک جنبهی منفی هم دارد، گاهی بهتر است تعداد واحدهای اجرایی افزایش یابد. اصولاً کش زمانی مفید است که در عملکرد حافظهی اصلی وقفههایی وجود داشته باشد و یا بهینهسازیهای دیگری به کش بیشتر نیاز داشته باشند. انویدیا پس از سالها توازن جدیدی بین اندازهی کش و تعداد واحدهای پردازشی پیدا کرده و به این نتیجه رسیده که بهتر است کش بیشتری در تراشه وجود داشته باشد.
Maxwell و قابلیتهای جدید
معماری کپلر از تکامل اجمالی Fermi به دست آمده بود، حالا مکسول هم تکامل کوچکتر کپلر است. خلاصه بگوییم، از منظر کارایی در بازیها و نرمافزارهای گرافیکی تغییر خاصی دیده نمیشود، اما امکانات انگشتشماری در مکسول وجود دارد که مفید واقع میشوند.
مکسول با Direct3D 11 سازگار است به این صورت که قابلیتهای نسخهی 11.0 را پشتیبانی کرده و بیشتر قابلیتهای نسخهی فرعی 11.1 و 11.2 را هم پشتیبانی میکند. شاید این عادت انویدیاست که از نسخههای فرعی سریعاً استقبال نمیکند چرا که در گذشته هم به نسخهی 10.1 توجه زیادی نشان نداده بود. با توجه به بازار خوب محصولات انویدیا، احتمالاً در سال جاری عناوین جدید بازیها بر مبنای نسخهی 11.1 یا 11.2 عرضه نمیشوند و در واقع سازندگان بازیها، همان نسخهی اصلی 11.0 را مورد توجه قرار خواهند داد.
دو مدل کارت گرافیک مکسولی رونمایی شده درست مثل سایر اعضای سری 700 هستند، به این معنی که همان قابلیتها را دارند. حتی امکانات نرمافزاری اکوسیستم انویدیا مثل GameWorks، NVENC و G-Sync هم مثل کپلریهاست.
واسط حافظه در دو مدل جدید 128 بیتی است. 4 کنترلر نمایشگر در نظر گرفته شده، درست مثل کپلر. حداقل 2 پورت دو لینکی DVI و 1 پورت mini HDMI در دو مدل رونمایی شده وجود دارد. DisplayPort 1.2 انتخابی است. دقت کنید که برای استفاده از تکنولوژی G-Sync که به نمایشگر و تطبیق بهتر فرکانس کاری آن و کارت گرافیک مربوط میشود، داشتن DisplayPort الزامی است. HDMI 1.4 هم پورت اصلی است.
Maxwell و اینکُد یا فشردهسازی سختافزاری ویدیو
در سالهای اخیر کدکهای صوتی و تصویری پیشرفت کرده و حجم فایلهای مالتیمدیا کاهش یافته است. اما در عوض برای باز کردن یک فایل ویدیویی با رزولوشن بالا، درصد زیادی از پردازندهی اصلی مشغول میشود مگر اینکه decode یا رمزگشایی و به عبارت دیگر از حالت فشرده خارج کردن آن به صورت سختافزاری انجام شود. در همین راستا تراشهها به پردازندههای اختصاصی برای encode و decode انواع کدکها تجهیز میشوند.
انویدیا در تراشههای گرافیکی خود بخشی به نام NVENC دارد که در واقع موتور اینکد ویدیو است. این بخش در مکسول به شدت ارتقا یافته در حدی که انویدیا میگوید مکسول بین 1.5 تا 2 برابر سریعتر از کپلر اینکد یا به عبارتی فشردهسازی میکند. اگر سرعت اینکد را با سرعت ویدیو مقایسه کنیم، مکسول بین 6 تا 8 برابر سریعتر از سرعت ویدیو، عمل رمزگذاری یا اینکد را انجام میدهد.
علاقه مندی ها (Bookmarks)