Jump to content

AMD-ATI Evergreen TeraScale 2 და Cypress


Recommended Posts

2009 წლის მეოთხე კვარტალში კომპანია AMD-ATI-მ წარმოადგინა ახალი თაობის, "Evergreen" სერიის GPU და მასთან ერთად ამ სერიის 3 წარმომადგენელი - "Cypress" (Radeon HD 5870/5850), "Juniper" (Radeon HD 5770/5750) და Hemlock (Radeon HD 5970). მოდით ცოტა ახლოდან გავეცნოთ ახალი სერიის GPU-ს არქიტექტურას. ვისაც არ აინტერესებს, ახლავე ვთხოვ, დატოვოს დარბაზი!...

პირველ რიგში გთავაზობთ AMD-ATI-ს სარეკლამო პოსტერს, სადაც ნაჩვენებია ჩიპების კოდური სახელწოდებები, ფადრობითი ზომები და გამოსვლის თარიღები:

hgsirrta4xpkmzi1pdgt.jpg

როგორც ხედავთ, Cypress არის "საბაზო" ჩიპი, Hemlock არის უბრალოდ ორი ცალი Cypress, Juniper - Cypress-ის ნახევარი, ხოლო Redwood და Cedar ღმერთმა იცის რამხელაა... რახან ყველა არსებული ჩიპი ფაქტობრივად Cypress-ისგანაა ნაწარმოები, მოდით განვიხილოთ ეს "კიპარისი" და მისი შემადგენელი ნაწილები, რომლებიც ახალი, TeraScale 2 მიკროარქიტექტურითაა შექმნილი...

დავიწყოთ SPU (Stream Processing Unit)-იდან, რომელიც "შეიდერის" სახელითაცაა ცნობილი. აი, Cypress-ის შეიდერის გრაფიკი:

wv81mlwte13zyqkixs.jpg

ცოტა დათითხნილია, მაგრამ არაუშავს... AMD-მ ახალ შეიდერს წარმადობის გაზრდის მიზნით მიუმატა ახალი ბრძანებები და შეამცირა ძველების შესრულების დრო. ამ უკანასკნელში იგულისხმება ის, რომ ბრძანებები, რომელთა შესრულებასაც ადრე ტაქტის ორი, ან მეტი ციკლი სჭირდებოდა, ახლა ერთ ციკლშიც "ეტევა". გარდა ამისა DirectX11-მა მოითხოვა "bit count", "insert" და "extract" ოპერაციების დამატებაც, მაგრამ ყველაზე საინტერესო, რაც Cypress-ში გვხვდება, არის SAD (Sum Of Absolute Differences - აბსოლუტური სხვაობის ჯამი)-ის ბრძანება. SAD ვიდეოს კოდირებისთვის სასიცოცხლო მნიშვნელობის ბრძანებაა და RV770-ს მისი არარსებობის გამო 12 სხვა ოპერაციის ემულაცია სჭირდებოდა, რასაც რათქმაუნდა თან სდევდა გამოთვლის შესასრულებლად დახარჯული უამრავი ტაქტური ციკლი. RV870-ში SAD-ის ჩამატებამ გამოთვლებისთვის საჭირო დრო ერთ ტაქტურ ციკლამდე დაიყვანა, რამაც თავის მხრივ ვიდეოს კოდირების დრო 2-ჯერ შეამცირა. როგორია? ხომაა მაგარი? :spireful: მაგრამ ყველაფერი ასე მარტივი როდია... SAD ბრძანება არ შედის DirectX-ის შემადგენლობაში, ამიტომ ამ უკანასკნელისთვის იგი უსარგებლოა და მხოლოდ ვიდეოების კოდირებისთვის თუ გამოგადგებათ :user: . ახლა რაც შეეხება სხვა ფუნქციებს. Cypress-ის თითოეულ სტრიმ პროცესორს ტაქტის ერთ ციკლში შეუძლია შეასრულოს შემდეგი ოპერაციები:

4 32-ბიტიანი FP MAD, ანუ 4 32-ბიტიანი მოძრავწერტილიანი გამრავლება და შეკრება;

2 64-ბიტიანი FP MUL ან ADD, ანუ 2 64-ბიტიანი მოძრავწერტილიანი გამრავლება ან შეკრება;

1 64-ბიტიანი FP MAD, ანუ ერთი 64-ბიტიანი მოძრავწერტილიანი გამრავლება და შეკრება;

4 24-ბიტიანი Int MUL ან ADD (ეს "int" რას ნიშნავს არ ვიცი, დამეხმარეთ რა);

სპეცფუნქცია - 1 32-ბიტიანი FP MAD.

ახლა გადავიდეთ SIMD (Single Instruction, Multiple Data), იგივე "ვექტორულ პარალელიზმზე", რომელიც სტრიმ პროცესორის "ზემდგომი" ფუნქციაა. SIMD-ის L1 კეში RV770-თან შედარებით გაუმჯობესდა და ტექსტურის ჩატვირთვა 1TB/s სიჩქარით შეუძლია. მართალია ტერაბაიტებზე ლაპარაკი ზედმეტია და რეალურად L1 ტექსტურის კეშის სიდიდე 16KB-ა, მაგრამ მაინც გულს ახარებს ეს 1TB/s :chojinfc: . გარდა ტექსტურის კეშისა თითოეულ SIMD-ს აქვს თავისი 8KB-იანი კეში გამოთვლების ჩასატარებლად და 32KB-იანი "საერთო" მეხსიერება, რომელიც ერთი SIMD-იდან მეორეში ინფორმაციის გადასაცემად გამოიყენება. აი ასე გამოიყურება Cypress-ის თითოეული SIMD ერთეული სქემატურად (ჩიპს სულ 20 ასეთი აქვს):

86ndtbiereobz55fr8i8.jpg

SIMD-ის ტექსტურის ერთეულებიც გადამუშავდა, ძველისგან განსხვავებით მათ კომპრესირებული AA ბუფერების წაკითხვაც შეუძლიათ, რაც მათ გამტარობას ზრდის. გარდა ამისა გაზრდილია ტექსტურის ერთეულების ინტერპოლაციის სიჩქარე. ამ ორმა გაუმჯობესებამ განაპირობა Cypress-ის "texture fillrate"-ს გაზრდა - AMD-ს ცნობით ახალ ჩიპს წამში 68 მილიარდი ორხაზიანი (bilinear) ტექსელის გადამუშავება შეუძლია.

აი ეს კი ყველაფერ ზემოთქმულის გაერთიანებული სქემაა:

q1u73c1x7013cwilezjs.jpg

აქ უკვე კარგად ჩანს 20 ცალი SIMD, L1 და L2 ქეშები და ყველაფერი დანარჩენი.

რათქმაუნდა ვერტექსების გადამამუშავებელში გავერკვიეთ, ROP-შიც ღირსშესანიშნავი არაფერია და ნუ დამაწერინებთ მაგას, წამკითხველები მაინც არ ხართ... უბრალოდ იცოდეთ, რომ Cypress-ის 32ROP აქვს... ჰოდა მივადგეთ "Graphics Engine"-ს, რომელიც პასუხს აგებს გრაფიკის აგებაზე და ფაქტობრივად ROP-ს ეხმარება. აგერ მისი გრაფიკი:

1nnmfrv7f3lrapzj9r8.jpg

მასში შედის ერთი "ტესელატორი", რომელიც DirectX11-ისთვის ეგზომ მნიშვნელოვან ფუნქციას - Hardware Tesselation-ს ასრულებს. მდაბიურის ენით რომ ვსთქვათ, Tesselation არის ის ფუნქცია, რომლის წყალობითაც Dx11-ში მოდელი ბევრად მეტი მრავალკუთხედით იგება, ვიდრე Dx10-ში. თავად ნახეთ:

qbm4d6xmefhkqjp1xtlt.jpg

დანარჩენი კომპონენტები, ანუ ვერტექსის ამწყობი, რასტრული გამოსახულების ამწყობი და Z-ბუფერი სამგანზომილებიანი რასტრული გამოსახულების შესაქმნელად გამოიყენება და როგორც Cypress, ასევე მის წინამორბედ GPU-ებშიც გვხვდება, ასე რომ მათში განსაკუთრებული არაფერია...

საერთო ჯამში "Terascale 2" მიკროარქიტექტურით შექმნილი ჩიპი "Cypress" გრაფიკულად ასე გამოიყურება:

ubbtxg4bdz4hohccb5vx.jpg

აი, პრინციპში სულ ეს არის, რაც "Evergreen" სერიას ასე "განსაკუთრებულს" ხდის. მოდით ახლა ჩამოვწეროთ "Cypress"-ის ტექნიკური მახასიათებლები:

2.15 მილიარდი 40nm-იანი ტრანზისტორი;

1600 სტრიმ პროცესორი (იგივე შეიდერი);

80 ტექსტურის გადამამუშავებელი;

128 Z/Stencil ბუფერი;

32 ფერადი ROP;

GDDR5 ტიპის მეხსიერება 153.6Gb/s თეორიული გამტარობით;

Shader model 5.0;

DirectX11-ის, OpenGL 3.2-ისა და OpenCL 1.0-ის მხარდაჭერა;

აპატარული (და არა პროგრამული) ტესელაცია;

HDR ტექსტურის კომპრესია;

ორმაგი სიზუსტის გამოთვლითი სიმძლავრე - 2.72TeraFLOPS;

ერთმაგი სიზუსტის გამოთვლითი სიმძლავრე - 544 GigaFLOPS;

მრავალკუთხედების წარმადობა - 850 მილიონი მრავალკუთხედი წამში;

მონაცემთა ჩატვირთვის სიჩქარე (32-ბიტიანი) - 272 მილიარდი მონაცემი წამში;

ტექსელის შევსების სიჩქარე (ორხაზიანი ფილტრაციისას) - 68 გიგატექსელი წამში;

პიქსელის შევსების სიჩქარე 27.2 გიგაპიქსელი წამში;

ანტი-ალიასინგის შევსების სიჩქარე - 108.8 გიგაერთეული წამში;

აი, ასეთი არქიტექტურა და მონაცემები აქვს ჩიპს "Cypress", რომელიც ვიზუალურად ასე გამოიყურება:

16dr21imdd9i7ippfj8.jpg

და დგას ასეთ (და მის მსგავს) ვიდეოდაფებში:

6r8ic9pqqayn4kifhdii.jpg

პატივისცემით, მიხეილ რ. hmm2.gif

Link to comment
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...

Important Information

We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue.