GeForce 8
维基百科,自由的百科全书
NVIDIA GeForce 8 Series | |
---|---|
代號 | G80 |
發佈日期 | 2006年11月 |
入門級 GPU | 待定 |
中端 GPU | GeForce 8600,GeForce 8500 |
高端 GPU | GeForce 8800 |
DirectX 版本 | 10 |
GeForce 8系列,代號G80,是NVIDIA的第八代GeForce顯示晶片。在7900 GTX发布后八个月,nVidia於2006年11月推出GeForce 8800 GTX,它是建基於G80核心。G80是全球首款支援DirectX 10的顯示晶片,核心的架构和技术比前代GeForce 7系列顯示晶片有很大的不同。縱使它是為DirectX 10而設計,但由於架構的改進,G80在DirectX9环境下仍可以發揮出強大的效能。
目录 |
[编辑] DirectX 10的改進
縱使DirectX受人歡迎,但是DirectX 9的規格始終為遊戲開發者帶來限制。在圖形API誕生前,當時的程式開發者能利用指令來控制顯示卡。但不同的架構就需要不同的指令,這就造成兼容性問題。為此,業界為了統一規格,就發展出最普遍的DirectX和OpenGL兩種規格。縱使API能解決兼容性問題,但是衍生出新的問題。在3D環境中,所有東西都以物件方式存在,而物件的運算則順序由程式、API和驅動程式之間傳輸。而CPU必須參與這個過程。物件愈多,CPU負荷愈重。所以物件數量不能過多,但畫面質素就不能大幅提升。 新的DirectX 10則解決了這個問題。當物件第一次運算時,CPU會參與這個過程,但到了第二次時,CPU不會再參與這個過程。物件數量就能大幅提升,畫質就能相應提高。
除了以上措施能減低CPU負擔,DirectX 10亦新增了兩個減低CPU負擔的功能。
[编辑] 纹理阵列
以往,多紋理轉換動作使用大量CPU資源。DirectX 10的纹理阵列功能能解決這個問題。在每个纹理阵列中,最多可以保存512個同样大小的纹理。纹理的最高解像度由DirectX 9的4096x4096提升至8192x8192。每一個Shader能使用128個纹理,為上一代DirectX 9的8倍。Render Targets由4個增加到8個。所以在DirectX 10中,物件有更多細節,更富真實感。
[编辑] 繪製斷言
在一個3D場景中,物件會遮住其他物件,不會在畫面顯示。預早偵測出不會在畫面顯示的物件,能減少不必要的運算,增加資源。雖然以往的顯示核心已擁有這個功能,但始終有些物件不會被預早偵測。程式設計者會採用繪製斷言這個技術,將物件製作成方塊,當方塊不能在前景中顯示,就可以省下該物件的運算。過往這個過程需要CPU介入,但在DirectX 10中,顯示核心完全負責這個過程,增加CPU資源。
[编辑] Shader Model 4.0
DirectX 10採用Shader Model 4.0版本,進一步減少資源限制。例如Register的資源不足問題。
以下為減少資源限制的措施的列表:
- Temporary Registers Buffers:4096
- Constant Registers Buffers:65536
[编辑] Higher Level Shading Lanagage(HLSL)
它在DirectX 9中首次出現。在DirectX 10中,會採用HLSL 10版本。亦新增纹理阵列功能(請參考上面)。
改进列表:
- 常數缓存:渲染過程中需要很多常數,来定义各样的参数[1],例如身件的位置,光线的颜色,觀察者的位置等等。在渲染過程中,常數會不斷被更新。更新時就需要到常數缓存。DirectX 10的常數缓存容量是DirectX 9的16倍,而且架构更有效率。
- Views:以往在頂點著色器的缓存無法被像素著色器利用,反之亦然。这就限制了很多资源的利用。DirectX 10就解決了這個問題。当资源被著色器建立後,就成為数据块,並且用Views结构标示出來。這樣资源就可以以不同方式利用得到。例如图形数据被像素著色器处理成纹理数据,頂點著色器能將纹理数据处理成几何数据[2]。這樣资源就能夠被靈活運用。
- Integer and Bitwise Instructions:不用將浮点數據转换成整数數據就能直接进行整数算法,GPGPU的处理能力就能提高。
- Switch Statement:支持转换陈述,簡易著色编程的线路计算。
[编辑] HDR
DirectX 10支援兩種新的HDR模式。第一種採用11-Bit紅色和綠色、10-Bit藍色。另一種採用5-Bit共享運算,另加每一種顔色以9-Bit作尾數運算。新的HDR模式能增加資源使用效率。DirectX 10亦支援FP32,提高HDR質素。G80提供全新的128bit精度的HDR運算,並可與抗鋸齒技術同時運作,讓HDR+AA不再是ATI的專利。
[编辑] Geometry Shader(幾何著色引擎)
DirectX 10首次加入Geometry Shader,功用是將點、線、及三角連接起來,以為此過程由頂點著色器負責。它能有效提升模板陰影特效、動態立方體貼圖和位移貼圖的執行效率。它能減少CPU的負擔,增加系統資源。當頂點著色引擎產生出一組頂點數據後,隨後的幾何著色引擎能將數據化成最高1024個頂點,即是將數據頂點數據增多。幾何著色引擎亦可將多餘的頂點數據除去,增加顯示核心的運算效率。
幾何著色引擎能使位移貼圖技術配合鑲嵌圖形技術。位移貼圖十分常見,通常用於非即時3D渲染中。位移貼圖的原理是首先建構一個簡單的平面模型,然後增加頂點數量。顯示核心會根據一張灰階紋理,去將該平面模型立體化。而鑲嵌圖形技術則會把一個模型鑲嵌更多多邊形,增加細節。
上一代的DirectX 9並不可以完好的支援鑲嵌圖形技術。DirectX 10的幾何著色引擎就解決了這個問題。位移貼圖技術和鑲嵌圖形技術可一同進行運算,物件表面更真實。
此外,幾何著色引擎的運算結果能直接傳送到顯示記憶體中,不用通過像素著色引擎,提升效率。將來,顯示核心能集中處理物理運算。
[编辑] 其它DirectX 10的改进
- Alpha to coverage:复杂的几何图形通常会被透明多边形代替,例如树叶和鐵絲網這些重复性很高的物件。想像一塊平面,標示透明和不透明地方後,渲染後就成為鐵絲網。但透明和不透明的连接地方會有很多锯齿,雖然利用Alpha渲染可以解决問題,但性能损失十分大。Alpha to coverage能減少性能损失。
- 阴影帖图过滤:減少阴影的锯齿,使之更柔和。
- Access to Multi-sampling Sub-Samples:可以存取MSAA的子样本,並控制它。
[编辑] GeForce 8架構
GeForce 8採用統一管線結構。傳統顯示核心的架構分為頂點著色引擎和像素著色引擎。當頂點著色引擎負荷很重時,像素著色引擎可能閒置著,反之亦然。這就造成顯示核心運算能力不被充分發揮,浪費資源。DirectX 10將頂點著色、幾何著色和像素著色合併成一個渲染流程。所以每一個統一流处理器都能處理頂點、幾何和像素數據,不會有閒置問題,效率顯著提升。
G80顯示核心擁有128個流处理器,每16個為一組,每一組有8個材质过滤单元和4個材质寻址单元,每一組流处理器都擁有L1和l2緩衝記憶体。G80可同時執行過千個執行緒,nVidia稱之為GigaThread技術。某程度上,nVidia參考了ATI的設計,使其顯示核心能進行異類運算工作,例如物理運算和影像編碼。
物理運算方面,G80已作出強化,nVidia稱之為Quantum Effects技術,效率比CPU高很多。
nVidia終於加入Early-Z技術,它的目的與繪製斷言相似,但原理不一樣。現先介紹一下Z缓存技术,通过测试像素深度和缓存数据比较,可測量到每一个像素的最后位置。若像素被其他像素遮挡住,被遮挡住的像素的數據则會被去掉。但很多無用的像素數據沒有去掉,依然通過像素流水線,造成資源浪費。基於以往的技術限制,要預先偵測無用像素數據,必需通過整條像素流水線。Early-Z技術能解決這個問題。像素數據在進入像素著色器前,會預先被偵測,若果是無用的數據,就不用通過像素單位,省下資源。理論上,支援Early-Z技術的8800GTX比7900 GTX快4倍去篩選无用的像素數據。
G80可并行计算材质數據,而不用像以往的顯示核心般,存有等待時間。
[编辑] Lumenex 引擎
G80的強化畫質引擎稱為Lumenex,它支援Anti-Aliasing(反鋸齒技術)、High Dynamic Range和Anisotropic Filtering(各向异性过滤)。反鋸齒方面,將同時利用覆盖采样和几何採樣。這個新模式稱為Coverage Sample Anti-aliasing(CSAA),程度分為8x、8xQ、16x和16xQ。其中的Q版本畫質較高。CSAA 16x的画质比常规反锯齿4x好,但是性能趺幅相近。縱使CSAA 16x影像質素高,但當遊戲採用大量模板陰影時,會影響到CSAA運算效率。
各向异性过滤方面,G80加入了Angular LOD控制,能有效加强锐利度。
影像輸出方面,G80支援10-Bit(十億種色彩)影像輸出,比上一代的8-Bit(一干六百萬種色彩)影像輸出質素大幅提升。但比ATI遲了一代。
[编辑] PureVideo HD
GeForce 8800系列顯示卡都支援HDCP(High-bandwidth Digital Content Protection)。HDCP會保護HDTV、Blu-Ray及HD-DVD的影像內容,防止非法拷貝。不支援HDCP的顯示卡,解像度會強行由1080p降至540p。
它亦支援新一代PureVideo HD技術,首次支援高清影訊雜訊消除和邊緣強化技術。在HQV影像測試中,取得128分高分,為現時最佳成績。它除了支援720p、1080i及1080p等解像度外,並支援H.264 、VC-1、WMV-HD及MPEG-HD硬件解碼。
[编辑] GeForce 8800系列
G80於2006年11月8日推出。高階形號為GeForce 8800,核心擁有6億8千1百萬個電晶體,為上一代G70的兩倍。現時有兩個高階形號,分別是GTX和GTS版本。G80採用90奈米制程由TSMC代工。GTX版本會取代GeForce 7950GX2,GTS版本則取代GeForce 7900GTX。
GeForce 8800GTX(G80-300)擁有128個統一流處理器,64個Texture Filtering Unit,32個Texture Address Unit和 24個光柵操作單元。核心頻率是575MHz,但部份流處理器的頻率是1.35GHz,運算效能高達520 gigaflops。G80最高支援384-Bit顯示記憶體頻寬,最高顯示記憶體容量為768MB,預設顯示記憶體頻率是1.8GHz。
GeForce 8800GTX顯示卡長10.5吋,功耗達185W,需要兩組外接電源。GeForce 8800GTX需採用450W電源供應器驅動,若只插入一個電源接口,顯示卡會降低核心頻率。縱使卡上擁有兩個MIO接口,但現時只需接上一個接口即可開啟SLI模式。顯示卡板上多了一顆晶片,名為NVIO-1。它負責所有顯示輸出,包括模擬和數碼輸出。未來若追加新顯示輸出制式,例如HDMI和VideoPort,就只需推出新的NVIO晶片,不需更改顯示核心設計。
GeForce 8800GTS(G80-100)是G80核心的平價版本,核心與GTX版本相同,規格差異請看下表。它擁有48個Texture Filtering Unit、24個Textyre Address Unit和20個光柵操作單元。顯示卡長9吋,功耗是150W,需採用400W電源供應器驅動,只需一組外接電源。卡上擁有一個MIO接口。
技術一覽表:[3]
形號 | 推出日期 | 核心代號 | 製程 (納米) | 核心最高頻率(MHz) | 最高填充率 (billion texel/s) | 著色器 | 顯示記憶体 | |||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
流處理器 | 頻率 (MHz) | 頻寬 (GB/s) | 匯流排種類 | 頻寬 (bit) | 容量MB | 頻率 (MHz) | ||||||
GeForce 8800GTX | 2006年11月8日 | G80-300 | 90 | 575 | 36.8 | 128 | 675 | 86.4 | GDDR3 | 384 | 768 | 1800 |
GeForce 8800GTS | 2006年11月8日 | G80-100 | 90 | 500 | 24 | 96 | 600 | 64 | GDDR3 | 320 | 640 | 1600 |
GeForce 8800GTS | 2007年1月8日 | G80-100 | 90 | 500 | 24 | 96 | 1200 | 64 | GDDR3 | 320 | 320 | 1600 |
[编辑] 更多資訊
[编辑] 參考
[编辑] 外部連結
- NVIDIA主頁
- NVIDIA的GeForce 8系列
- Guru 3d Review of Geforce 8
- 硬派网 - DX10时代到来 G80详尽解析和全面测试
- 硬派网 - G80画质探询 抗锯齿材质过滤全面测试
- 中关村在线 - 离电影画质有多远?详谈DX10最新特效
|
|