본문 바로가기
팁 & 테크

인텔 프로세서의 발자취 : 4부 (Core)

by 테리™ 2009. 1. 1.
반응형

인텔은 넷버스트(Netburst) 아키텍처를 데스크톱 시장부터 서버 시장까지 사용했다. 하지만 모바일 시장에서는 넷버스트 아키텍처를 사용하지 않고, P6 아키텍처를 계승한 새로운 프로세서를 등장시켰다.

펜티엄-M(Pentium-M)이라는 이름의 이 프로세서는 P6 아키텍처의 고효율을 가지고, 적은 전력소비와 고성능을 갖추어 나오면서부터 모바일 시장을 뒤흔들기에 충분했다. 이 프로세서와 모바일용 메인보드 칩셋, 무선랜 모듈을 묶어서 만든 센트리노 플랫폼은 이후 x86 계열 노트북의 표준 플랫폼으로 자리잡았다.

한편, 넷버스트 아키텍처는 프레스캇 코어에 이르러 그 한계를 드러내기 시작했다. 생각만큼 올라가지 않는 클럭과 점점 심해지는 전력 소비와 발열은 여러 모로 골칫거리였다. 특히 이 전력 소비와 발열 문제는 듀얼 코어 프로세서가 등장하면서 더 문제가 되었는데, 하나만 해도 불덩이같은 코어를 제한된 공간 안에 두 개를 올리는 건 여러 모로 쉽지 않은 문제였다.

결국 인텔은 시더밀 코어 이후 두 개의 구조로 가던 프로세서 라인을 정리하게 된다. 넷버스트 아키텍처를 시더밀 프로세서를 마지막으로 접고, 모바일 쪽의 P-M 코어를 개량하여 데스크톱, 모바일 시장에 같이 투입하였다. 이것이 바로 현재 프로세서 시장을 평정하고 있는 코어(Core) 마이크로아키텍처다.

저전력, 고효율, 고성능. 'One Shot Three Kill'


▲ 코어 마이크로아키텍처는 업계에 큰 충격을 던지며 등장했다.

코어 마이크로아키텍처는 처음 등장하면서 모바일 시장은 물론이고, 데스크톱, 서버 시장까지도 많은 충격을 던졌다. 기존의 넷버스트 아키텍처에서는 볼 수 없었던 저전력소모와, 클럭 대비 압도적인 성능을 보여주었기 때문이다.

넷버스트 아키텍처 기반의 펜티엄 D에 비해 코어 아키텍처로 처음 일반 소비자 시장에 나온 콘로 코어의 프로세서는 같은 클럭에서 40% 적은 전력소모로 40% 높은 성능을 나타냈다. 모바일에서조차 기존의 P-M 아키텍처에 비해 소비전력 면에서 더 유리했다.

코어 아키텍처는 넷버스트 아키텍처와 비교해서는 물론이고, 기존의 P-M 아키텍처와 비교해서도 많은 점이 바뀌었다. 클럭당 효율을 높이기 위해 다양한 기술이 도입되었으며, 파이프라인 또한 짧은 파이프라인을 다수 배치하는 전통적인 구조로 돌아갔다. 코어 아키텍처의 파이프라인은 14단계로 이루어져 있으며 이는 프레스캇의 31단계에 비하면 절반 이상 짧다.


▲ 코어 마이크로아키텍처는 네이티브 듀얼 코어를 전제로 설계되었다.

코어 아키텍처가 가지는 이전의 아키텍처와의 가장 큰 차이점은 설계 당시부터 ‘네이티브 듀얼 코어’로 설계되었다는 것이다. 넷버스트 기반 듀얼 코어 프로세서처럼 단순히 프로세서 코어 두 개를 같이 패키징한 것이 아니라 설계 단계부터 하나의 자원을 두 개의 연산 코어가 공유하도록 설계되어 높은 효율을 보여준다.

네이티브 듀얼 코어의 이점은 코어 두 개가 공유하는 L2 캐시에서 찾을 수 있다. 인텔에서는 이 공유 L2 캐시를 어드밴스드 스마트 캐시(Advanced Smart Cache)라고 부른다. 서로 다른 캐시를 사용함으로 발생하는 캐시 간의 동기화에 들어가는 대역폭을 줄이고 접근 시간을 줄일 수 있으며, 트랜지스터의 낭비와 전력 소비까지 줄일 수 있다.

또한 이 캐시와 메모리의 최적화를 위해 스마트 메모리 액세스(Smart Memory Access)를 사용한다. 향상된 프리패처(Prefetcher)를 사용해 메모리 접근 효율을 높이고, 캐시의 효율을 최대한으로 끌어올렸다.

명령어 처리에는 와이드 다이나믹 실행(Wide Dynamic Execution)을 적용했다. 각 연산 단계에서 여러 개의 명령어를 한 번에 처리할 수 있게 해 주는 기술인데, 이는 최대 4개의 x86 명령어를 적은 수의 내부 마이크로코드로 변환해서 처리하는 기술이다. P6나 P-M, 넷버스트 아키텍처에서는 최대 3개까지 가능했지만, 코어에 와서는 4개로 늘어나 이 부분에서 최대 33%의 성능 향상을 낼 수 있게 되었다.

SSE 처리에도 변화가 있었다. 넷버스트 아키텍처의 SSE 실행기는 64비트 구조를 가지고 있었다. 128비트 길이의 SSE 명령어는 64비트 명령어 두 개로 나눠 처리해야 했다. 코어 아키텍처에서는 이 SSE 실행기의 폭을 128비트로 늘려, 기존에 64비트로 두 번 처리해야 할 것을 한 번으로 끝낼 수 있게 했다. 이를 인텔에서는 어드밴스드 디지털 미디어 부스트(Advanced Digital Media Boost)라고 부른다.

또한 새로운 SSE 연산기를 위해 새로운 명령어인 SSSE3(Supplemental SSE3)를 도입했다. SSE3의 또 다른 명령어라고 할 수도 있는 이 명령어 세트는 32개의 명령어로 이루어져 있으며 64비트 MMX나 128비트 XMM 레지스터로 동작한다.

한편, 코어 아키텍처에서는 프로세서의 전력 소비에도 큰 신경을 썼다. 이는 태생이 모바일에 가까운 것도 있지만, 이 아키텍처가 그대로 모바일에도 들어간 이유도 컸다. 코어 아키텍처에는 전원 관리 기능으로 기존의 넷버스트에도 사용되었던 EIST(Enhanced Intel Speedstep Technology)와 C1E 등의 기술이 총동원되었다.

이런 노력 덕분에 프로세서의 사용이 심하지 않은 경우에는 클럭과 전압을 낮추고, 사용하지 않는 연산 유닛에는 전원 공급을 끊어버리는 등 기존에 보지 못했던 강력한 전원 관리 기능이 도입되었다. 이로 인해 코어 마이크로아키텍처 기반 프로세서에 와서는 AMD처럼 프로세서의 TDP(Thermal Design Power)를 정규클럭 사용시의 최대치로 표기되게 되었다.

'듀얼 코어'로의 완전한 세대 교체

인텔은 코어 아키텍처를 발표하면서, 10년 이상 인텔의 상징이었던 '펜티엄'(Pentium) 브랜드를 과감히 버리기로 했다. 그리고 코어 아키텍처에서 사용한 이름은 아키텍처 이름과 같은 '코어'(Core) 브랜드였다. 브랜드명을 바꾼 것은 펜티엄과의 차별화와 함께 변화의 의지를 보인 것으로 해석할 수 있다. 하지만 결국 펜티엄 브랜드는 위치가 바뀌어 계속 쓰이고 있다.

처음 코어 브랜드를 달고 등장한 프로세서는 사실 모바일에서 먼저 나왔다. P-M 아키텍처 기반의 코드명 요나(Yonah)가 코어 솔로(Core Solo), 코어 듀오(Core Duo)로 등장하였기 때문이다. 결국 코어 아키텍처의 첫 프로세서들은 처음인데도 불구하고 코어 2 브랜드를 달고 나오는 나름 섭섭한 등장을 하게 되었다.

처음 코어 2 듀오(Core 2 Duo)브랜드로 등장한 데스크톱용 프로세서는 코드명 콘로(Conroe)로, 처음 등장할 때는 L2 캐시 2MB, 클럭 속도는 2GHz 전후로 등장했다. 클럭 속도가 펜티엄 D에 비해 상당히 낮았음에도 실 성능은 펜티엄 D를 압도하기에 충분했고, 펜티엄 D는 빠른 속도로 코어 2 듀오로 대체되었다.

원래 콘로 코어는 L2 캐시 4MB로 설계된 코어이다. 하지만 초기에 출시된 E6300, 6400은 캐시 4MB 중 절반을 막고 출시되었으며, 이후 4MB를 모두 사용한 6320, 6420이 출시되어 라인업을 늘려나갔다.

E6300에 사용된 L2 2MB의 콘로 코어는 코드명 앨런데일(Allendale)로 따로 분류되어, E4000 계열로 출시되었으며, E6300,6400은 콘로 코어와 앨런데일 코어 두 종류가 존재하지만 별도로 구분하지는 않는다. E4000계열은 콘로 코어에서 L2 캐시를 줄이고, VT 기능을 제외하여 가격을 낮춘 프로세서이다.

한편, 이 앨런데일 코어는 펜티엄 브랜드와 셀러론 브랜드로도 출시되었다. 예전 펜티엄 브랜드는 고성능 프로세서의 상징이었지만, 현재의 펜티엄 브랜드는 저가의 프로세서 라인업에 사용되고 있다. 앨런데일 코어의 펜티엄 프로세서는 E2000 시리즈로 출시되었으며, 국내에서도 저렴한 가격에 좋은 성능을 보여주어 많은 인기를 끌었다.

셀러론 또한 모두 코어 아키텍처 기반으로 교체되었다. 싱글 코어 셀러론은 400 시리즈로 등장했으며, 기존 넷버스트 코어 셀러론에 비해 높은 성능을 보여 주었지만, 시장의 대세가 듀얼 코어로 넘어간 상황에서 큰 반향은 없었다. 또 '셀러론 220' 프로세서가 조용히 등장했는데, 이는 메롬(Merom) 코어의 모바일 셀러론이다.


▲ 45nm 기반 '펜린'과 '울프데일' 코어는 또 한번 혁신을 이루어 냈다.

콘로 코어는 시장의 중심을 듀얼 코어로 확실히 옮기고, 경쟁사 대비 확실한 우위를 굳혀주었다. 인텔은 이 성공적인 콘로 코어의 후계자로 데스크톱용으로는 울프데일(Wolfdale), 모바일용으로는 펜린(Penryn) 코어를 출시했다. 이 둘은 기존의 메롬(Merom)과 콘로(Conroe)처럼 같은 아키텍처를 기반으로 하고 있으며, 펜린은 모바일에, 울프데일은 데스크톱 이상에서 사용된다는 정도의 차이가 있다.

울프데일 코어는 45nm 공정을 도입했다. 공정의 미세화로 인해 칩 자체의 크기를 줄일 수 있었으며, 줄어든 자리에 L2 캐시를 보강하여 성능을 높였다. High-k 메탈 게이트를 사용하여 한계 클럭을 근본적으로 끌어올렸으며, L2 캐시의 적중률과 대역폭의 개선, SSE4.1 등이 추가되어 콘로 코어에 비해 개선된 성능을 보인다.

High-k 메탈 게이트와 개선된 공정은 더 적은 전력 소모와 발열면에서의 개선을 가져왔으며, 처음 도입한 45nm 공정은 높은 생산성을 보여주어 출시 초기 흔히 겪는 공급량 문제도 피해갈 수 있었다.

울프데일은 처음 등장할 때부터 기존의 콘로가 가진 최고클럭에 근접하는 클럭 속도를 기본적으로 가지고 등장했다. 또한 더 높은 클럭의 프로세서를 빠르게 내놓아 듀얼 코어 시장에서는 짧은 시간에 기존의 콘로를 대체할 수 있었다. 이는 높은 생산성을 기반으로 하여, 콘로와 거의 같은 가격에 내놓아 자연스럽게 콘로를 대체하게 한 가격 정책 또한 한 몫 했다.

울프데일은 데스크톱 라인업에서 고급형으로 등장한 E8000, 보급형으로 등장한 E7000, 펜티엄 브랜드의 E5000 시리즈에 사용되었다. 이들 간의 차이는 L2 캐시와 FSB, VT기술 정도가 있다. L2 캐시의 성능 의존도가 비교적 높은 인텔 프로세서에서, FSB와 L2 캐시의 양을 조절하여 제품 라인업을 구성하는 것은 가장 편리하고도 효과적인 방법 중의 하나였고, 울프데일에 와서도 이는 예외가 아니었다.

'듀얼 코어'를 넘어, 이제는 '쿼드 코어'

코어 아키텍처는 설계할 때부터 ‘네이티브 듀얼 코어’로 디자인되었다. 그리고, 인텔은 이를 사용해 한 프로세서 안에 네 개의 코어를 탑재한 쿼드 코어 프로세서를 소개했다. 인텔의 쿼드 코어 프로세서는 ‘코어 2 쿼드(Core 2 Quad)' 브랜드명을 가지고 있으며, 코어 아키텍처의 하이엔드급 프로세서로 등장했다.

쿼드 코어 프로세서는 시장에 또 다른 충격을 던져 주었다. 예전까지는 쿼드 코어 시스템을 사용하기 위해서는 싱글 코어 프로세서의 4way 구성이 가능한 시스템이나, 듀얼 코어 프로세서의 2way 구성으로 사용했어야 했다.

그런데 이 구성은 보통 제온 라인업에서 지원했다. 가격은 또 일반적인 용도로 쓰기엔 엄두를 내기 힘들 정도였다. 하지만 쿼드 코어 프로세서가 등장하면서, 일반적으로 많이 쓰이는 저렴한 단일 프로세서 기반 시스템에서도 비슷한 효과를 볼 수 있게 되었다.

쿼드 코어 프로세서는 처음 등장했을 때는 상당히 높은 가격대를 자랑했지만, 가격의 점차적인 하락과 함께 프로그램들의 멀티스레드 지원이 늘어나면서 현재는 쿼드 코어 프로세서의 대중화가 이루어지고 있다.

인텔의 코어 아키텍처 기반 쿼드 코어 프로세서는 크게 코드명 ‘켄츠필드(Kentsfield)’와 '요크필드(Yorkfield)‘ 두 가지 종류가 있다. 켄츠필드는 콘로 코어 두 개를 예전 프레슬러에서 사용했던 것처럼 멀티칩 패키징을 통해 하나의 프로세서로 만든 것이다. 두 코어는 FSB를 통해 연결되며, 외부적으로는 하나의 프로세서이지만 내부적으로는 두 개의 듀얼 코어 프로세서와 다를 바 없이 동작한다.

멀티칩 패키징을 통해 만든 켄츠필드는 콘로 코어를 그대로 사용하여 비교적 손쉽게 만들 수 있었다. 하지만 FSB를 통해 코어가 연결되는 구조였기 때문에 FSB의 병목 현상이 문제가 되었고, 이로 인해 성능에서 다소 손해를 보는 구조이다. 그렇지만 실질적으로 시장에서 켄츠필드의 경쟁자는 없었고, 이런 단점은 쿼드 코어가 주는 다양한 장점에 가려지고 말았다.


▲ '멀티칩 패키징'을 사용한 코어 2 쿼드 프로세서

요크필드 프로세서는 기존의 켄츠필드와 마찬가지로, 듀얼 코어 라인업의 울프데일 코어 두 개를 멀티칩 패키징을 통해 만들어냈다. 울프데일이 가진 저전력소비와 고효율성 덕분에, 요크필드 또한 켄츠필드에 비해 저전력소모와 고성능을 보여주었다. FSB 1333MHz를 사용하여 켄츠필드에 비해 병목 현상을 개선한 것 또한 빼놓을 수 없다.

요크필드에 이르러서 인텔은 쿼드 코어 프로세서의 대중화에 대해 생각하게 되었다. 켄츠필드 시절의 라인업은 상징적인 의미가 강한 플래그쉽급 하이엔드 라인업이었지만, 요크필드에 이르러서는 쿼드 코어 프로세서의 위치를 메인스트림까지 생각하게 되었으며, 고가형 뿐만 아니라 보급형까지 다양한 라인업이 등장하였다.

요크필드에서 각 라인업은 L2 캐시의 용량과 부가 기능으로 차별화되며 캐시의 용량에 따라 총 4MB의 L2 캐시를 가지는 Q8000 시리즈, VT 기능을 가진 6MB L2 캐시의 Q9000 시리즈, 12MB L2 캐시를 지니는 Q9050 시리즈가 출시되었으며, Q8000 시리즈는 인텔의 쿼드 코어 프로세서 중에서 가장 저렴한 가격을 무기로 하고 있다.

이 라인업은 현재 인텔이 듀얼 코어 프로세서 라인업에서 사용하는 코어들과 정확히 일치하는데, 이런 식으로 빠른 변경과 제품 출시가 가능하다는 것 또한 멀티칩 패키징 덕분이다.

한편, 쿼드 코어 라인업의 익스트림 프로세서에서는 아주 독특한 제품이 존재한다. QX9775가 바로 그 주인공인데, 스컬트레일(Skulltrail) 플랫폼과 함께 소개된 이 프로세서는 일반 데스크톱용 제품군 중 유일하게 듀얼 프로세서 구성을 지원한다.

소켓 또한 일반적으로 사용되는 LGA775가 아니라 LGA771을 사용하는데, 사실 이 프로세서는 데스크톱용 프로세서 코어인 '요크필드'라 부르기보다는 코드명 '하퍼타운'(Harpertown)인 제온 프로세서라 부르는 게 맞다. 

더 높아지고 넓어진, '제온'(Xeon)의 입지

제온 프로세서 라인업에서도 코어 아키텍처는 큰 변화를 몰고 왔다. 넷버스트 아키텍처가 가진 고발열, 고전력소비가 해결되면서 최근의 화두인 데이터센터에서의 ‘그린 IT'를 자연스럽게 구현할 수 있었다. 이외에도, 다중 코어 시스템의 도입이 본격화되어 x86 기반의 서버의 처리 성능이 대폭 올랐다는 장점이 더해졌다.

코어 아키텍처에 들어오면서 제온 라인업에는 워크스테이션을 위한 프로세서 라인업이 추가되었다. 새로 추가된 3000번대 라인업은 데스크톱 메인보드에서 쓰는 LGA775를 사용하고, 단일 프로세서 구성만을 지원하여 주로 소규모 워크스테이션 레벨에서 쓰였다.

제온에서의 첫 3000번대 프로세서는 기존의 데스크톱용 코어 2 시리즈에 사용되던 코어를 그대로 사용했다. 싱글 프로세서 구성만을 지원하며, LGA775를 사용하는 등 데스크톱 라인업의 코어 2 시리즈와 차이가 없다.

경쟁 상대로는 AMD에서 비슷한 위치에 있던 옵테론 100/1200 시리즈가 있다. 데스크톱 라인업과 비슷하게 모델명 마지막 자리 5번이 달린 3065,3075,3085는 FSB 1333MHz를 사용하는 모델이다.

65nm 기반의 코어 아키텍처에서 듀얼 프로세서를 지원하는, 제대로 된 제온은 5100번대 제품이다. 코드명 우드크레스트(Woodcrest)인 이 프로세서는 콘로 코어와 같은 사양을 가지며, 듀얼 프로세서 지원이 추가된 제품군이다. LGA771을 사용하며, 저전압 버전 프로세서도 출시되었다.

듀얼 코어 라인업에서 7000번대 제품은 특별하다. 7000번대의 듀얼 코어 제온은 7200번대 라인업을 가지는데, 이 프로세서는 일반적인 한 개의 듀얼 코어 칩이 아니라, 멀티 칩 패키징을 사용해 쿼드 코어로 만들어진 코드명 타이거톤(Tigerton)에서 코어 2개를 막고 출시된 것이다. L2 캐시 또한 쿼드 코어 라인업에서나 볼 수 있는 두 개의 L2 캐시를 가지고 있다.

한편, 데스크톱 라인업에서 45nm 공정이 발표되고, 이를 사용한 제온 프로세서도 빠르게 발표되었다. 이전까지만 해도 5000번대 이상의 프로세서는 데스크톱용 코어의 코드명과 다른, 별도의 코드명을 가지고 있었지만 45nm 코어에 이르러서는 데스크톱과 서버 모두 울프데일 코드명을 그대로 사용했다.

3100번대 제품은 코드명 울프데일을 그대로 사용하며, 3000번대와 마찬가지로 데스크톱용 프로세서와 같은 사양의 제품으로 출시되었다. 45nm에서의 듀얼 프로세서 지원 제온은 5200번대의 번호를 사용하며, 저전압 버전 등 다양한 제품이 출시되었다. 최근 시장에서 널리 공급되고 있는 주력 제품들이 이 라인업이다.

제온에서 쿼드 코어 프로세서의 등장은 또 한번의 혁신을 몰고 왔다. 3000번대 라인업에서는 단일 프로세서로 만들 수 있는 신뢰성 높은 훌륭한 워크스테이션을 비교적 저렴한 가격으로 사용할 수 있었다. 또한 5000번대 이상의 라인업에서는 기존에 비해 두 배의 처리 능력 향상을 기대할 수 있었다. 특히 7000번대 라인업에서는 4way로 최대 16개의 코어를 한 시스템에 탑재할 수 있었으며, x86이 가지는 호환성과 16코어가 주는 병렬 처리 성능은 기업 사용자에게 상당히 매력적이었다.

3000번대 제온에서 쿼드코어 라인업은 3200번과 3300번으로 명명되었다. 3200번은 데스크톱의 켄츠필드를 그대로 사용했으며, 3300번은 요크필드에 대응된다. 싱글 프로세서 구성 만을 지원하고 LGA775에서 그대로 사용할 수 있었다. 5000번대의 쿼드 코어 제온 프로세서의 라인업은 5300, 5400번을 사용하며, 듀얼 코어 라인업에 사용했던 코어의 멀티칩 패키징으로 쿼드 코어를 구현했다. 저전압 버전 또한 출시되었으며, LGA771을 사용한다.

코드명 하퍼타운(Harpertown)의 제온 시리즈는 데스크톱 라인업에서도 찾아볼 수 있다. 스컬트레일 플랫폼과 함께 등장한 '코어 2 익스트림 QX9775'가 그것이다. 예전에도 제온 프로세서가 익스트림 라인업으로 깜짝 출현한 적은 있었지만, 소켓조차 바꾸지 않고 전용 플랫폼으로, 듀얼 프로세서 지원을 내세워 등장한 것은 이번이 처음이다.


▲ 한 칩 위에 6개의 코어를 올린 '제온 7400 프로세서'

7000번대의 쿼드 코어 프로세서는 상당히 이채롭다. 7300번대의 타이거톤 프로세서는 지금까지와 마찬가지로 우드크래프트 코어 두 개를 멀티칩 패키징으로 구현했다. 하지만 L2 캐시 구성에서 다양한 구성이 존재하며, 소켓 604를 사용해 예전의 시스템들과 물리적인 호환성은 갖추고 있다.

가장 최근에 등장한 45nm 기반의 7000번대 프로세서는 코드명 더닝턴(Dunnington)인 7400번대 프로세서다. 이 프로세서는 지금까지의 쿼드 코어 프로세서처럼 멀티칩 패키징을 사용하지 않았다. 한 칩 위에 6개의 코어를 올렸으며 모든 코어가 공유하는 대용량 L3 캐시로 이를 묶어 디자인되었다. 코어 아키텍처 기반의 제온 프로세서로는 유일하게 L3 캐시를 가진 프로세서이다.

대용량의 L3 캐시를 올린 덕분에 45nm 공정을 사용했음에도 기존의 프로세서와는 단위가 다른 트랜지스터 집적 수를 보여준다. 또한 소켓 604를 사용해서 7300번대 프로세서를 사용하던 시스템에서 업그레이드가 용이하며, 4way에서 24 코어를 사용할 수 있다.

코어 개수가 처리량과 직결되는 기업 시장에서 하나의 프로세서에 6개의 코어가 들어갔다는 것은 처리량 대 부피비나 전력소비량 등에서 대단히 유리하게 작용한다. 때문에 일반 x86 서버 수요자 뿐만 아니라, HPC 시장에서도 상당한 관심을 보였다.

한편, 제온 라인업에서 모델명 앞에 붙는 E/L/X등의 알파벳은 TDP와 포지셔닝 등을 나타낸다. E는 일반적인 라인업과 TDP를 가지고 있으며 주로 100W 이내의 TDP에서 사용된다. L은 저전압 프로세서에서 사용하며, X는 각 계열에서 높은 클럭과 높은 TDP를 가지는 프로세서가 주로 사용한다. TDP 80W나 100W 이상에서 X를 주로 채택한다.

  Copyright ⓒ Acrofan All Right Reserved
반응형

댓글