엔비디아 '블랙웰' GPU, 발열 문제로 빅테크 기업들 고충

글로벌비즈 / 김지선 특파원 / 2026-02-08 15:04:21
최신 GPU 공급 과정서 오작동 발생, AI 서버 구축 난항 겪어
(사진=연합뉴스)

 

[알파경제=(시카고) 김지선 특파원] 엔비디아의 최신 데이터센터용 그래픽처리장치(GPU)인 '블랙웰'이 공급 과정에서 발열로 인한 오작동 문제를 일으켜 주요 빅테크 기업들이 지난해 상당한 어려움을 겪었던 사실이 뒤늦게 알려졌다.


오픈AI와 메타 등 인공지능(AI) 분야를 선도하는 기업들은 블랙웰 기반 AI 서버를 구축하고 최적화하는 과정에서 기술적 난관에 봉착했다고 미 정보기술(IT) 전문매체 디인포메이션이 내부 소식통을 인용해 최근 보도했다.

기존 엔비디아 GPU와 달리 블랙웰은 칩을 대규모로 연결해 하나의 거대한 시스템처럼 작동하도록 하는 과정이 복잡해 기술적 문제 발생 빈도가 높았던 것으로 파악됐다.

반도체 업계에서 발열은 시스템 오작동 및 데이터 손실의 주요 원인으로 꼽히며 '최대의 적'으로 불린다.

디인포메이션에 따르면, 수천 개의 칩으로 구성된 전체 클러스터에서 단 하나의 칩이라도 오작동을 일으키면 전체 시스템이 장애를 일으키거나 중단되는 사태가 발생했다.

이런 장애로 인해 중단된 작업을 마지막 저장 시점으로 되돌려 다시 시작하는 데만 수천만 달러에 달하는 막대한 비용이 소요된 것으로 전해졌다.

AI 데이터센터 구축 업체인 오라클은 블랙웰 칩 구축의 기술적 어려움으로 인해 약 1억 달러(약 1400억원)의 손실을 입었다.

이는 주요 고객사인 오픈AI가 텍사스주 데이터센터의 블랙웰 서버 승인을 지연했기 때문이다.

이에 엔비디아는 지난해 불만을 제기한 고객사들을 달래기 위해 부분 환불이나 할인 등의 조치를 취했던 것으로 알려졌다.

이런 문제는 지난해 3분기에 관련 문제를 개선한 새 버전 'GB300'이 출시된 이후 점차 수습되기 시작했다.

오픈AI를 포함한 고객사들은 아직 받지 못한 기존 칩을 새 버전으로 교체하는 작업을 진행 중이라고 소식통은 전했다. 엔비디아는 출시 예정인 신형 '베라 루빈' 칩에도 이번 개선 사항을 적용할 방침이다.

 

알파경제 김지선 특파원(stockmk2020@alphabiz.co.kr)

어플

주요기사

오므론(6645 JP) 순이익 143억엔 기록...AI 반도체 수요 확대 덕분
카나데비아(7004 JP), 내년 일본철도엔지니어링 경영통합 추진
리코(7752 JP), 2026년 순이익 610억엔 전망
마루베니, 캐나다 구리 광구 탐광 사업 투자
일본 생보업계, 108세 상한 종신보험 개정 검토
뉴스댓글 >

건강이 보이는 대표 K Medical 뉴스

SNS