블로그 글 추가: 2026-06-25-lightseek-tokenspeed-kernel, TokenSpeed-Kernel: 멀티 실리콘 LLM 추론을 위한 이식 가능한 API와 고성능 커널 by 9bow · Pull Request #96 · PyTorchKR/pytorch.kr

9bow · 2026-06-26T02:47:43Z

번역 글 소개

원문: https://pytorch.org/blog/lightseek-tokenspeed-kernel/
저자: AMD Triton Team, TokenSpeed Team
카테고리: pytorch.org, translation

TokenSpeed-Kernel: 멀티 실리콘 LLM 추론을 위한 이식 가능한 API와 고성능 커널 번역 글을 추가합니다.

TokenSpeed-kernel은 LLM 추론의 백엔드 복잡성을 해결하기 위한 독립형 오픈소스 서브시스템으로, 깔끔한 계층형 API와 레지스트리·선택 메커니즘으로 고수준 런타임을 하드웨어별 커널 코드로부터 분리합니다.

글에서는 GPT-OSS 120B를 예시로, 같은 공개 API(mha_prefill, moe_apply 등) 뒤에서 AMD(Gluon/CDNA4)와 NVIDIA(FlashInfer/TensorRT-LLM) 커널이 형제 구현으로 동작하는 방식을 설명합니다. AMD MI355X에서 Gluon 커널은 어텐션 프리필에서 Triton 대비 1.4~~2.3배, 종단 간 출력 처리량에서 1.6~~3.6배 향상을 보였으며, 해당 커널은 tokenspeed-kernel-amd 패키지로 분리 공개되어 vLLM에도 채택되었습니다.

github-actions · 2026-06-26T02:49:30Z

PR Preview

빌드가 완료되었습니다! 아래 링크에서 변경사항을 확인할 수 있습니다.

미리보기: https://pytorchkr-pr-preview-96.surge.sh

이 미리보기는 PR이 업데이트될 때마다 자동으로 갱신됩니다.

블로그 글 추가: 2026-06-25-lightseek-tokenspeed-kernel

0101bd0

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

블로그 글 추가: 2026-06-25-lightseek-tokenspeed-kernel, TokenSpeed-Kernel: 멀티 실리콘 LLM 추론을 위한 이식 가능한 API와 고성능 커널#96

블로그 글 추가: 2026-06-25-lightseek-tokenspeed-kernel, TokenSpeed-Kernel: 멀티 실리콘 LLM 추론을 위한 이식 가능한 API와 고성능 커널#96
9bow wants to merge 1 commit into
masterfrom
blog/tokenspeed-kernel

9bow commented Jun 26, 2026

Uh oh!

github-actions Bot commented Jun 26, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Uh oh!

Conversation

9bow commented Jun 26, 2026

번역 글 소개

Uh oh!

github-actions Bot commented Jun 26, 2026

PR Preview

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant