Shanghai Neardi Technology Co., Ltd. sales@neardi.com 86-021-20952021
कल्पना कीजिए कि आप RK3588 के साथ एक एज AI प्रोजेक्ट पर काम कर रहे हैं: कैमरे के वीडियो स्ट्रीम को वास्तविक समय में चेहरे की पहचान और वाहन का पता लगाने की आवश्यकता है, साथ ही UI डिस्प्ले, डेटा अपलोड और बिजनेस लॉजिक प्रोसेसिंग का भी समर्थन करना होगा। आप ध्यान देते हैं: फ्रेम ड्रॉप तब होते हैं जब फ्रेम में कई ऑब्जेक्ट होते हैं, बड़े मॉडल सुचारू रूप से नहीं चलते हैं, और तापमान तेजी से बढ़ता है।
इस बिंदु पर, लोग आमतौर पर कहते हैं: "आपका मॉडल बहुत बड़ा है—RK3588 का 6TOPS पर्याप्त नहीं है।"
लेकिन क्या यह वास्तव में कंप्यूटिंग शक्ति की कमी है? क्या आपने कभी सोचा है: 4TOPS मॉडल चलाते समय 6TOPS NPU अभी भी फ्रेम ड्रॉप और लैग का अनुभव क्यों करता है? इसका उत्तर NPU कंप्यूटिंग शक्ति के तीन आयामों में निहित है:पीक परफॉर्मेंस (TOPS), परिशुद्धता (INT8/FP16), और दक्षता (बैंडविड्थ)।
आप देखेंगे कि विभिन्न चिप्स अपने NPU विनिर्देशों पर जोर देते हैं, जिसमें एक मुख्य पैरामीटर प्रमुखता से प्रदर्शित होता है: NPU कंप्यूटिंग पावर: X TOPS। उदाहरणों में RK3588-6TOPS, RK3576-6TOPS, RK1820-20TOPS, Hi3403V100-10TOPS, Hi3519DV500-2.5TOPS, Jetson Orin Nano-20/40TOPS, Jetson Orin NX-70/100TOPS, आदि शामिल हैं...
टेरा: 10¹² का प्रतिनिधित्व करता है।
प्रति सेकंड ऑपरेशन: NPU द्वारा एक सेकंड में किए जा सकने वाले AI ऑपरेशनों की कुल संख्या को संदर्भित करता है। सरल शब्दों में, 1 TOPS का मतलब है कि NPU प्रति सेकंड 1 ट्रिलियन (10¹²) ऑपरेशन निष्पादित कर सकता है।
![]()
MAC इकाइयों की कुल संख्या तंत्रिका नेटवर्क कंप्यूटिंग का मूल है। कनवल्शनल लेयर्स और पूरी तरह से कनेक्टेड लेयर्स में, मुख्य गणना में इनपुट डेटा को भार से गुणा करना और फिर परिणामों को जोड़ना शामिल है।
एक NPU का डिज़ाइन दर्शन समानांतर MAC इकाइयों की एक अत्यंत बड़ी सरणी होना है। एक NPU चिप में हजारों या यहां तक कि दसियों हज़ार MAC इकाइयां हो सकती हैं, जो बड़े पैमाने पर समानांतर कंप्यूटिंग प्राप्त करने के लिए एक साथ काम कर सकती हैं।
जितनी अधिक MAC इकाइयां होंगी, NPU एक ही क्लॉक चक्र में उतनी ही अधिक गणना पूरी कर सकता है।
क्लॉक फ़्रीक्वेंसी: प्रति सेकंड NPU चिप और उसकी MAC इकाइयों द्वारा संचालित चक्रों की संख्या निर्धारित करता है (हर्ट्ज़, Hz में मापा जाता है)। एक उच्च आवृत्ति MAC सरणी को प्रति यूनिट समय में अधिक गुणा-संचय ऑपरेशन करने की अनुमति देती है। जब निर्माता TOPS की घोषणा करते हैं, तो वे NPU की पीक ऑपरेटिंग फ़्रीक्वेंसी (यानी, अधिकतम प्राप्त करने योग्य फ़्रीक्वेंसी) का उपयोग करते हैं।
प्रति MAC ऑपरेशन: एक पूर्ण MAC ऑपरेशन में वास्तव में एक गुणन और एक जोड़ शामिल होता है। पारंपरिक FLOPS (प्रति सेकंड फ़्लोटिंग-पॉइंट ऑपरेशन) गिनती विधि के साथ संरेखित करने के लिए, कई कंप्यूटिंग मानक एक MAC ऑपरेशन को 2 बुनियादी ऑपरेशन (गुणन के लिए 1 और जोड़ के लिए 1) के रूप में गिनते हैं।
परिशुद्धता कारक: एक NPU की MAC इकाइयाँ कम-परिशुद्धता डेटा (उदाहरण के लिए, INT8) को संसाधित करने के लिए अनुकूलित हैं।
INT8 बनाम FP32 का सरलीकृत गति अनुपात: चूंकि 32 बिट / 8 बिट = 4, एक ही FP32 यूनिट सैद्धांतिक रूप से INT8 गणना पर स्विच करने पर एक चक्र में 4 गुना अधिक ऑपरेशन कर सकता है। इसलिए, यदि किसी निर्माता का TOPS INT8 के आधार पर गणना की जाती है, तो इसे परिशुद्धता-संबंधित गति अनुपात से गुणा करने की आवश्यकता होती है। यही कारण है कि INT8 TOPS FP32 TOPS से बहुत अधिक है।
TOPS पीक सैद्धांतिक कंप्यूटिंग शक्ति को मापता है। व्यावहारिक अनुप्रयोगों में, डेटा ट्रांसमिशन, मेमोरी बाधाओं और मॉडल संरचना जैसे कारकों के कारण, एक NPU की वास्तविक प्रभावी कंप्यूटिंग शक्ति अक्सर इस पीक मान से कम होती है।
![]()
कंप्यूटिंग शक्ति हमें बताती है कि एक NPU कितनी तेजी से चलता है, जबकि कम्प्यूटेशनल परिशुद्धता हमें बताती है कि यह कितनी बारीकी से संचालित होता है। परिशुद्धता NPU प्रदर्शन का एक और प्रमुख आयाम है, जो गणना के दौरान उपयोग किए गए बिट्स की संख्या और डेटा के प्रतिनिधित्व रेंज को निर्धारित करता है।
समान TOPS स्तर पर, INT8 की वास्तविक कंप्यूटिंग गति FP32 की तुलना में बहुत तेज़ है। ऐसा इसलिए है क्योंकि NPU की MAC इकाइयाँ एक बार में अधिक 8-बिट डेटा संसाधित कर सकती हैं और अधिक ऑपरेशन कर सकती हैं।
निर्माताओं द्वारा दावा किए गए NPU TOPS आमतौर पर INT8 परिशुद्धता पर आधारित होते हैं। तुलना करते समय, सुनिश्चित करें कि आप समान परिशुद्धता के तहत TOPS की तुलना कर रहे हैं।
![]()
जब आप एक NPU को 20 TOPS (INT8) का दावा करते हुए देखते हैं, तो आपको यह समझने की आवश्यकता है:
एक NPU की कंप्यूटिंग शक्ति (TOPS) उसकी गति का एक संकेतक है, जबकि कम्प्यूटेशनल परिशुद्धता (उदाहरण के लिए, INT8) उसकी दक्षता और प्रयोज्यता की कुंजी है। एंड-यूज़र-फेसिंग डिवाइस के लिए, निर्माता आम तौर पर स्वीकार्य परिशुद्धता हानि बनाए रखते हुए INT8 TOPS को अधिकतम करने का लक्ष्य रखते हैं, ताकि कम-शक्ति और उच्च-दक्षता AI अनुमान प्रदर्शन प्राप्त किया जा सके।