अंतराल वितरण श्रृंखला. वितरण श्रृंखला का निर्माण

बड़ी मात्रा में जानकारी संसाधित करते समय, जो आधुनिक वैज्ञानिक विकास करते समय विशेष रूप से महत्वपूर्ण है, शोधकर्ता को स्रोत डेटा को सही ढंग से समूहीकृत करने के गंभीर कार्य का सामना करना पड़ता है। यदि डेटा प्रकृति में अलग है, तो, जैसा कि हमने देखा है, कोई समस्या उत्पन्न नहीं होती है - आपको बस प्रत्येक सुविधा की आवृत्ति की गणना करने की आवश्यकता है। यदि अध्ययनाधीन विशेषता है निरंतरचरित्र (जो व्यवहार में अधिक सामान्य है), तो फीचर समूहीकरण अंतराल की इष्टतम संख्या चुनना किसी भी तरह से कोई मामूली काम नहीं है।

निरंतर यादृच्छिक चरों को समूहीकृत करने के लिए, विशेषता की संपूर्ण परिवर्तनीय सीमा को एक निश्चित संख्या में अंतरालों में विभाजित किया जाता है को।

समूहीकृत अंतराल (निरंतर) विविधता श्रृंखला विशेषता () के मान द्वारा रैंक किए गए अंतराल कहलाते हैं, जहां i"वें अंतराल, या सापेक्ष आवृत्तियों () में आने वाले अवलोकनों की संख्या को संबंधित आवृत्तियों () के साथ दर्शाया जाता है:

विशेषता मान अंतराल

मील आवृत्ति

हिस्टोग्रामऔर संचयी (ओगिवा),हमारे द्वारा पहले ही विस्तार से चर्चा की जा चुकी है, डेटा विज़ुअलाइज़ेशन का एक उत्कृष्ट साधन है, जो आपको डेटा की संरचना का प्राथमिक विचार प्राप्त करने की अनुमति देता है। ऐसे ग्राफ़ (चित्र 1.15) निरंतर डेटा के लिए उसी तरह बनाए जाते हैं जैसे अलग-अलग डेटा के लिए, केवल इस तथ्य को ध्यान में रखते हुए कि निरंतर डेटा उनके क्षेत्र को पूरी तरह से भर देता है संभावित मान, कोई मान लेना।

चावल। 1.15.

इसीलिए हिस्टोग्राम और कम्युलेट पर कॉलम एक-दूसरे को छूना चाहिए और ऐसा कोई क्षेत्र नहीं होना चाहिए जहां विशेषता मान सभी संभव के अंतर्गत न आएं(यानी, हिस्टोग्राम और क्यूम्युलेट्स में एब्सिस्सा अक्ष के साथ "छेद" नहीं होना चाहिए, जिसमें अध्ययन किए जा रहे चर के मान शामिल नहीं हैं, जैसा कि चित्र 1.16 में है)। बार की ऊंचाई आवृत्ति से मेल खाती है - किसी दिए गए अंतराल के भीतर आने वाले अवलोकनों की संख्या, या सापेक्ष आवृत्ति - अवलोकनों का अनुपात। अंतराल प्रतिच्छेद नहीं करना चाहिएऔर आमतौर पर एक ही चौड़ाई के होते हैं।

चावल। 1.16.

हिस्टोग्राम और बहुभुज संभाव्यता घनत्व वक्र के सन्निकटन हैं ( विभेदक कार्य) एफ(एक्स)सैद्धांतिक वितरण, संभाव्यता सिद्धांत के पाठ्यक्रम में माना जाता है। इसलिए, मात्रात्मक निरंतर डेटा के प्राथमिक सांख्यिकीय प्रसंस्करण में उनका निर्माण इतना महत्वपूर्ण है - उनकी उपस्थिति से कोई भी काल्पनिक वितरण कानून का न्याय कर सकता है।

संचयी - एक अंतराल की संचित आवृत्तियों (आवृत्तियों) का एक वक्र विविधता श्रृंखला. संचयी वितरण फ़ंक्शन के ग्राफ़ की तुलना संचयी से की जाती है एफ(एक्स), संभाव्यता सिद्धांत पाठ्यक्रम में भी चर्चा की गई।

मूल रूप से, हिस्टोग्राम और क्यूम्युलेट की अवधारणाएं विशेष रूप से निरंतर डेटा और उनकी अंतराल भिन्नता श्रृंखला से जुड़ी हुई हैं, क्योंकि उनके ग्राफ़ क्रमशः संभाव्यता घनत्व फ़ंक्शन और वितरण फ़ंक्शन के अनुभवजन्य अनुमान हैं।

अंतराल भिन्नता श्रृंखला का निर्माण अंतरालों की संख्या निर्धारित करने से शुरू होता है के.और यह कार्य संभवतः अध्ययनाधीन मुद्दे में सबसे कठिन, महत्वपूर्ण और विवादास्पद है।

अंतरालों की संख्या बहुत छोटी नहीं होनी चाहिए, क्योंकि इससे हिस्टोग्राम बहुत सुचारू हो जाएगा ( अधिक चिकना),मूल डेटा की परिवर्तनशीलता की सभी विशेषताएं खो जाती हैं - चित्र में। 1.17 आप देख सकते हैं कि कैसे वही डेटा जिस पर चित्र में ग्राफ़ हैं। 1.15, कम संख्या में अंतराल (बाएं ग्राफ) के साथ एक हिस्टोग्राम बनाने के लिए उपयोग किया जाता है।

उसी समय, अंतरालों की संख्या बहुत बड़ी नहीं होनी चाहिए - अन्यथा हम संख्यात्मक अक्ष के साथ अध्ययन किए गए डेटा के वितरण घनत्व का अनुमान नहीं लगा पाएंगे: हिस्टोग्राम कम सुचारू हो जाएगा (कमजोर),खाली अंतरालों के साथ, असमान (चित्र 1.17, दायां ग्राफ देखें)।

चावल। 1.17.

अंतरालों की सबसे पसंदीदा संख्या कैसे निर्धारित करें?

1926 में, हर्बर्ट स्टर्गेस ने अंतरालों की संख्या की गणना के लिए एक सूत्र प्रस्तावित किया जिसमें अध्ययन की जा रही विशेषता के मूल्यों के मूल सेट को विभाजित करना आवश्यक है। यह सूत्र वास्तव में बेहद लोकप्रिय हो गया है - अधिकांश सांख्यिकीय पाठ्यपुस्तकें इसे पेश करती हैं, और कई सांख्यिकीय पैकेज डिफ़ॉल्ट रूप से इसका उपयोग करते हैं। यह कितना उचित है और सभी मामलों में यह बहुत गंभीर प्रश्न है।

तो, स्टर्जेस फॉर्मूला किस पर आधारित है?

द्विपद वितरण पर विचार करें)


शीर्ष