Graphical Representation of Data, Measures of Central Tendency and Dispersion

Graphical Representation of Data, Measures of Central Tendency & Dispersion (डेटा का ग्राफ़ीय प्रदर्शन, केंद्रीय प्रवृत्ति और प्रसार के माप):-
Graphical Representation of Data (डेटा का ग्राफ़ीय प्रदर्शन):- Graphical representation of data is a visual way of presenting data to make it easier to understand and interpret. Various types of graphs and charts can be used, depending on the nature of the data.
(डेटा का ग्राफ़ीय प्रदर्शन डेटा को सरल और समझने में आसान बनाने का एक दृश्य तरीका है। डेटा की प्रकृति के आधार पर विभिन्न प्रकार के ग्राफ और चार्ट का उपयोग किया जा सकता है।)
Common Types of Graphs (सामान्य प्रकार के ग्राफ):-
i. Bar Graph (बार ग्राफ):- Used to compare quantities across different categories. Each bar represents a category, and the height or length of the bar indicates the value.
(अलग-अलग श्रेणियों में मात्राओं की तुलना करने के लिए उपयोग किया जाता है। प्रत्येक बार एक श्रेणी का प्रतिनिधित्व करता है, और बार की ऊंचाई या लंबाई मान को दर्शाती है।)
ii. Pie Chart (पाई चार्ट):- Used to show the proportion of parts to a whole. Each slice of the pie represents a category's proportion relative to the total.
(कुल के हिस्सों का अनुपात दिखाने के लिए उपयोग किया जाता है। पाई का प्रत्येक स्लाइस कुल के सापेक्ष एक श्रेणी के अनुपात का प्रतिनिधित्व करता है।)
iii. Histogram (हिस्टोग्राम):- Similar to a bar graph, but used for continuous data that is grouped into ranges. It shows the distribution of a dataset.
(बार ग्राफ के समान होता है, लेकिन इसका उपयोग निरंतर डेटा के लिए किया जाता है जो श्रेणियों में विभाजित होता है। यह डेटासेट के वितरण को दिखाता है।)
iv. Line Graph (लाइन ग्राफ):- Used to show trends over time. Data points are connected by a line, making it easy to see changes and trends.
(समय के साथ प्रवृत्तियों को दिखाने के लिए उपयोग किया जाता है। डेटा बिंदुओं को एक रेखा द्वारा जोड़ा जाता है, जिससे परिवर्तन और प्रवृत्तियों को आसानी से देखा जा सकता है।)
v. Scatter Plot (स्कैटर प्लॉट):- Used to show the relationship between two variables. Each point represents a pair of values, one from each variable.
(दो चर के बीच संबंध दिखाने के लिए उपयोग किया जाता है। प्रत्येक बिंदु एक जोड़ी मान का प्रतिनिधित्व करता है, एक प्रत्येक चर से।)
vi. Box Plot (Box-and-Whisker Plot) [बॉक्स प्लॉट (बॉक्स-एंड-व्हिस्कर प्लॉट)]:- Summarizes a set of data by displaying the median, quartiles, and extremes (minimum and maximum) of the data.
(यह डेटा सेट का सारांश देता है, जिसमें माध्यिका, क्वारटाइल्स और डेटा के चरम मान (न्यूनतम और अधिकतम) शामिल होते हैं।)

Measures of Central Tendency (केंद्रीय प्रवृत्ति के माप):- Measures of central tendency are statistical tools used to describe the center or typical value of a dataset. They provide a single value that represents the entire distribution of data. The most common measures of central tendency are the mean, median, and mode. Let's explore each in detail:
(केंद्रीय प्रवृत्ति के उपाय वे सांख्यिकीय उपकरण हैं जो किसी डेटासेट के केंद्र या सामान्य मान को दर्शाते हैं। ये पूरे डेटा वितरण का प्रतिनिधित्व करने के लिए एक एकल मान प्रदान करते हैं। केंद्रीय प्रवृत्ति के सबसे सामान्य उपाय माध्य, माध्यिका और बहुलक हैं। आइए प्रत्येक को विस्तार से समझें:)
i. Mean (Arithmetic Average) [माध्य (अंकगणितीय औसत)]:- The mean is the most common measure of central tendency. It is calculated by summing all the values in a dataset and then dividing by the number of observations.
(माध्य केंद्रीय प्रवृत्ति का सबसे सामान्य उपाय है। इसे किसी डेटासेट के सभी मानों को जोड़कर और फिर अवलोकनों की संख्या से विभाजित करके गणना की जाती है।)
Formula (फॉर्मूला):-
Advantages (लाभ):-
> Simple to calculate and understand.
(गणना और समझने में सरल।)
> Uses all data points in its calculation.
(इसमें सभी डेटा बिंदुओं का उपयोग होता है।)
Disadvantages (कमियाँ):- Sensitive to outliers (extremely high or low values can skew the mean).
[बाह्यकों के प्रति संवेदनशील (अत्यधिक उच्च या निम्न मान माध्य को प्रभावित कर सकते हैं)।]

ii. Median (माध्यिका):- The median is the middle value in a dataset when the data are arranged in ascending or descending order. If the dataset has an odd number of observations, the median is the middle value. If the dataset has an even number of observations, the median is the average of the two middle values.
(माध्यिका वह मध्य मान है जो तब प्राप्त होता है जब डेटा को आरोही या अवरोही क्रम में व्यवस्थित किया जाता है। यदि डेटासेट में अवलोकनों की संख्या विषम है, तो माध्यिका मध्य मान होता है। यदि डेटासेट में अवलोकनों की संख्या सम है, तो माध्यिका दो मध्य मानों का औसत होता है।)
Steps to Calculate (गणना के चरण):
> Arrange the data in ascending order.
(डेटा को आरोही क्रम में व्यवस्थित करें।)
> Find the middle value.
(मध्य मान ज्ञात करें।)
Example (उदाहरण) - 1:- For the dataset: 3, 5, 7, 9, 11, the median is 7.
(डेटासेट 3, 5, 7, 9, 11 के लिए, माध्यिका 7 है।)
Example (उदाहरण) - 2:- For the dataset: 3, 5, 7, 9, 11, 13 (even number of observations):
[डेटासेट 3, 5, 7, 9, 11, 13 (सम संख्या के अवलोकन) के लिए:]
Middle values: 7 and 9
(मध्य मान: 7 और 9)
Median: 7+9 / 2 = 8
(माध्यिका: (7 + 9) / 2 = 8)
Advantages (लाभ):-
- Not affected by outliers.
(बाह्यकों से प्रभावित नहीं होता।)
- Represents the central position in a dataset.
(डेटासेट में केंद्रीय स्थिति का प्रतिनिधित्व करता है।)
Disadvantages (कमियाँ):-
- Does not use all data points in its calculation.
(इसकी गणना में सभी डेटा बिंदुओं का उपयोग नहीं होता।)
- Less informative than the mean for large datasets with close values.
(बड़े डेटासेट्स के लिए यह औसत के मुकाबले कम जानकारी देता है।)

iii. Mode (बहुलक):- The mode is the value that occurs most frequently in a dataset. A dataset may have one mode (unimodal), more than one mode (bimodal or multimodal), or no mode if all values occur with the same frequency.
[बहुलक वह मान होता है जो किसी डेटासेट में सबसे अधिक बार आता है। एक डेटासेट में एक बहुलक (एकबहुलक), एक से अधिक बहुलक (द्विबहुलक या बहुबहुलक), या कोई बहुलक नहीं हो सकता यदि सभी मान समान आवृत्ति पर होते हैं।]
Example (उदाहरण):- For the dataset: 2, 3, 3, 5, 7, the mode is 3 because it appears twice.
(डेटासेट 2, 3, 3, 5, 7 के लिए, बहुलक 3 है क्योंकि यह दो बार आता है।)
Advantages (लाभ):-
- Useful for categorical data where we wish to know the most common category.
(श्रेणीबद्ध डेटा के लिए उपयोगी है जहां हम सबसे सामान्य श्रेणी को जानना चाहते हैं।)
- Not affected by outliers.
(बाह्यकों से प्रभावित नहीं होता।)
Disadvantages (कमियाँ):-
- A dataset can have no mode or multiple modes.
(एक डेटासेट में कोई बहुलक नहीं हो सकता या कई बहुलक हो सकते हैं।)
- Less useful for continuous data.
(निरंतर डेटा के लिए कम उपयोगी है।)

Comparing Mean, Median, and Mode (माध्य, माध्यिका, और बहुलक की तुलना):- 
Symmetrical Distribution (सममित वितरण):- In a perfectly symmetrical distribution, the mean, median, and mode are the same.
(एक पूर्णतः सममित वितरण में, माध्य, माध्यिका, और बहुलक समान होते हैं।)
Skewed Distribution (तिरछा वितरण):-
i. Right Skewed (Positive Skew) [दाईं ओर तिरछा (धनात्मक तिरछा)]:- 
Mean > Median > Mode
(माध्य > माध्यिका > बहुलक)
ii. Left Skewed (Negative Skew) [बाईं ओर तिरछा (ऋणात्मक तिरछा)]:- 
Mean < Median < Mode
(माध्य < माध्यिका < बहुलक)
Practical Considerations (व्यावहारिक विचार):-
> Mean is best used for data without outliers.
[माध्य का उपयोग तब किया जाता है जब डेटा में कोई बाहरी तत्व (आउटलायर) न हो।]
> Median is preferable for skewed distributions or data with outliers.
(तिरछे वितरण या बाहरी तत्वों के साथ डेटा के लिए माध्यिका को प्राथमिकता दी जाती है।)
> Mode is most useful for categorical data or identifying the most common value in a dataset.
(बहुलक का उपयोग श्रेणियों वाले डेटा या डेटा सेट में सबसे सामान्य मान को पहचानने के लिए किया जाता है।)

Measures of Dispersion (प्रसार के माप):- Measures of dispersion are statistical tools that describe the spread or variability of a dataset. While measures of central tendency (mean, median, mode) describe the center of the data, measures of dispersion provide insights into how much the data values differ from the center. The most common measures of dispersion are range, variance, standard deviation, and interquartile range (IQR).
[प्रसार के माप सांख्यिकीय उपकरण होते हैं जो डेटा सेट के फैलाव या भिन्नता को दर्शाते हैं। जबकि केंद्रीय प्रवृत्ति के माप (माध्य, माध्यिका, बहुलक) डेटा के केंद्र का वर्णन करते हैं, प्रसार के माप यह बताते हैं कि डेटा मान केंद्र से कितने अलग होते हैं। सबसे सामान्य प्रसार के माप हैं: परास, वैरिएंस, स्टैण्डर्ड डेविएशन, और इंटरक्वारटाइल रेंज (IQR)।]
i. Range (परास):- The range is the simplest measure of dispersion. It is the difference between the highest and lowest values in a dataset.
(परास प्रसार का सबसे सरल माप है। यह किसी डेटा सेट में सबसे बड़े और सबसे छोटे मान के बीच का अंतर है।)
Formula (सूत्र):-
Range = Maximum Value − Minimum Value
(परास = अधिकतम मान − न्यूनतम मान)

Example (उदाहरण):- For the dataset: 3, 7, 8, 12, 15
(डेटासेट: 3, 7, 8, 12, 15 के लिए)
Maximum value = 15
(अधिकतम मान = 15)
Minimum value = 3
(न्यूनतम मान = 3)
Range = 15 − 3 = 12
(परास = 15 − 3 = 12)
Advantages (लाभ):- Easy to calculate and understand.
(गणना में आसान और समझने में सरल।)
Disadvantages (कमियाँ):-
- Only considers the two extreme values, ignoring the rest of the data.
(केवल दो चरम मानों पर विचार करता है, शेष डेटा को अनदेखा करता है।)
- Sensitive to outliers.
(बाहरी तत्वों के प्रति संवेदनशील।)

ii. Variance (वेरिएन्स):- Variance measures the average squared deviation of each data point from the mean. It gives a sense of how much the values in a dataset spread out from the mean.
(वैरिएंस माध्य से प्रत्येक डेटा बिंदु के औसत वर्ग विचलन को मापता है। यह बताता है कि डेटा सेट के मान माध्य से कितने फैलते हैं।)
Formulas (सूत्र):-

Advantages (लाभ):-
- Takes all data points into account.
(सभी डेटा बिंदुओं को ध्यान में रखता है।)
- Widely used in statistical analysis.
(सांख्यिकीय विश्लेषण में व्यापक रूप से उपयोग किया जाता है।)
Disadvantages (कमियाँ):- The unit of variance is the square of the original data's unit, which can be less intuitive.
(वैरिएंस की इकाई मूल डेटा की इकाई के वर्ग में होती है, जो कम समझ में आ सकती है।)

iii. Standard Deviation (मानक विचलन):- The standard deviation is the square root of the variance. It provides a measure of dispersion in the same unit as the original data.
(मानक विचलन वैरिएंस का वर्गमूल होता है। यह मूल डेटा के समान इकाई में प्रसार का माप प्रदान करता है।)
Formulas (सूत्र):-
Advantages (लाभ):-
- Expressed in the same unit as the original data, making it easier to interpret.
(मूल डेटा के समान इकाई में व्यक्त किया जाता है, जिससे इसे समझना आसान होता है।)
- Widely used in conjunction with the mean to describe data distribution.
(माध्य के साथ डेटा वितरण का वर्णन करने के लिए व्यापक रूप से उपयोग किया जाता है।)
Disadvantages (कमियाँ):- Like the variance, it is sensitive to outliers.
(वैरिएंस की तरह, यह बाहरी तत्वों के प्रति संवेदनशील होता है।)

iv. Interquartile Range (IQR) (इंटरक्वारटाइल रेंज):- The IQR measures the spread of the middle 50% of the data, defined as the difference between the third quartile (Q3) and the first quartile (Q1).
[IQR मध्य 50% डेटा के फैलाव को मापता है, जिसे तीसरे क्वारटाइल (Q3) और पहले क्वारटाइल (Q1) के बीच के अंतर के रूप में परिभाषित किया जाता है।]
Formula (सूत्र):-
Advantages (लाभ):-
- Not affected by outliers.
(बाहरी तत्वों से प्रभावित नहीं होता।)
- Focuses on the central portion of the data, providing a more robust measure of dispersion.
(डेटा के केंद्रीय भाग पर केंद्रित, विचलन का अधिक मजबूत माप प्रदान करता है।)
Disadvantages (कमियाँ):- Does not consider the full range of data.
(डेटा की पूरी परास पर विचार नहीं करता।)

v. Coefficient of Variation (CV) (वेरिएन्स का गुणांक):- The coefficient of variation is a normalized measure of dispersion, expressed as a percentage. It is the ratio of the standard deviation to the mean.
(विचलन का गुणांक एक सामान्यीकृत प्रसार का माप है, जिसे प्रतिशत के रूप में व्यक्त किया जाता है। यह मानक विचलन और माध्य के अनुपात का माप है।)
Formula (सूत्र):-
Advantages (लाभ):- Useful for comparing the relative variability of datasets with different units or scales.
(विभिन्न इकाइयों या स्केल वाले डेटा सेट्स के सापेक्ष परिवर्तन की तुलना करने के लिए उपयोगी।)
Disadvantages (कमियाँ):- Not useful when the mean is close to zero.
(जब माध्य शून्य के करीब होता है, तो यह उपयोगी नहीं होता।)

Summary of Use Cases of Dispersion (प्रसार के उपयोग के सारांश):-
> Range is used for a quick, rough estimate of dispersion.
(परास का उपयोग त्वरित, मोटे अनुमान के लिए किया जाता है।)
> Variance and Standard Deviation are used for more detailed statistical analyses, particularly when data is normally distributed.
(वैरिएंस और मानक विचलन का उपयोग अधिक विस्तृत सांख्यिकीय विश्लेषण के लिए किया जाता है, विशेष रूप से जब डेटा सामान्य रूप से वितरित होता है।)
> IQR is preferred when dealing with skewed distributions or when outliers are present.
(IQR का उपयोग तिरछे वितरण या बाहरी तत्वों के साथ डेटा के लिए किया जाता है।)
> Coefficient of Variation is used for comparing the relative dispersion between datasets of different units or scales.
(वेरिएन्स का गुणांक विभिन्न इकाइयों या स्केल वाले डेटा सेट्स के बीच सापेक्ष प्रसार की तुलना के लिए उपयोग किया जाता है।)