مقالات

2.4: ملاءمة النماذج الخطية للبيانات


أهداف التعلم

  • ارسم وفسر المخططات المبعثرة.
  • استخدم أداة الرسوم البيانية للعثور على الخط الأنسب.
  • يميز بين العلاقات الخطية وغير الخطية.
  • قم بملاءمة خط الانحدار مع مجموعة من البيانات واستخدم النموذج الخطي لعمل تنبؤات.

يحاول الأستاذ تحديد الاتجاهات بين درجات الامتحان النهائي. يضم فصله مزيجًا من الطلاب ، لذلك يتساءل ما إذا كانت هناك أي علاقة بين العمر ودرجات الامتحان النهائي. تتمثل إحدى طرق تحليل الدرجات في إنشاء مخطط يربط عمر كل طالب بدرجة الامتحان التي حصل عليها. في هذا القسم ، سوف نفحص أحد هذه المخططات المعروفة باسم مخطط التبعثر.

رسم وتفسير المؤامرات المبعثرة

مخطط التبعثر هو رسم بياني للنقاط المرسومة قد يُظهر علاقة بين مجموعتين من البيانات. إذا كانت العلاقة من أ نموذج خطي، أو نموذجًا خطيًا تقريبًا ، يمكن للأستاذ استخلاص النتائج باستخدام معرفته بالوظائف الخطية. يوضح الشكل ( PageIndex {1} ) نموذج مخطط مبعثر.

لاحظ أن مخطط التبعثر هذا لا يشير إلى ملف علاقة خطية. لا يبدو أن النقاط تتبع الاتجاه. بمعنى آخر ، لا يبدو أن هناك علاقة بين عمر الطالب ودرجة الاختبار النهائي.

مثال ( PageIndex {1} ): استخدام مخطط مبعثر للتحقيق في غردات لعبة الكريكيت

يوضح الجدول عدد صقور الكريكيت في 15 ثانية ، لعدة درجات حرارة مختلفة للهواء ، بالدرجات فهرنهايت [1]. ارسم هذه البيانات ، وحدد ما إذا كانت البيانات تبدو مرتبطة خطيًا.

جدول ( PageIndex {1} )
غردات443520.433313518.53726
درجة حرارة80.570.5576668725273.553

المحلول

يشير رسم هذه البيانات ، كما هو موضح في الشكل ( PageIndex {2} ) إلى أنه قد يكون هناك اتجاه. يمكننا أن نرى من الاتجاه في البيانات أن عدد الزقزقة يزداد مع زيادة درجة الحرارة. يبدو أن الاتجاه خطي تقريبًا ، رغم أنه بالتأكيد ليس كذلك تمامًا.

العثور على الخط الأنسب

بمجرد أن ندرك الحاجة إلى دالة خطية لنمذجة تلك البيانات ، فإن سؤال المتابعة الطبيعي هو "ما هذه الوظيفة الخطية؟" تتمثل إحدى طرق تقريب وظيفتنا الخطية في رسم الخط الذي يبدو أنه يناسب البيانات بشكل أفضل. ثم يمكننا تمديد الخط حتى نتمكن من التحقق من تقاطع y. يمكننا تقريب ميل الخط عن طريق تمديده حتى نتمكن من تقدير ( frac { text {height}} { text {run}} ).

مثال ( PageIndex {2} ): البحث عن السطر الأفضل ملاءمة

ابحث عن دالة خطية تناسب البيانات الموجودة في Table ( PageIndex {1} ) عن طريق "eyeballing" سطر يبدو مناسبًا.

المحلول

على الرسم البياني ، يمكننا محاولة رسم خط.

باستخدام نقطتي البداية والنهاية للخط المرسوم باليد ، والنقاط ((0 ، 30) ) و ((50 ، 90) ) ، يحتوي هذا الرسم البياني على ميل قدره

[m = dfrac {60} {50} = 1.2 ]

وتقاطع y عند 30. هذا يعطي معادلة

[T (ج) = 1.2 ج + 30 ]

حيث (c ) هو عدد النغمات في 15 ثانية ، و (T (c) ) هي درجة الحرارة بالدرجات فهرنهايت. يتم تمثيل المعادلة الناتجة في الشكل ( PageIndex {3} ).

التحليلات

يمكن بعد ذلك استخدام هذه المعادلة الخطية لتقريب الإجابات على الأسئلة المختلفة التي قد نطرحها حول الاتجاه.

التعرف على الاستيفاء أو الاستقراء

في حين أن البيانات الخاصة بمعظم الأمثلة لا تقع تمامًا على الخط ، فإن المعادلة هي أفضل تخمين لدينا حول كيفية تصرف العلاقة خارج القيم التي لدينا بيانات عنها. نحن نستخدم عملية تعرف باسم إقحام عندما نتوقع قيمة داخل المجال ونطاق البيانات. عملية استقراء يستخدم عندما نتوقع قيمة خارج المجال ونطاق البيانات.

يقارن الشكل ( PageIndex {4} ) بين عمليتين لبيانات صرصور الكريكيت الواردة في المثال ( PageIndex {2} ). يمكننا أن نرى أن الاستيفاء سيحدث إذا استخدمنا نموذجنا للتنبؤ بدرجة الحرارة عندما تكون قيم الزقزقة بين 18.5 و 44. سيحدث الاستقراء إذا استخدمنا نموذجنا للتنبؤ بدرجة الحرارة عندما تكون قيم الزقزقة أقل من 18.5 أو أكبر من 44 .

هناك فرق بين إجراء تنبؤات داخل المجال ونطاق القيم التي لدينا بيانات عنها وخارج ذلك المجال والنطاق. إن توقع قيمة خارج النطاق والمدى له حدوده. عندما لا يعد نموذجنا ساريًا بعد نقطة معينة ، يتم تسميته أحيانًا انهيار النموذج. على سبيل المثال ، قد يتضمن التنبؤ بدالة تكلفة لمدة عامين فحص البيانات حيث يكون الإدخال هو الوقت بالسنوات والمخرجات هي التكلفة. ولكن إذا حاولنا استقراء التكلفة عند (x = 50 ) ، أي خلال 50 عامًا ، فلن يتم تطبيق النموذج لأننا لا نستطيع حساب العوامل لخمسين عامًا في المستقبل.

الاستيفاء والاستقراء

تُستخدم طرق مختلفة لعمل التنبؤات لتحليل البيانات.

  • طريقة استقراء يتضمن التنبؤ بقيمة خارج المجال و / أو نطاق البيانات.
  • انهيار النموذج يحدث عند النقطة التي لم يعد فيها النموذج ساريًا.

مثال ( PageIndex {3} ): فهم الاستيفاء والاستقراء

استخدم بيانات الكريكيت من Table ( PageIndex {1} ) للإجابة على الأسئلة التالية:

  1. هل التنبؤ بدرجة الحرارة عندما تزقزق الصراصير 30 مرة في 15 ثانية هو استيفاء أم استقراء؟ قم بالتنبؤ وناقش ما إذا كان معقولاً.
  2. هل التنبؤ بعدد صراصير الصراصير عند 40 درجة هو استيفاء أم استقراء؟ قم بالتنبؤ وناقش ما إذا كان معقولاً.

المحلول

أ. عدد الغردات في البيانات المقدمة يختلف من 18.5 إلى 44. التنبؤ بمعدل 30 غردًا لكل 15 ثانية هو داخل مجال بياناتنا ، لذلك سيكون الاستيفاء. باستخدام نموذجنا:

[ begin {align} T (30) & = 30 + 1.2 (30) & = 66 text {degrees} end {align} ]

بناءً على البيانات المتوفرة لدينا ، تبدو هذه القيمة معقولة.
ب. تفاوتت قيم درجة الحرارة من 52 إلى 80.5. إن توقع عدد النغمات عند 40 درجة هو استقراء لأن 40 خارج نطاق بياناتنا. باستخدام نموذجنا:

[ begin {align} 40 & = 30 + 1.2c 10 & = 1.2c c & almost8.33 end {align} ]

يمكننا مقارنة مناطق الاستيفاء والاستقراء باستخدام الشكل ( PageIndex {5} ).

التحليلات

يتوقع نموذجنا أن صراصير الليل ستصدر صوتًا 8.33 مرة في 15 ثانية. على الرغم من أن هذا قد يكون ممكنًا ، إلا أنه ليس لدينا سبب للاعتقاد بأن نموذجنا صالح خارج المجال والمدى. في الواقع ، تتوقف الصراصير عمومًا عن النقيق تمامًا تحت حوالي 50 درجة.

تمرين ( PageIndex {1} )

وفقًا للبيانات الواردة في الجدول ( PageIndex {1} ) ، ما درجة الحرارة التي يمكننا توقعها إذا أحصينا 20 غردًا في 15 ثانية؟

المحلول

54 درجة فهرنهايت

العثور على خط أفضل ملاءمة باستخدام أداة الرسم البياني

بينما تعمل عملية تحديد الخط بشكل جيد بشكل معقول ، هناك تقنيات إحصائية لملاءمة خط مع البيانات التي تقلل الاختلافات بين قيم الخط والبيانات [2]. أحد هذه التقنيات يسمى أقل الساحات الانحدار ويمكن حسابها بواسطة العديد من حاسبات الرسوم البيانية ، وبرامج جداول البيانات ، والبرامج الإحصائية ، والعديد من الآلات الحاسبة على شبكة الإنترنت [3]. انحدار المربعات الصغرى هو أحد الوسائل لتحديد الخط الأنسب للبيانات ، وهنا سنشير إلى هذه الطريقة على أنها الانحدار الخطي.

بالنظر إلى بيانات المدخلات والمخرجات المقابلة من دالة خطية ، ابحث عن أفضل خط ملائم باستخدام الانحدار الخطي.

  1. أدخل الإدخال في القائمة 1 (L1).
  2. أدخل الإخراج في القائمة 2 (L2).
  3. في أداة الرسم البياني ، حدد الانحدار الخطي (LinReg).

مثال ( PageIndex {4} ): البحث عن خط انحدار للمربعات الصغرى

ابحث عن خط انحدار المربعات الصغرى باستخدام بيانات cricket-chirp في Table ( PageIndex {1} ).

المحلول

أدخل الإدخال (غردات) في القائمة 1 (L1).
أدخل الإخراج (درجة الحرارة) في القائمة 2 (L2). راجع الجدول ( PageIndex {2} ).

جدول ( PageIndex {2} )
L1443520.433313518.53726
L280.570.5576668725273.553

في أداة الرسم البياني ، حدد الانحدار الخطي (LinReg). باستخدام بيانات غرد الكريكيت من وقت سابق ، مع التكنولوجيا نحصل على المعادلة:

[T (c) = 30.281 + 1.143c ]

التحليلات

لاحظ أن هذا الخط مشابه تمامًا للمعادلة التي "أوقفناها" ولكن يجب أن تلائم البيانات بشكل أفضل. لاحظ أيضًا أن استخدام هذه المعادلة سيغير توقعاتنا لدرجة الحرارة عند سماع 30 غردًا في 15 ثانية من 66 درجة إلى:

[ start {align} T (30) & = 30.281 + 1.143 (30) & = 64.571 & almost 64.6 text {degrees} end {align} ]

يظهر الرسم البياني لمخطط التبعثر مع خط انحدار المربعات الصغرى في الشكل ( PageIndex {6} ).

هل ستكون هناك حالة يكون فيها سطرين مختلفين بمثابة أفضل ملاءمة للبيانات؟

لا ، هناك خط واحد فقط هو الأفضل.

التمييز بين النماذج الخطية وغير الخطية

كما رأينا أعلاه مع نموذج الكريكيت-غرد ، تظهر بعض البيانات اتجاهات خطية قوية ، ولكن من الواضح أن البيانات الأخرى ، مثل درجات الامتحان النهائي التي تم رسمها حسب العمر ، غير خطية. يمكن أن توفر لنا معظم الآلات الحاسبة وبرامج الكمبيوتر أيضًا معامل الارتباط، وهو مقياس لمدى ملاءمة الخط للبيانات. تتطلب العديد من حاسبات الرسوم البيانية من المستخدم تشغيل اختيار "التشخيص على" للعثور على معامل الارتباط ، والذي يطلق عليه علماء الرياضيات اسم (r ). يوفر معامل الارتباط طريقة سهلة للحصول على فكرة عن مدى قرب البيانات من الخط.

يجب أن نحسب معامل الارتباط فقط للبيانات التي تتبع نمطًا خطيًا أو لتحديد الدرجة التي تكون عندها مجموعة البيانات خطية. إذا أظهرت البيانات نمطًا غير خطي ، فإن معامل الارتباط للانحدار الخطي لا معنى له. للتعرف على العلاقة بين قيمة (r ) والرسم البياني للبيانات ، يوضح الشكل ( PageIndex {7} ) بعض مجموعات البيانات الكبيرة مع معاملات الارتباط الخاصة بها. تذكر ، بالنسبة لجميع المخططات ، يُظهر المحور الأفقي الإدخال ويظهر المحور الرأسي الإخراج.

معامل الارتباط

ال معامل الارتباط هي قيمة ، (r ) ، بين –1 و 1.

  • (r> 0 ) يقترح علاقة إيجابية (متزايدة)
  • (r <0 ) يقترح علاقة سلبية (متناقصة)
  • كلما اقتربت القيمة من 0 ، زادت تبعثر البيانات.
  • كلما كانت القيمة أقرب إلى 1 أو -1 ، قل تشتت البيانات.

مثال ( PageIndex {5} ): إيجاد معامل ارتباط

احسب معامل الارتباط لبيانات صرصور الكريكيت في الجدول ( PageIndex {1} ).

المحلول

نظرًا لأن البيانات تبدو وكأنها تتبع نمطًا خطيًا ، يمكننا استخدام التكنولوجيا لحساب (r ). أدخل المدخلات والمخرجات المقابلة وحدد الانحدار الخطي. ستزودك الآلة الحاسبة أيضًا بمعامل الارتباط (r = 0.9509 ). هذه القيمة قريبة جدًا من 1 ، مما يشير إلى علاقة خطية قوية متزايدة.

ملاحظة: بالنسبة لبعض الآلات الحاسبة ، يجب تشغيل "التشخيصات" للحصول على معامل الارتباط عند إجراء الانحدار الخطي: [2nd]> [0]> [alpha] [x – 1] ، ثم قم بالتمرير إلى DIAGNOSTICSON.

التنبؤ بخط الانحدار

بمجرد أن نحدد أن مجموعة البيانات خطية باستخدام معامل الارتباط ، يمكننا استخدام خط الانحدار لعمل تنبؤات. كما تعلمنا أعلاه ، فإن خط الانحدار هو الخط الأقرب إلى البيانات الموجودة في مخطط التبعثر ، مما يعني أن سطرًا واحدًا فقط هو الأنسب للبيانات.

مثال ( PageIndex {6} ): استخدام خط الانحدار لعمل تنبؤات

كان استهلاك البنزين في الولايات المتحدة يتزايد باطراد. يتم عرض بيانات الاستهلاك من 1994 إلى 2004 في الجدول ( PageIndex {3} ). حدد ما إذا كان الاتجاه خطيًا ، وإذا كان الأمر كذلك ، فابحث عن نموذج للبيانات. استخدم النموذج للتنبؤ بالاستهلاك في عام 2008.

جدول ( PageIndex {3} )
عام'94'95'96'97'98'99'00'01'02'03'04
الاستهلاك (بلايين الجالونات)113116118119123125126128131133136

يظهر الرسم المبعثر للبيانات ، بما في ذلك خط انحدار المربعات الصغرى ، في الشكل ( PageIndex {8} ).

يمكننا إدخال متغير إدخال جديد ، (t ) ، يمثل سنوات منذ 1994.

معادلة انحدار المربعات الصغرى هي:

[C (t) = 113.318 + 2.209t ]

باستخدام التكنولوجيا ، تم حساب معامل الارتباط ليكون 0.9965 ، مما يشير إلى اتجاه خطي متزايد قوي للغاية.

باستخدام هذا للتنبؤ بالاستهلاك في عام 2008 ((t = 14) ) ،

[ start {align} C (14) & = 113.318 + 2.209 (14) & = 144.244 end {align} ]

يتوقع النموذج استهلاك 144.244 مليار جالون من البنزين في عام 2008.

تمرين ( PageIndex {1} )

استخدم النموذج الذي أنشأناه باستخدام التكنولوجيا في المثال ( PageIndex {6} ) للتنبؤ باستهلاك الغاز في عام 2011. هل هذا استيفاء أم استقراء؟

إجابه

150.871 مليار جالون استقراء

المفاهيم الرئيسية

  • تُظهر المخططات المبعثرة العلاقة بين مجموعتين من البيانات.
  • قد تمثل مخططات التبعثر نماذج خطية أو غير خطية.
  • يمكن تقدير أو حساب الخط الأنسب باستخدام آلة حاسبة أو برنامج إحصائي.
  • يمكن استخدام الاستيفاء للتنبؤ بالقيم داخل المجال ونطاق البيانات ، في حين يمكن استخدام الاستقراء للتنبؤ بالقيم خارج المجال ونطاق البيانات.
  • يشير معامل الارتباط (r ) إلى درجة العلاقة الخطية بين البيانات.
  • يناسب خط الانحدار البيانات بشكل أفضل.
  • تم العثور على خط انحدار المربعات الصغرى عن طريق تقليل مربعات مسافات النقاط من خط يمر عبر البيانات ويمكن استخدامه لعمل تنبؤات بخصوص أي من المتغيرات.

2.4: ملاءمة النماذج الخطية للبيانات

يحاول الأستاذ تحديد الاتجاهات بين درجات الامتحان النهائي. يضم فصله مزيجًا من الطلاب ، لذلك يتساءل ما إذا كانت هناك أي علاقة بين العمر ودرجات الامتحان النهائي. تتمثل إحدى طرق تحليل الدرجات في إنشاء مخطط يربط عمر كل طالب بدرجة الامتحان التي حصل عليها. في هذا القسم ، سوف نفحص أحد هذه المخططات المعروفة باسم مخطط التبعثر.

أ مؤامرة مبعثر هو رسم بياني للنقاط المرسومة قد يُظهر علاقة بين مجموعتين من البيانات. إذا كانت العلاقة من أ نموذج خطي، أو نموذجًا خطيًا تقريبًا ، يمكن للأستاذ استخلاص النتائج باستخدام معرفته بالوظائف الخطية. يوجد أدناه نموذج مخطط مبعثر.

مخطط مبعثر لمتغيرات العمر ودرجة الامتحان النهائي.

لاحظ أن مؤامرة التبعثر هذه تفعل ذلك ليس تشير إلى أ علاقة خطية. لا يبدو أن النقاط تتبع الاتجاه. بمعنى آخر ، لا يبدو أن هناك علاقة بين عمر الطالب ودرجة الاختبار النهائي.

مثال: استخدام مخطط مبعثر للتحقيق في غردات لعبة الكريكيت

يوضح الجدول أدناه عدد صقور الكريكيت في 15 ثانية ، لعدة درجات حرارة مختلفة للهواء ، بالدرجات فهرنهايت. [1] ارسم هذه البيانات وحدد ما إذا كانت البيانات تبدو مرتبطة خطيًا.

غردات 44 35 20.4 33 31 35 18.5 37 26
درجة حرارة 80.5 70.5 57 66 68 72 52 73.5 53

يشير رسم هذه البيانات إلى أنه قد يكون هناك اتجاه. يمكننا أن نرى من الاتجاه في البيانات أن عدد الزقزقة يزداد مع زيادة درجة الحرارة. يبدو أن الاتجاه خطي تقريبًا ، رغم أنه بالتأكيد ليس كذلك تمامًا.

العثور على الخط الأنسب

تتمثل إحدى طرق تقريب وظيفتنا الخطية في رسم الخط الذي يبدو أنه يناسب البيانات بشكل أفضل. ثم يمكننا تمديد الخط حتى نتمكن من التحقق من ذ-تقاطع. يمكننا تقريب ميل الخط عن طريق تمديده حتى نتمكن من تقدير [اللاتكس] frac < text> < نص> [/ لاتكس].

مثال: العثور على خط أفضل ملاءمة

ابحث عن دالة خطية تناسب البيانات الموجودة في الجدول أدناه من خلال & # 8220eyeballing & # 8221 السطر الذي يبدو مناسبًا.

غردات 44 35 20.4 33 31 35 18.5 37 26
درجة حرارة 80.5 70.5 57 66 68 72 52 73.5 53

على الرسم البياني ، يمكننا محاولة رسم خط.

باستخدام نقطتي البداية والنهاية للخط المرسوم باليد ، النقاط (0 ، 30) و (50 ، 90) ، يحتوي هذا الرسم البياني على ميل [اللاتكس] m = frac <60> <50> = 1.2 [/ latex] و أ ذ-التقاطع عند 30. هذا يعطي معادلة [اللاتكس] T left (c right) = 1.2c + 30 [/ latex]

أين ج هو عدد النغمات في 15 ثانية ، و تي(ج) هي درجة الحرارة بالدرجات فهرنهايت. يتم تمثيل المعادلة الناتجة في الرسم البياني أدناه.

تحليل الحل

يمكن بعد ذلك استخدام هذه المعادلة الخطية لتقريب الإجابات على الأسئلة المختلفة التي قد نطرحها حول الاتجاه.

جربها


ملاءمة النماذج الخطية للبيانات

يحاول الأستاذ تحديد الاتجاهات بين درجات الامتحان النهائي. يضم فصله مزيجًا من الطلاب ، لذلك يتساءل ما إذا كانت هناك أي علاقة بين العمر ودرجات الامتحان النهائي. تتمثل إحدى طرق تحليل الدرجات في إنشاء مخطط يربط عمر كل طالب بدرجة الامتحان التي حصل عليها. في هذا القسم ، سوف نفحص أحد هذه المخططات المعروفة باسم مخطط التبعثر.

رسم وتفسير المؤامرات المبعثرة

أ مؤامرة مبعثر هو رسم بياني للنقاط المرسومة قد يُظهر علاقة بين مجموعتين من البيانات. إذا كانت العلاقة من أ نموذج خطي، أو نموذجًا خطيًا تقريبًا ، يمكن للأستاذ استخلاص النتائج باستخدام معرفته بالوظائف الخطية. يعرض [رابط] نموذج مخطط مبعثر.

لاحظ أن مؤامرة التبعثر هذه تفعل ذلك ليس تشير إلى أ علاقة خطية. لا يبدو أن النقاط تتبع الاتجاه. بمعنى آخر ، لا يبدو أن هناك علاقة بين عمر الطالب ودرجة الاختبار النهائي.

يظهر [رابط] عدد صقور صراصير الليل في 15 ثانية ، لعدة درجات حرارة مختلفة للهواء ، بالدرجات فهرنهايت 1. ارسم هذه البيانات ، وحدد ما إذا كانت البيانات تبدو مرتبطة خطيًا.

غردات الكريكيت مقابل درجة حرارة الهواء
غردات 44 35 20.4 33 31 35 18.5 37 26
درجة حرارة 80.5 70.5 57 66 68 72 52 73.5 53

يشير رسم هذه البيانات ، كما هو موضح في [الرابط] إلى أنه قد يكون هناك اتجاه. يمكننا أن نرى من الاتجاه في البيانات أن عدد الزقزقة يزداد مع زيادة درجة الحرارة. يبدو أن الاتجاه خطي تقريبًا ، رغم أنه بالتأكيد ليس كذلك تمامًا.

العثور على الخط الأنسب

بمجرد أن ندرك الحاجة إلى دالة خطية لنمذجة تلك البيانات ، فإن سؤال المتابعة الطبيعي هو "ما هذه الوظيفة الخطية؟" تتمثل إحدى طرق تقريب وظيفتنا الخطية في رسم الخط الذي يبدو أنه يناسب البيانات بشكل أفضل. ثم يمكننا تمديد الخط حتى نتمكن من التحقق من ذ-تقاطع. يمكننا تقريب ميل الخط عن طريق تمديده حتى نتمكن من تقدير مسار الارتفاع.

ابحث عن دالة خطية تلائم البيانات الموجودة في [رابط] عن طريق "مقلة العين" لخط يبدو مناسبًا.

على الرسم البياني ، يمكننا محاولة رسم خط. باستخدام نقطتي البداية والنهاية للخط المرسوم يدويًا ، النقاط (0 ، 30) و (50 ، 90) ، يكون ميل هذا الرسم البياني

و أ ذ-التقاطع عند 30. هذا يعطي معادلة

هو عدد النغمات في 15 ثانية ، و T (c)

هي درجة الحرارة بالدرجات فهرنهايت. يتم تمثيل المعادلة الناتجة في [رابط].

يمكن بعد ذلك استخدام هذه المعادلة الخطية لتقريب الإجابات على الأسئلة المختلفة التي قد نطرحها حول الاتجاه.

التعرف على الاستيفاء أو الاستقراء

في حين أن البيانات الخاصة بمعظم الأمثلة لا تقع تمامًا على الخط ، فإن المعادلة هي أفضل تخمين لدينا حول كيفية تصرف العلاقة خارج القيم التي لدينا بيانات عنها. نحن نستخدم عملية تعرف باسم إقحام عندما نتوقع قيمة داخل المجال ونطاق البيانات. عملية استقراء يستخدم عندما نتوقع قيمة خارج المجال ونطاق البيانات.

يقارن [رابط] عمليتين لبيانات صرصور الكريكيت الواردة في [رابط]. يمكننا أن نرى أن الاستيفاء سيحدث إذا استخدمنا نموذجنا للتنبؤ بدرجة الحرارة عندما تكون قيم الزقزقة بين 18.5 و 44. سيحدث الاستقراء إذا استخدمنا نموذجنا للتنبؤ بدرجة الحرارة عندما تكون قيم الزقزقة أقل من 18.5 أو أكبر من 44 .

هناك فرق بين إجراء تنبؤات داخل المجال ونطاق القيم التي لدينا بيانات عنها وخارج ذلك المجال والنطاق. إن توقع قيمة خارج النطاق والمدى له حدوده. عندما لا يعد نموذجنا ساريًا بعد نقطة معينة ، يتم استدعاؤه أحيانًا انهيار النموذج. على سبيل المثال ، قد يتضمن التنبؤ بدالة تكلفة لمدة عامين فحص البيانات حيث يكون الإدخال هو الوقت بالسنوات والمخرجات هي التكلفة. ولكن إذا حاولنا استقراء التكلفة عندما تكون x = 50 ،

أي في غضون 50 عامًا ، لن يتم تطبيق النموذج لأننا لم نتمكن من حساب العوامل لخمسين عامًا في المستقبل.

تُستخدم طرق مختلفة لعمل التنبؤات لتحليل البيانات.

طريقة إقحام يتضمن التنبؤ بقيمة داخل المجال و / أو نطاق البيانات. * * *

طريقة استقراء يتضمن التنبؤ بقيمة خارج المجال و / أو نطاق البيانات. * * *

يحدث انهيار النموذج في النقطة التي لم يعد فيها النموذج ساريًا.

استخدم بيانات لعبة الكريكيت من [رابط] للإجابة على الأسئلة التالية:

  1. هل التنبؤ بدرجة الحرارة عندما تزقزق الصراصير 30 مرة في 15 ثانية هو استيفاء أم استقراء؟ قم بالتنبؤ وناقش ما إذا كان معقولاً.
  2. هل التنبؤ بعدد صراصير الصراصير عند 40 درجة هو استيفاء أم استقراء؟ قم بالتنبؤ وناقش ما إذا كان معقولاً.
  1. عدد الغردات في البيانات المقدمة تباينت من 18.5 إلى 44. التنبؤ بمعدل 30 غردًا لكل 15 ثانية هو داخل مجال بياناتنا ، لذلك سيكون الاستيفاء. باستخدام نموذجنا:

بناءً على البيانات المتوفرة لدينا ، تبدو هذه القيمة معقولة.

يمكننا مقارنة مناطق الاستيفاء والاستقراء باستخدام [رابط].

يتوقع نموذجنا أن صراصير الليل ستصدر صوتًا 8.33 مرة في 15 ثانية. على الرغم من أن هذا قد يكون ممكنًا ، إلا أنه ليس لدينا سبب للاعتقاد بأن نموذجنا صالح خارج المجال والمدى. في الواقع ، تتوقف الصراصير عمومًا عن النقيق تمامًا تحت حوالي 50 درجة.

وفقًا للبيانات الواردة من [الرابط] ، ما درجة الحرارة التي يمكن أن نتنبأ بها إذا أحصينا 20 تغريدًا في 15 ثانية؟

العثور على خط أفضل ملاءمة باستخدام أداة الرسم البياني

بينما تعمل مقلة العين بشكل جيد بشكل معقول ، هناك تقنيات إحصائية لملاءمة خط مع البيانات التي تقلل من الاختلافات بين قيم الخط والبيانات 2. أحد هذه التقنيات يسمى أقل الساحات الانحدار ويمكن حسابها بواسطة العديد من حاسبات الرسوم البيانية ، وبرامج جداول البيانات ، والبرامج الإحصائية ، والعديد من الآلات الحاسبة على شبكة الإنترنت 3. انحدار المربعات الصغرى هو أحد الوسائل لتحديد الخط الأنسب للبيانات ، وهنا سنشير إلى هذه الطريقة على أنها الانحدار الخطي.

بالنظر إلى بيانات المدخلات والمخرجات المقابلة من دالة خطية ، ابحث عن أفضل خط ملائم باستخدام الانحدار الخطي.

  1. أدخل الإدخال في القائمة 1 (L1).
  2. أدخل الإخراج في القائمة 2 (L2).
  3. في أداة الرسم البياني ، حدد الانحدار الخطي (LinReg).

أوجد المربعات الصغرى خط الانحدار باستخدام بيانات صرصور الكريكيت في [رابط].

أدخل الإخراج (درجة الحرارة) في القائمة 2 (L2). انظر [رابط]. | L1 | 44 | 35 | 20.4 | 33 | 31 | 35 | 18.5 | 37 | 26 | | L2 | 80.5 | 70.5 | 57 | 66 | 68 | 72 | 52 | 73.5 | 53 |

لاحظ أن هذا الخط مشابه تمامًا للمعادلة التي "أوقفناها" ولكن يجب أن تلائم البيانات بشكل أفضل. لاحظ أيضًا أن استخدام هذه المعادلة سيغير توقعاتنا لدرجة الحرارة عند سماع 30 غردًا في 15 ثانية من 66 درجة إلى:

يظهر الرسم البياني لمخطط التبعثر مع خط انحدار المربعات الصغرى في [رابط].

هل ستكون هناك حالة يكون فيها سطرين مختلفين بمثابة أفضل ملاءمة للبيانات؟

لا ، هناك خط واحد فقط هو الأفضل.

التمييز بين النماذج الخطية وغير الخطية

كما رأينا أعلاه مع نموذج الكريكيت-غرد ، تظهر بعض البيانات اتجاهات خطية قوية ، ولكن من الواضح أن البيانات الأخرى ، مثل درجات الامتحان النهائي التي تم رسمها حسب العمر ، غير خطية. يمكن أن توفر لنا معظم الآلات الحاسبة وبرامج الكمبيوتر أيضًا معامل الارتباط، وهو مقياس لمدى ملاءمة الخط للبيانات. تتطلب العديد من حاسبات الرسوم البيانية من المستخدم تشغيل اختيار "التشخيص على" للعثور على معامل الارتباط ، الذي يصنفه علماء الرياضيات على أنه r

يوفر معامل الارتباط طريقة سهلة للحصول على فكرة عن مدى قرب البيانات من الخط.

يجب أن نحسب معامل الارتباط فقط للبيانات التي تتبع نمطًا خطيًا أو لتحديد الدرجة التي تكون عندها مجموعة البيانات خطية. إذا أظهرت البيانات نمطًا غير خطي ، فإن معامل الارتباط للانحدار الخطي لا معنى له. للتعرف على العلاقة بين قيمة r

والرسم البياني للبيانات ، [رابط] يوضح بعض مجموعات البيانات الكبيرة مع معاملات الارتباط الخاصة بها. تذكر ، بالنسبة لجميع المخططات ، يُظهر المحور الأفقي الإدخال ويظهر المحور الرأسي الإخراج.

ال معامل الارتباط هي قيمة ، ص ،

يقترح علاقة إيجابية (متزايدة)

يقترح علاقة سلبية (متناقصة)

احسب معامل الارتباط لبيانات الكريكيت-غرد في [رابط].

نظرًا لأن البيانات تبدو وكأنها تتبع نمطًا خطيًا ، فيمكننا استخدام التكنولوجيا لحساب r

أدخل المدخلات والمخرجات المقابلة وحدد الانحدار الخطي. ستزودك الآلة الحاسبة أيضًا بمعامل الارتباط r = 0.9509.

هذه القيمة قريبة جدًا من 1 ، مما يشير إلى علاقة خطية قوية متزايدة.

ملاحظة: بالنسبة لبعض الآلات الحاسبة ، يجب "تشغيل" التشخيصات للحصول على معامل الارتباط عند إجراء الانحدار الخطي: [2nd] & gt [0] & gt [alpha] [x – 1] ، ثم قم بالتمرير إلى DIAGNOSTICSON.

ملاءمة خط الانحدار لمجموعة من البيانات

بمجرد أن نحدد أن مجموعة البيانات خطية باستخدام معامل الارتباط ، يمكننا استخدام خط الانحدار لعمل تنبؤات. كما تعلمنا أعلاه ، فإن خط الانحدار هو الخط الأقرب إلى البيانات الموجودة في مخطط التبعثر ، مما يعني أن سطرًا واحدًا فقط هو الأنسب للبيانات.

كان استهلاك البنزين في الولايات المتحدة يتزايد باطراد. يتم عرض بيانات الاستهلاك من 1994 إلى 2004 في [رابط]. 4 تحديد ما إذا كان الاتجاه خطيًا ، وإذا كان الأمر كذلك ، فابحث عن نموذج للبيانات. استخدم النموذج للتنبؤ بالاستهلاك في عام 2008.

عام ‘94 ‘95 ‘96 ‘97 ‘98 ‘99 ‘00 ‘01 ‘02 ‘03 ‘04
الاستهلاك (بلايين الجالونات) 113 116 118 119 123 125 126 128 131 133 136

يظهر الرسم المبعثر للبيانات ، بما في ذلك خط انحدار المربعات الصغرى ، في [الرابط].

يمكننا إدخال متغير إدخال جديد ، t ،

تمثل سنوات منذ 1994.

معادلة انحدار المربعات الصغرى هي:

باستخدام التكنولوجيا ، تم حساب معامل الارتباط ليكون 0.9965 ، مما يشير إلى اتجاه خطي متزايد قوي للغاية.

باستخدام هذا للتنبؤ بالاستهلاك في عام 2008 (t = 14) ،

يتوقع النموذج استهلاك 144.244 مليار جالون من البنزين في عام 2008.

استخدم النموذج الذي أنشأناه باستخدام التكنولوجيا في [رابط] للتنبؤ باستهلاك الغاز في عام 2011. هل هذا استيفاء أم استقراء؟

150.871 مليار جالون استقراء

قم بالوصول إلى هذه الموارد عبر الإنترنت للحصول على تعليمات وممارسات إضافية مع النماذج الخطية الملائمة للبيانات.

المفاهيم الرئيسية

  • تُظهر المخططات المبعثرة العلاقة بين مجموعتين من البيانات. انظر [رابط].
  • قد تمثل مخططات التبعثر نماذج خطية أو غير خطية.
  • يمكن تقدير أو حساب الخط الأنسب باستخدام آلة حاسبة أو برنامج إحصائي. انظر [رابط].
  • يمكن استخدام الاستيفاء للتنبؤ بالقيم داخل المجال ونطاق البيانات ، في حين يمكن استخدام الاستقراء للتنبؤ بالقيم خارج المجال ونطاق البيانات. انظر [رابط].
  • معامل الارتباط r ،

يشير إلى درجة العلاقة الخطية بين البيانات. انظر [رابط].

تمارين القسم

شفهي

صف ما يعنيه إذا كان هناك انهيار نموذج عند استخدام نموذج خطي.

عندما لا يعد نموذجنا ساريًا ، بعد بعض القيمة في المجال ، فإن النموذج نفسه لا يصمد.

ما هو الاستيفاء عند استخدام نموذج خطي؟

ما هو الاستقراء عند استخدام نموذج خطي؟

نتوقع قيمة خارج مجال ونطاق البيانات.

اشرح الفرق بين معامل الارتباط الموجب والسالب.

اشرح كيفية تفسير القيمة المطلقة لمعامل الارتباط.

كلما اقترب الرقم من 1 ، قل تبعثر البيانات ، وكلما اقترب الرقم من 0 ، زادت تبعثر البيانات.

جبري

تم إجراء انحدار لتحديد ما إذا كانت هناك علاقة بين ساعات مشاهدة التلفزيون في اليوم (x)

وعدد تمرينات الاعتصام التي يمكن للشخص القيام بها (ص).

نتائج الانحدار معطاة أدناه. استخدم هذا للتنبؤ بعدد مرات الجلوس التي يمكن للشخص الذي يشاهد التلفزيون لمدة 11 ساعة القيام بها.

تم إجراء انحدار لتحديد ما إذا كانت هناك علاقة بين قطر الشجرة (x ،

بالبوصة) وعمر الشجرة (ص ،

في سنوات). نتائج الانحدار معطاة أدناه. استخدم هذا للتنبؤ بعمر الشجرة التي يبلغ قطرها 10 بوصات.

للتمارين التالية ، ارسم مخططًا مبعثرًا للبيانات المقدمة. هل يبدو أن البيانات مرتبطة خطيًا؟

رقم.

رقم.

بالنسبة للبيانات التالية ، ارسم مخطط مبعثر. إذا أردنا أن نعرف متى سيصل عدد السكان إلى 15000 ، فهل ستشمل الإجابة الاستيفاء أو الاستقراء؟ ضع في اعتبارك الخط ، وقم بتقدير الإجابة.

عام سكان
1990 11,500
1995 12,100
2000 12,700
2005 13,000
2010 13,750

بالنسبة للبيانات التالية ، ارسم مخطط مبعثر. إذا أردنا معرفة متى ستصل درجة الحرارة إلى 28 درجة فهرنهايت ، فهل ستشمل الإجابة الاستيفاء أو الاستقراء؟ ضع في اعتبارك الخط وقم بتقدير الإجابة.

درجة الحرارة ، درجة فهرنهايت 16 18 20 25 30
الوقت ، الثواني 46 50 54 55 62

إقحام. حوالي 60 درجة فهرنهايت.

رسومية

بالنسبة للتدريبات التالية ، قم بمطابقة كل مخطط مبعثر بأحد الارتباطات الأربعة المحددة في [رابط] و [رابط].


حجج الإدخال

Tbl & # 8212 بيانات الإدخال الجدول | مجموعة مجموعة البيانات

بيانات الإدخال بما في ذلك متغيرات التوقع والاستجابة ، المحددة كجدول أو مصفوفة مجموعة بيانات. يمكن أن تكون متغيرات التوقع رقمية أو منطقية أو فئوية أو شخصية أو سلسلة. يجب أن يكون متغير الاستجابة رقميًا أو منطقيًا.

بشكل افتراضي ، يأخذ fitlm المتغير الأخير كمتغير استجابة والآخرين كمتغيرات توقع.

لتعيين عمود مختلف كمتغير استجابة ، استخدم وسيطة زوج اسم قيمة ResponseVar.

لاستخدام مجموعة فرعية من الأعمدة كتنبؤات ، استخدم وسيطة زوج قيمة الاسم PredictorVars.

لتحديد مواصفات النموذج ، قم بتعيين وسيطة modelpec باستخدام صيغة أو مصفوفة مصطلحات. تحدد الصيغة أو مصفوفة المصطلحات الأعمدة التي يجب استخدامها كمتوقع أو متغيرات الاستجابة.

لا يجب أن تكون أسماء المتغيرات في الجدول معرّفات MATLAB & # x00AE صالحة. ومع ذلك ، إذا كانت الأسماء غير صالحة ، فلا يمكنك استخدام صيغة عندما تلائم نموذجًا أو تضبطه على سبيل المثال:

لا يمكنك تحديد modelpec باستخدام صيغة.

لا يمكنك استخدام صيغة لتحديد المصطلحات المراد إضافتها أو إزالتها عند استخدام وظيفة addTerms أو وظيفة removeTerms ، على التوالي.

لا يمكنك استخدام صيغة لتحديد الحدود الدنيا والعليا للنموذج عند استخدام الدالة step أو stepwiselm مع وسيطات زوج الاسم والقيمة "Lower" و "Upper" ، على التوالي.

يمكنك التحقق من أسماء المتغيرات في الجدول tbl باستخدام وظيفة isvarname. إذا كانت أسماء المتغيرات غير صالحة ، فيمكنك تحويلها باستخدام دالة matlab.lang.makeValidName.

متغيرات توقع X & # 8212 مصفوفة

المتغيرات التوقعية ، المحددة كملف ن-بواسطة-ص مصفوفة أين ن هو عدد الملاحظات و ص هو عدد متغيرات التوقع. يمثل كل عمود X متغيرًا واحدًا ، ويمثل كل صف ملاحظة واحدة.

بشكل افتراضي ، يوجد مصطلح ثابت في النموذج ، ما لم تقم بإزالته صراحة ، لذلك لا تقم بتضمين عمود من 1s في X.

أنواع البيانات: واحد | مزدوج

Y & # 8212 متغير الاستجابة المتجه

متغير الاستجابة ، محدد كملف ن-by-1 ناقلات حيث ن هو عدد الملاحظات. كل إدخال في y هو الاستجابة للصف المقابل من X.

أنواع البيانات: واحد | مزدوج | منطقي

طرازات pec & # 8212 مواصفات النموذج "خطي" (افتراضي) | متجه الحرف أو سلسلة عددية تسمية النموذج | ر-بواسطة-(ص + 1) مصفوفة الشروط | متجه الحرف أو صيغة عددية سلسلة في النموذج 'y

مواصفات النموذج ، المحددة كواحدة من هذه القيم.

متجه حرف أو سلسلة عددية تسمي النموذج.

قيمةنوع النموذج
'مستمر' يحتوي النموذج على مصطلح ثابت (تقاطع) فقط.
'خطي' يحتوي النموذج على تقاطع ومصطلح خطي لكل متنبئ.
"تفاعلات" يحتوي النموذج على تقاطع ، مصطلح خطي لكل متنبئ ، وجميع منتجات أزواج من المتنبئين المتميزين (بدون مصطلحات مربعة).
"تربيعي خالص" يحتوي النموذج على مصطلح اعتراض ومصطلحات خطية ومربعة لكل متنبئ.
"تربيعي" يحتوي النموذج على مصطلح اعتراض ، وشروط خطية ومربعة لكل متنبئ ، وجميع منتجات أزواج من المتنبئين المتميزين.
'بولي ijk ' النموذج متعدد الحدود مع جميع المصطلحات حتى الدرجة أنا في المتنبئ الأول الدرجة ي في المتنبئ الثاني ، وما إلى ذلك. حدد الدرجة القصوى لكل متنبئ باستخدام الأرقام من 0 إلى 9. يحتوي النموذج على شروط تفاعل ، لكن درجة كل مصطلح تفاعل لا تتجاوز الحد الأقصى لقيمة الدرجات المحددة. على سبيل المثال ، يحتوي "poly13" على تقاطع و x1, x2, x2 2 , x2 3 , x1*x2، و x1*x2 2 شروط ، أين x1 و x2 هما المتنبئين الأول والثاني ، على التوالي.

أ ر-بواسطة-(ص + 1) مصفوفة ، أو مصفوفة الشروط ، مع تحديد المصطلحات في النموذج ، حيث ر هو عدد المصطلحات و ص هو عدد متغيرات التوقع ، وحسابات +1 لمتغير الاستجابة. A terms matrix is convenient when the number of predictors is large and you want to generate the terms programmatically.

A character vector or string scalar Formula in the form

where the terms are in Wilkinson Notation. The variable names in the formula must be variable names in tbl or variable names specified by Varnames . Also, the variable names must be valid MATLAB identifiers.

The software determines the order of terms in a fitted model by using the order of terms in tbl or X . Therefore, the order of terms in the model can be different from the order of terms in the specified formula.

مثال: 'quadratic'

Data Types: single | double | char | string

Name-Value Pair Arguments

Specify optional comma-separated pairs of Name,Value arguments. Name is the argument name and Value is the corresponding value. Name must appear inside quotes. You can specify several name and value pair arguments in any order as Name1,Value1. NameN,ValueN .

مثال: 'Intercept',false,'PredictorVars',[1,3],'ResponseVar',5,'RobustOpts','logistic' specifies a robust regression model with no constant term, where the algorithm uses the logistic weighting function with the default tuning constant, first and third variables are the predictor variables, and fifth variable is the response variable.

'CategoricalVars' — Categorical variable list string array | cell array of character vectors | logical or numeric index vector

Categorical variable list, specified as the comma-separated pair consisting of 'CategoricalVars' and either a string array or cell array of character vectors containing categorical variable names in the table or dataset array tbl , or a logical or numeric index vector indicating which columns are categorical.

If data is in a table or dataset array tbl , then, by default, fitlm treats all categorical values, logical values, character arrays, string arrays, and cell arrays of character vectors as categorical variables.

If data is in matrix X , then the default value of 'CategoricalVars' is an empty matrix [] . That is, no variable is categorical unless you specify it as categorical.

For example, you can specify the second and third variables out of six as categorical using either of the following:

مثال: 'CategoricalVars',[2,3]

مثال: 'CategoricalVars',logical([0 1 1 0 0 0])

Data Types: single | double | logical | string | زنزانة

'Exclude' — Observations to exclude logical or numeric index vector

Observations to exclude from the fit, specified as the comma-separated pair consisting of 'Exclude' and a logical or numeric index vector indicating which observations to exclude from the fit.

For example, you can exclude observations 2 and 3 out of 6 using either of the following examples.

مثال: 'Exclude',[2,3]

مثال: 'Exclude',logical([0 1 1 0 0 0])

Data Types: single | double | منطقي

'Intercept' — Indicator for constant term true (default) | false

Indicator for the constant term (intercept) in the fit, specified as the comma-separated pair consisting of 'Intercept' and either true to include or false to remove the constant term from the model.

Use 'Intercept' only when specifying the model using a character vector or string scalar, not a formula or matrix.

مثال: 'Intercept',false

'PredictorVars' — Predictor variables string array | cell array of character vectors | logical or numeric index vector

Predictor variables to use in the fit, specified as the comma-separated pair consisting of 'PredictorVars' and either a string array or cell array of character vectors of the variable names in the table or dataset array tbl , or a logical or numeric index vector indicating which columns are predictor variables.

The string values or character vectors should be among the names in tbl , or the names you specify using the 'VarNames' name-value pair argument.

The default is all variables in X , or all variables in tbl except for ResponseVar .

For example, you can specify the second and third variables as the predictor variables using either of the following examples.

مثال: 'PredictorVars',[2,3]

مثال: 'PredictorVars',logical([0 1 1 0 0 0])

Data Types: single | double | logical | string | زنزانة

'ResponseVar' — Response variable last column in tbl (default) | character vector or string scalar containing variable name | logical or numeric index vector

Response variable to use in the fit, specified as the comma-separated pair consisting of 'ResponseVar' and either a character vector or string scalar containing the variable name in the table or dataset array tbl , or a logical or numeric index vector indicating which column is the response variable. You typically need to use 'ResponseVar' when fitting a table or dataset array tbl .

For example, you can specify the fourth variable, say yield , as the response out of six variables, in one of the following ways.

مثال: 'ResponseVar','yield'

مثال: 'ResponseVar',[4]

مثال: 'ResponseVar',logical([0 0 0 1 0 0])

Data Types: single | double | logical | char | string

'RobustOpts' — Indicator of robust fitting type 'off' (default) | 'on' | character vector | string scalar | structure

Indicator of the robust fitting type to use, specified as the comma-separated pair consisting of 'RobustOpts' and one of these values.

'off' — No robust fitting. fitlm uses ordinary least squares.

'on' — Robust fitting using the 'bisquare' weight function with the default tuning constant.

Character vector or string scalar — Name of a robust fitting weight function from the following table. fitlm uses the corresponding default tuning constant specified in the table.

Structure with the two fields RobustWgtFun and Tune .

The RobustWgtFun field contains the name of a robust fitting weight function from the following table or a function handle of a custom weight function.

The Tune field contains a tuning constant. If you do not set the Tune field, fitlm uses the corresponding default tuning constant.

Weight FunctionوصفDefault Tuning Constant
'andrews' w = (abs(r)<pi) .* sin(r) ./ r 1.339
'bisquare' w = (abs(r)<1) .* (1 - r.^2).^2 (also called biweight)4.685
'cauchy' w = 1 ./ (1 + r.^2) 2.385
'fair' w = 1 ./ (1 + abs(r)) 1.400
'huber' w = 1 ./ max(1, abs(r)) 1.345
'logistic' w = tanh(r) ./ r 1.205
'ols' Ordinary least squares (no weighting function)لا أحد
'talwar' w = 1 * (abs(r)<1) 2.795
'welsch' w = exp(-(r.^2)) 2.985
function handleCustom weight function that accepts a vector r of scaled residuals, and returns a vector of weights the same size as r 1

The default tuning constants of built-in weight functions give coefficient estimates that are approximately 95% as statistically efficient as the ordinary least-squares estimates, provided the response has a normal distribution with no outliers. Decreasing the tuning constant increases the downweight assigned to large residuals increasing the tuning constant decreases the downweight assigned to large residuals.

The value ص in the weight functions is

where resid is the vector of residuals from the previous iteration, tune is the tuning constant, h is the vector of leverage values from a least-squares fit, and s is an estimate of the standard deviation of the error term given by

MAD is the median absolute deviation of the residuals from their median. The constant 0.6745 makes the estimate unbiased for the normal distribution. If X has ص columns, the software excludes the smallest ص absolute deviations when computing the median.

For robust fitting, fitlm uses M-estimation to formulate estimating equations and solves them using the method of Iteratively Reweighted Least Squares (IRLS).

مثال: 'RobustOpts','andrews'

'VarNames' — Names of variables (default) | string array | cell array of character vectors

Names of variables, specified as the comma-separated pair consisting of 'VarNames' and a string array or cell array of character vectors including the names for the columns of X first, and the name for the response variable y last.

'VarNames' is not applicable to variables in a table or dataset array, because those variables already have names.

The variable names do not have to be valid MATLAB identifiers. However, if the names are not valid, you cannot use a formula when you fit or adjust a model for example:

You cannot use a formula to specify the terms to add or remove when you use the addTerms function or the removeTerms function, respectively.

You cannot use a formula to specify the lower and upper bounds of the model when you use the step or stepwiselm function with the name-value pair arguments 'Lower' and 'Upper' , respectively.

Before specifying 'VarNames',varNames , you can verify the variable names in varNames by using the isvarname function. If the variable names are not valid, then you can convert them by using the matlab.lang.makeValidName function.

مثال: 'VarNames',

Data Types: string | زنزانة

'Weights' — Observation weights ones(n,1) (default) | ن-by-1 vector of nonnegative scalar values

Observation weights, specified as the comma-separated pair consisting of 'Weights' and an ن-by-1 vector of nonnegative scalar values, where ن is the number of observations.

Data Types: single | مزدوج


Logistic Regression

Logistic Regression is great for multiclass classification because Scikit-learn encodes encodes the target labels automatically if they are strings.

First, we need to split our data into train and test.

When you’re working with a learning model, it is important to scale the features to a range which is centered around zero. Scaling will make sure the variance of the features are in the same range.

Now, we’ll run the model on both train and test and see what our accuracy score is.

We’re definitely beating our majority class baseline of .54 here with .73 for train and test. Let’s see if another model can do better.


Tests of Significance

Recall in the previous chapter we tested to see if ذ و x were linearly related by testing

with the t-test (or the equivalent F-test). In multiple linear regression, there are several partial slopes and the t-test and F-test are no longer equivalent. Our question changes: Is the regression equation that uses information provided by the predictor variables x 1 , x 2 , x 3 , …, x k , better than the simple predictor (the mean response value), which does not rely on any of these independent variables?

H 0 : β 1 = β 2 = β 3 = …= β k = 0

H 1 : At least one of β 1 , β 2 , β 3 , … β k ≠ 0

The F-test statistic is used to answer this question and is found in the ANOVA table.

This test statistic follows the F-distribution with df 1 = k and df 2 = (n-k-1). Since the exact p-value is given in the output, you can use the Decision Rule to answer the question.

If the p-value is less than the level of significance, reject the null hypothesis.

Rejecting the null hypothesis supports the claim that at least one of the predictor variables has a significant linear relationship with the response variable. The next step is to determine which predictor variables add important information for prediction in the presence of other predictors already in the model. To test the significance of the partial regression coefficients, you need to examine each relationship separately using individual t-tests.


with df = (n-k-1)

أين SE(bأنا) is the standard error of ب أنا. Exact p-values are also given for these tests. Examining specific p-values for each predictor variable will allow you to decide which variables are significantly related to the response variable. Typically, any insignificant variables are removed from the model, but remember these tests are done with other variables in the model. A good procedure is to remove the least significant variable and then refit the model with the reduced data set. With each new model, always check the regression standard error (lower is better), the adjusted R 2 (higher is better), the p-values for all predictor variables, and the residual and normal probability plots.

Because of the complexity of the calculations, we will rely on software to fit the model and give us the regression coefficients. Don’t forget… you always begin with scatterplots. Strong relationships between predictor and response variables make for a good model.

مثال 1

A researcher collected data in a project to predict the annual growth per acre of upland boreal forests in southern Canada. They hypothesized that cubic foot volume growth (ذ) is a function of stand basal area per acre (x 1 ), the percentage of that basal area in black spruce (x 2 ), and the stand’s site index for black spruce (x 3 ). α = 0.05.

Table 3. Observed data for cubic feet, stand basal area, percent basal area in black spruce, and site index.

Scatterplots of the response variable versus each predictor variable were created along with a correlation matrix.

Figure 1. Scatterplots of cubic feet versus basal area, percent basal area in black spruce, and site index. Table 4. Correlation matrix.

As you can see from the scatterplots and the correlation matrix, BA/ac has the strongest linear relationship with CuFt volume (r = 0.816) and %BA in black spruce has the weakest linear relationship (r = 0.413). Also of note is the moderately strong correlation between the two predictor variables, BA/ac and SI (r = 0.588). All three predictor variables have significant linear relationships with the response variable (volume) so we will begin by using all variables in our multiple linear regression model. The Minitab output is given below.


Generating Dataset

In this article, we will use some of the popular modules such as numpy, tensorflow and matplotlib.pyplot. Let’s import them.

To begin, we start by generating our dataset, namely x و ذ. You can think of each value in x و ذ as points on the graph. In line 6, we want numpy to generate 100 points with value between 0 and 2, spreaded evenly. The result is a numpy array stored in x_batch . Similarly, we also want to randomly generate ذ such that it has a gradient of 1.5 (دبليو) and some form of randomness using np.random.randn() . To make things interesting, we set y-intercept ب to 0.5.

[line 8] return x_batch, y_batch

We return both numpy arrays x_batch and y_batch .

This is how the plot looks like with generate_dataset() . Notice that visually, the points form a trend line starting from the bottom left to the top right but not cutting through the origin (0, 0).


Log Transformed Coefficient Understanding

  • For every one percent increase in the independent variable, the dep. variable changes by: Coefficient * ln(1.01)
  • ln(1.01) or ln(101/100) is also equal to just about 1%

If you want to see a different percent increase, you can put ln(1.10) - a 10% increase

التحليلات

  • The y-intercept can be interpreted that in general the starting price of a house in Boston 1979 would be around 25K-26K.
  • ‘RM’, or rooms per home, at 3.23 can be interpreted that for every room, the price increases by 3K.
  • The Log Transformed ‘LSTAT’, % of lower status, can be interpreted as for every 1% increase of lower status, using the formula -9.96*ln(1.01), then our median value will decrease by 0.09, or by 100 dollars.

5.1 - Example on IQ and Physical Characteristics

Let's jump in and take a look at some "real-life" examples in which a multiple linear regression model is used. Make sure you notice, in each case, that the model has more than one predictor. You might also try to pay attention to the similarities and differences among the examples and their resulting models. Most of all, don't worry about mastering all of the details now. In the upcoming lessons, we will re-visit similar examples in greater detail. For now, my hope is that these examples leave you with an appreciation of the richness of multiple regression.

Are a person's brain size and body size predictive of his or her intelligence?

Interested in answering the above research question, some researchers (Willerman, وآخرون, 1991) collected the following data (IQ Size data) on a sample of ن = 38 college students:

  • Response (ذ): Performance IQ scores (PIQ) from the revised Wechsler Adult Intelligence Scale. This variable served as the investigator's measure of the individual's intelligence.
  • Potential predictor ((x_<1>)): Brain size based on the count obtained from MRI scans (given as count/10,000).
  • Potential predictor ((x_<2>)): Height in inches.
  • Potential predictor ((x_<3>)): Weight in pounds.

As always, the first thing we should want to do when presented with a set of data is to plot it. And, of course, plotting the data is a little more challenging in the multiple regression setting, as there is one scatter plot for each pair of variables. Not only do we have to consider the relationship between the response and each of the predictors, but we also have to consider how the predictors are related among each other.

A common way of investigating the relationships among all of the variables is by way of a "scatter plot matrix." Basically, a scatter plot matrix contains a scatter plot of each pair of variables arranged in an orderly array. Here's what one version of a scatter plot matrix looks like for our brain and body size example:

For each scatter plot in the matrix, the variable on the ذ-axis appears at the left end of the plot's row and the variable on the x-axis appears at the bottom of the plot's column. Try to identify the variables on the ذ-axis and x-axis in each of the six scatter plots appearing in the matrix. You can check your understanding by selecting ال

icons appearing in the above matrix.

Incidentally, in case you are wondering, the tick marks on each of the axes are located at 25% and 75% of the data range from the minimum. That is:

  • the first tick = ((maximum - minimum) * 0.25) + minimum
  • the second tick = ((maximum - minimum) * 0.75) + minimum

Now, what does a scatter plot matrix tell us? Of course, one use of the plots is simple data checking. Are there any egregiously erroneous data errors? The scatter plots also illustrate the "marginal relationships" between each pair of variables without regard to the other variables. For example, it appears that brain size is the best single predictor of PIQ, but none of the relationships are particularly strong. In multiple linear regression, the challenge is to see how the response ذ relates to all three predictors simultaneously.

We always start a regression analysis by formulating a model for our data. One possible multiple linear regression model مع three quantitative predictors for our brain and body size example is:

  • (y_) is the intelligence (PIQ) of student i
  • (x_) is the brain size (MRI) of student i
  • (x_) is the height (Height) of student i
  • (x_) is the weight (Weight) of student i

و ال independent error terms (epsilon_) follow a normal distribution with mean 0 and equal variance (sigma_<2>).

A couple of things to note about this model:

  • Because we have more than one predictor (x) variable, we use slightly modified notation. ال x-variables (على سبيل المثال, (x_), (x_), and (x_)) are now subscripted with a 1, 2, and 3 as a way of keeping track of the three different quantitative variables. We also subscript the slope parameters with the corresponding numbers (على سبيل المثال, (eta_<1>) (eta_<2>) and (eta_<3>)).
  • The "LINE" conditions must still hold for the multiple linear regression model. The linear part comes from the formulated regression function — it is, what we say, "linear in the parameters." This simply means that each beta coefficient multiplies a predictor variable or a transformation of one or more predictor variables. We'll see in Lesson 9 that this means that, for example, the model, (y=eta_0+eta_1x+eta_2x^2+epsilon), is a multiple خطي regression model even though it represents a curved relationship between (y) and (x).

Of course, our interest in performing a regression analysis is almost always to answer some sort of research question. Can you think of some research questions that the researchers might want to answer here? How about the following set of questions? What procedure would you use to answer each research question? (Do the procedures that appear in parentheses seem reasonable?)

  • Which, if any, predictors — brain size, height, or weight — explain some of the variation in intelligence scores? (Conduct hypothesis tests for individually testing whether each slope parameter could be 0.)
  • What is the effect of brain size on PIQ, after taking into account height and weight? (Calculate and interpret a confidence interval for the brain size slope parameter.)
  • What is the PIQ of an individual with a given brain size, height, and weight? (Calculate and interpret a prediction interval for the response.)

Let's take a look at the output we obtain when we ask Minitab to estimate the multiple regression model we formulated above:

Regression Analysis: PIQ versus Brain, Height, Weight

Analysis of Variance
Source DF Adj SS Adj MS F-Value P-value
Regression 3 5572.7 1857.58 4.74 0.007
Brain 1 5239.2 5239.23 13.37 0.001
Height 1 1934.7 1934.71 4.94 0.033
Weight 1 0.0 0.0 0.00 0.998
Error 34 13321.8 391.82
مجموع 37 188946
Model Summary
Coefficients
Term Coef SE Coef T-Value P-Value VIF
مستمر 11.4 63.0 1.77 0.086
Brain 2.060 0.563 3.66 0.001 1.58
Height -2.73 1.23 -2.22 0.033 2.28
Weight 0.001 0.197 0.00 0.998 2.02
Regression Equation

PIQ = 111.4 + 2.060 Brain - 2.73 Height + 0.001 Weight

My hope is that you immediately observe that much of the output looks the same as before! The only substantial differences are:

  • More predictors appear in the estimated regression equation and therefore also in the column labeled "Term" in the coefficients table.
  • There is an additional row for each predictor term in the Analysis of Variance Table. By default in Minitab, these represent the reductions in error sum of squares for each term relative to a model that contains all of the remaining terms (so-called Adjusted or Type III sums of squares). It is possible to change this using the Minitab Regression Options to instead use Sequential or Type I sums of squares, which represent the reductions in error sum of squares when a term is added to a model that contains only the terms before it.

We'll learn more about these differences later, but let's focus now on what you already know. The output tells us that:

  • The (R^<2>) value is 29.49%. This tells us that 29.49% of the variation in intelligence, as quantified by PIQ, is reduced by taking into account brain size, height and weight.
  • The Adjusted (R^<2>) value — denoted "R-sq(adj)" — is 23.27%. When considering different multiple linear regression models for PIQ, we could use this value to help compare the models.
  • ال ص-values for the ر-tests appearing in the coefficients table suggest that the slope parameters for Brain (ص = 0.001) and Height (ص = 0.033) are significantly different from 0, while the slope parameter for Weight (ص = 0.998) is not.
  • ال ص-value for the analysis of variance F-test (ص = 0.007) suggests that the model containing Brain, Height and Weight is more useful in predicting intelligence than not taking into account the three predictors. (Note that this does not tell us that the model with the three predictors is the best model!)

So, we already have a pretty good start on this multiple linear regression stuff. Let's take a look at another example.


4.6 Other Options

The lm() function has several additional parameters that we have not discussed. These include

subset to restrict the analysis to a subset of the data weights to do weighted least squares

and many others see help(lm) for further details. The args() function lists the arguments used by any function, in case you forget them. Try args(lm) .

The fact that R has powerful matrix manipulation routines means that one can do many of these calculations from first principles. The next couple of lines create a model matrix to represent the constant, setting and effort, and then calculate the OLS estimate of the coefficients as ((X'X)^<-1>X'y:)


شاهد الفيديو: ادارة العمليات الانتاجية. الحلقة 6: التنبؤ بالطلب Forecasting- ج2 (ديسمبر 2021).