مقالات

2.2.2: وظيفة النموذج الخطي


نحن نستخدم نماذج الانحدار للتنبؤ بسلوك النظام عن طريق الاستقراء من قيم المخرجات التي تم قياسها مسبقًا عندما يتم اختبار النظام بقيم معلمات الإدخال المعروفة. لها الشكل الرياضي:

ص = أ0 + أ1x1

أين س1 هو المدخل إلى النظام ، أ0 هو تقاطع y للخط ، أ1 هو المنحدر ، و y هي قيمة الإخراج التي يتوقعها النموذج.

يوفر R الوظيفةlm ()الذي يولد نموذجًا خطيًا من البيانات الموجودة في إطار البيانات. بالنسبة لهذا النموذج أحادي العامل ، R تحسب قيم a0 و أ1 باستخدام طريقة المربعات الصغرى. تجد هذه الطريقة الخط الأكثر ملاءمة للبيانات المقاسة عن طريق تقليل المسافات بين الخط ونقاط البيانات الفردية. لإطار البياناتint00.dat، نحسب النموذج على النحو التالي:

> إرفاق (int00.dat)> int00.lm 

السطر الأول في هذا المثال يرفق ملفint00.datإطار البيانات إلى مساحة العمل الحالية. السطر التالي يستدعيlm ()وظيفة وتعيين الناتج كائن نموذج خطي إلى المتغيرint00.lm.نحن نستخدم اللاحقة.lmللتأكيد على أن هذا المتغير يحتوي على نموذج خطي. الحجة فيlm ()وظيفة،(أداء ~ الساعة)، يقول أننا نريد العثور على نموذج حيث المتنبئساعةيشرح الإخراجأداء.

كتابة اسم المتغير ،int00.lm، في حد ذاته يجعل R يطبع الوسيطة التي تعمل بها الوظيفةlm ()تم استدعاؤه جنبًا إلى جنب مع المعاملات المحسوبة لنموذج الانحدار.

> int00.lm المكالمة: lm (الصيغة = perf ~ clock) المعامِلات: (Intercept) clock51.7871 0.5863

في هذه الحالة ، تقاطع y هو أ0 = 51.7871 والميل أ1 = 0.5863. وبالتالي ، فإن نموذج الانحدار النهائي هو:

الشكل 3.2: نموذج الانحدار الخطي أحادي العامل المتراكب على البيانات من الشكل 3.1.

الأداء = 51.7871 + 0.5863 الساعة.

يرسم الكود التالي البيانات الأصلية مع الخط المجهز ، كما هو موضح في الشكل 3.2. الوظيفةأبلين ()هو اختصار ل (أ ، ب) -خط. يرسم خطًا على نافذة الرسم النشط ، باستخدام منحدر وتقاطع النموذج الخطي الوارد في حجته.

> مؤامرة (ساعة ، أداء)> أبلين (int00.lm)

الهدف من الانحدار الخطي هو نمذجة متغير مستمر ص كدالة رياضية لواحد أو أكثر X متغير (متغيرات) ، حتى نتمكن من استخدام نموذج الانحدار هذا للتنبؤ بـ ص فقط عندما يكون X معروف. يمكن تعميم هذه المعادلة الرياضية على النحو التالي:

أين، β1 هو التقاطع و β2 هو المنحدر. بشكل جماعي ، يتم استدعاؤهم معاملات الانحدار. ϵ هو مصطلح الخطأ ، جزء من ص نموذج الانحدار غير قادر على تفسير ذلك.


2.2.2: وظيفة النموذج الخطي

فهرس للوحدة الثانية ملاحظات

2.1: عرض ووصف العلاقات الخطية

2.2: اختبار العلاقات الخطية وعمل تنبؤات

في ملاحظات الوحدة 2.1 غطينا الخطوات 1-3 لتحليل الانحدار والارتباط لنموذج الانحدار الخطي البسيط. في هذه الخطوات ، نتعرف على شكل واتجاه وقوة العلاقة بين متغيرين. نحدد أيضًا الملاحظات الخارجية والمؤثرة المحتملة التي يجب إزالتها من مجموعة البيانات لدراسة منفصلة. في الخطوات من 4 إلى 6 ، سنحدد ما إذا كانت العلاقة ذات فائدة عملية وإحصائية وتفي بافتراضات الانحدار. سوف نتعلم أيضًا عملية عددية لتحديد القيم المتطرفة. عندما ينتهي كل شيء ، نكون جاهزين للخطوة 7 ، باستخدام نموذج التنبؤات. كل الخطوات السبع مكررة أدناه.

للاستعداد لهذه الخطوات ، نحتاج إلى بعض مخرجات Excel الرقمية والرسومية الإضافية. سأوضح الخطوات من 4 إلى 7 باستخدام نفس البيانات التي تم تقديمها في ملاحظات الوحدة 2.1. للراحة ، يتم تكراره أدناه في ورقة العمل 2.2.1.


يتم توضيح الإخراج الرقمي من الوظيفة الإضافية للانحدار في Excel في ورقة العمل التالية. تعرض ورقة العمل 2.2.2 نتائج القدرة الإضافية للانحدار ضمن تحليل البيانات. حدد الأدوات من شريط الأدوات القياسي ، وتحليل البيانات من القائمة المنسدلة ، والانحدار من تحديدات الأدوات ، ثم اتبع أسئلة شاشة الحوار ، والتي تم تنظيمها في مجالات الإدخال والإخراج والتحليل المألوفة.

بالنسبة لإدخالات الإدخال ، أقترح أن يتضمن نطاقي Y و X تسمية من ستة أحرف أو أقل للسماح لك بتحديد المتغيرات الخاصة بك في منتجات الإخراج. تأكد من تحديد "التصنيفات" إذا قمت بتضمين التصنيفات في نطاقاتك ، وحدد أيضًا "فاصل الثقة". أود أن أضع الإخراج في ورقة العمل بالقرب من بياناتك - سيتطلب الإخراج حوالي 9 أعمدة للبيانات وعدة أعمدة أخرى للمخططات. لاحظ أن مربع الحوار يحتوي أيضًا على أربعة مربعات لتحليل "المتبقي" ومربع واحد لـ "مخطط الاحتمالية العادية". انطلق وحدد هذه المربعات - سنتحدث عن إخراج الرسم البياني في الخطوتين 6 و 7.

سأتحدث عن كل قسم من هذه الأقسام في الخطوات من 4 إلى 7.


الخطوة 4: اختبار الأداة العملية لنموذج الانحدار

هذه الخطوة ذات أهمية كبيرة للمديرين الذين يستخدمون الانحدار للتطبيقات العملية. بينما يجب أن تجتاز نماذج الانحدار اختبارات المنفعة الإحصائية والافتراضات ، إذا لم يكن للنموذج فائدة عملية ، فلا ينبغي استخدامه.

معامل التحديد: R 2
لاختبار المنفعة العملية ، ننظر إلى إحصائيتين ، R 2 و Standard Error. تم تقديم الإحصاء الأول بالفعل في الوحدة 2.1: معامل التحديد أو R 2. تذكر أننا نود أن يكون لنماذج الانحدار قيم R 2 عالية - وهذا يعني أنه لكي تكون مفيدة عمليًا ، نود أن تكون R 2 أعلى من 50٪. تحذير: هذا رقم مرجعي فقط. يتم اختياره لأنه يساوي تقريبًا 0.70 (الجذر التربيعي 0.50 يساوي 0.707) معامل ارتباط ، أو علاقة معتدلة. هناك أوقات استخدمت فيها نماذج الانحدار مع R 2 أقل من 50٪ ، لكن تذكر أن هذا يعني أن المتغير المستقل يشرح أقل من 50٪ من تباين العينة في المتغير التابع. هناك طريقة أخرى للنظر إليها وهي أن أكثر من 50٪ من تباين العينة سيكون غير مبرر.

وجدنا R 2 كخيار لمخطط الرسم البياني المبعثر XY في Excel في Module Notes 2.1. يتم توفيره أيضًا في جزء إخراج الملخص من إخراج الانحدار. في القسم المعنون "إحصائيات الانحدار" في ورقة العمل 2.2.2 أعلاه ، فإن المربع R هو ما نريده. لاحظ أن قيمته هي 0.817 ، كما ذكرنا في الوحدة 2.1. أعلى مربع R مباشرةً هو مضاعف R. وهذا هو معامل الارتباط الذي قمنا بحسابه في الوحدة 2.1 بأخذ الجذر التربيعي لـ R 2. أسفل المربع R يوجد مربع R المعدل. سأتحدث عن هذا في الوحدة 3 - يمكننا تجاهلها لتحليل الانحدار الخطي البسيط. أدرك أنه عندما أقوم باستيراد ورقة عمل Excel إلى موقع الويب ، يتم استيرادها كجدول وليس لها نفس التنسيق تمامًا كما في Excel.

تذكر أنه لتفسير R 2 نقول أن أصول العميل تفسر 81.7٪ من التباين في الساعات الخارجية. يتم حساب 81.7٪ (أو 82٪ تقريبًا) بأخذ نسبة التباين المنسوب إلى نموذج الانحدار أو الموضح بواسطة نموذج الانحدار مقارنة بالتغير الكلي. هذا ليس من الصعب حسابه - فقط ممل. سأوضح كيف يتم حسابها - لا تنزعج - يقوم برنامج الكمبيوتر بهذا من أجلنا.

يتم حساب التباين الموضح بواسطة نموذج الانحدار من خلال إيجاد الفرق (أو الاختلاف) بين القيمة المتوقعة لـ Y ومتوسط ​​قيمة Y لكل ملاحظة في مجموعة البيانات. على سبيل المثال ، الملاحظة الأولى الموضحة في ورقة العمل 2.2.1 لها قيمة X تبلغ 3200 (تذكر أن هذا هو 3200000 دولار ، لكننا نستخدم 3200 لإدخال البيانات - بالدولارات بالآلاف) وقيمة Y تساوي 700. القيمة المتوقعة لـ Y ( ساعات العمل الخارجية) ستكون:

متوسط ​​جميع قيم Y هو 1049.5. لذا فإن الاختلاف المنسوب إلى الانحدار لهذه الملاحظة هو (760-1049.4) أو -289.5. ثم يحسب برنامج الكمبيوتر تباينًا مشابهًا لجميع القيم الأخرى المتوقعة لـ Y لكل ملاحظة في مجموعة البيانات. ثم يتم تربيع هذه الاختلافات وتلخيصها. هذا هو الاختلاف الموضح بواسطة نموذج الانحدار أو المنسوب إليه ويسمى مجموع انحدار المربعات (SSR). يمكن رؤية قيمة هذا التباين التربيعي في ورقة العمل 2.2.2 ، في الجدول المسمى ANOVA (لتحليل التباين!) في الصف بعنوان الانحدار ، وفي العمود المسمى SS. القيمة 669645.0037.

بعد ذلك ، نجد التباين الإجمالي من خلال إيجاد الفرق بين القيمة الفعلية لـ Y ومتوسط ​​قيمة Y لكل ملاحظة في مجموعة البيانات. بالنسبة للملاحظة الأولى ، هذا الاختلاف هو (700-1049.5) أو -349.5. ثم يقوم برنامج الكمبيوتر بتربيع هذا والاختلافات لجميع الملاحظات الأخرى ويلخصها. يسمى هذا بالتباين الإجمالي ، أو SST لمجموع إجمالي المربعات. القيمة هي 819295 في جدول ANOVA في الصف بعنوان الإجمالي ، وفي العمود المسمى SS لورقة العمل 2.2.2. أخيرًا ، تُظهر المعادلة 2.2.2 حساب R 2.

الخطأ المعياري في التقدير أو النموذج
المقياس الثاني المستخدم لاختبار المنفعة العملية لنموذج الانحدار يسمى الخطأ القياسي في ملخص إخراج Excel في ورقة العمل 2.2.2. لاحظ أن القيمة هي 91.18. لنكون أكثر دقة ، يسمى هذا رسميًا الخطأ المعياري للتقدير أو الخطأ المعياري للتنبؤ. نظرًا لأننا نستخدم نموذج الانحدار لحساب التقدير ، يشير البعض إلى هذا الخطأ القياسي باعتباره الخطأ القياسي لنموذج الانحدار. التفسير مشابه لتفسير الانحراف المعياري للملاحظة والخطأ المعياري للمتوسط ​​، كما تعلمنا في الوحدة 1.3 و 1.4 ملاحظات. التفسير: 95٪ (أو معظم) القيم الفعلية لـ Y (Ext Hours) ستكون ضمن +/- 2 خطأ قياسي للقيمة المتوقعة لـ Y. في هذا المثال: 95٪ من القيم الفعلية للساعات الخارجية ستكون ضمن + / - 2 * 91 أو +/- 182 من الساعات الخارجية المتوقعة. لذلك ، إذا توقعنا أن تكون الساعات الخارجية 760 ، فيمكن أن تكون في أي مكان من 578 إلى 942.

هذا مهم حقًا. في كثير من الأحيان في تحليل الانحدار ، يقوم الناس بالتنبؤ ويذهبون معه دون النظر إلى الخطأ القياسي. يعطينا مقياس المنفعة العملية هذا مؤشرًا على مدى موثوقية نموذج الانحدار. الجزء الصعب هو أنني لا أستطيع أن أعطيك (ولا أستطيع نصًا) معيارًا جيدًا - إنها دعوة إدارية حول مقدار الخطأ المقبول. من الواضح أنه سيكون هناك خطأ لأنه لا تقع كل ملاحظة في عينة من البيانات على خط الانحدار. بالنسبة للمثال أعلاه ، الخطأ القياسي هو 91. بالنسبة للقيمة الفعلية لـ Y (الساعات الخارجية) البالغة 700 عند النطاق المنخفض لـ Y ، فهذه النسبة المئوية للخطأ هي 100 * 91/700 بالمائة ، أو 13 بالمائة. بالنسبة للقيمة الفعلية لـ Y عند الحد الأقصى 1500 ، فإن نسبة الخطأ هي 6 بالمائة. بالنسبة لمتوسط ​​قيمة Y لـ 1050 ساعة ، فإن نسبة الخطأ هي 8.7٪. لأغراض التخطيط ، قد يكون هذا النطاق من الأخطاء مقبولاً. لأغراض التنبؤ الدقيق ، قد لا يتم التسامح مع الابتعاد بنسبة تصل إلى 13 في المائة.

في كثير من الأحيان ، يمكننا استخدام الخطأ القياسي كأداة مقارنة. لنفترض أننا قمنا بتشغيل نموذج آخر باستخدام متغير مستقل مختلف وحصلنا على خطأ معياري قدره 45. سيكون من الأفضل أن يكون لديك خطأ 45 في التنبؤ بدلاً من خطأ 91. النقطة هي ، بدون مقياس المتوسط ​​أو القياسي خطأ في التنبؤ ، لن نتمكن من مقارنة النماذج.

لحساب الخطأ القياسي للتقدير ، يكتشف برنامج الكمبيوتر أولاً الخطأ ، والذي يُسمى أيضًا المتبقي ، لكل ملاحظة في مجموعة البيانات. الخطأ هو الفرق بين القيمة الفعلية لـ Y والقيمة المتوقعة لـ y ، أو Y - y. لتوضيح الملاحظة الأولى ، القيمة الفعلية لـ y (ساعات خارجية) هي 700 والقيمة المتوقعة لـ y هي 760. وبالتالي فإن الخطأ هو 700-760 أو -60. بطريقة مماثلة ، يتم حساب جميع الأخطاء لكل ملاحظة ، ثم تربيعها ، ثم تلخيصها للحصول على مجموع خطأ المربعات (SSE). SSE هو مقياس للتباين غير المبرر في الانحدار وهو التباين حول خط الانحدار. يمكنك العثور على SSE هذا من خلال النظر إلى جدول ANOVA في ورقة العمل 2.2.2 ، في الصف المسمى "المتبقي" والعمود المسمى SS.

للحصول على الخطأ القياسي للتقدير ، يقسم برنامج الكمبيوتر SSE على حجم العينة مطروحًا منه 2 (لضبط درجات الحرية في الانحدار البسيط) ، ثم يأخذ الجذر التربيعي.

يعطينا الخطأ المعياري للتقدير و R 2 مقاييس الفائدة العملية. تتميز نماذج الانحدار التي تحتوي على أخطاء قياسية أقل وأخطاء R 2 الأعلى بفائدة عملية أكبر مقارنة بالنماذج ذات الأخطاء المعيارية الأعلى وأخطاء R 2 الأقل. في حالة عدم وجود تحليل مقارن ، قد تعمل معايير قيم R 2 التي تزيد عن 50٪ ونطاقات الأخطاء المعيارية التي تقل عن 5-15٪ من القيم الفعلية للمتغير التابع كحد أدنى. ومع ذلك ، فهذه مكالمات حكم وليست معايير إحصائية دقيقة. الشيء المهم هو أن المحللين لديهم معيار أخلاقي للإبلاغ عن الخطأ المعياري وقيم R 2 لجمهورهم.

هل لاحظت أن الأخطاء المعيارية المنخفضة ستقترن بأخطاء R 2 العالية ، والعكس صحيح؟ هذا ببساطة لأن نماذج الانحدار التي يتم فيها تجميع البيانات بإحكام حول خط الانحدار بها خطأ بسيط ، و X لها قيمة تنبؤية عالية (الحركات في X تؤدي إلى حركات يمكن التنبؤ بها في Y).

يمكن تفسير ذلك أيضًا بمعادلة R 2 ، المعادلة 2.2.2 ، والتي تتكرر أدناه:

منذ SST = SSR + SSE ، يمكننا إعادة كتابة Eq. 2.2.2 على النحو التالي:

كلما زاد SSR (التباين الموضح) ، انخفض SSE (التباين غير المبرر) لـ SST (التباين الكلي). كلما ارتفع SSR ، ارتفع مستوى R 2 وانخفض SSE. ينتج عن SSE المنخفض أخطاء قياسية أقل.


الخطوة 5: اختبر المنفعة الإحصائية لنموذج الانحدار

هناك طريقتان استنتاجيتان لاختبار المنفعة الإحصائية لنموذج الانحدار: اختبار الفرضية وبناء فترة الثقة. إن المعلمة المهمة في تحديد ما إذا كان الانحدار مهمًا من الناحية الإحصائية أم مفيدًا هو المنحدر.

اختبار فرضية لمنحدر السكان
تتطابق العملية المكونة من خمس خطوات لاختبار فرضية لمتوسط ​​المجتمع مع عملية اختبار فرضية لمنحدر السكان ، فنحن فقط نغير المعلمة من المتوسط ​​إلى المنحدر.

الفرضيات الصفرية والبديلة في الانحدار هي:

إذا لم نتمكن من رفض فرضية العدم استنادًا إلى الدليل الموجود في عينتنا ، فإننا نقول حقًا أن الميل يساوي صفرًا. أي أن خط الانحدار أفقي ، مما يعني أن Y لا يتغير عندما تتغير X. لنلق نظرة على معادلة الانحدار مرة أخرى:

إذا لم يتم رفض الفرضية الصفرية ، فإن B 1 = 0 ، وتصبح المعادلة:

إذا لم تكن هناك علاقة إحصائية بين X و Y ، فسيساوي الميل صفرًا وسيكون من الأفضل توقع Y بمتوسطه ، وهو مجرد نقطة التقاطع في هذه الحالة. في هذه الحالة أيضًا ، نقول إن نموذج الانحدار غير مفيد إحصائيًا. من ناحية أخرى ، إذا رفضنا فرضية العدم لصالح البديل ، فإننا نقول حقًا أن التغييرات في X تؤدي إلى تغييرات يمكن التنبؤ بها في Y ، سواء كانت إيجابية أو سلبية. العلاقة بين X و Y لها فائدة إحصائية ، أو أن نموذج الانحدار مفيد إحصائياً.

هناك نوعان من إحصائيات الاختبار لاختبار نموذج الانحدار. الأول هو إحصاء F وهو نسبة التباين المتوسط ​​أو المتوسط ​​المنسوب إلى الانحدار إلى المتوسط ​​أو التباين المتوسط ​​المنسوب إلى الخطأ أو المتبقي. تم العثور على هذه النسبة في جدول ANOVA لإخراج الانحدار ، ورقة العمل 2.2.2. ابحث في الصف بعنوان "الانحدار" والعمود بعنوان "F". يجب أن ترى أن قيمة F تساوي 80.54534. وكلما زادت هذه القيمة عن 1 ، زادت أهمية نموذج الانحدار. هنا ، التباين الموضح بواسطة الانحدار هو 80.54 ضعف التباين غير المبرر. ثم يتم استخدام إحصاء F لاختبار نموذج الانحدار.

إحصائية الاختبار الأخرى هي إحصاء t. انظر إلى الصف المسمى "الأصول" في ورقة العمل 2.2.2. إنه موجود مباشرة أسفل الصف المسمى "التقاطع" - تم العثور على كلا الصفين أسفل جدول ANOVA. يمنحنا الصف المسمى الأصول معلومات حول المنحدر. نبدأ بقيمته 0.099992534 أو 0.10 كما رأينا من قبل. القيمة التالية هي الخطأ القياسي للمنحدر (ليس النموذج ، ولكن الخطأ القياسي للمنحدر). في الواقع ، ما يسبب الخطأ المعياري للنموذج أو التقدير هو حقيقة أن الميل نفسه به خطأ أو تقلب. القيمة التالية هي "t Stat" للمنحدر. قيمته 8.9747. هذه قيمة كبيرة جدًا - الميل 0.10 هو ما يقرب من 9 أخطاء قياسية من المنحدر المفترض للصفر. وبالتالي يتم استخدام إحصاء t لاختبار منحدر الانحدار.

القيمة p للإحصاء F موجودة في العمود المسمى "الأهمية F" في صف الانحدار في جدول ANOVA ، ورقة العمل 2.2.2. قيمتها 4.59E-08 ، أو 0.0000000459. توجد القيمة p للإحصاء t في العمود الذي يحمل العنوان P-value ، في الصف الذي يحمل عنوان "Assets". قيمته هي 4.59E-08 ، وهي نفس القيمة p لـ F. وستظل دائمًا هي نفسها بالنسبة لنماذج الانحدار الخطي البسيطة نظرًا لوجود منحدر واحد فقط - اختبار منحدر الانحدار الواحد هو نفس الاختبار لنموذج الانحدار في الانحدار الخطي البسيط. لن يكون هذا هو الحال في الانحدار المتعدد ، عندما يكون هناك أكثر من منحدرات الانحدار. سنرى أننا سنستخدم إحصائيات t متعددة والقيم p المرتبطة لاختبار منحدرات الانحدار المتعددة ، وإحصائية F الفردية وقيمتها p لاختبار نموذج الانحدار.

سنستمر في اتباع الاصطلاح العلمي القائل بأنه من أجل إعلان نتيجة اختبار فرضية ذات دلالة إحصائية (في هذه الحالة ، أعلن أن النموذج مفيد إحصائيًا) ، لا يمكن أن يكون هناك أكثر من 5٪ احتمال أن يكون الفرق بين العينة الميل والمنحدر المفترض ، من حيث الأخطاء المعيارية ، يرجعان إلى الصدفة وحدها. 5٪ هذا هو مستوى الأهمية ، ألفا. هكذا:

عندما تكون القيمة p & lt 0.05 ، ارفض الفرضية الصفرية واستنتج أن النموذج مفيد إحصائيًا. هذا يعني أن فرصة الحصول على ميل كبير نسبيًا موجبًا أو سالبًا في عينة ، نظرًا لأن الميل يساوي صفرًا ، صغيرة جدًا ، بحيث لا يجب أن يساوي الميل صفرًا - ارفض القيمة الصفرية.

عندما تكون القيمة p & gt 0.05 ، لا ترفض الفرضية الصفرية واستنتج أن النموذج غير مفيد إحصائيًا. هذا يعني أننا حصلنا على ميل في العينة قريب جدًا من الصفر - والسبب الوحيد لعدم كونه صفراً هو الصدفة وخطأ أخذ العينات. لذلك ، فإن احتمال الحصول على مثل هذا المنحدر الصغير بالصدفة وحده مرتفع للغاية إذا كان الميل الحقيقي صفرًا - لا ترفض الصفري.

كما كان من قبل ، فإن الخطوة الأخيرة تجمع كل ذلك مع خاتمة من ثلاثة أجزاء:

1. قارن قيمة p بألفا.

2. بناءً على المقارنة ، حدد ما إذا كنت سترفض فرضية العدم أم لا.

3. التعبير عن القرار الإحصائي من حيث ما إذا كان للنموذج فائدة إحصائية أم لا.

في هذا المثال ، نظرًا لأن القيمة p 4.59E-08 أقل من ألفا من 0.05 ، ارفض فرضية العدم واستنتج أن النموذج مفيد إحصائيًا.

فترة الثقة على المنحدر
يمكننا أيضًا إجراء استنتاج بالنظر إلى فاصل الثقة للميل. انظر إلى ورقة العمل 2.2.2 مرة أخرى. في الصف المسمى "الأصول" ، انظر إلى العمود المسمى "أقل 95٪ وأعلى 95٪. هذه هي الحدود الدنيا والعليا لمستوى ثقة 95٪ للمنحدر.

تذكر أن الميل يساوي 0.10. فسرنا ذلك على النحو التالي: Y (الساعات الخارجية) تزيد 0.10 لوحدة زيادة في X (الأصول). لكي تكون أكثر عملية ، تزداد الساعات الخارجية بمقدار 100 عندما تزيد الأصول بمقدار 1،000،000 دولار. ومع ذلك ، فإن المنحدر له تباين ، وأحيانًا يكون أكثر من 0.10 وأحيانًا لا يكون حادًا مثل 0.10. بنسبة ثقة تبلغ 95٪ ، ستكون الأشد حدة عند 0.1234 والأكثر انحدارًا ستكون 0.076585. لذلك يمكننا تفسير فترة الثقة على النحو التالي: تزيد الساعات الخارجية بحد أدنى 0.076 وحد أقصى 0.12 عندما تزيد الأصول بمقدار 1. نظرًا لأن الأصول بالثواني ، نقول أن الساعات الخارجية تزيد بين 0.076 كحد أدنى و 0.12 كحد أقصى عندما تزيد الأصول بمقدار 1000 دولار. نظرًا لأن العلاقة خطية ، يمكننا القول أن الساعات الخارجية تزيد بين 0.76 و 1.2 عندما تزيد الأصول بمقدار 10000 دولار أو تزيد الساعات الخارجية بين 7.6 و 12 عندما تزيد الأصول بمقدار 100000 دولار أو تزيد الساعات الخارجية بين 76 كحد أدنى و 120 كحد أقصى عندما تزيد الساعات الخارجية بمقدار 1،000،000 دولار.

يمكننا في الواقع استخدام فاصل الثقة لرفض أو عدم رفض فرضية العدم مع البديل ذي الذيلتين. عندما تكون الحدود الدنيا والعليا لفاصل الثقة 95٪ موجبة أو كلاهما سالب ، فلا يتم تضمين الصفر في النطاق. يخبرنا فاصل الثقة بعد ذلك أن المنحدر لا يساوي الصفر ، ونرفض فرضية العدم عند مستوى ألفا يبلغ 0.05. ومع ذلك ، عندما تكون الحدود الدنيا لفاصل الثقة 95٪ سالبة والحد الأعلى موجبًا ، يتم تضمين الصفر في النطاق. في هذه الحالة ، لا نرفض الفرضية الصفرية القائلة بأن الميل يساوي صفرًا. على سبيل المثال ، إذا كان الحد الأدنى هو -0.12 وكان الحد الأعلى +0.12 ، فعندما يرتفع X بمقدار وحدة واحدة ، ينخفض ​​Y أحيانًا ويزيد Y في بعض الأحيان. وبالتالي ، ليس لدينا أدلة كافية لدحض فرضية العدم.


الخطوة 6: تقييم افتراضات نموذج الانحدار

دعونا نلخص ما نحن فيه. يتمتع النموذج بفائدة عملية جيدة فيما يتعلق بمربع R: 82٪ من التباين في الساعات الخارجية تفسر من خلال الأصول. ومع ذلك ، أعتقد أن الخطأ المعياري يحد من كونه غير مقبول للدقة في التنبؤ بالساعات الخارجية. خمسة وتسعون بالمائة من الساعات الفعلية ستكون ضمن +/- 2 * 91 أو +/- 182 ساعة من الساعات المتوقعة. نظرًا لأن هذا قد يكون مقبولًا لأغراض التخطيط العام ، فإننا نقبل الخطأ القياسي لأغراض العرض التوضيحي ، ونستمر. إلى جانب المنفعة العملية ، يحتوي النموذج على فائدة إحصائية كما هو موضح في الخطوة 5.

هل يمكننا البدء في استخدام النموذج لعمل توقعاتنا؟ ليس تماما. لا يزال يتعين علينا اختبار الافتراضات. هناك ثلاثة افتراضات في الانحدار تتعلق جميعها بالخطأ أو المتبقي (القيمة الفعلية للمتغير التابع مطروحًا منه القيمة المتوقعة للمتغير التابع):

يعد الانحدار قويًا لانتهاكات الافتراض الأول - وهذا يعني أن الانحدار الثابت يعمل جيدًا حتى لو لم يتم توزيع شروط الخطأ بشكل طبيعي طالما أن التوزيعات ليست منحرفة للغاية (بالقيم المتطرفة). هذا يترك الافتراضين الثاني والثالث على أنهما يجب أن يلتقيا. أفضل طريقة لضمان استيفاء هذين الافتراضين هي إجراء اختبارات المنفعة العملية والإحصائية للتأكد من أن لدينا متغيرًا ونموذجًا جيدًا للتنبؤ ، وأن نكون غير متحيزين في جمع البيانات. أن نكون غير متحيزين يعني أننا نختار بشكل عشوائي ملاحظات المتغير المستقل ثم نسجل القيمة المرتبطة بالمتغير التابع لتلك الملاحظة. يجب أن يضمن هذا التوزيع العادل للقيم المنخفضة والمتوسطة والعالية للمتغير المستقل.

يتم توزيع الأخطاء بشكل طبيعي
بعد جمع بياناتنا ، يجب أن يكون لدينا عدة قيم لـ Y للقيم المختلفة المنخفضة والمتوسطة والعالية لـ X. يجب أن تكون معظم قيم Y بالقرب من خط الانحدار لكل قيمة من قيم X. هذه القيم Y لها ناقص وإيجابي صغير اعتمادًا على ما إذا كانت أعلى أو أسفل خط الانحدار. ستكون بعض قيم Y بعيدة عن خط الانحدار ، وستكون بها خطأ موجب وسالب أكبر. يجب أن يكون توزيع الأخطاء طبيعيًا ومتوسط ​​الصفر لأن الأخطاء السالبة تلغي الأخطاء الإيجابية حول خط الانحدار. هل تتذكر ما الذي جعل التوزيعات منحرفة أو غير طبيعية؟ هذا صحيح ، القيم المتطرفة وأنماط متعددة.

طالما لا توجد قيم متطرفة أو أوضاع متعددة ، يتم استيفاء هذا الافتراض بشكل عام. كيف نحدد ما إذا كان هناك القيم المتطرفة. ابحث عن درجات z لمصطلحات الخطأ ومعرفة ما إذا كان أي منها أعلى من +3 أو أقل من -3 من الخطأ الصفري. لقد تم هذا بطريقتين. أولاً ، يمكنك إلقاء نظرة على جدول المخرجات المتبقية الموجود في أسفل إخراج الانحدار. انظر إلى ورقة العمل 2.2.2 ، وابحث عن قسم المخرجات المتبقية ، ولاحظ أن العمود الأول هو "الملاحظة" ، والثاني هو ساعات العمل المتوقعة ، والثالث هو القيم المتبقية ، والرابع هو النقاط المعيارية المتبقية أو درجات Z. انظر إلى أسفل هذا العمود وتحقق مما إذا كانت هناك أي مخلفات قياسية أعلى من +3 أو أقل من -3. لا أرى أي شيء ، لذلك يتم استيفاء الافتراض في هذه المرحلة.

ثانيًا ، يمكنك إلقاء نظرة على مخطط الاحتمال العادي الذي يأتي كواحد من الرسوم البيانية مع إخراج الانحدار. سيكون عادةً على يمين جداول الانحدار. توضح ورقة العمل 2.2.3 مخطط الاحتمال العادي لهذا المثال.

تتطلب هذه الطريقة بعض الخبرة و "عين فنية" (أعتقد أنني لست فنانًا كثيرًا لأنني أفضل النظر في المخلفات المعيارية التي لا تتطلب سوى تطبيق قاعدة بسيطة). عند استيفاء افتراض الحالة الطبيعية ، يجب أن يقترب مخطط الاحتمال العادي من خط مستقيم كما هو موضح في ورقة العمل 2.2.3. عندما تكون هناك قيم متطرفة ، ستظهر واحدة أو أكثر من قيم Y من الخط المستقيم. فيما يلي مثال على رسم تخطيطي مبعثر يظهر ظاهريًا.

يتم عرض مخطط الاحتمالية العادية في ورقة العمل 2.2.5.

يرجى ملاحظة كيف تظهر نقطتان خارج الخط. قد تشير هذه إلى التحقيق على أنه قيم متطرفة أو متغيرات مؤثرة. الاستخدام الجيد الآخر لمخطط الاحتمال العادي هو تحديد أوضاع متعددة. قد يشير الرسم البياني المبعثر إلى وجود مجموعة واحدة أو أكثر من البيانات التي قد تشير إلى التقسيم الطبقي ونماذج الانحدار المنفصلة. سيُظهر مخطط الاحتمال العادي هذا كخطين منفصلين أو أكثر ، بدلاً من سطر واحد.

الأخطاء لها تباين ثابت
كما ذكرنا سابقًا ، إذا تم إنشاء النموذج واختباره بشكل صحيح ، وتم جمع البيانات بشكل عشوائي ، فيجب أن تكون الأخطاء ثابتة لجميع قيم المتغير المستقل. يتم استخدام مؤامرة أخرى لاختبار هذا الافتراض. يُطلق عليه اسم المؤامرة المتبقية ، ويظهر كما في ورقة العمل 2.2.6.

ورقة العمل 2.2.6

يتطلب تحليل المؤامرة المتبقية بعض الفن أيضًا. لتحقيق هذا الافتراض ، يجب ألا تُظهر القيم المتبقية أي أنماط ، ويجب أن يكون التباين هو نفسه تقريبًا للقيم المنخفضة والقيم المتوسطة والقيم العالية لـ X. يبدو أن التباين حول 3000 يتراوح من -50 إلى +150 ، عند 7000 من -150 إلى +50 ، ومن 9000 إلى -100 إلى +100. قد تكون الصورة المثالية من -150 إلى +150 لجميع قيم X ، أو حتى أفضل ، من -50 إلى +50 لجميع قيم X. ومع ذلك ، فإن هذا التباين ليس "سيئًا للغاية". قد تؤدي انتهاكات هذا الافتراض إلى قطع الأراضي المتبقية التي تُظهر ، على سبيل المثال ، تقلبًا صغيرًا جدًا عند القيم المنخفضة لـ X والتباين الشديد عند القيم العالية. لا تحتوي ورقة العمل 2.2.6 على شكل "المروحة" هذا. لاحظ أن شكل "المروحة" يمكن أن يكون عريضًا على اليسار وضيقًا على اليمين ، أو حتى ضيقًا في الأطراف وواسعًا في المنتصف مثل كرة القدم.

المعرفة الأخرى التي نحصل عليها من المؤامرة المتبقية هي نمط قد يوحي بأننا حددنا النموذج بشكل غير صحيح. للتوضيح ، افترض أننا حاولنا ملاءمة نموذج انحدار خطي بسيط لمجموعة البيانات الموضحة في ورقة العمل 2.2.7.

ورقة العمل 2.2.7

هذا ما ستبدو عليه الحبكة المتبقية.

ورقة العمل 2.2.8

تُظهر هذه المؤامرة المتبقية نمطًا يعكس خطأ إيجابيًا مرتفعًا عند القيم المنخفضة لـ X ، وخطأ سالبًا عند القيم الوسطى لـ X ، وخطأ إيجابي مرتفع عند القيم العالية لـ X. كان المنحنى نموذجًا أفضل لملاءمة هذه البيانات - سنفعل مما كانت عليه في الوحدة 3.

الأخطاء مستقلة
هذا الافتراض يعني أن قيمة خطأ واحد يجب ألا تؤثر أو تؤثر على قيمة الأخطاء المتتالية. لاكتشاف ذلك ، يتم استخدام الرسم المتبقي كما هو الحال مع الافتراض الثاني ، ويجب تسجيل الملاحظات في تسلسل السلاسل الزمنية. عندما لا تُظهر المؤامرة المتبقية أي نمط ، فمن المحتمل أن يتحقق الافتراض. عندما يكون هناك نمط ، فإن شروط الخطأ والملاحظات نفسها ليست مستقلة.

السبب الأكثر شيوعًا لعدم تلبية هذا الافتراض هو بيانات السلاسل الزمنية. على سبيل المثال ، إذا كانت هناك موسمية قوية ، فقد يوضح الرسم البياني المتبقي نمط موجة يمر عبر قمم ووديان الموسمية. نظرًا لوجود نمط ، يجب على المحلل محاولة بناء نموذج انحدار متعدد لمعالجة التباين الموسمي كمتغير مستقل آخر ، بدلاً من تركه في النموذج وانتهاك الافتراض. سنتناول هذا البند في الوحدة 3.

نظرًا لأن السلاسل الزمنية تنتهك هذا الافتراض بشكل متكرر ، يعتمد العديد من المتنبئين على نماذج التنبؤ بالسلاسل الزمنية ، مثل تحلل السلاسل الزمنية أو التسوية الأسية بدلاً من الانحدار لبناء نماذجهم التنبؤية. سوف تغطي هذا الموضوع في الأساليب الكمية ودورات إدارة الإنتاج في منهج ماجستير إدارة الأعمال.

تناقش بعض النصوص ، مثل المراجع المدرجة في نهاية هذه الملاحظات ، إحصاء Durbin Watson كاختبار رقمي محدد للاستقلالية. لن أتناول هذا لأن Excel لا يدمج هذا الاختبار أو جدول إحصاء اختبار Durbin Watson. سنعتمد على ممارسات جمع البيانات الجيدة وتفسير المخلفات المعيارية ومخططات الاحتمالات المتبقية والعادية لاختبار الافتراضات.


الخطوة 7: استخدم النموذج للتنبؤ

بعد اختبار النموذج من أجل المنفعة العملية والإحصائية ، وبعد التحقق من الافتراضات ، حان الوقت لاستخدام النموذج للتنبؤ. من فضلك لا تعتقد أن الأمر يستغرق استثمارًا كبيرًا للوقت للوصول إلى هذه النقطة. بعد بضع حالات من الانحدار باستخدام برنامج Excel ، ستتمكن من اختبار الأداة والافتراضات في بضع دقائق. يتضمن اختبار الاستدعاء للأداة العملية فقط النظر إلى R 2 والخطأ القياسي في التقدير. يتطلب اختبار الأداة الإحصائية نظرة سريعة على القيمة الاحتمالية. يتطلب اختبار الافتراضات مسحًا للقيم المتطرفة والأوضاع المتعددة في القيم المتبقية الموحدة ومخطط الاحتمال العادي ومسحًا للأنماط أو أشكال المروحة أو كرة القدم في المؤامرة المتبقية. بالطبع ، سوف يستغرق الأمر وقتًا أطول في حالة انتهاك أي افتراضات تتطلب تحديد متغير جديد ، أو جمع بيانات جديدة ، أو إنشاء نموذج جديد.

لنفترض أن النموذج اجتاز اختبار المنفعة العملية والإحصائية ، وتم التحقق من الافتراضات بشكل جيد. حان الوقت الآن للتنبؤ. لنفترض أننا نريد أن نتنبأ بالوقت الذي سيستغرقه تدقيق عميل لديه أصول بقيمة 8400000 دولار. أول شيء نقوم به هو تقدير النقاط للساعات الخارجية.

بعد ذلك ، قم بتضمين الفاصل الزمني للتنبؤ حول تقدير النقطة. يتم إنشاء فترة التنبؤ تمامًا كما في السابق ، +/- ضعف الخطأ القياسي للتقدير. لذلك ، نحن واثقون بنسبة 95٪ ، أن الساعات الخارجية الفعلية ستكون بين:


يتم عرض تنبؤات القيم للمتغير التابع لكل من قيم المتغير المستقل في قاعدة بيانات العينة في مخطط يسمى Line Fit Plot. يأتي هذا المخطط مع إخراج الانحدار ، كما هو موضح في ورقة العمل 2.2.9

ورقة العمل 2.2.9

يتم توفير ساعات العمل الفعلية والساعات الإضافية المتوقعة تلقائيًا في مخطط ملاءمة الخط. للحصول على أشرطة التنبؤ لتوضيح فاصل التنبؤ بنسبة 95٪ ، قم بتمييز المخطط ، ثم ضع المؤشر على إحدى القيم المتوقعة وانقر بزر الماوس الأيسر ، وحدد التنسيق على شريط الأدوات القياسي ، واختر سلسلة البيانات المحددة ، ثم أشرطة الخطأ Y ، ثم مخصص ، ثم أدخل نتيجة 2 * الخطأ القياسي (182 في هذا المثال) في المربعين + و-.

The interested reader is referred to the Anderson reference, Section 12.7, or the Levine reference, pages 814-820, for more details on prediction and confidence intervals for predictions. The prediction interval I introduced in Eq. 2.2.7 is an approximate interval for an individual prediction. The texts demonstrates a precise formula as well as a method of making a confidence interval around an average value of Y. I find that most predictions involve individual forecasts, such as sales in January, external audit hours for an individual client, and so forth.


That finishes the material on simple linear regression and correlation analysis. We will apply the seven step regression process in Module 3, when we visit multiple regression models.

Anderson, D., Sweeney, D., & Williams, T. (2001). Contemporary Business Statistics with Microsoft Excel. Cincinnati, OH: South-Western, Chapter 12 (through Section 12.8).

Levine, D., Berenson, M. & Stephan, D. (1999). Statistics for Managers Using Microsoft Excel (2nd. ed.). Upper Saddle River, NJ: Prentice-Hall, Chapter 13.


Business Calculus with Excel

In the last section we looked at the economic model for supply and demand. We were particularly interested in the point of market equilibrium. In this section we will look at the model for revenue, cost and profit. As with the previous section we will begin with assumptions that make as many things as possible linear.

The simple model for revenue is

However, in the previous section we worked with two price functions, the supply price and the demand price. Since we can only make a sale if the consumer is willing to buy, we typically use the demand price in computing revenue. Our model is now

If the demand price is a linear function, then revenue is a quadratic function.

We previously noted that a linear demand price function has a negative slope. We should note the two limiting cases. If the slope of the demand curve is 0, the consumers have a fixed price they will pay for however much of the product is available. In this case the demand curve is a constant, so the revenue curve will be linear. This is referred to as a perfectly elastic market. The other limiting case is where the demand is for a fixed amount no matter what the price. In this case the demand curve is a vertical line and is not a function, so the revenue curve also fails to be a function of quantity.

Obviously, we don’t expect to find the limiting cases in the real world. In real world cases the revenue function has a negative coefficient for the quadratic term and is a downward facing parabola.

Example 2.2.1 . Finding Revenue From Linear Demand Price.

We have determined that the demand price function for widgets is

if the quantity is between 2000 and 8000. Find the revenue function and graph it over the region where it is defined.

: We set up a chart in Excel with revenue defined as (supply price * quantity ext<.>)

When we graph we note that the scales are quite different for price and revenue. Thus we want to use secondary axes to capture the scale of both price and revenue. We can also put different labels on the two vertical axes.

Once again we will start with a simplified model for cost.

For our (simplified) model we will break costs into and .

Fixed costs include the costs of being in business. They might include license fees, rent for a store or plant, and the cost of furnishings and equipment.

Variable costs are tied to the amount you produce or sell. They might include raw material for a manufacturer or the cost of goods for someone in sales.

For our simplified model we assume that variable costs are proportional to quantity. This makes our cost function linear.

Example 2.2.2 . Finding Linear Cost.

We can set up a small gizmo manufacturing shop for $6,000. The raw materials for producing gizmos cost $14 per unit. Find the cost function for gizmo production. Find the cost of producing 2500 gizmos.

: The fixed costs are the (y) value of the (y)-intercept of the cost function. The per unit material cost is the slope of the function. نحن لدينا

If we substitute 2500 for the quantity, our costs are

For the third piece of the model, we look at profit. We have the simple formula

For our simple examples where cost is linear and revenue is quadratic, we expect the profit function to also be quadratic, and facing down. We will obviously be interested in the spots where the profit function either crosses the axis or reaches a maximum.

Example 2.2.3 . Finding Profit.

We are interested in selling widgets. The demand price function is

It will cost $10,000 to keep our shop open before we consider the price of inventory. Our variable cost is the cost of buying the widgets from our wholesaler who will sell them to us for $8 a unit. Find a function for profit as a function of how many units we sell. Graph that function for quantities from 1000 to 10000.

: Using the methods from the previous examples, we write down the functions for revenues and costs.

Now we find profit as the difference of revenue and cost.

We then use Excel to make a chart of values and a graph.

The last example illustrates a reality of manufacturing and retail. If a business has a fixed cost or startup expense, it will have a loss if it does not sell enough.

The point at which revenues equal expenses (cost) is called the .

This is important in preparing a business proposal, because the bank will want to know if the break even point is a reasonable amount before it lends any money.

Example 2.2.4 . Find Break-Even Points.

Find break-even points for previous example. Explain what those points mean in practical terms.

: We look at the chart from the previous example.

We can find break-even points by using Goal Seek and setting profit to 0 while changing quantity. In this case, we see that we have break-even points when the quantity is 2000 or 5000, since those numbers were already on our chart.

The first break even point tells us that we need to lower our price to no more than $13.00 to attract enough customers to be able to turn a profit. The second break even point says that is we bring our price down below $10, we will not be able to bring in enough customers to make a profit.

Example 2.2.5 . Repeat, Starting With Data.

We have the following data from the gizmo market, with quantity and costs measured in millions.

Assuming that price and cost are well modeled by linear equations, find the break-even points and explain what they mean with units included in the explanation.

To find the break-even point when we are given data instead of an equation, we usually follow this procedure: Find the best fitting equations for price and cost. From those equations, produce formulas for revenue and profit. Use the formulas to find the break-even points using either algebra or Excel.

: We put the data into Excel and ask for best fitting lines.

This produces the desired cost and price functions.

We enter these functions in new columns in the spreadsheet and then compute projective revenues and profit. We then use Goal Seek to find places where the projected profit is 0. The first break-even point tells us that we expect to break even if we sell 1.83 million units. We can do that by setting the price at $16.05. The second break-even point is at 14.15 million units. We reach that sales volume by lowering the price to $6.45. While we will have gained market share, we will no longer be making a profit.

In business situations we often have cases where a change of quantity in the thousands only changes prices by pennies. Then our coefficients are close to zero and Excel may give formulas rounded to zero. In those cases we need to format the trendline to get more digits of accuracy.

Example 2.2.6 . Problems with using big numbers.

We want to explore an issue that arises our coefficients are very small. We will have to be concerned with the number of significant digits in our coefficients.

We repeat the previous example, but with quantity and cost measured directly, rather than in millions. We should get the same answers, since we are using the same data.

كمية 7,810,000 10,070,000 11,990,000 13,840,000 15,800,000
Demand Price $12.07 $9.05 $7.60 $6.64 $5.64
كلفة $60,050,000 $70,090,000 $79,980,000 $89,900,000 $99,830,000

We face the same tasks. Assuming that price and cost are well modeled by linear equations, find the break-even points and explain what they mean with units included in the explanation.

To find the break-even point when we are given data instead of an equation, we usually follow this procedure: Find the best fitting equations for price and cost. From those equations, produce formulas for revenue and profit. Use the formulas to find the break-even points using either algebra or Excel.

: We put the data into Excel and ask for best fitting lines.

As expected, a coefficient of each equation has been shifted by a factor of 1,000,000.

These equations have only one digit of accuracy. In general that will not be accurate enough.

We enter these functions in new columns in the spreadsheet and then compute projective revenues and profit. We then use Goal Seek to find places where the projected profit is 0. The first break-even point goes from 1.83 million at price of $16.05 to 1.82 million at a price of $1602. The second break even point goes from 14.15 million units at a price to $6.45 to 13.75 million at a price of $6.48.

The solution is to right click (Command click on a mac) on the label and select "Format Trendline Label". Then change category from general to number, and choose 10 decimal places. This gives us the equations:

We then go through the same process at get our original answers back

Exercises Exercises: Modeling Revenue, Costs, and Profit

For problems 1-8, given the equations of the cost and demand price function:

Identify the fixed and variable costs.

Find the revenue and profit functions.

Evaluate cost, demand price, revenue, and profit at (q_0 ext<.>)

Find all break-even points.

Graph the profit function over a domain that includes both break-even points. Add a textbox and label to identify the first break-even point.

Given (demand price=-2 quantity+20) and (cost=3 quantity+10 ext<,>) with (q_0=6 ext<.>)

Identify the fixed and variable costs.

The fixed cost is $10 (the constant/fixed part of the cost function), and the variable cost is $3 per item.

Find the revenue and profit functions.

Evaluate cost, demand price, revenue, and profit at (q_0 ext<.>)

Find all break-even points.

Solve (Profit=-2 q^2+17q-10=0 ext<.>) We can do this with Excel or with Wolfram. The break even points are (q = 0.6) and (q = 7.9)

Graph the profit function over a domain that includes both break-even points. Add a textbox and label to identify the first break-even point.

If we had done the whole problem in Excel it would look like this:

Entries in the cells before quick fill

The table with (q) between 0 and 8

Goal Seek gives break even points at (q = 0.64) and (q = 7.86)

The graph produced in Excel. To create the labels: double click on one of the break-even points, go to “Chart Layout”, go to “Data Labels”. In this example we chose the “x-value”. Both break-even points were labeled to show where they are and what the values are in this problem.

Given (demand price=- quantity/10+50) and (cost=10 quantity+1000 ext<,>) with (q_0=300 ext<.>)

Given (demand price=-2.35 quantity+250) and (cost=54.6 quantity+1234 ext<,>) with (q_0=59 ext<.>)

Identify the fixed and variable costs.

(Fixed cost = $1234 ext<,>) and the (variable cost =$54.60) (per unit)

Find the revenue and profit functions.

Evaluate cost, demand price, revenue, and profit at (q_0 ext<.>)

Entries in the cells before quick fill

Table plus extra column for the value (q = 59)

At (q =59 ext<,>) (cost = $4455.40 ext<,>) (demand price = $111.35 ext<,>) (revenue = $6569.65 ext<,>) and (profit = 2114.25)

Find all break-even points.

Table plus extra column for the value (q = 59)

The break-even points are (q = 6.9) and (q = 76.3)

Graph the profit function over a domain that includes both break-even points. Add a textbox and label to identify the first break-even point.

The graph produced in Excel. To create the labels: double click on one of the break-even points, go to “Chart Layout”, go to “Data Labels”. In this example we chose the “x-value”. Both break-even points were labeled to show where they are and what the values are in this problem.

Given (demand price=-0.0023 quantity+9) and (cost=1.39 quantity+1398.7 ext<,>) with (q_0=687 ext<.>)

Given demand price and cost are the linear functions that best fit the data below and that (q_0=75 ext<.>)

If the table only has 2 data points, Excel can get confused wether the data is in rows or columns. We duplicated one column to get the data plotted correctly.

(Fixed cost = $150 ext<,>) and the (variable cost =$3) (per unit)

Find the revenue and profit functions.

Evaluate cost, demand price, revenue, and profit at (q_0 ext<.>)

At (q =75 ext<,>) (cost = $375 ext<,>) (demand price = $9 ext<,>) (revenue = $675 ext<,>) and (profit = 300)

Find all break-even points.

The break-even points, found with goal seek, are (q = 18.127) and (q = 206.873)

Graph the profit function over a domain that includes both break-even points. Add a textbox and label to identify the first break-even point.


Implementation (developer)

Behind the scene, spark.mllib implements a simple distributed version of stochastic gradient descent (SGD), building on the underlying gradient descent primitive (as described in the optimization section). All provided algorithms take as input a regularization parameter ( regParam ) along with various parameters associated with stochastic gradient descent ( stepSize , numIterations , miniBatchFraction ). For each of them, we support all three possible regularizations (none, L1 or L2).

For Logistic Regression, L-BFGS version is implemented under LogisticRegressionWithLBFGS, and this version supports both binary and multinomial Logistic Regression while SGD version only supports binary Logistic Regression. However, L-BFGS version doesn’t support L1 regularization but SGD one supports L1 regularization. When L1 regularization is not required, L-BFGS version is strongly recommended since it converges faster and more accurately compared to SGD by approximating the inverse Hessian matrix using quasi-Newton method.


The y-line intercept is the number at the end of the function. As the name says, it says where the function cuts the y-axis. If you take a look on the function graphs, you see that intersects the y-axis at intersects the y-axis at .

You have to insert the point into the equation, i.e. the one coordinate for x and the other one for f(x). Here is an example: Lets assume we know that our function has slope and goes through (-2|5).

Calculate the y-axis intercept b by inserting:
General form of the linear function: f(x)=mx+b
Insert for m, for x and for f(x).

<>
| Swap both sides of the equation.
|
So, the y-axis intercept is at
Therefore, the equation of the function is


known_y's Required. The set of y-values that you already know in the relationship y = mx + b.

If the range of known_y's is in a single column, each column of known_x's is interpreted as a separate variable.

If the range of known_y's is contained in a single row, each row of known_x's is interpreted as a separate variable.

known_x's Optional. A set of x-values that you may already know in the relationship y = mx + b.

مدى ال known_x's can include one or more sets of variables. If only one variable is used, known_y's و known_x's can be ranges of any shape, as long as they have equal dimensions. If more than one variable is used, known_y's must be a vector (that is, a range with a height of one row or a width of one column).

إذا known_x's is omitted, it is assumed to be the array <1,2,3. >that is the same size as known_y's.

مقدار ثابت Optional. A logical value specifying whether to force the constant b to equal 0.

إذا مقدار ثابت is TRUE or omitted, b is calculated normally.

إذا مقدار ثابت is FALSE, b is set equal to 0 and the m-values are adjusted to fit y = mx.

احصائيات Optional. A logical value specifying whether to return additional regression statistics.

إذا احصائيات is TRUE, LINEST returns the additional regression statistics as a result, the returned array is .

إذا احصائيات is FALSE or omitted, LINEST returns only the m-coefficients and the constant b.

The additional regression statistics are as follows.

The standard error values for the coefficients m1,m2. mn.

The standard error value for the constant b (seb = #N/A when مقدار ثابت is FALSE).

The coefficient of determination. Compares estimated and actual y-values, and ranges in value from 0 to 1. If it is 1, there is a perfect correlation in the sample — there is no difference between the estimated y-value and the actual y-value. At the other extreme, if the coefficient of determination is 0, the regression equation is not helpful in predicting a y-value. For information about how r 2 is calculated, see "Remarks," later in this topic.

The standard error for the y estimate.

The F statistic, or the F-observed value. Use the F statistic to determine whether the observed relationship between the dependent and independent variables occurs by chance.

The degrees of freedom. Use the degrees of freedom to help you find F-critical values in a statistical table. Compare the values you find in the table to the F statistic returned by LINEST to determine a confidence level for the model. For information about how df is calculated, see "Remarks," later in this topic. Example 4 shows use of F and df.

The regression sum of squares.

The residual sum of squares. For information about how ssreg and ssresid are calculated, see "Remarks," later in this topic.

The following illustration shows the order in which the additional regression statistics are returned.


Then clf.coef_ will have the regression coefficients.

sklearn.linear_model also has similar interfaces to do various kinds of regularizations on the regression.

Here is a little work around that I created. I checked it with R and it works correct.

pandas provides a convenient way to run OLS as given in this answer:

Just to clarify, the example you gave is مضاعف linear regression, not multivariate linear regression refer. Difference:


قيمة

lm returns an object of class "lm" or for multiple responses of class c("mlm", "lm") .

The functions summary and anova are used to obtain and print a summary and analysis of variance table of the results. The generic accessor functions coefficients , effects , fitted.values and residuals extract various useful features of the value returned by lm .

An object of class "lm" is a list containing at least the following components:

a named vector of coefficients

the residuals, that is response minus fitted values.

the numeric rank of the fitted linear model.

(only for weighted fits) the specified weights.

the residual degrees of freedom.

(only where relevant) the contrasts used.

(only where relevant) a record of the levels of the factors used in fitting.

the offset used (missing if none were used).

if requested, the response used.

if requested, the model matrix used.

if requested (the default), the model frame used.

(where relevant) information returned by model.frame on the special handling of NA s.

In addition, non-null fits will have components assign, effects and (unless not requested) qr relating to the linear fit, for use by extractor functions such as summary and effects.


Two-Variable LP Model

This section deals with the graphical solution of a two-variable LP. Though two-variable problems hardly exist in practice, the treatment provides concrete foundations for the development of the general simplex algorithm presented in Chapter 3.

Example 2.1-1 (The Reddy Mikks Company)

Reddy Mikks produces both interior and exterior paints from two raw materials, Ml and M2. The following table provides the basic data of the problem:


A market survey indicates that the daily demand for interior paint cannot exceed that for exterior paint by more than 1 ton. Also, the maximum daily demand for interior paint is 2 tons.

Reddy Mikks wants to determine the optimum (best) product mix of interior and exterior paints that maximizes the total daily profit.

The LP model, as in any OR model, has three basic components.

1. Decision variables that we seek to determine.

2. Objective (goal) that we need to optimize (maximize or minimize).

3.Constraints that the solution must satisfy.

The proper definition of the decision variables is an essential first step in the development of the model. Once done, the task of constructing the objective function and the constraints becomes more straightforward.

For the Reddy Mikks problem, we need to determine the daily amounts to be produced of exterior and interior paints. Thus the variables of the model are defined as

x1 = Tons produced daily of exterior paint

x2 = Tons produced daily of interior paint

To construct the objective function, note that the company wants to تحقيق أقصى قدر (i.e., increase as much as possible) the total daily profit of both paints. Given that the profits per ton of exteri-or and interior paints are 5 and 4 (thousand) dollars, respectively, it follows that

Total profit from exterior paint = 5x1 (thousand) dollars

Total profit from interior paint = 4X2 (thousand) dollars

السماح ض represent the total daily profit (in thousands of dollars), the objective of the company is

Next, we construct the constraints that restrict raw material usage and product demand. The raw material restrictions are expressed verbally as


The daily usage of raw material MI is 6 tons per ton of exterior paint and 4 tons per ton of inte-rior paint. هكذا

Usage of raw material M1 by exterior paint = 6X1 tons/day

Usage of raw material م 1 by interior paint = 4X2 tons/day

Usage of raw material م1 by both paints = 6X1 + 4x2 tons/day

Usage of raw material م2 by both paints = IX1 + 2X2 tons/day

Because the daily availabilities of raw materials م1 و م2 are limited to 24 and 6 tons, respectively, the associated restrictions are given as

6x1 + 4x2 <= 24 (Raw material M1)

The first demand restriction stipulates that the excess of the daily production of interior over exterior paint, X2 - Xl, should not exceed 1 ton, which translates to

The second demand restriction stipulates that the maximum daily demand of interior paint is limited to 2 tons, which translates to

An implicit (or "understood-to-be") restriction is that variables xل و x2 cannot assume negative values. The non negativity restrictions, x1>= 0, x2> = 0, account for this requirement.

The complete Reddy Mikks model is

Any values of x1 و x2 that satisfy الكل five constraints constitute a feasible solution. Otherwise, the solution is infeasible. For example, the solution, x1 = 3 tons per day and x2 = I ton per day, is feasible because it does not violate أي of the constraints, including the nonnegativity restrictions. To verify this result, substitute (x1 = 3, x2 = 1) in the left-hand side of each constraint. In constraint (1) we have 6x1 + 4x2 = 6 x 3 + 4 X 1 == 22, which is less than the right-hand side of the constraint (= 24). Constraints 2 through 5 will yield similar conclusions (verify!). On the other hand, the solution x1 = 4 and x2 = 1 is infeasible because it does not satisfy constraint (I)-namely, 6 X 4 + 4 X 1 = 28, which is larger than the right-hand side (= 24).

The goal of the problem is to find the best feasible solution, or the optimum, that maximizes the total profit. Before we can do that, we need to know how many feasible solutions the Reddy Mikks problem has. The answer, as we will see from the graphical solution in Section 2.2, is "an infinite number," which makes it impossible to solve the problem by enumeration. Instead, we need a systematic procedure that will locate the optimum solution in a finite num-ber of steps. The graphical method in Section 2.2 and its algebraic generalization in Chapter 3 will explain how this can be accomplished.

Properties of the LP Model. In Example 2.1-1, the objective and the constraints are all linear functions. الخطية implies that the LP must satisfy three basic properties:

1. Proportionality: This property requires the contribution of each decision variable in both the objective function and the constraints to be directly proportional to the value of the variable. For example, in the Reddy Mikks model, the quantities 5x1 و 4x1 give the profits for producing x1 و x2 tons of exterior and in- 2.2 terior paint, respectively, with the unit profits per ton, 5 and 4, providing the constants of proportionality. If , on the other hand, Reddy Mikks grants some sort of quantity discounts when sales exceed certain amounts, then the profit will no longer be proportional to the production amounts, x1 و x2 , and the profit function becomes nonlinear.

2. Additivity: This property requires the total contribution of all the variables in the objective function and in the constraints to be the direct sum of the individual contributions of each variable. In the Reddy Mikks model, the total profit equals the sum of the two individual profit components. If , however, the two products compete for market share in such a way that an increase in sales of one adversely affects the other, then the additivity property is not satisfied and the model is no longer linear.

3. Certainty: All the objective and constraint coefficients of the LP model are deterministic. This means that they are known constants-a rare occurrence in real life, where data are more likely to be represented by probabilistic distributions. In essence, LP coefficients are average-value approximations of the probabilistic distributions. If the standard deviations of these distributions are sufficiently small, then the approximation is acceptable. Large standard deviations can be accounted for directly by using stochastic LP algorithms (Section 19.2.3) or indirectly by applying sensitivity analysis to the optimum solution (Section 3.6).

1. For the Reddy Mikks model, construct each of the following constraints and express it with a linear left-hand side and a constant right-hand side:

(a) The daily demand for interior paint exceeds that of exterior paint by at least 1 ton.

(b) The daily usage of raw material م 2 in tons is في عظم 6 and في least 3.

(c) The demand for interior paint cannot be less than the demand for exterior paint.

(d) The minimum quantity that should be produced of both the interior and the exterior paint is 3 tons.

(e) The proportion of interior paint to the total production of both interior and exterior paints must not exceed .5.

2. Determine the best feasible solution among the following (feasible and infeasible) solutions of the Reddy Mikks model:

3. For the feasible solution x1=2, x2=2 of the Reddy Mikks model, determine the unused amounts of raw materials Ml و M2.


أسئلة مكررة

What makes a multiple regression 'multiple'?

A multiple regression considers the effect of more than one explanatory variable on some outcome of interest. It evaluates the relative effect of these explanatory, or independent, variables on the dependent variable when holding all the other variables in the model constant.

Why would one use a multiple regression over a simple OLS regression?

It is rare that a dependent variable is explained by only one variable. In such cases, an analyst uses multiple regression, which attempts to explain a dependent variable using more than one independent variable. The model, however, assumes that there are no major correlations between the independent variables.

Can I do a multiple regression by hand?

على الاغلب لا. Multiple regression models are complex and become even more so when there are more variables included in the model or when the amount of data to analyze grows. To run a multiple regression you will likely need to use specialized statistical software, or functions within business programs like Excel.

What does it mean for a multiple regression to be 'linear'?

In a multiple linear regression, the model calculates the line of best fit that minimizes the variances of each of the variables included as it relates to the dependent variable. Because it fits a line, it is a linear model. There are also non-linear regression models involving multiple variables, such as logistic regression, quadratic regression, and probit models.

How are multiple regression models used in finance?

Any econometric model that looks at more than one variable may be a multiple regression. Factor models, for instance, compare two or more factors to analyze relationships between variables and the resulting performance. The Fama and French Three-Factor Mod is such a model that expands on the capital asset pricing model (CAPM) by adding size risk and value risk factors to the market risk factor in CAPM (which is itself a regression model). By including these two additional factors, the model adjusts for this outperforming tendency, which is thought to make it a better tool for evaluating manager performance.


شاهد الفيديو: النموذج المقابل الثنائي بحوث عمليات (ديسمبر 2021).