رگرسیون لجستیک (دودویی، ترتیبی، چندجمله ای، …)

  • 2022-12-4

از رگرسیون لجستیک برای مدلسازی یک متغیر دو جمله ای، چند جمله ای یا ترتیبی با استفاده از متغیرهای توضیحی کمی و/یا کیفی استفاده کنید.

logistic-regression-comparison-categories-of-qualitative-variables.png

تعریف رگرسیون لجستیک در XLSTAT

اصل رگرسیون لجستیک

رگرسیون لجستیک یک روش پرکاربرد است زیرا امکان مدلسازی متغیرهای دو جمله ای (معمولا باینری)، متغیرهای چند جمله ای (متغیرهای کیفی با بیش از دو دسته) یا ترتیبی (متغیرهای کیفی که دسته بندی آنها قابل ترتیب است) را می دهد. این به طور گسترده ای در زمینه پزشکی، در جامعه شناسی، در اپیدمیولوژی، در بازاریابی کمی (خرید یا عدم خرید محصولات یا خدمات پس از یک اقدام) و در امور مالی برای مدل سازی ریسک (امتیاز) استفاده می شود.

اصل مدل رگرسیون لجستیک این است که وقوع یا عدم وقوع یک رویداد (متغیر وابسته که Y ذکر شده است) را با سطح متغیرهای توضیحی توضیح دهد (که به X اشاره شد). مثلاً در حوزه پزشکی به دنبال این هستیم که ارزیابی کنیم با چه دوزی از یک دارو، بیمار درمان می شود.

مدل های رگرسیون لجستیک

رگرسیون لجستیک دو جمله ای

رگرسیون لجستیک و خطی متعلق به خانواده یکسانی از مدل‌ها به نام GLM (مدل خطی تعمیم‌یافته) هستند: در هر دو مورد، یک رویداد به ترکیبی خطی از متغیرهای توضیحی مرتبط است.

برای رگرسیون خطی، متغیر وابسته از توزیع نرمال N(μ, σ) پیروی می کند که در آن μ یک تابع خطی از متغیرهای توضیحی است. برای رگرسیون لجستیک، متغیر وابسته، که متغیر پاسخ نیز نامیده می‌شود، از توزیع برنولی پارامتر p (p میانگین احتمال وقوع یک رویداد) زمانی که آزمایش یک بار تکرار می‌شود، یا از توزیع Binomial(n, p) پیروی می‌کند. آزمایش nn بار تکرار می شود (به عنوان مثال همان دوز داده شده به nn بیمار). پارامتر احتمال p در اینجا تابعی از ترکیب خطی متغیرهای توضیحی است.

رایج ترین توابع مورد استفاده برای پیوند احتمال p به متغیرهای توضیحی، تابع لجستیک (به مدل لاجیت اشاره می کنیم) و تابع توزیع نرمال استاندارد (مدل پروبیت) هستند. هر دو این توابع کاملاً متقارن و سیگموئید هستند: XLSTAT دو تابع دیگر را ارائه می دهد: تابع Log-log مکمل که به مجانب بالایی نزدیکتر است و تابع Gompertz که برعکس، به محور آبسیسا نزدیکتر است.

در اکثر نرم افزارها، محاسبه فواصل اطمینان برای پارامترهای مدل مانند رگرسیون خطی با فرض توزیع نرمال پارامترها است. XLSTAT همچنین روش جایگزین "نسبت احتمال" را ارائه می دهد (ونزون و مولگاوکار، 1988). این روش قابل اعتمادتر است زیرا نیازی به این فرض ندارد که پارامترها به طور معمول توزیع شده اند. با این حال، تکراری بودن، می تواند محاسبات را کند کند.

رگرسیون لجستیک چند جمله ای

اصل رگرسیون لجستیک چند جمله ای توضیح یا پیش بینی متغیری است که بتواند مقادیر جایگزین J (دسته های J متغیر) را به عنوان تابعی از متغیرهای توضیحی بگیرد. بنابراین حالت دوجمله ای که قبلاً دیده شد یک مورد خاص است که در آن J=2 است.

در چارچوب مدل چند جمله ای، یک دسته کنترل باید انتخاب شود. در حالت ایده آل، ما آنچه را که با وضعیت «پایه» یا «کلاسیک» یا «عادی» مطابقت دارد، انتخاب می کنیم. ضرایب برآورد شده با توجه به این دسته کنترل تفسیر خواهند شد. برای سهولت در نوشتن، معادلات زیر با در نظر گرفتن دسته اول به عنوان دسته مرجع نوشته شده است.

مدل ارائه شده توسط XLSTAT برای ارتباط احتمال وقوع یک رویداد به متغیرهای توضیحی ، مدل Logit است که یکی از چهار مدل ارائه شده برای مورد دوتایی است.

برخلاف رگرسیون خطی ، یک راه حل تحلیلی دقیق وجود ندارد. XLSTAT از الگوریتم نیوتن-رافسون استفاده می کند تا به طور مکرر یک راه حل پیدا کند.

رگرسیون لجستیک نظم

اصل رگرسیون لجستیک ترتیب ، توضیح یا پیش بینی متغیری است که می تواند مقادیر جایگزین سفارش داده شده را به خود اختصاص دهد (فقط ترتیب اهمیت دارد ، نه تفاوت ها) ، به عنوان تابعی از یک ترکیب خطی از متغیرهای توضیحی. رگرسیون لجستیک Binomial یک مورد خاص از رگرسیون لجستیک معمولی است که مربوط به موردی است که j = 2.

XLSTAT امکان استفاده از دو مدل جایگزین را برای محاسبه احتمالات انتساب به دسته ها با توجه به متغیرهای توضیحی فراهم می کند: مدل Logit و مدل Probit.

بر خلاف رگرسیون خطی ، یک راه حل تحلیلی دقیق وجود ندارد. بنابراین استفاده از یک الگوریتم تکراری ضروری است. XLSTAT از الگوریتم نیوتن-رافسون استفاده می کند.

نتایج رگرسیون لجستیک در XLSTAT

XLSTAT جداول و نمودارهای تعداد زیادی را برای کمک به تجزیه و تحلیل و تفسیر نتایج نشان می دهد.

آمار خلاصه: این جدول آمار توصیفی را برای کلیه متغیرهای انتخاب شده نشان می دهد. برای متغیرهای کمی ، تعداد مقادیر گمشده ، تعداد مقادیر غیر از بین رفتن ، میانگین و انحراف استاندارد (بی طرفانه) نمایش داده می شود. برای متغیرهای کیفی ، از جمله متغیر وابسته ، دسته بندی هایی با فرکانس ها و درصد های مربوطه نمایش داده می شوند.

ماتریس همبستگی: این جدول همبستگی بین متغیرهای توضیحی را نشان می دهد. توجه داشته باشید که اگر متغیر وابسته باینری باشد ، از ضریب همبستگی دوتایی برای محاسبه همبستگی بین متغیرهای توضیحی کمی و متغیر وابسته استفاده می شود.

خلاصه انتخاب متغیرها: جایی که یک روش انتخاب انتخاب شده است ، XLSTAT خلاصه انتخاب را نشان می دهد. برای انتخاب گام به گام ، آمار مربوط به مراحل مختلف نمایش داده می شود. در جایی که تعداد متغیرها از P تا Q متفاوت است ، بهترین مدل برای هر عدد یا متغیرها با آمار مربوطه نمایش داده می شود و بهترین مدل برای معیار انتخاب شده به صورت جسورانه نمایش داده می شود.

خوب بودن ضرایب مناسب: این جدول مجموعه ای از آمار را برای مدل مستقل نشان می دهد (مطابق با موردی که ترکیب خطی متغیرهای توضیحی به یک ثابت کاهش می یابد) و برای مدل تنظیم شده.

مشاهدات: تعداد کل مشاهدات در نظر گرفته شده (مجموع وزن مشاهدات).

مجموع وزنه ها: تعداد کل مشاهدات در نظر گرفته شده (مجموع وزن مشاهدات ضرب شده توسط وزنهای موجود در رگرسیون).

DF: درجه آزادی ؛

-2 log (مانند.): لگاریتم عملکرد احتمال مرتبط با مدل.

R² (McFadden): ضریب ، مانند R² ، بین 0 تا 1 که اندازه گیری مدل خوب است. این ضریب برابر با 1 منهای نسبت احتمال مدل تنظیم شده به احتمال مدل مستقل است.

R² (Cox and Snell): ضریب ، مانند R² ، بین 0 تا 1 که اندازه گیری مدل خوب است. این ضریب برابر با 1 منهای نسبت احتمال مدل تنظیم شده به احتمال مدل مستقل افزایش یافته به قدرت 2/SW است ، جایی که SW مجموع وزن است.

R² (Nagelkerke): ضریب، مانند R²، بین 0 و 1 است که میزان تنظیم مدل را اندازه می‌گیرد. این ضریب برابر است با نسبت R² کاکس و اسنل، تقسیم بر 1 منهای احتمال مدل مستقل افزایش یافته به توان 2/Sw.

AIC: معیار اطلاعات آکایک؛

SBC: معیار بیزی شوارتز.

تکرار: تعداد تکرار قبل از همگرایی.

آزمون فرضیه صفر H0: Y=p0: فرضیه H0 مطابق با مدل مستقلی است که هر مقدار متغیرهای توضیحی را احتمال p0 می دهد. ما به دنبال بررسی این هستیم که آیا مدل تنظیم شده به طور قابل توجهی قدرتمندتر از این مدل است یا خیر. سه آزمون موجود است: آزمون نسبت درستنمایی (-2 Log(Like.))، آزمون امتیاز و آزمون والد. این سه آمار از توزیع chi2 پیروی می کنند که درجات آزادی آن نشان داده شده است.

Type II analysis : This table is only useful if there is more than one explanatory variable. Here, the adjusted model is tested against a test model where the variable in the row of the table in question has been removed. If the probability Pr>LR کمتر از آستانه معناداری است که تعیین شده است (معمولاً 0. 05)، سپس سهم متغیر در تعدیل مدل قابل توجه است. در غیر این صورت می توان آن را از مدل حذف کرد.

پارامترهای مدل:

حالت دودویی: تخمین پارامتر، انحراف استاندارد متناظر، chi2 Wald، مقدار p مربوطه و فاصله اطمینان برای ثابت و هر متغیر مدل نمایش داده می‌شود. اگر گزینه مربوطه فعال شده باشد، فواصل "احتمال نمایه" نیز نمایش داده می شود.

حالت چند جمله ای: در حالت چند جمله ای، پارامترهای (J-1)*(q+1) به دست می آید که J تعداد دسته ها و q تعداد متغیرهای مدل است. بنابراین، برای هر متغیر توضیحی و برای هر دسته از متغیر پاسخ (به جز دسته مرجع)، تخمین پارامتر، انحراف استاندارد متناظر، chi2 Wald، مقدار p مربوطه و فاصله اطمینان نمایش داده می شود. نسبت شانس با فاصله اطمینان مربوطه نیز نمایش داده می شود.

حالت ترتیبی: در حالت ترتیبی، پارامترهای (J-1)+q به دست می‌آیند که J تعداد دسته‌ها و p تعداد متغیرهای مدل است. بنابراین، برای هر متغیر توضیحی و برای هر دسته از متغیر پاسخ، برآورد پارامتر، انحراف استاندارد متناظر، chi2 Wald، مقدار p مربوطه و فاصله اطمینان نمایش داده می‌شود.

سپس معادلات مدل نمایش داده می‌شوند تا خواندن یا استفاده مجدد از مدل آسان‌تر شود.

جدول ضرایب استاندارد شده (که ضرایب بتا نیز نامیده می شود) برای مقایسه وزن نسبی متغیرها استفاده می شود. هر چه قدر مطلق یک ضریب بیشتر باشد، وزن متغیر مربوطه اهمیت بیشتری دارد. وقتی فاصله اطمینان حول ضرایب استاندارد شده دارای مقدار 0 باشد (این را می توان به راحتی در نمودار ضرایب استاندارد مشاهده کرد)، وزن یک متغیر در مدل معنی دار نیست.

در صورت درخواست، ماتریس کوواریانس پارامترها نمایش داده می شود.

اثرات حاشیه ای در نقطه ای که مربوط به وسایل متغیرهای توضیحی است نشان داده می شود. اثرات حاشیه ای در مقایسه با یکدیگر بیشتر مورد توجه قرار می گیرد. با مقایسه آنها ، می توان تأثیر نسبی هر متغیر را در نقطه معین اندازه گیری کرد. تأثیر را می توان به عنوان تأثیر یک تغییر کوچک از هر متغیر توضیحی ، بر متغیر وابسته تعبیر کرد. فاصله اطمینان محاسبه شده با استفاده از روش دلتا نمایش داده می شود. XLSTAT این نتایج را برای هر دو متغیر کمی و کیفی ، چه عوامل ساده یا تعامل ، فراهم می کند. برای متغیرهای کیفی ، اثر حاشیه ای نشان دهنده تأثیر تغییر در دسته (از دسته اول به دسته علاقه) است.

جدول پیش بینی ها و باقیمانده ها ، برای هر مشاهده ، وزن آن ، مقدار متغیر توضیحی کمی (اگر فقط یک وجود داشته باشد) ، مقدار مشاهده شده متغیر وابسته ، پیش بینی مدل ، همان مقادیر تقسیم شده بر وزن (برایمقدار (باینری) مورد) ، احتمالات برای هر دسته از متغیر وابسته و فواصل اطمینان (در مورد دوتایی).

جدول Diagnostics تأثیرگذاری می توان تأثیر هر مشاهده بر کیفیت مدل یا ارزش ضرایب مدل را ارزیابی کرد. این فقط در موارد دوتایی و چندمجمی نمایش داده می شود.

این جدول طبقه بندی جدول را نشان می دهد که تعداد مشاهدات طبقه بندی شده و طبقه بندی شده طبقه بندی شده برای هر دو دسته را نشان می دهد. حساسیت ، ویژگی و درصد کلی مشاهدات طبقه بندی شده نیز نمایش داده می شود. اگر یک نمونه اعتبار سنجی استخراج شود ، این جدول برای داده های اعتبار سنجی نیز نمایش داده می شود.

منحنی ROC: از منحنی ROC برای ارزیابی عملکرد مدل با استفاده از منطقه زیر منحنی (AUC) و مقایسه چندین مدل با هم استفاده می شود.

مقایسه مقولات متغیرهای کیفی: اگر یک یا چند متغیر کیفی توضیحی انتخاب شده باشد ، نتایج تست های برابری برای پارامترهای گرفته شده به صورت جفت از دسته های متغیر کیفی مختلف نمایش داده می شود.

اگر فقط یک متغیر کمی انتخاب شده باشد ، جدول تجزیه و تحلیل احتمال این امکان را می دهد تا ببینید که کدام مقدار متغیر توضیحی با یک احتمال خاص از موفقیت مطابقت دارد.

برچسب ها

ثبت دیدگاه

مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : ۰
قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.