داده ها
در این مجموعه داده به ازای هر نمونه 20 ویژگی وجود دارد که با استفاده از آنها، ویژگی هدف یعنی bad_loans باید پیش بینی شود. متغیر هدف، گسسته دو مقداری است و سایر ویژگیها ترکیبی از متغیرهای گسسته و پیوسته هستند.
داده های موجود نامتوازن بوده و درصد افرادی که پرداخت وام به آنها با ریسک همراه است، کمتر از افرادی است که پرداخت وام به آنها ریسکی در بر ندارد. همچنین این مجموعه داده، داده مفقودی دارد.
فایل خروجی باید دارای یک ستون باشد که در هر سطر آن متغیر هدف به ازای هر نمونه آزمایش، مشخص شده باشد. تعداد سطرهای فایل خروجی به تعداد نمونههای مجموعه داده آزمایش است.
به عنوان مثال فایل خروجی باید به صورت زیر باشد.
0
1
0
0
0
ارزیابی خروجیها با استفاده از معیار F_measure صورت میگیرد. (کلاس 1، کلاس اقلیت و مهمتر است)