داده ها
در این مجموعه داده هر سطر نشان دهنده یک پیامک است که شما باید تشخیص دهید پیامک عادی (ham) است یا هرزپیامک (spam). برای راحتی بیشتر کار شما، برچسب هر نمونه از مجموعه آموزش در فایل دیگری با نام برچسب داده های آموزش تعیین شده است. ترتیب نمونه ها در فایل داده های آموزش با ترتیب برچسب ها، در فایل برچسب داده های آموزش دقیقاً یکسان است.
مجموعه داده موجود نامتوازن است، به این صورت که هرزپیامک ها حدود یک پنجم پیامک ها را تشکیل داده اند.
فایل خروجی باید دارای یک ستون باشد که مشخص کننده برچسب هر نمونه است. تعداد سطرهای فایل خروجی برابر با تعداد نمونههای مجموعه داده آزمایش است.
به عنوان مثال فایل خروجی باید به صورت زیر باشد:
spam
ham
ham
spam
ham
ارزیابی خروجیها با استفاده از معیار accuracy صورت میگیرد.