
ر این مقاله ما توضیح میدهیم که Document Clustering برای مجموعه های بزرگ بوسیله Map-Reduce چگونه میتواند به طور موثر اجرا شود. Hadoop یک چارچوب مناسب و انعطاف پذیر برای محاسبات توزیع شده خوشه ای از ماشین آلات کالا پیاده سازی و فراهم می کند. در این مقاله طراحی و پیاده سازی tfidf و الگوریتم K-Means در Map Reduce
ارائه شده است. از همه مهمتر، کارایی و اثربخشی از الگوریتم بهبود یافته
است و در نهایت، ما در مورد برخی نتایج بحث های مرتبطی خواهیم داشت.