مقاله خوشه بندی داده های بزرگ روش مبتنی بر الگوریتم ژنتیک

Word 288 KB 35583 15
مشخص نشده مشخص نشده شیمی - زیست شناسی
قیمت: ۲,۰۰۰ تومان
دانلود فایل
  • بخشی از محتوا
  • وضعیت فهرست و منابع
  • چکیده

    خوشه بندی داده های بزرگ مربوط به مسئله بدست آوردن خوشه های نهایی یک سری داده از یک مجموعه داده بزرگ است که به عنوان ورودی به مسئله داده شده اند. در این مقاله، مسئله خوشه بندی داده های بزرگ به صورت یک مسئله بهینه سازی چند هدفه مدلسازی شده و یک الگوریتم پردازش تکاملی چندهدفه برای این مسئله استفاده می شود. الگوریتم پردازش تکاملی چندهدفه برای خوشه بندی داده های بزرگ که در اینجا معرفی شده است MOECEA نام دارد و شامل مجموعه جواب خوشه بندی بهینه همزمان روی ورودیهای دو ضابطه است. ضابطه اول ماکسیمم سازی تشابه خوشه های نهایی با تمامی خوشه های ورودی به مسئله است که این شباعت بین دو روش توسط شاخص ARI بدست می آید و ضابطه دوم مینیمم سازی انحراف معیار برای جلوگیری از تشابه بیش از حد خوشه های نهایی با یکی از خوشه های ورودی و عدم تشابه با دیگر خوشه ها است. کارایی این الگوریتم با دیگر الگوریتم ها ی خوشه بندی شناخته شده  و در ازای چند مجموعه داده حقیقی و مجازی مقایسه شده است.

     

     

    مقدمه

    کلاس بندی بدون سرپرست در زمینه پردازش تصویر و داده کاوی و تشخیص الگوها توجه محققین را به طور وسیعی به خود جلب نموده است. در گذشته خوشه بندی برای گروه بندی المانها در مجموعه های داده ای و بر اساس شباهت انجام می شد.بنابراین خوشه بندی دقیق تر به این معناست که المانهای یک خوشه دارای حداکثر تشابه از لحاظ برخی شرایط باشند، در حالیکه نسبت به دیگر خوشه ها دارای حداکثر تفاوت هستند. هنگامیکه چندین الگوریتم خوشه بندی بر روی یک مجموعه داده اعمال می شود، نتایج خوشه بندی بسیار متفاوتی به دست می آید. این نتایج متفاوت ناشی از خوشه بندی با الگوریتم های مختلف به دلیل ملاحظات متفاوت در مجموعه داده های به صورت مدلهای متفاوتی فرض می شوند. این امر ممکن است باعث ایجاد برخی نتایج نادرست در خوشه بندی نهایی شود. الگوریتم های خوشه بندی داده های بزرگ به طور اساسی برای مجتمع نمودن راه حلهای خوشه بندی در جهت دستیابی به یک راه حل قابل اطمینان و دقیق است. یافتن یک مجموعه جواب بهینه از بین چند مجموعه جواب کار بسیار مهم و مشکلی است. هنگامی که مجموعه جوابهای متفاوتی از یک مجموعه داده ای به دست می آید به این معناست که دانش اولیه درباره توزیع داده ها در دسترس نیست. مجددا همان طور که المانهای متفاوت دارای خصوصیات متفاوتی هستند، بنابراین روش گروه بندیشان نیز در الگوریتمهای خوشه بندی متفاوت با هم فرق دارد. علاوه بر اینها در الگوریتمهای خوشه بندی ، روش گزوه بندی به روش های مختلفی انجام می شود. برای مثال الگوریتم های خوشه بندی K-means مجموعه داده ها را طوری گروه بندی می کند که MSE هسته هر خوشه حداقل باشد در حالیکه روش های پارتیشن بندی بر پایه گراف در خوشه بندیها، یک گراف را به K قسمت تقسیم میکند و این کار بر اساس اندازه مینیمم وزن یال انجام می گیرد. بنابراین دسترسی به نتیجه نهایی در مورد اینکه کدام روش خوشه بندی مناسب تر است بسیار مشکل خواهد بود. بنابراین در حال حاضر هدف از خوشه بندی داده های بزرگ باری ترکیب نقاط قوت چندین الگوریتم خوشه بندی خواهد بود. این مطلب نقطه تمرکز مطالعه اخیر در خوشه بندی داده های بزرگ و جستجو برای یک ترکیب مناسب از چندین پارتیشن است که بر روی خوشه بندی داده های بزرگ انجام گرفته. خوشه بندی داده های بزرگ می تواند فراتر از چیزی باشد که در حالت معمول توسط یک الگوریتم خوشه بندی روی داده های اولیه بدست می دهد، مثلا از لحاظ مقاوم بودن و جدید بودن و پایداری و اطمینان نسبت به روش تخمین. بنابراین دسترسی به مجموعه جواب نهایی توسط مجتمع سازی خوشه بندیهای متفاوت روی داده های بزرگ بسیار مناسب تر است.

    در این مقاله ما یک مسئله خوشه بندی داده های بزرگ را به عنوان یک مسئله بهینه سازی مطرح نمودیم و هدف از این کار دسترسی به یک راه حل خوشه بندی مناسب است که مشابه با مجموعه جوابهای  ورودی باشند و بنابراین انتظار می رود که اجماع مناسبی روی این روشهای خوشه بندی انجام گیرد.

    بنابراین این مسئله می تواند به صورت یک مسئله بهینه سازی چند منظوره MOO مدلسازی شود که همزمان دو هدف کلی را بهینه سازی خواهد نمود. هدف اولیه برای ماکسیمم سازی شباهت خوشه های نهایی با تمام خوشه های ورودی است در حالیکه شباهت بین دو خوشه توسط شاخص ARI به دست می آید. هدف دوم حداقل نمودن انحراف معیار بین نرخ شباهتها برای جلوگیری از این مطلب است که یکی از خوشه های نهایی بسیار مشابه با یکی از خوشه ها و متفاوت از دیگر خوشه ها شود. در مسئله MOO، جستجو بر روی تعدادی و یا چند تابع هدف که با هم هم پوشانی دارند انجام می گیرد. در مسئله های یک هدفه معمولا بهترین مجموعه جواب به دست می آید. به هر حال در مسائل MOO مجموعه جواب نهایی شامل تعدادی از جوابهای بهینه نسبی است که هیچ یک بر روی اهداف مسئله پیشرفتی نداشته اند و در دیگر روش ها هم هم پوشانی نداشته باشند. الگوریتم ژنتیک مرتب سازی غیر حوزه ای NSGA.ll یک الگوریتم MOO بسیار مرسوم است که به صورت استراتژی بهینه سازی به کار می رود. شاخص ARI و انحراف معیار به عنوان تابع های هدف به کار می روند. الگوریتم تکاملی چندهدفه خوشه بندی داده های بزرگ MOECEA بر روی تعدادی از مجموعه داده های حقیقی و مجازی اعمال شده و کاربرد آن توسط چندین تکنیک خوشه بندی داده های بزرگ برای تعیین نمودن نقاط قوت بررسی شده است.

  • فهرست:

    ندارد
     

    منبع:

    ندارد

خوشه بندي روشي است که داده هاي يک مجموعه داده را به گروه يا خوشه تقسيم مي کند . از مرسوم ترين روش هاي خوشه بندي،الگوريتم هاي خوشه بندي k-Means وfuzzy k-Means مي باشند.اين دو الگوريتم فقط روي داده هاي عددي عمل مي کنند و به منظور رفع اين محدوديت، الگو

در اين گزارش ما يک روش جديد براي خوشه بندي داده ها بر پايه الگوريتم ژنتيک همراه با بازچيني مجدد ژن هاي هر کروموزوم در هر مرحله تکرار ارائه مي دهيم.اين امر باعث حذف انحطاط در مراکز خوشه ها در هر مرحله مي شود در اين گزارش يک عملگر ترکيب (crossover) جد

مقدمه : هدف از این اراِئه و تحقیق بررسی روشهای مطرح داده کاوی است .داده کاوی هر نوع استخراج دانش و یا الگواز داده های موجود در پایگاه داده است که این دانشها و الگوها ضمنی و مستتر در داده ها هستند ,از داده کاوی می توان جهت امور رده بندی (Classification ) و تخمین (Estimation) ,پیش بینی (Prediction) و خوشه بندی (Clustering)استفاده کرد .داده کاوی دارای محاسن فراوانی است . از مهمترین ...

با افزايش سيستمهاي کامپيوتر و گسترش تکنولوژي اطلاعات , بحث اصلي در علم کامپيوتر از چگونگي جمع آوري اطلاعات به نحوه استفاده از اطلاعات منتقل شده است . سيستمهاي داده کاوي ,اين امکان را به کاربر مي دهند که بتواند انبوه داده هاي جمع آوري شده را تفسير کن

در اين پروژه قصد داريم روش جديدي جهت قطعه بندي تصاوير رنگي بااستفاده از سيستمهاي فازي معرفي نماييم.به عبارتي ديگر در تصاوير رنگي ، نواحي مشابه از لحاظ رنگ را جدا کرده و تصويررا به قطعات مشابه تقسيم مي نماييم. با توجه به اين که به طور معمول تصاوير رن

مقدمه: سدها و مخازن مهمترین و موثرترین سیستم ذخیره آب می باشند که توزیع نابرابر مکانی و زمانی آب را تغییر می دهند. آنها نه تنها در تامین آب شرب، تولید انرژی برقابی و آبیاری زمین های پایین دست کاربرد داشته، بلکه در به حداقل رسانی خسارات ناشی از سیلاب و خشکسالی نیز نقش موثری را ایفا می کنند. بدون شک به منظور استفاده کامل از آب موجود، مدیریت بهینه مخازن بسیار با اهمیت می باشد. ...

الف) تاريخچه ايده ي نمايش يک تابع برحسب مجموعه ي کاملي از توابع اولين بار توسط ژوزف فوريه، رياضيدان و فيزيکدان بين سال هاي ????-???? طي رساله اي در آکادمي علوم راجع به انتشار حرارت، براي نمايش توابع بکار گرفته شد. در واقع براي آنکه يک تابعf(x

چکیده به‌منظور تولید محصولات با کیفیت ثابت، مناسب است تا نظام‌های تولید برای جلوگیری از هرگونه انحراف غیرطبیعی در شرایط فرایند، نظارت شوند. چارت‌های کنترلی نقش مهمی در حل مشکلات کنترل کیفیت دارند؛ با وجود این اثربخشی آنان به شدت به فرضیات آماری بستگی دارد که در کاربردی واقعی صنعتی غالباً زیر پا گذاشته می‌شوند. برخلاف شبکه‌های عصبی می‌توانند میزان بسیار زیادی از داده‌های مخل را ...

مقدمه جهان امروز را می توان جهان پرتلاطم تغییر نام نهاد، سازمانهای گوناگون به خصوص سازمانهای تولیدی برای تامین هدفهای خود یعنی بقا، توسعه و رقابت نیاز شدیدی به استفاده از الگوهای علمی داشته و در صورت عدم شناخت، کاربری و انجام تحقیقات پویا از صحنه محو خواهند شد. می توان سیستم را کل نگری، مدیریت را هنر و تولید را به عنوان سلاح رقابتی تلقی کرد، اما علی رغم اهمیت رو به تزاید این ...

کلمات کليدي‌: بازآرايي بهينه، الگوريتم ژنتيک، کاهش تلفات چکيده: در اين مقاله الگوريتم ژنتيک جهت حل يک مساله بهينه سازي بکار برده شده است. منظور از بهينه‌سازي انتخاب بهترين ساختار از يک شبکه توزيع جهت کمينه کردن تلفات مي باشد. ا

ثبت سفارش
تعداد
عنوان محصول