این ربات میتواند بهصورت یک ربات تلگرام و یا یک ربات تحت وب طراحی شود. وظیفه آن استخراج اطلاعات از سایت یا سایتهای هدف و ذخیرهسازی این دادهها در قالب فرمت JSON یا CSV و … است.
با گسترش روزافزون سایتها و حضور فزاینده کاربران در فضای مجازی، اطلاعات بهصورت مداوم به سایتها و منابع آنلاین افزوده میشوند. این دادهها گاهی چنان گسترده و حجیم هستند که میتوانند بهعنوان یک دیتاست جامع و کامل برای آموزش مدلهای یادگیری ماشین مورد استفاده قرار گیرند.
انواع دیتاست
دیتاست مجموعهای از دادهها است که برای تحلیل و آموزش مدلهای یادگیری ماشین به کار میرود. این دادهها میتوانند انواع مختلفی داشته باشند، مانند متن که برای مدلهای پردازش زبان طبیعی استفاده میشود، یا تصاویر، ویدیوها و صداها که در مدلهای مربوط به پردازش تصویر، ویدیو و صوت کاربرد دارند.
از جمله سایتهای فارسیزبان میتوان به دیوار، اسنپفود، دیجیکالا و آپارات اشاره کرد.
این سایتهای بزرگ، منابعی غنی از اطلاعات دستهبندیشده هستند که میتوانند بهعنوان یک دیتاست جامع و کاربردی برای مدلهای پیشرفته هوش مصنوعی مورد استفاده قرار گیرند.
ربات ساخت دیتاست قادر است تصاویر، متون و ویدیوها را از این سایتها استخراج کرده و آنها را بهصورت دستهبندیشده در قالبهای JSON، پایگاه داده یا CSV ذخیره کند.
طرز کار ربات
این ربات به سایت هدف متصل شده و اطلاعات مورد نیاز را استخراج میکند. در برخی موارد، لازم است ربات وارد سایت شود و با یک حساب کاربری لاگین کند.
این ربات توانایی انجام این کار را دارد و پس از ورود موفق به سایت، فرآیند استخراج دادههای مورد نظر را آغاز میکند.
اگر اطلاعات استخراجشده شامل تصاویر، ویدیوها یا فایلهای صوتی باشد، ربات پس از دریافت لینکهای دانلود از سایت هدف، آنها را دانلود کرده و در یک هاست دانلود یا مستقیماً روی سرور میزبان ذخیره میکند.
مقیاس پروژه
پروژه ساخت دیتاست میتواند در مقیاسهای کوچک، متوسط یا بزرگ اجرا شود.
در هر مقیاسی، ربات توانایی استخراج اطلاعات از سایت هدف را دارد. با این حال، در پروژههای بزرگ، ممکن است سایتهای هدف به آیپی سرور حساس شوند و محدودیتهایی اعمال کنند.
برای رفع این محدودیتها هم روش هایی است که به کمک آن میتوان این موانع را دور زد و دادههای مورد نیاز را جمعآوری کرد.
برای مشاوره و سفارش ربات ساخت دیتاست به آیدی hyperdesign@ مراجعه کنید.