فهرسة الويب التاريخية
تقوم روبوتات فهرسة الويب التاريخية هذه بأرشفة الروبوتات أو تغيير روبوتات التسجيل التي تفحص محتوى الويب بمرور الوقت. سيعرف معظم المستخدمين Way Back When و archive.org اللذين يسجلان التغييرات على موقع الويب الخاص بك بمرور الوقت.
المورّد
خدمة البوت
توصية
وصف
Archive.org
في طريق العودة عندما
يوصى به
لا ينصح به
في عام 1996، أطلق أرشيف الإنترنت مكتبته الرقمية غير الربحية التي تحافظ على بيانات الويب وتجعلها متاحة لأغراض البحث من خلال Wayback Machine. يتعاون أرشيف الإنترنت مع الجامعات والمكتبات وغيرها للحفاظ على التراث الثقافي العالمي. إن Internet Archive Wayback Machine هي خدمة تسمح للأشخاص بزيارة الإصدارات المؤرشفة من مواقع الويب. يمكن لزوار Wayback Machine كتابة عنوان URL وتحديد نطاق زمني ثم بدء التصفح على إصدار مؤرشف من الويب. يحترم robots.txt، وسيؤدي هذا أيضًا إلى حذف الأرشيفات المرتبطة تلقائيًا.
نايس كراولر
نايس كراولر
يوصى به
لا ينصح به
يزحف NiceCrawler إلى 330 مليون موقع ويب شهريًا. هدفهم هو إنشاء أرشيف صور للإنترنت بالكامل حيث يتغير بمرور الوقت للحفاظ على التاريخ. نقوم بالزحف إلى 25 صفحة كحد أقصى لكل نطاق ولا نفتح أبدًا أكثر من صفحة واحدة في المرة الواحدة.
المكتبة البريطانية
الإيداع القانوني
يوصى به
لا ينصح به
إذا كنت ناشرًا، فأنت بحاجة إلى تقديم نسخة من كل منشور بريطاني تصدره إلى المكتبة البريطانية. قد تطلب منك خمس مكتبات رئيسية أخرى في المملكة المتحدة أيضًا إعطائها نسخة. يُطلق على هذا النظام اسم الإيداع القانوني وكان جزءًا من القانون الإنجليزي منذ عام 1662. الإيداع القانوني له العديد من الفوائد للناشرين والمؤلفين. يمكن قراءة منشوراتك المودعة داخل المكتبة البريطانية وسيتم الاحتفاظ بها للأجيال القادمة. تصبح أعمالك جزءًا من تراث الأمة، مما يوفر الإلهام للكتب الجديدة والمنشورات الأخرى. يزحف هذا الروبوت إلى المواقع التي تجمع البيانات ليتم تخزينها كجزء من المستودع.
شركة نيتستيت المحدودة
datenbank.de
يوصى به
لا ينصح به
يقوم Datenbank بفهرسة البيانات الوصفية من 5.4 مليون موقع إلكتروني ألماني. إذا لم يكن موقع الويب الخاص بك موجودًا في ألمانيا أو لم تكن ترغب في فهرسته، فلا تسمح باستخدام برنامج الزحف هذا.
الزحف المشترك
الزحف المشترك
يوصى به
لا ينصح به
يقوم بإنشاء وصيانة مستودع مفتوح لبيانات زحف الويب التي يمكن لأي شخص الوصول إليها وتحليلها. يحتوي على روابط تخزين AWS والتخزين الأكاديمي لصفحات الويب التاريخية المستخدمة للبحث وتصنيف البيانات ومجموعة متنوعة من مشاريع البيانات الضخمة الأخرى. يحترم ملف robots.txt.
مكتبة فرنسا الوطنية
بي إن إف
يوصى به
لا ينصح به
«تتمثل مهمة BnF في جمع وتصنيف وحفظ وإثراء وإيصال التراث الوثائقي الوطني. يضمن BnF وصول أكبر عدد من الأشخاص إلى المجموعات في الموقع، عن بُعد، ويطور التعاون الوطني والدولي. «إذا كنت ترى هذا الروبوت، فذلك لأن بعض محتوى موقعك يتم جمعه بواسطة مكتبة فرنسا الوطنية (BnF). لتسهيل ذلك، يحتوي BnF على زاحف يقوم بمسح المحتوى. يطبق الزاحف الخاص بهم تأخيرات طويلة بين طلبين حتى لا يتداخل مع تشغيل خوادم الويب الخاصة بك. يتجاهل هذا الروبوت robots.txt. من أجل إنجاز مهمة الإيداع القانونية، قد تختار BnF التقاط بعض الملفات المعنية بـ robots.txt، عندما تكون ضرورية لإعادة تشكيل الشكل التحريري للموقع (في حالة ملفات الصور أو أوراق الأنماط على وجه الخصوص). تستخدم صفحات الويب التفاعلية لغة JavaScript التي تنشئ الروابط وتطلق الإجراءات على الأحداث (تحميل الصفحة، والتنقل في القائمة، والنقر بالماوس أو التمرير، وما إلى ذلك). نظرًا لعدم القدرة على تفسير جميع رموز JavaScript بدقة، يمكن لـ Heritrix إنشاء عناوين URL خاطئة: لا يعتبر هذا السلوك خطأ في وظيفة الروبوت (https://github.com/internetarchive/heritrix3/wiki/crawling٪ 20JavaScript). يبذل BnF قصارى جهده لتجنب إنشاء عناوين URL الخاطئة هذه، عن طريق وضع العديد من الفلاتر في ملفات تعريف المجموعة، ويركز على عناوين URL ذات الصلة.
arquivo.pt
arquivo.pt
يوصى به
لا ينصح به
زاحف لأرشيف الويب الوطني البرتغالي، Arquivo.