حدد منصات المراقبة التي تستخدمها بالفعل. تستخدم معظم أدوات المراقبة أصواتًا خفيفة جدًا لتحديد الحالة، ولكن بعضها يمكن أن يكون ثقيلًا بشكل مدهش، أو يمكن برمجته للتحقق من العديد من الموارد على فترات زمنية قصيرة جدًا
حدد منصات المراقبة التي تستخدمها بالفعل. تستخدم معظم أدوات المراقبة أصواتًا خفيفة جدًا لتحديد الحالة، ولكن بعضها يمكن أن يكون ثقيلًا بشكل مدهش، أو يمكن برمجته للتحقق من العديد من الموارد على فترات زمنية قصيرة جدًا
غالبًا ما تقوم هذه الروبوتات بجمع معلومات حول المحتوى الخاص بك وتخزينها مؤقتًا وعرضها مثل العنوان والوصف والصورة المصغرة من صفحاتك بحيث يمكن عرض روابط المحتوى الغني في منصة الوسائط الاجتماعية. هذه هي منصات الوسائط الاجتماعية الثانوية. ربما لن تولد الكثير من الزيارات، ولكنها لا تسبب أي ضرر.
غالبًا ما تستخدم الروبوتات لخدمات الترجمة، فهي تبحث عن أمثلة فعلية للاستخدام متعدد اللغات، لتعزيز قاعدة معارفها.
حدد منصات المراقبة التي تستخدمها بالفعل. تستخدم معظم أدوات المراقبة أصواتًا خفيفة جدًا لتحديد الحالة، ولكن بعضها يمكن أن يكون ثقيلًا بشكل مدهش، أو يمكن برمجته للتحقق من العديد من الموارد على فترات زمنية قصيرة جدًا
غالبًا ما تقوم هذه الروبوتات بجمع معلومات حول المحتوى الخاص بك وتخزينها مؤقتًا وعرضها مثل العنوان والوصف والصورة المصغرة من صفحاتك بحيث يمكن عرض روابط المحتوى الغني في منصة الوسائط الاجتماعية. هذه هي منصة الوسائط الاجتماعية الرئيسية بما في ذلك Facebook، ومن الآمن اختيار الكل.
تحتوي محركات البحث المتخصصة على برامج زحف تقوم باستخراج البيانات لسوق أو قطاع عمودي معين. التطبيقات النموذجية هي لمراقبة بيانات الشركة، على سبيل المثال بين الشركات الصغيرة والمتوسطة والقطاعات الحكومية والأسواق الرأسية الأخرى. عادةً ما يكون هؤلاء لاعبون متخصصون جدًا، ولن يضيفوا الكثير من الزيارات، إن وجدت، إلا في قطاع متخصص جدًا، حيث يمكنهم إضافة قيمة.
تستخدم شركات الأمان الروبوتات للنظر في مجموعات منصات الويب ونقاط الضعف ومقاييس استخدام البرامج. يمكن لهذه الروبوتات اكتشاف قدر مذهل من التفاصيل حول مجموعة التكنولوجيا. من الواضح أن مكونات الواجهة الأمامية والأدوات ومنصات إدارة المحتوى وما إلى ذلك هي الأسهل في اكتشافها، ولكنها لا تتوقف عند هذا الحد. يمكن الوصول إلى تفاصيل البنية التحتية، و CDN، وخوادم الويب، ومزود السحابة، ومنصة التجارة الإلكترونية، ونظام التشغيل، وإصدارات WAF باستخدام الأدوات المناسبة. هذه المنطقة بأكملها هي مجرد سيف ذو حدين. من ناحية أخرى، تعد أدوات البحث التي تقوم بتقييم نقاط الضعف وإيجادها وتحديدها كميًا حيوية وضرورية. من ناحية أخرى، هل تريد حقًا نشر هذه البيانات في المجال العام؟
تستهدف العديد من الروبوتات البنية التحتية لتكنولوجيا المعلومات لفهم مجموعة التكنولوجيا الكاملة وجميع المكونات المستخدمة. في كثير من الحالات، يمكن أن تكون هذه بيانات غير ضارة. أي خادم ويب أو شبكة توزيع المحتوى (CDN) أو منصة التجارة الإلكترونية ليست أسرارًا للدولة بالضبط. إذن ما هو الحق؟ ثم تقوم الخدمات التجارية المشروعة مثل Built-With بتجميع البيانات، مما يسمح لفرق المبيعات والتسويق باستهداف المجالات بدقة بالمواصفات الدقيقة والبناء الذي لديهم حلول له. يمكن أن يكون مفيدًا لسلسلة التوريد بأكملها - يحصل البائعون على استهداف دقيق، ويحصل المشترون على حلول، لا سمح الله، قد يحتاجون إليها بالفعل. ومع ذلك، على الجانب غير الشرعي، يمكنك بسهولة رؤية الفرصة للقراصنة الذين يمكنهم استهداف نقاط الضعف المعروفة في البنية التحتية. يمكنهم إطلاق روبوتات غير قانونية للعثور بسرعة وسهولة على الإصدارات المخترقة والمكدسات التقنية الضعيفة عبر الويب. بالطبع، هذا مجرد سبب آخر للتأكد من أننا نقوم دائمًا بتحديث البرامج، ولدينا عناصر تحكم قوية في الإصدار، لكننا نعلم جميعًا أن هذا ليس هو الواقع دائمًا. يمكن للروبوتات استخراج معلومات مفصلة للغاية وصولاً إلى إصدارات وإصدارات محددة. غالبًا ما تقوم برامج الزحف العامة هذه باختطاف سلسلة وكيل المستخدم الشائعة الحالية، متظاهرة بأنها بحث شرعي أو زاحف وسائط.
إذا كنت تستخدم أدوات مثل Slack، فإنها تقوم بتشغيل برامج الروبوت التي تأخذ بيانات العلامات الوصفية وبيانات وكيل الصور لمعاينة صفحة الويب المدعومة مباشرة في الأدوات. يمكنك اختيار الكل بأمان.
لقد رأينا جميعًا أجهزة الكشف عن سرعة الويب المختلفة على الإنترنت. تعمل Google على وجه الخصوص على زيادة أهمية سرعة تحميل الصفحة في تصنيفات الصفحات الإجمالية، في إدراك بسيط بأن سرعات التحميل البطيئة تقتل المشاهدات.
بالنسبة للعديد من العملاء، يتلخص هذا في المكان الذي تتداول فيه والجمهور المستهدف. إذا لم تكن مهتمًا على سبيل المثال بالعملاء الصينيين أو الروس، أو إذا كنت لا تريد حركة مرور دولية بنشاط، فليس من المنطقي أيضًا السماح لـ Yandex و Badu بالزحف. على الرغم من أنه يمكنك بالتأكيد حظر برامج الروبوت في robots.txt، تذكر أن هذا يفترض أن الروبوتات تطيع تعليماتك - غالبًا ما لا تفعل ذلك. يقوم VerifiedVisitors فعليًا بفرض تعليماتك والتحقق من أنك تحظر الروبوتات التي لا تريدها. هناك أيضًا عدد كبير من محركات البحث الدولية المحلية التي ربما لم تسمع بها من قبل.
يمكن أن تساعد تصنيفات Alexa وخدمات إحصاءات زوار الويب الأخرى في تحديد شرعية زوار الويب وتوفير التحقق المستقل من مدى وصول جمهورك، وهو أمر مفيد للمعلنين والشركاء التجاريين. سيرغب معظم مالكي مواقع الويب في تحديد كل هذه الروبوتات. إذا كنت لا تريد أن تقوم هذه الخدمات بترتيب مستويات زوار الويب لديك، فيمكنك استبعادها.
تتضمن محركات البحث المتخصصة في الصور والفيديو خدمات الصور والفيديو الرئيسية من Google. إذا كان لديك الكثير من محتوى الفيديو والصور، فسيكون من الضروري فهرستها بشكل صحيح لتحسين محركات البحث.
على الرغم من أنه من نافلة القول أن معظم المواقع سترغب في التأكد من أن محركات البحث الرئيسية تزحف إلى موقع الويب الخاص بك بشكل فعال، إلا أن الروبوتات المزيفة التي تنتحل شخصية محركات البحث الرئيسية شائعة جدًا. لماذا؟ يعرف مجرمو الإنترنت أنك لن ترغب في حظر محركات البحث الرئيسية، ولن تكلف نفسك عناء التحقق من الروبوت للتأكد من شرعيته. والأسوأ من ذلك، أنك تضع في القائمة البيضاء روبوتًا خبيثًا ينتحل شخصية. غالبًا ما تزحف برامج زحف البحث إلى موقعك بالكامل. لدى Bing على وجه الخصوص بصمة ثقيلة جدًا أثناء الزحف. تعتبر مشاهدة الزحف على نطاق واسع سلوكًا «طبيعيًا» من محركات البحث. ومع ذلك، بمجرد إدراجه في القائمة البيضاء، يمكن للروبوت الضار الاختباء في حركة مرور الروبوت المشروعة هذه واستنساخ موقعك بالكامل وإعداد طعم متطور وتبديل هجوم بيانات الاعتماد على قاعدة عملائك. يمكنك الزحف إلى المحتوى أو عنوان IP أو الصور أو الأسعار أو غيرها من البيانات الحساسة تجاريًا وسرقتها مجانًا. التحقق من روبوتات البحث بعيد أيضًا عن البساطة. ينشر Bing بشكل مفيد قائمة عناوين IP التي يمكن استخدامها لمصادقة أصولها. يجب تحديث هذه القائمة باستمرار مع تغير النطاقات بمرور الوقت. في الآونة الأخيرة، قمنا أيضًا بتتبع عناوين IP غير المدرجة في القائمة، والتي تعتبر مع ذلك شرعية. من المحبط جدًا أن Bing لا يستطيع فرز أساسيات التحقق من صحته. يقوم VerifiedVisitors بمصادقة جميع روبوتات محرك البحث الرئيسية، ويضمن أن الروبوت صالح. نحن ننظر إلى المصدر الرقمي، وكذلك إلى سلوك الروبوت الفعلي للتأكد من أن روبوتات محرك البحث التي تم التحقق منها والتي تريدها هي فقط التي تزحف إلى موقعك. يحتوي كل محرك من محركات البحث على أدلة محددة حول كيفية التحقق من وكيل المستخدم وإنشاء الروبوت. على الرغم من أن Bing هو الوحيد الذي فشل حتى الآن في التحقق الخاص به، إلا أن بيانات التحقق تتغير بشكل متكرر، ومن السهل جدًا إدراج ما يشبه الروبوت الشرعي في القائمة البيضاء باستخدام أدوات التزاوج التلقائي للتحقق من كل زاحف لك والتحقق منه. يمنحك استخدام VerifiedVisitors أيضًا معلومات مفصلة عن كل محرك بحث ونشاط الزحف. يمكنك استخدام لوحة محرك البحث للاطلاع على آخر التواريخ التي تم الزحف إليها والطلبات التي تم إجراؤها وحجم الزحف، مما قد يكون مفيدًا لمعرفة عدد مرات فهرسة موقعك.
غالبًا ما تبحث الروبوتات عن التفاصيل الشخصية لصانعي القرار الرئيسيين وفريق القيادة وكبار أصحاب المصلحة لاستخدامها في تجميعات الخدمات المتعلقة بالتسويق. ستحافظ معظم الشركات على تحديث صفحات فريق الإدارة والموظفين على مواقع الويب الخاصة بها، ولكنها ستستبعد أي معلومات اتصال لمنع البريد العشوائي. عادةً ما يتم تجميع بيانات موقع الويب المسحوبة مع المزيد من البيانات المسروقة من قواعد بيانات جهات الاتصال المرتبطة ومجموعة كبيرة ومتنوعة من بيانات التسويق المباشر الأخرى، لإثراء كل من بيانات الاتصال وصناع القرار للمسوقين.
يمكن أن تساعد هذه الروبوتات في زيادة حركة مرور وسائل التواصل الاجتماعي إلى موقعك. غالبًا ما يضيفون نوعًا من إثراء البيانات ويعرضون البيانات الغنية كخدمة ويقدمون خلاصات المحتوى الجديدة إلى مجموعة واسعة من شركاء المحتوى.
يعد البحث عن الروابط المعطلة وسلامة الروابط جزءًا حيويًا من صحة موقع الويب. تُستخدم روبوتات الزاحف للتحقق من سلامة الروابط، وضمان الحفاظ على الروابط الصحيحة بمرور الوقت. يرجى أيضًا الاطلاع على فئة تحسين محركات البحث، حيث يتم دمج أدوات التحقق من الروابط في منصات شاملة. سيسمح معظم المستخدمين بمدققات الروابط. قد يؤدي تعطيلها إلى 404 من الرابط - ويؤدي فعليًا إلى فقدان موقعك للروابط وسلطة المجال.
تستخدم خدمات حماية حقوق الطبع والنشر الروبوتات للعمل كوكلاء إنفاذ، مما يضمن عدم انتهاك محتوى موقع الويب لأي تراخيص ملكية وعدم سرقة المحتوى المحمي بحقوق الطبع والنشر أو إساءة استخدام العلامات التجارية. يمكن أن تؤدي هذه الأدوات الآلية إلى رسائل الإيقاف والكف القانونية للانتهاك المحتمل للعلامة التجارية والعلامة التجارية، والتي يجب الرد عليها، وبالتالي يمكن أن تتسبب في تكبد تكاليف قانونية للدفاع ضد المطالبات. يمكن أن تؤدي أيضًا إلى مطالبات بحقوق الطبع والنشر إذا تم، على سبيل المثال، استخدام صورة محمية بحقوق الطبع والنشر مع الترخيص الصحيح. إنها منطقة معقدة حيث تختلف تراخيص الصور غالبًا حسب الصورة وفقًا لسياق استخدامها. على سبيل المثال، قد تقوم العلامة التجارية للشركة بترخيص صور العلاقات العامة لنشر الأخبار والوسائط فقط - وليس للاستخدام على مواقع الويب التجارية. يمكنك الوقوع في خطأ اتفاقيات الترخيص المعقدة هذه باستخدام الصور الشائعة على الإنترنت دون التحقق منها. حدد VerifiedVisitors 36 روبوتًا لحماية IP/العلامة التجارية يزحف حاليًا بنشاط على الإنترنت. على الرغم من أننا نوصي بالسلطة التقديرية لهذه الروبوتات، فإننا نوصي بشدة بإجراء تدقيق داخلي لعنوان IP والتأكد من أن المحتوى الخاص بك لا ينتهك أي قوانين ولوائح تتعلق بالامتثال للعلامة التجارية أولاً. تقوم الشركات الأكبر التي تمتلك مكتبات المحتوى الخاصة بها بإدارة العملية تلقائيًا، لكن الشركات الصغيرة تعاني من الامتثال. يساعد الاستخدام الواسع النطاق للخدمات الخالية من حقوق الملكية مثل Unsplash على التخفيف من المخاطر، ولكن من السهل جدًا استخدام صورة محمية بحقوق الطبع والنشر في مدونة.
غالبًا ما تكون محركات البحث الدولية الصغيرة خاصة بالمنطقة أو المنطقة. سيتم تحديد السماح بهذه الروبوتات إلى حد كبير من خلال البلدان التي تتداول فيها شركتك.
تستهدف هذه الروبوتات قسم الوظائف الشاغرة في الموارد البشرية/صفحات الوظائف على موقع الويب الخاص بك. لا تميل الشركات الصغيرة إلى الإعلان عن فرص عمل جديدة، ويحاول القائمون بالتوظيف استغلال الفرصة المحتملة من خلال تجميع البيانات من ملايين عمليات البحث الآلية في مجال الموارد البشرية/الوظائف الشاغرة/الوظائف المفتوحة.
تعد خدمات الروبوت هذه مفيدة لعرض الصور المصغرة للمحتوى الخاص بك كمعاينة. إذا كنت موفر محتوى، أو تروج لمنتج أو خدمة وترغب في توزيع المحتوى الخاص بك، فمن المرجح أن تختار الكل
تعمل برامج الروبوت هذه على تسريع صفحات الجوال (AMP) باستخدام التخزين المؤقت لتسريع سرعة صفحة الجوال. تعمل Google بشكل متزايد على جعل سرعة تحميل الصفحة عاملاً رئيسيًا في تصنيفات تحسين محركات البحث، لذا فإن الأمر يستحق تحسين المحتوى الخاص بك لمسرعات الأجهزة المحمولة.
إذا قمت بنشر محتوى ولديك RSS أو خلاصات أخرى. هذه الروبوتات مفيدة وتساعد على توزيع المحتوى وتجميعه. إذا لم يكن لديك أي خلاصات، فلا تختار.
ستستخدم العديد من هذه الروبوتات أدوات الكشط لأخذ محتوى إخباري من موقعك وعرضه، غالبًا بدون إسناد. ومع ذلك، يمكنهم أحيانًا تعزيز توزيع المقالات الإخبارية بشكل كبير وزيادة حركة المرور. إذا كنت ترغب في نشر المحتوى الخاص بك، يمكنك تحديد الكل، أو اختيار أفضل مجمعي الأخبار، مثل أخبار Google و Apple News و Medium و Lexus Nexus.
تعد أدوات اختبار القلم وماسحات الثغرات الأمنية جزءًا أساسيًا من برنامج الأمن السيبراني. نوصيك فقط بالسماح بالوصول إلى الأدوات التي تستخدمها بالفعل وحظر الباقي. في قاعدة البيانات الخاصة بنا لأدوات pentest، لدينا حاليًا أكثر من 50 روبوتًا محددًا في البرية يمكن أن يشكل ضغطًا على موارد النظام. العديد من هؤلاء لاعبون شرعيون ينشطون في الترويج لأفضل ممارسات الأمن السيبراني. إذا كنت تجري مجموعة من اختبارات القلم المخصصة، فيمكنك أيضًا استخدام القائمة البيضاء المخصصة لدينا لضمان السماح فقط بمجموعة اختبار القلم المحددة التي تستخدمها.
تتضمن محركات البحث الثانوية خدمات مثل ask.com و Duckduckgo و Mojeek و Neeva و Qwant. يركز العديد منها على الخصوصية أو تقدم وظائف بحث أكثر تخصصًا. على سبيل المثال، لا تقوم Qwant، على عكس العديد من محركات البحث الرئيسية، بتتبع عمليات البحث أو تعيين ملفات تعريف الارتباط أو إعادة بيع البيانات الشخصية للمعلنين وغيرهم من أجل الاستهداف المحسن. تميل معظم المواقع إلى تضمين محركات البحث الثانوية - على الرغم من أنها تنتج جزءًا صغيرًا من حركة مرور محركات البحث الرئيسية، إلا أنها تجلب عملاء إضافيين محتملين. هم أقل عرضة للاستهداف من قبل منتحلي شخصية الروبوتات
لقد تطورت أدوات الكشط وحزم الكشط لتسهيل الحياة لتجريف البيانات. هناك مجموعة واسعة من أدوات الكشط المتاحة وفقًا لتفضيلاتك اللغوية ومستوى مهارتك، بدءًا من حزم نوع SaaS التي تعمل بالتأشير والنقر مثل Brightdata، إلى مكتبات python، ومحرك الدمى لـ node JS، و OpenBullet لجمهور .net. من المهم ملاحظة أن بعض هذه المنصات قد تم تصميمها لتجنب الاكتشاف، وإذا كانت الكاشطة تستخدم نصًا مخصصًا، فيمكنها بسهولة إخراج أي بيانات توقيع يمكن التعرف عليها بسهولة من النظام الأساسي. على سبيل المثال، تستخدم Brightdata قاعدة بيانات كبيرة جدًا تضم ملايين عناوين IP المحلية وتسعى بنشاط لتجنب الاكتشاف. توصي VerifiedVisitors بحظر أي أدوات وخدمات كشط معروفة، بالإضافة إلى استخدام أجهزة الكشف الآلية الخاصة بنا لمنع الكاشطات، وتلك الخدمات التي تحاول إخفاء أصول منصتها.
من المفيد معاينة المحتوى الخاص بك على منصات الشركاء.
ستخبرك منصات إدارة الروبوتات أن تخفيف تأثير الروبوتات الخاص بها ناجح بنسبة 100٪، أو في بعض الأحيان، لكي تكون أكثر «واقعية»، يتم تحديد معدل النجاح السحري البالغ 99.99٪. «ثق بنا، ثق بنا»، يقولون، «لدينا هذا.»
يعمل بعض البائعين على الرياضيات بطريقة أخرى، ويظهرون أن معدلهم الإيجابي الكاذب (عدد البشر الذين يتم الخلط بينهم وبين الروبوتات) يصل بطريقة سحرية إلى أقل من 0.01٪، لكنهم بطريقة ما يفشلون تمامًا في ذكر المعدل السلبي الكاذب (كمية الروبوتات التي يتم الخلط بينها وبين البشر)، وهو الرقم الوحيد الذي يجب أن تهتم به حقًا. للحصول على مناقشة حول المعدلات الإيجابية الكاذبة والسلبية الكاذبة، يرجى الاطلاع على دقة اكتشاف البوت هنا.
تتمتع الروبوتات كخدمة (BaaS) بمعدل نجاح 99.99٪
وفي الوقت نفسه، الأحدث الروبوتات كخدمة (BaaS)) يتباهون بأن لديهم معدل نجاح بنسبة 99.99٪ في تجنب اكتشاف الروبوت هذا في المقام الأول.
كلاهما لا يمكن أن يكون على حق. إذن ما الذي يحدث على الأرض؟
ردنا بسيط للغاية. من فضلك لا تثق بنا.
لدينا نموذج انعدام الثقة لسبب ما.
تتيح ميزات «التشغيل» لعملائنا معرفة الزوار الذين تم حظرهم بالضبط ولماذا، حتى يتمكنوا من التحقق من صحة المعلومات والتحقق منها بشكل مستقل في SOC، أو استخدام SIEM أو أدوات التحليل الأخرى التي قد تكون لديهم.
الأرقام الرئيسية مثل المعدلات الفعالة بنسبة 99.99٪، أو معدلات الإيجابيات الكاذبة بنسبة 0.01٪، لا تعني شيئًا حقًا. فقط لأننا فعالون بنسبة 99.99٪ لجميع عمليات اكتشاف الروبوتات عبر جميع العملاء لا معنى له. قد يكون هذا 0.01٪ هو الروبوت الضار حقًا الذي يقوم حاليًا بسرقة بياناتك.
إن اعتماد نموذج انعدام الثقة يعني أننا نقدم لعملائنا طريقة منهجية لقياس حركة مرور الروبوتات والتحقق من صحتها.
إحدى الطرق التي نقوم بها بذلك هي قياس أدائنا باستمرار. ضد أحدث التهديدات.
الروبوتات كتهديد لمزود الخدمة (Baas).
قمنا بمراجعة 10 من الروبوتات كخدمة (BaaS) موفرو الخدمة واختاروا بعضًا من أفضلهم لتجنب اكتشاف الروبوتات. على الرغم من أننا لا نستطيع الخوض في كل شخص، فقد اخترنا استخدام Brightdata، حيث يبدو أن نظامهم الأساسي قوي ويدعي أنه الأكثر فعالية في تجنب اكتشاف الروبوتات. تدعي Brightdata معدل نجاح صحي بنسبة 99.99٪ مقابل مواقع الويب، وليس ذلك فحسب، بل تدعي على وجه التحديد أنها تتمتع بأعلى معدل نجاح في «الصناعة».
قمنا بإعداد اختبار مباشر حقيقي لمعرفة ما إذا كان بإمكاننا تجاوز دفاعات الروبوت الخاصة بنا باستخدام Brightdata في فيديو الروبوت المباشر لفريق Red Team Versus Blue Team. (للفيديو، يرجى الاطلاع هنا).
يمكنك أن ترى في لقطة الشاشة معدل النجاح بنسبة 99.99٪ الذي تطالب به Brightdata. لديهم مجموعة من القوالب لمواقع الويب المعروفة للغاية، مثل Amazon و Linkedin و Zara و Hermes و Ikea و google و Yelp و TrustPilot و AirB&B - مئات المواقع المعروفة للغاية مرتبة حسب الفئة.
مشاكل في بصمة جافا سكريبت للروبوتات
يعمل اكتشاف الروبوتات القديمة بشكل أساسي باستخدام بصمة JavaScript، وهذا هو كل طلب وارد. تمامًا مثل حارس النادي الذي يفحص الشاربين بحثًا عن بطاقة الهوية، يتم تشغيل بصمة الإصبع على كل عميل وارد، وتأخذ لقطة من المنصة، وتضع معرفًا لذلك الزائر.
هناك أربع مشاكل فورية في نهج البصمات هذا.
- جافا سكريبت متاحة للجمهور ويمكن إجراء هندسة عكسية لها. على الرغم من أن JS هي مشوشة، نظرًا للصبر الكافي، يمكن فك تشفيرها للكشف عن نطاق القيم المطلوبة لاجتياز اختبارات بصمات الأصابع.
- يجب على الزائر فحص بصمة الإصبع مرة واحدة على الأقل، قبل تطبيق قواعد التوقيع. إذا قمت ببساطة بتدوير كل زائر بعد الزيارة الأولى، فلن تظهر أبدًا كزائر متكرر في المقام الأول، وتتجاوز بصمة الإصبع فقط. وهذا يعني درجة عالية جدًا من الدوران، ويستلزم مجموعة كبيرة من الوكلاء.
- يمكن أن يؤدي استخدام الأجهزة الحقيقية التي تحتوي بالفعل على بصمات أصابع صالحة مرة أخرى إلى تجاوز اكتشاف بصمات الأصابع بدقة. سيتم اجتياز جميع عمليات التحقق المرتبطة بالقماش والماوس والمنصة.
- بدلاً من الوصول إلى الموقع الفعلي باستخدام بصمة الإصبع، سيؤدي الوصول إلى خادم CDN المخزن مؤقتًا إلى تجاوز بصمة الإصبع.
إذن كيف تتجنب Brightdata اكتشاف البوت؟
تحتوي Brightdata على مجموعة واسعة من الوكلاء ومجموعة كبيرة من عناوين IP، بحيث يمكن ضبطها لتدوير الوكلاء بسرعة كبيرة، بحيث تكون كل زيارة هي الزيارة الأولى. كما رأينا، يعد هذا تجاوزًا فعالًا لوكلاء بصمات الأصابع JS. سوف تتجاوزهم في كل مرة. هذا أسهل بكثير من إزالة التشويش على JavaScript ويعني أنك لست مضطرًا إلى إجراء هندسة عكسية لقيم بصمات الأصابع المتوقعة. تقليديًا، كان هذا يعني امتلاك الروبوتات الخاصة بك، أو الوصول إلى واحدة، بحيث يمكنك شن ملايين الهجمات من عنوان IP جديد في كل مرة. كان هذا مكلفًا ويستغرق وقتًا طويلاً ولم يكن فعالًا تمامًا، حيث يتم التقاط عنوان IP الخاص بالبوت نت بسرعة بواسطة خدمات سمعة IP، إذا تم استخدامها في هجمات واسعة النطاق بمرور الوقت.
البنية التحتية للبروكسي بوت كخدمة
تستخدم Brighdata العديد من أنواع البروكسي، مما يسمح لك باختيار التركيبة المناسبة للهدف المحدد. على سبيل المثال، يمكنك شراء حزمة من الهواتف المحمولة أو بروكسيات ISP السكنية، وقم بتعيين حوض السباحة كبيرًا بما يكفي بحيث يمكنك تدوير الروبوتات في كل مرة. كما ترى في لقطات الشاشة، ما عليك سوى اختيار الحزمة التي تحتاجها، وستكون جاهزًا تمامًا. مع وجود الملايين من عناوين IP المحلية أو بوابات الهاتف المحمول التي تستخدم بوابات ASN المحمولة الكبيرة، أصبح من المستحيل تقريبًا استخدام خدمات سمعة IP لإيقاف هجمات الروبوتات هذه.
بروكسيات الجوال لهجمات البوت
تعد بروكسيات الجوال من بين أكثر الوكلاء فعالية، وكذلك الأغلى كما ترون في قائمة الأسعار. تستخدم هذه الهواتف المحمولة الحقيقية، المنظمة في مزارع النقر، وعادة ما تكون مرتبطة بـ ZIP بشريط متحرك لتشغيل مقياس التسارع لخداع بصمة الإصبع للاعتقاد بأنها تستخدم بنشاط من قبل المستخدمين البشريين. غالبًا ما تجد مواقع e-com عملاءها الأكثر قيمة يتسوقون على الأجهزة المحمولة، ويعطون الأولوية لزوار الأجهزة المحمولة وفقًا لذلك. يستخدم الوكلاء أجهزة حقيقية، لذا مرة أخرى، ستفشل عملية أخذ البصمات في جميع الاحتمالات. والأسوأ من ذلك، تم تصنيف الروبوت الآن كزائر بشري.
بروكسيات IP السكنية لهجمات البوت
الخيارات الأرخص ولكن لا تزال فعالة للغاية هي الوكلاء السكنيون باستخدام أجهزة حقيقية. يجتاز الجهاز الحقيقي عمليات التحقق من بصمات الأصابع ولا يمكن حظر عنوان IP السكني بسمعة IP القديمة دون التسبب في العديد من الإيجابيات الكاذبة.
تتضمن القائمة عناوين IP لمركز البيانات، والتي تبدو في البداية غير بديهية؟ لا يعيش البشر في مراكز البيانات، فلماذا يتوفر هذا الخيار؟ يمكن استخدام عناوين IP لمركز البيانات، على سبيل المثال، لهجوم التنقيب عن بيانات API. تتوقع واجهة برمجة التطبيقات روبوتات من مراكز البيانات، وقد تحظر عناوين IP السكنية.
بمجرد تعيين الوكلاء وفقًا لثغرات الضحية المستهدفة، فإن المرحلة التالية هي نشر نصوص الروبوت.
سكربتات بوت
يحتوي Brightdata على سلسلة من القوالب لجعل استهداف مواقع الويب أسهل بكثير. يتم تنظيمها حسب الفئة كما ترى أدناه، وتشمل بعضًا من أكبر مجموعات البيانات الاقتصادية والعامة في العالم. تم تخصيص هذه البرامج النصية لكل موقع، على سبيل المثال لمواقع تطبيق الصفحة الواحدة (SPA)، أو التطبيقات الأخرى الأكثر تعقيدًا، حيث يتعذر الزحف البسيط لكل عنوان URL. تدعي شركة Brightdata أيضًا تجاوز اختبار CAPTCHA.
من أجل الاختبار الذي أجريناه، قمنا بنشر برنامج نصي بسيط للكشط وقمنا بتحرير الحقول لبدء عملية الكشط.
تهديد هجوم البوت
مسلحًا بنص الروبوت الخاص بنا والبنية التحتية للوكيل، يمكننا الآن شن هجوم الروبوت الخاص بنا. على الرغم من أننا اخترنا الكشط، يمكن استهداف الروبوتات لتنفيذ أي نصوص مخصصة، لاستهداف ما تريد على البنية التحتية للهدف. للتلخيص فقط، سيتجاوز هجوم الروبوت الآن تقنيات اكتشاف الروبوتات القديمة التالية:
❌ فشلت سمعة IP مع الملايين من البروكسيات السكنية والمتنقلة
❌ فشل توقيع JS حيث تدور الروبوتات في كل طرف في كل مرة
❌ يتم تجاوز حد معدل WAF عن طريق إبطاء الروبوتات لتقليد الزيارات البشرية باستخدام برنامج نصي مخصص. الروبوتات لا تهتم، يمكن أن تسير ببطء وانخفاض.
❌ إجراء اختبار CAPTCHA في جميع الزيارات - تتجاوز الروبوتات الكابتشا.
❌ سيؤدي إصدار صفحة تحدي لكل طلب للحصول على مزيد من بصمات الأصابع إلى جعل الموقع غير قابل للاستخدام، وقد يجتاز العملاء الوكيلون الذين يستخدمون أجهزة حقيقية اختبار البصمة.
كيف يعمل الزوار الذين تم التحقق منهم؟
تتعلم VerifiedVisitors من حركة المرور الخاصة بك من خلال منصة الذكاء الاصطناعي الخاصة بنا حتى لا نتمكن من مساعدتك في إدارة تهديدات الروبوتات فحسب، بل نضمن إعطاء الأولوية لعملائك ومعاملتهم مثل كبار الشخصيات، بدلاً من التعامل مع شيء أقل من البشر باستخدام أساليب CAPTCHA الحالية.
تحدد منصة VerifiedVisitors AI الزوار وتضعهم في مجموعات كما هو موضح في لقطة الشاشة. يمكنك أن ترى بوضوح، حسب نوع المخاطر، كل مجموعة مقسمة حسب التهديدات الفعلية التي يتم التحقق منها ديناميكيًا بمرور الوقت. هذا يسمح لنا بالثقة ولكن التحقق، على سبيل المثال بالنسبة للزوار المتكررين والروبوتات الجيدة المعروفة، يمكننا استخدام ML لتتبع السلوك بمرور الوقت للتأكد من أنهم زوار شرعيون تم التحقق منهم ونريدهم بالفعل.
لإيقاف هجمات Brightdata، نحتاج بعد ذلك إلى وضع قاعدتين ديناميكيتين:
- القاعدة 1 هي اختيار مجموعة الزوار لأول مرة، من الزوار الذين لم نرهم من قبل. سيشمل هذا حتمًا الزوار البشريين وكذلك الروبوتات.
- تقدم القاعدة 2 صفحة تحدي لهذه المجموعة الجديدة من الزوار فقط، وتجري فحصًا لبصمة العميل لتحديد ما إذا كان إنسانًا أم روبوتًا. في مرحلة الزائر الأولى، تسمح لنا عمليات التحقق هذه بالبحث عن العلامات المنبهة لمنصة الروبوت نفسها المستخدمة لشن هجمات الروبوت. نحن نستخدم مئات الإشارات للبحث عن هذه العلامات. يجب أن تقوم منصات الروبوتات كخدمة بتصحيح كل قيمة إشارة - علينا فقط اكتشاف خطأ أو اثنين وعدم الاتساق في بصمة النظام الأساسي.
هذا النوع من الهجوم متطرف للغاية. من النادر أن تقوم هجمات الروبوتات بإرسال طلب واحد فقط وتدويره في كل مرة. ومع ذلك، حتى في هذه الحالة القصوى، يمكننا تحديد مجموعة التهديدات، ومن ثم التخفيف من حدة الهجوم بنجاح دون التأثير على الزوار المتكررين الشرعيين والمستخدمين العاديين للخدمة.
فوائد حماية الذكاء الاصطناعي Cohort BOT؟
✅ تعامل عملائك مثل كبار الشخصيات وتضمن عدم تأثرهم بأي قواعد
✅ يمكن حظر حركة مرور البوت قبل أن تصل إلى موقع الويب حتى لا تعاني من أي طفرات أو وحدة معالجة مركزية إضافية أو عرض نطاق ترددي، ويفشل الروبوت ببساطة.
✅ صفحة الانتظار سريعة، وتستغرق عادةً من ثانية إلى ثانيتين ولا تتطلب اختبار CAPTCHA أو أي تحدٍ آخر. يمكن أيضًا تصميمه خصيصًا مع الرسائل أو صفحات المنتجات أو تحديثات الخدمة أو غيرها من المعلومات القيمة التي تريد تقديمها للعميل
✅ تصفية الروبوتات تجعل من السهل جدًا رؤية الزوار الحقيقيين وفهم تحليلاتك لمساعدتك على التحويل. على سبيل المثال، تحتوي كل مرة على نسبة من معدلات التخلي السريع، وعادة ما تكون أقل من 30 ثانية. ما مقدار حركة المرور هذه من حركة مرور الروبوتات، أو علامة تدل على أن العملاء لا يحبون حقًا تصميم موقع الويب الخاص بك؟ إن فهم الزوار الحقيقيين الذين تم التحقق منهم الذين يصلون إلى موقعك، يسمح أيضًا للذكاء الاصطناعي باكتشاف الحالات الشاذة. على سبيل المثال، يعد الارتفاع الكبير في عدد الزوار لأول مرة الذين لا يقومون بالتحويل مطلقًا، ولكن يتم توزيعهم ببساطة عبر الموقع، والزحف إلى الصفحات بالتتابع بمرور الوقت علامة أكيدة على حدوث هذا النوع من هجوم تجريف الروبوتات.
كيف تتراكم نسبة نجاح الروبوتات كخدمة (BaaS) بنسبة 99.99٪؟
الآن بعد أن أظهرنا لك الإرشادات التفصيلية لـ Brightdata، كيف يتراكم معدلها البالغ 99.99٪؟ بدون القياس بالتأكيد عبر مجموعة معيارية من نقاط النهاية المستهدفة، من الصعب الجزم بذلك. كما رأينا، يمكن اكتشافه بالتأكيد، ولكن يمكننا بالتأكيد القول أنه سيهزم طرق اكتشاف الروبوتات القديمة بسهولة كما أوضحنا أعلاه. إن تقديم CAPTCHA أو صفحة التحدي لكل زائر سيجعل الموقع غير قابل للاستخدام.
تعتبر العديد من الشركات ببساطة محتوى موقع الويب الخاص بها كمحتوى تسويقي تمت الموافقة على طرحه للجمهور. إذا تم كشطها، فليكن الأمر كذلك. ومع ذلك، فإن ما لا يأخذه هذا في الاعتبار هو التنقيب المنهجي للبيانات لجميع مجموعات البيانات المعنية. على سبيل المثال، قد لا تقلق AirB&B بشأن التسويق عبر الإنترنت أو حذف بعض القوائم، ولكن من المؤكد أن التنقيب المنهجي عن البيانات لكل قائمة في بلد أو منطقة معينة يمثل تهديدًا خطيرًا لنموذج أعمالها وعنوان IP الخاص بها.
مقاييس دقة اكتشاف البوت
لا تمتلك الغالبية العظمى من موردي اكتشاف الروبوتات نموذجًا قويًا لمصفوفة الارتباك، لأنهم لا يستخدمون التعلم الآلي في قلب نموذج الاكتشاف الخاص بهم. نماذجهم لا تنظر إلى الصورة الكاملة.
عندما تقوم VerifiedVisitors بتطوير نماذجنا، فإننا نريد إعطاء الأولوية للكشف عن السلبيات الكاذبة على الإيجابيات الكاذبة.
لماذا؟ السبب بسيط، إذا تحدينا نسبة إضافية صغيرة من البشر فإننا لا نخرق ثقتنا الصفرية. عندما نسمي الروبوت على أنه إنسان وننشئ السلبية الكاذبة، نحتاج إلى تجنب ذلك بأي ثمن. تخلق السلبيات الكاذبة المشكلة الحقيقية، حيث أننا انتهكنا مبادئ عدم الثقة، وسمحنا للروبوت بالوصول إلى مساحتنا المحمية.
ثق في وضع التشغيل
يحتوي VerifiedVisitors على وضع التشغيل الذي يسمح لك بإعداد القواعد والأتراب التي تريدها، ثم التحقق من نتائج أجهزة الكشف عن منصة الذكاء الاصطناعي. يتيح لك ذلك قياس التأثير القابل للقياس الكمي لتخفيف الروبوت وضمان جودة أجهزة الكشف. المقياس الحقيقي الوحيد المهم هو مدى فعالية منع الروبوت في نقاط النهاية الخاصة بك. التركيز على إطار منظم وتحليلي لقياس هذا هو المهم. كل ما تبقى هو زغب تسويقي. يمكنك رؤية نموذج جدول التشغيل أدناه، والذي يتضمن جميع التحليلات التفصيلية وأنواع الكاشف، حتى تتمكن من التحقق من فعالية اكتشافات الروبوت.
عادةً ما تكون أدوات مشرفي المواقع هذه عبارة عن مجموعات من أدوات الشبكة ومحررات الدفعات وخدمات DNS وما إلى ذلك والتي قد تستخدم اختبار ping لموقعك. يمكنك تحديد تلك التي تستخدمها على موقعك الخاص، أو تحديد الكل
يتم استخدام هذه الروبوتات من قبل موفري البريد الإلكتروني ومقدمي خدمات الإنترنت لدعم عروض الحسابات الفردية الخاصة بهم، وسوف يقومون بمهام مثل التحقق من النطاق والتحقق من الملكية. حدد الروبوت المناسب إذا كنت تستخدم خدمات أي من مقدمي الخدمات المدرجين
إذا كنت لا تزال تستخدم خدمات cronjob، أو لديك وظائف cron-jobs قديمة تحتاج إلى دعمها، فيمكنك التفكير في تمكين خدمات cronjob المحددة التي تستخدمها
الخدمات التي يقدمها شركاء التمويل لتوفير المراقبة أو التنبيه للمعاملات المالية على موقعك.
تستخدم شبكات توزيع المحتوى (CDN) هذه الروبوتات لتسريع عرض الصفحة من سطح المكتب أو الهاتف المحمول. آمن لتحديد الكل.
تقوم روبوتات فهرسة الويب التاريخية هذه بأرشفة الروبوتات أو تغيير روبوتات التسجيل التي تفحص محتوى الويب بمرور الوقت. سيعرف معظم المستخدمين Way Back When و archive.org اللذين يسجلان التغييرات على موقع الويب الخاص بك بمرور الوقت.
يعمل مساعدو الذكاء الاصطناعي على إثراء خدمات مثل Alexa باستخدام زاحف الويب لتوفير سياق إضافي لخدمات مساعد الذكاء الاصطناعي.
إذا كنت بائعًا للتجارة الإلكترونية مهتمًا بالترويج للعلاقات التابعة، فاختر، وإلا يمكنك الاستبعاد بأمان
إذا لم يكن لديك إعلانات على موقع الويب الخاص بك، فيمكنك استبعاد كل هذه الروبوتات بأمان. إذا كنت تدير حملات إعلانية، يمكن أن تساعد برامج الروبوت في التحقق من صحة إعلاناتك وسياق الصفحة، بحيث يمكن أن يصل مخزون الإعلانات الخاص بك إلى جمهور أكبر. تقوم روبوتات الإعلانات بالتحقق من حركة المرور غير الصالحة (IVT) للمساعدة في التخفيف من الاحتيال الإعلاني.
الآن بعد أن أصبح ChatGPS مشغولاً بكتابة الواجبات المنزلية، أصبح اكتشاف الانتحال أصعب من قراءة Finnegans Wake. تزحف هذه الروبوتات الأكاديمية إلى حد كبير إلى محتوى الويب، وتبحث في استخدام الكلمات والتعبيرات المعاصرة للكلمات والعبارات الجديدة، بالإضافة إلى المحتوى المسروق.
تعمل روبوتات إثراء المحتوى الرقمي والذكاء الاصطناعي على استكمال مصادر البيانات المنظمة بإثراء إضافي من بيانات الويب المسروقة والمصادر الأخرى. على سبيل المثال، تقدم خدمات التسويق رؤى إضافية للشركات والأفراد من خلال مسح مواقع الشركة وصفحات لينكد إن، حتى يتمكن المسوقون من تقديم المزيد من التواصل «المخصص». تضيف الروبوتات الأخرى معلومات سياقية، أو المزيد من تصنيف البيانات، مما يسمح لخوارزميات الذكاء الاصطناعي بأداء أفضل.
روبوتات إمكانية الوصول هي روبوتات تتحقق على وجه التحديد من الامتثال لأفضل ممارسات إمكانية الوصول. يتضمن ذلك عمليات التحقق الأساسية لحجم الخط الديناميكي وقابليته للقراءة والنص البديل المناسب للصور وبدائل التنقل باستخدام لوحة المفاتيح ودعم التكنولوجيا المساعدة والتأكد من أن اختبار CAPTCHA على سبيل المثال لا يقتصر فقط على المرئي ولديه بعض خيارات الوسائط المتعددة. تتحقق بعض برامج الروبوت على وجه التحديد من إرشادات إمكانية الوصول إلى محتوى الويب (WCAG) - وهي قائمة بالمعايير التي قد يحتاج موقع الويب الخاص بك أو تطبيق الهاتف المحمول إلى تلبيتها حتى يكون متوافقًا مع القانون في بلدك. على الرغم من أن معظم مشرفي المواقع المسؤولين في الشركات الكبيرة سيبذلون قصارى جهدهم دائمًا لضمان أقصى قدر من إمكانية الوصول، إلا أن العديد من المواقع الصغيرة لا تدرك المشكلات و/أو لا تملك الموارد. ومع ذلك، هناك العديد من الماسحات الضوئية للتحقق من إمكانية الوصول عبر الإنترنت، والتي يمكنها أتمتة إعداد التقارير حول عملية الامتثال. هناك أيضًا خدمات مناصرة تستهدف على وجه التحديد المواقع غير المتوافقة. ستجمع الروبوتات أدلة على عدم الامتثال.