المقالات الموصى بها
مشاركة اجتماعية
هل تريد الاستمرار في التعلم؟
قم بالتسجيل لتلقي مقالات التعلم الأمني من الزوار الذين تم التحقق منهم
تخضع المعلومات التي تقدمها للزوار الذين تم التحقق منهم لشروطنا سياسة الخصوصية
تعد Web Scrapers الآن تهديدًا خطيرًا للبوت في عصر الجيل الاصطناعي.
قم بالتسجيل لتلقي مقالات التعلم الأمني من الزوار الذين تم التحقق منهم
تخضع المعلومات التي تقدمها للزوار الذين تم التحقق منهم لشروطنا سياسة الخصوصية
تقوم روبوتات مكشطة الويب المعروفة أيضًا باسم روبوتات العنكبوت أو الزاحف بالزحف سراً إلى صفحات الويب واستخراج الوسائط الغنية والبيانات الأخرى. غالبًا ما يُنظر إلى روبوتات تجريف الويب على أنها مصدر إزعاج أكثر من كونها مشكلة حقيقية، وتميل فقط إلى أن يتم ملاحظتها إذا تسببت في زيادة التحميل على الخادم. ومع ذلك، فإن ظهور الذكاء الاصطناعي التوليدي جعل تجريف الويب تهديدًا حقيقيًا له آثار مالية خطيرة لا يمكن تجاهلها.
تقوم أدوات كشط الويب في الغالب بسرقة محتوى موقع الويب - غالبًا ما يكون المحتوى التسويقي، والذي تمت الموافقة عليه وصياغته للنشر العام. إذا كان المخترقون مصممين على سرقة محتوى الويب فسوف يفعلون ذلك، حتى لو اضطروا إلى نسخه صفحة بصفحة. تتوفر أيضًا خدمات الكشط تجاريًا لجعل تجريف مواقع الويب بأكملها أمرًا سهلاً للغاية، وهذه تتجنب معظم برامج اكتشاف الروبوتات. إذا لم تتمكن من فعل أي شيء حيال ذلك، فمن الأفضل تجاهل الأمر برمته. إن اتخاذ موقف قدري «ماذا» تجاه كاشطات الويب هو الشيء الوحيد الذي لا يجب عليك فعله بالتأكيد لأنها تطورت لتمثل الآن خطرًا متعدد النواقل كما هو موضح أدناه.
دعونا نفحص ناقلات التهديد هذه بالتفصيل.
لقد غيرت ChatGPT ومشتقاتها عالم تحسين محركات البحث إلى الأبد. بينما يمكننا الجدال طوال اليوم حول جودة المحتوى المشتق من ChatGPT، سواء كان يمكن تمييز محتوى ChatGPT عن الكتابة البشرية الحقيقية أم لا، فإن الأمر غير المطروح للنقاش هو أنه يمكن تحسين محتوى ChatGPT لتحسين محركات البحث. لا تهتم خوارزميات محرك البحث بما إذا كانت بشرية أم لا. إنهم يهتمون فقط بما إذا كان الأمر «جيدًا» من الناحية الخوارزمية.
كيف يتم استغلال هذا؟ إنه تطور جديد في استراتيجية SEO Skyscraper القديمة. يمكنك التفكير في هذا على أنه استراتيجية ماكدونالدز وبرجر كينج. إذا كان الناس يذهبون بالفعل إلى وجهة الهامبرغر، فمن المفيد أن تكون علامتك التجارية المنافسة في الجانب الآخر من الشارع. لقد قام منافسك بكل العمل الشاق لتحقيق الإقبال. يمكنك بعد ذلك اختطاف بعض حركة المرور.
ابحث عن منافس له تصنيفات SEO قوية للكلمات الرئيسية التي ترغب فيها. قم بتحليل الروابط الخلفية وانسخها، ثم قم ببناء ناطحة سحاب أطول لجذب المزيد من الزوار. هذه تقنية شائعة جدًا، ولكنها تحتاج إلى مؤلفي نصوص مهرة وفريق أو وكالة لتحسين محركات البحث على دراية لتطبيقها. يستغرق الأمر أيضًا وقتًا. الكثير من الوقت. تعد كتابة المئات من 2,000 مقالة محسّنة لتحسين محركات البحث مجهودًا كبيرًا في العمل. في نموذج SEO الخاص بناطحة السحاب، لا تتم سرقة المحتوى الأصلي المحمي بحقوق الطبع والنشر. لقد تم حصادها بشكل فعال وإعادة كتابتها وتحسينها وتحسينها باستخدام المزيد من المعلومات الحديثة ومقاطع الفيديو والرسوم البيانية والتخطيط والعرض التقديمي المحسّن.
اليوم، من الممكن القيام بنفس الشيء بالضبط مع مطالبات ChatGPT وجيش صغير من الروبوتات المخصصة - وبناء مكتبة كاملة من المحتوى المحسن الذي يتم امتصاصه من المواقع التنافسية دون تدخل بشري. هذا سيغير قواعد اللعبة. فكر في كل هذا الوقت والجهد اللازمين لإنشاء استراتيجية جادة لتسويق المحتوى وقيمة الكلمات الرئيسية في صفحتك 1.
إن Gen AI قادر على أخذ البيانات المسروقة وتحويلها إلى تحسينات أخرى للمحتوى أو أشكال أخرى. على سبيل المثال، يمكن أخذ بيانات التسعير أو البيانات الإحصائية وتحويلها إلى خدمة بحث جديدة. يتمثل التهديد الأساسي في إعادة تصميم المحتوى الحالي باستخدام أدوات التشغيل الآلي للاستفادة من عنوان IP الأساسي الذي تم إنشاؤه في المقام الأول. مع الاختلافات الطفيفة والتعديلات ودمج البيانات، اختفت حقوق الطبع والنشر، وتم إنشاء شيء جديد.
تستخدم العديد من نماذج اللغة مكتبات مثل تلك الموجودة في https://commoncrawl.org/ والتي تعد مستودعًا مفتوحًا واسعًا حقًا لجميع البيانات التي تم الزحف إليها من سنوات من محتوى الويب. لم تستبعد معظم المواقع برامج الزحف لتجميع البيانات مثل الزحف الشائع. يُعد برنامج Common crawl مصدرًا رائعًا لعلماء البيانات والباحثين ومنشئي نماذج التعلم الآلي الذين يحتاجون إلى مجموعات بيانات ضخمة لتدريب نماذجهم وإثراء فهمنا. لا يعرف معظمهم ما تفعله برامج الزحف هذه، وما هي العواقب السلبية المحتملة. الآن كما تعلم، يجب أن يكون اختيارًا مستنيرًا للاشتراك. يمكنك ببساطة القيام بذلك في robots.txt - ولكن بالطبع الآن قمت بإبلاغ المتسللين بأن لديك محتوى تريد حمايته وموقعه بالضبط.
لقد تطورت أدوات الكشط وحزم الكشط لتسهيل الحياة لتجريف البيانات. هناك مجموعة واسعة من أدوات الكشط المتاحة وفقًا لتفضيلاتك اللغوية ومستوى مهارتك، بدءًا من حزم نوع SaaS التي تعمل بالتأشير والنقر مثل Brightdata، إلى مكتبات python، ومحرك الدمى لـ node JS، و OpenBullet لجمهور .net.
من المهم ملاحظة أن بعض هذه المنصات قد تم تصميمها لتجنب الاكتشاف، وإذا كانت الكاشطة تستخدم نصًا مخصصًا، فيمكنها بسهولة إخراج أي بيانات توقيع يمكن التعرف عليها بسهولة من النظام الأساسي. على سبيل المثال، تستخدم Brightdata قاعدة بيانات كبيرة جدًا تضم ملايين عناوين IP المحلية وتسعى بنشاط لتجنب الاكتشاف. توصي VerifiedVisitors بحظر أي أدوات وخدمات كشط معروفة، بالإضافة إلى استخدام أجهزة الكشف الآلية الخاصة بنا لمنع الكاشطات، وتلك الخدمات التي تحاول إخفاء أصول منصتها.
تستهدف العديد من الروبوتات البنية التحتية لتكنولوجيا المعلومات لفهم مجموعة التكنولوجيا الكاملة وجميع المكونات المستخدمة.
في كثير من الحالات، يمكن أن تكون هذه بيانات غير ضارة.
أي خادم ويب أو شبكة توزيع المحتوى (CDN) أو منصة التجارة الإلكترونية ليست أسرارًا للدولة بالضبط. إذن ما هو الحق؟
تقوم الخدمات التجارية المشروعة مثل Built-With بتجميع البيانات، مما يسمح لفرق المبيعات والتسويق باستهداف المجالات بدقة بالمواصفات الدقيقة والبناء الذي لديهم حلول له.
ومع ذلك، على الجانب غير الشرعي، يمكنك بسهولة رؤية الفرصة للقراصنة الذين يمكنهم استهداف نقاط الضعف المعروفة في البنية التحتية. يمكنهم إطلاق روبوتات غير قانونية للعثور بسرعة وسهولة على الإصدارات المخترقة والمكدسات التقنية الضعيفة عبر الويب. بالطبع، هذا مجرد سبب آخر للتأكد من أننا نقوم دائمًا بتحديث البرامج، ولدينا عناصر تحكم قوية في الإصدار، لكننا نعلم جميعًا أن هذا ليس هو الواقع دائمًا.
يمكن للروبوتات استخراج معلومات مفصلة للغاية وصولاً إلى إصدارات وإصدارات محددة. غالبًا ما تقوم برامج الزحف العامة هذه باختطاف سلسلة وكيل المستخدم الشائعة الحالية، متظاهرة بأنها بحث شرعي أو زاحف وسائط.
هذا ليس هجومًا جديدًا، ولكن مرة أخرى ظهور إنشاء روبوت Gen AI، يجعل من السهل جدًا على المتسللين والمحتالين اكتشاف فجوة المراجحة في السوق. إعادة بيع التذاكر والسلع ذات العلامات التجارية عالية القيمة التي نادرًا ما يتم شراؤها باستخدام روبوتات مخصصة جنبًا إلى جنب مع حملات وسائل التواصل الاجتماعي لإنشاء تدفقات إيرادات فورية أثناء سعيها للاستفادة من فجوات السوق في سعر إعادة البيع. اطلع على روبوتات تيكيت ماستر تايلور سويفت المقالة هنا. كلاسيكي آخر هو تحكيم السوق على المراهنات الرياضية. على سبيل المثال، سيدعم المشجعون دائمًا منتخبهم الوطني ويراهنون عليه، ويمكن للروبوتات الاستفادة من الاختلافات في الاحتمالات بين الدول. راجع الدليل التفصيلي على روبوتات كشط الأسعار هنا.