أصدر كل من OpenAI وجوجل إرشادات لأصحاب/ صاحبات المواقع الالكترونية الذين/ اللواتي لا يريدون أن تستخدم الشركتان محتوى مواقعهما لتدريب نماذج اللغات الكبيرة للشركة (LLMs). لقد كنا دائما من مؤيدي/ات الحق في استخلاص المواقع الإلكترونية - وهي عملية استخدام الكمبيوتر لتحميل وقراءة صفحات المواقع الالكترونية لتحليلها لاحقًا - كأداة للبحث والصحافة والأرشفة. نعتقد أن هذه الممارسة لا تزال قانونية عند جمع بيانات التدريب للذكاء الاصطناعي التوليدي، ولكن مسألة ما إذا كان يجب أن يكون شيء ما غير قانوني يختلف عما إذا كان يمكن اعتباره وقحًا أو غير لائق أو غير لطيف. مع استمرار تطور المعايير حول أنواع النسخ واستخدامات البيانات المسروقة التي تعتبر مقبولة، فمن المفيد أن يكون لديك أداة لمشغلي المواقع الالكترونية للإشارة تلقائيًا إلى تفضيلهم لبرامج الزحف. إن مطالبة OpenAI وجوجل (وأي شخص آخر يختار احترام التفضيل) بعدم تضمين مقتطفات من موقعك في نماذجهم هي عملية سهلة طالما يمكنك الوصول إلى بنية ملفات موقعك.

لقد تحدثنا من قبل عن كيفية استخدام هذه النماذج للفن في التدريب، والفكرة العامة والعملية هي نفسها بالنسبة للنص. استخدم الباحثون/ات منذ فترة طويلة مجموعات من البيانات المأخوذة من الإنترنت لدراسات الرقابة، والبرامج الضارة، وعلم الاجتماع، واللغة، وغيرها من التطبيقات، بما في ذلك الذكاء الاصطناعي التوليدي. واليوم، يقوم كل من الباحثين/ات الأكاديميين/ات والباحثين/ات الربحيين/ات بجمع بيانات التدريب على الذكاء الاصطناعي باستخدام الروبوتات التي تبحث في جميع أنحاء الانترنت وتقوم "باستخلاص" أو تخزين محتوى كل موقع يصادفونه. قد يتم استخدام البيانات لإنشاء أدوات تعتمد على النص فقط، أو قد يقوم النظام بجمع الصور التي قد تكون مرتبطة بنص معين ويحاول جمع الروابط بين الكلمات والصور أثناء التدريب. والنتيجة النهائية، على الأقل حاليًا، هي روبوتات الدردشة التي رأيناها في شكل جوجل بارد وChatGPT.

من شأنه أن يخفف من أذهان العديد من الشركات الأخرى التي لديها منتجات مماثلة للذكاء الاصطناعي، مثل  Anthropic، وأمازون، وعدد لا يحصى من الشركات الأخرى، للإعلان عن احترامها للطلبات المماثلة.

إذا كنت لا تريد استخدام محتوى موقعك الالكتروني في هذا التدريب، فيمكنك أن تطلب من الروبوتات التي تنشرها جوجل وOpen AI  تخطي موقعك. ضع في اعتبارك أن هذا ينطبق فقط على الاستخلاص المستقبلي. إذا كان لدى جوجل أو OpenAI  بالفعل بيانات من موقعك، فلن يقوموا بإزالتها. كما أنه لا يمنع عددًا لا يحصى من الشركات الأخرى من تدريب نماذج اللغة الكبيرة الخاصة بهم، ولا يؤثر على أي شيء قمت بنشره في مكان آخر، مثل الشبكات الاجتماعية أو المنتديات. كما أنه لن يوقف النماذج التي يتم تدريبها على مجموعات البيانات الكبيرة من المواقع الالكترونية المحذوفة التي لا تنتمي إلى شركة معينة. على سبيل المثال، تم تدريب كل من GPT-3 من OpenAI وLLaMa من Meta باستخدام البيانات التي تم جمعها في الغالب من Common Crawl، وهو أرشيف مفتوح المصدر لأجزاء كبيرة من الإنترنت يتم استخدامه بشكل روتيني لإجراء أبحاث مهمة. يمكنك حظر الزحف المشترك، لكن القيام بذلك يمنع زاحف الويب من استخدام بياناتك في جميع مجموعات البيانات الخاصة به، والتي لا علاقة للعديد منها بالذكاء الاصطناعي.

ليس هناك أي شرط فني بأن يطيع الروبوت طلباتك. حاليًا، جوجل والذكاء الاصطناعي المفتوح فقط هما اللذان أعلنا أن هذه هي طريقة إلغاء الاشتراك، لذلك قد لا تهتم شركات الذكاء الاصطناعي الأخرى بهذا على الإطلاق، أو قد تضيف توجيهاتها الخاصة لإلغاء الاشتراك. ولكنه أيضًا لا يمنع أي أنواع أخرى من الاستخلاص يتم استخدامها للبحث أو لوسائل أخرى، لذلك إذا كنت تؤيد عمومًا الاستخلاص ولكنك غير مرتاح/ة لاستخدام محتوى موقعك الالكتروني في مجموعة تدريب الذكاء الاصطناعي الخاصة بالشركة، فهذه خطوة يمكنك اتخاذها.

 

قبل أن نصل إلى الكيفية، نحتاج إلى شرح ما الذي ستقوم بتعديله بالضبط للقيام بذلك.

ما هو ملف  Robots.txt؟

لكي تطلب من هذه الشركات عدم سرقة موقعك، تحتاج إلى تعديل (أو إنشاء) ملف موجود على موقعك الالكتروني يسمى  "robots.txt". ملف robots.txt عبارة عن مجموعة من التعليمات لبرامج الروبوت وبرامج استخلاص المواقع الالكترونية. حتى هذه اللحظة، كان يتم استخدامه في الغالب لتوفير معلومات مفيدة لمحركات البحث حيث تقوم برامج الروبوت الخاصة بها بمسح الانترنت. إذا أراد مالكو/ات المواقع الالكترونية أن يطلبوا/ن من محرك بحث معين أو برنامج روبوت آخر عدم فحص موقعهم/ن، فيمكنهم/ن إدخال ذلك في ملف robots.txt الخاص بهم/ن. يمكن لبرامج الروبوت دائمًا اختيار تجاهل هذا الأمر، لكن العديد من خدمات الزحف تحترم الطلب.

قد يبدو كل ذلك تقنيًا إلى حد ما، ولكنه في الحقيقة ليس أكثر من ملف نصي صغير موجود في المجلد الأصلي لموقعك، مثل "https://www.example.com/robots.txt".  يمكن لأي شخص رؤية هذا الملف على أي موقع الكتروني. على سبيل المثال، إليك ملف robots.txt الخاص بصحيفة نيويورك تايمز، والذي يحظر حاليًا كلاً من ChatGPT وBard.

إذا كنت تدير/ين موقعك الالكتروني، فيجب أن يكون لديك طريقة ما للوصول إلى بنية الملفات الخاصة بهذا الموقع، إما من خلال بوابة الانترنت الخاصة بموفر الاستضافة أو FTP.  قد تحتاج/ين إلى الاطلاع على وثائق المزود الخاص بك للحصول على مساعدة في معرفة كيفية الوصول إلى هذا المجلد. في معظم الحالات، سيتم بالفعل إنشاء ملف robots.txt على موقعك، حتى لو كان فارغًا، ولكن إذا كنت بحاجة إلى إنشاء ملف، فيمكنك القيام بذلك باستخدام أي محرر نص عادي. جوجل لديها إرشادات للقيام بذلك هنا.

لن تستخدم مؤسسة الجبهة الإلكترونية هذه العلامات لأننا نعتقد أن عملية الاستخراج هي أداة قوية للبحث والوصول إلى المعلومات.

ما يجب تضمينه في ملف Robots.txt الخاص بك لحظر ChatGPT جوجل  Bard

مع كل ذلك، إليك ما يجب تضمينه في ملف robots.txt الخاص بموقعك إذا كنت لا تريد/ين أن يستخدم ChatGPT وجوجل محتويات موقعك لتدريب نماذج الذكاء الاصطناعي التوليدية الخاصة بهم. إذا كنت تريد/ين تغطية موقعك بالكامل، أضف هذه السطور إلى ملف robots.txt الخاص بك:

ChatGPT

User-agent: GPTBot

Disallow: /

Google Bard

User-agent: Google-Extended

Disallow: /

يمكنك أيضًا تضييق نطاق هذا الأمر لمنع الوصول إلى مجلدات معينة فقط على موقعك. على سبيل المثال، ربما لا تمانع في استخدام معظم البيانات الموجودة على موقعك لأغراض التدريب، ولكن لديك مدونة تستخدمها كمجلة. يمكنك إلغاء الاشتراك في مجلدات محددة. على سبيل المثال، إذا كانت المدونة موجودة على yoursite.com/blog، فستستخدم هذا:

ChatGPT

User-agent: GPTBot

Disallow: /blog

Google Bard

User-agent: Google-Extended

Disallow: /blog

كما ذكرنا أعلاه، نحن في مؤسسة الجبهة الإلكترونية لن نستخدم هذه العلامات لأننا نعتقد أن عملية الاستخلاص هي أداة قوية للبحث والوصول إلى المعلومات؛ نريد أن تنتشر المعلومات التي نقدمها على نطاق واسع وأن يتم تمثيلها في المخرجات والإجابات المقدمة من LLMs. بالطبع، يمتلك أصحاب/صاحبات المواقع الالكترونية الفردية وجهات نظر مختلفة لمدوناتهم/ن أو محافظهم الاستثمارية أو أي شيء آخر تستخدم موقعك الالكتروني من أجله. نحن نؤيد توفير وسائل للناس للتعبير عن تفضيلاتهم/ن، وهذا من شأنه أن يريح عقول العديد من الشركات الأخرى التي لديها منتجات ذكاء اصطناعي مماثلة، مثل Anthropic وأمازون وعدد لا يحصى من الشركات الأخرى، التي تعلن أنها ستحترم طلبات مماثلة.