شباهت ۷۰ درصدی پاسخ های دیپ سیک به ChatGPT ; احتمال نقض حقوق مالکیت توسط دیپ سیک

110 خواندن این مطلب 2 دقیقه زمان میبرد

یک بررسی جدید نشان می‌دهد که ۷۴.۲ درصد از متنی که مدل هوش مصنوعی دیپ‌سیک تولید می‌کند، از نظر سبک نگارش شباهت قابل‌توجهی به خروجی‌های ChatGPT دارد. این یافته‌ها می‌توانند حاکی از آن باشند که DeepSeek در فرایند آموزش خود از داده‌های تولیدی OpenAI استفاده کرده است.

بر اساس گزارش سایت «Forbes»، این تحقیق توسط شرکت Copyleaks، متخصص در شناسایی محتوای مبتنی بر هوش مصنوعی، انجام شده است. به گفته این شرکت، نتایج این مطالعه می‌تواند پیامدهای مهمی برای حقوق مالکیت فکری، قانون‌گذاری و توسعه هوش مصنوعی در آینده به همراه داشته باشد.

Table of Contents

شباهت سبک نگارش دیپ‌سیک با OpenAI

در این بررسی، Copyleaks از فناوری غربالگری و الگوریتم‌های دسته‌بندی استفاده کرده تا اثر انگشت سبکی (Stylistic Fingerprint) مدل‌های زبانی مختلف، ازجمله OpenAI، کلود، جمینای، LLaMA و DeepSeek را شناسایی کند. این دسته‌بندی با استفاده از روش رأی‌گیری اجماعی انجام شد تا احتمال خطا کاهش یابد و دقت افزایش یابد.

نتیجه قابل توجه این مطالعه این بود که بسیاری از متنی که مدل‌های مختلف تولید کرده بودند، سبک منحصربه‌فردی داشتند. اما بخش بزرگی از خروجی‌های دیپ‌سیک از نظر سبک نگارش، شباهت زیادی با خروجی‌های OpenAI نشان دادند.

«شای نیسان»، رئیس بخش علم داده Copyleaks، در گفت‌وگویی ایمیلی توضیح داد که این تحقیق را می‌توان به‌نوعی با بررسی دست‌خط‌های افراد مقایسه کرد؛ همان‌طور که یک کارشناس خط‌شناسی تلاش می‌کند نویسنده یک متن دست‌نویس را با مقایسه آن با دست‌خط‌های دیگران شناسایی کند. نتایج این مطالعه، غیرمنتظره و بسیار مهم است.

احتمال نقض حقوق مالکیت فکری OpenAI

نیسان تأکید کرد که این شباهت، به‌تنهایی قطعی‌ترین مدرک برای اثبات استفاده مستقیم دیپ‌سیک از خروجی‌های OpenAI نیست، اما باعث ایجاد سؤالات جدی درباره فرایند آموزش و منابع داده‌ای این مدل می‌شود.

اگر مشخص شود که DeepSeek بدون مجوز از محتوای تولیدی OpenAI برای آموزش مدل خود استفاده کرده است، پیامدهای حقوقی قابل توجهی در پی خواهد داشت. این نقض حقوق مالکیت فکری می‌تواند منجر به تخلف از شرایط خدمات OpenAI شود. نبود شفافیت در مورد داده‌های آموزشی در صنعت هوش مصنوعی، این چالش را پیچیده‌تر می‌کند و ضرورت چارچوب‌های نظارتی مشخص برای افشای منابع آموزشی را برجسته می‌سازد.

چالش‌های اخلاقی و قانونی

هرچند OpenAI نیز به دلیل استفاده از محتوای وب بدون اجازه صریح با انتقاداتی روبه‌رو بوده، شباهت سبک دیپ‌سیک به ChatGPT ابعاد جدیدی به این بحث می‌افزاید. در غیاب رویه‌های حقوقی روشن، پیگیری قانونی چنین مسائلی دشوار است، اما ابزارهایی مانند شناسایی اثر انگشت سبکی می‌توانند نشانه‌ای قدرتمند برای شناسایی و بررسی تخلفات احتمالی باشند.

بااینکه برخی کارشناسان احتمال می‌دهند مدل‌های زبانی به دلیل استفاده از داده‌های مشابه به‌تدریج به سبک‌های مشابه برسند، Copyleaks می‌گوید روش اجماعی آنها به‌ویژه برای شناسایی تفاوت‌های سبکی دقیق طراحی شده است و این شباهت را نمی‌توان تنها به دلیل هم‌پوشانی داده‌ها دانست.

نیسان در پایان تأکید کرده است که با وجود اشتراک احتمالی در داده‌های آموزشی، معماری مدل‌ها، روش‌های تنظیم دقیق (Fine-tuning) و تکنیک‌های تولید محتوا در هر مدل منحصربه‌فرد است. این تفاوت‌ها باعث می‌شود اثر انگشت سبکی هر مدل با دیگری متفاوت باشد.

هنوز مشخص نیست که آیا DeepSeek واقعاً از خروجی‌های OpenAI بدون مجوز استفاده کرده است یا خیر، اما این پرسش‌ها قطعاً در آینده نزدیک به یکی از موضوعات اصلی بحث‌های توسعه و تنظیم‌گری هوش مصنوعی تبدیل خواهند شد. تا به امروز، DeepSeek به درخواست‌ها برای توضیحات پاسخ نداده است.

منبع : دیجیاتو

آقای قناعتاسفند ۱۵, ۱۴۰۳

110 خواندن این مطلب 2 دقیقه زمان میبرد