شباهت ۷۰ درصدی پاسخ های دیپ سیک به ChatGPT ; احتمال نقض حقوق مالکیت توسط دیپ سیک
یک بررسی جدید نشان میدهد که ۷۴.۲ درصد از متنی که مدل هوش مصنوعی دیپسیک تولید میکند، از نظر سبک نگارش شباهت قابلتوجهی به خروجیهای ChatGPT دارد. این یافتهها میتوانند حاکی از آن باشند که DeepSeek در فرایند آموزش خود از دادههای تولیدی OpenAI استفاده کرده است.
بر اساس گزارش سایت «Forbes»، این تحقیق توسط شرکت Copyleaks، متخصص در شناسایی محتوای مبتنی بر هوش مصنوعی، انجام شده است. به گفته این شرکت، نتایج این مطالعه میتواند پیامدهای مهمی برای حقوق مالکیت فکری، قانونگذاری و توسعه هوش مصنوعی در آینده به همراه داشته باشد.
شباهت سبک نگارش دیپسیک با OpenAI
در این بررسی، Copyleaks از فناوری غربالگری و الگوریتمهای دستهبندی استفاده کرده تا اثر انگشت سبکی (Stylistic Fingerprint) مدلهای زبانی مختلف، ازجمله OpenAI، کلود، جمینای، LLaMA و DeepSeek را شناسایی کند. این دستهبندی با استفاده از روش رأیگیری اجماعی انجام شد تا احتمال خطا کاهش یابد و دقت افزایش یابد.

نتیجه قابل توجه این مطالعه این بود که بسیاری از متنی که مدلهای مختلف تولید کرده بودند، سبک منحصربهفردی داشتند. اما بخش بزرگی از خروجیهای دیپسیک از نظر سبک نگارش، شباهت زیادی با خروجیهای OpenAI نشان دادند.
«شای نیسان»، رئیس بخش علم داده Copyleaks، در گفتوگویی ایمیلی توضیح داد که این تحقیق را میتوان بهنوعی با بررسی دستخطهای افراد مقایسه کرد؛ همانطور که یک کارشناس خطشناسی تلاش میکند نویسنده یک متن دستنویس را با مقایسه آن با دستخطهای دیگران شناسایی کند. نتایج این مطالعه، غیرمنتظره و بسیار مهم است.
احتمال نقض حقوق مالکیت فکری OpenAI
نیسان تأکید کرد که این شباهت، بهتنهایی قطعیترین مدرک برای اثبات استفاده مستقیم دیپسیک از خروجیهای OpenAI نیست، اما باعث ایجاد سؤالات جدی درباره فرایند آموزش و منابع دادهای این مدل میشود.
اگر مشخص شود که DeepSeek بدون مجوز از محتوای تولیدی OpenAI برای آموزش مدل خود استفاده کرده است، پیامدهای حقوقی قابل توجهی در پی خواهد داشت. این نقض حقوق مالکیت فکری میتواند منجر به تخلف از شرایط خدمات OpenAI شود. نبود شفافیت در مورد دادههای آموزشی در صنعت هوش مصنوعی، این چالش را پیچیدهتر میکند و ضرورت چارچوبهای نظارتی مشخص برای افشای منابع آموزشی را برجسته میسازد.
چالشهای اخلاقی و قانونی
هرچند OpenAI نیز به دلیل استفاده از محتوای وب بدون اجازه صریح با انتقاداتی روبهرو بوده، شباهت سبک دیپسیک به ChatGPT ابعاد جدیدی به این بحث میافزاید. در غیاب رویههای حقوقی روشن، پیگیری قانونی چنین مسائلی دشوار است، اما ابزارهایی مانند شناسایی اثر انگشت سبکی میتوانند نشانهای قدرتمند برای شناسایی و بررسی تخلفات احتمالی باشند.
بااینکه برخی کارشناسان احتمال میدهند مدلهای زبانی به دلیل استفاده از دادههای مشابه بهتدریج به سبکهای مشابه برسند، Copyleaks میگوید روش اجماعی آنها بهویژه برای شناسایی تفاوتهای سبکی دقیق طراحی شده است و این شباهت را نمیتوان تنها به دلیل همپوشانی دادهها دانست.
نیسان در پایان تأکید کرده است که با وجود اشتراک احتمالی در دادههای آموزشی، معماری مدلها، روشهای تنظیم دقیق (Fine-tuning) و تکنیکهای تولید محتوا در هر مدل منحصربهفرد است. این تفاوتها باعث میشود اثر انگشت سبکی هر مدل با دیگری متفاوت باشد.
هنوز مشخص نیست که آیا DeepSeek واقعاً از خروجیهای OpenAI بدون مجوز استفاده کرده است یا خیر، اما این پرسشها قطعاً در آینده نزدیک به یکی از موضوعات اصلی بحثهای توسعه و تنظیمگری هوش مصنوعی تبدیل خواهند شد. تا به امروز، DeepSeek به درخواستها برای توضیحات پاسخ نداده است.
منبع : دیجیاتو