دراسة حالة: ترخيص مجموعة البيانات الطبية

تطوير رعاية الأطفال وأمراض النساء والتوليد من خلال التدريب على تحليل البيانات الدقيقة والتعليق عليها

إطلاق العنان لقوة البيانات الطبية: التنظيم الشامل للبيانات، وإلغاء التعريف، وICD-10 CM، والتعليق التوضيحي لتدريب نموذج الذكاء الاصطناعي المتفوق.

ترخيص مجموعة البيانات الطبية

نظرة عامة على المشروع

تعاونت شايب مع شركة رائدة في مجال الذكاء الاصطناعي في مجال الرعاية الصحية لتنظيم وشرح مجموعات بيانات طبية عالية الجودة، مجهولة الهوية، لتدريب نماذج معالجة اللغة الطبيعية المتقدمة. ركز المشروع على تخصصات طب الأطفال وأمراض النساء والتوليد، حيث قدم سجلات للمرضى الخارجيين مُرفقة برموز ICD-10 CM عبر إطار عمل قوي لواجهة برمجة التطبيقات (API).

تم تصميم مجموعة البيانات لتسهيل تدريب الذكاء الاصطناعي على توثيق الرعاية الصحية في العالم الحقيقي، وتعزيز قدرة النموذج على فهم السرديات السريرية.

ترخيص مجموعة البيانات الطبية

إحصائيات أساسية

750 صفحات / ~ 300 سجلات المرضى الخارجيين

375 صفحات طب الأطفال
375 صفحات طب النساء والتوليد
التصنيف الدولي للأمراض-10 سم 2023 تعليقات الكود الطبي

نطاق المشروع

نوع مجموعة البياناتتخصصالصوتالبيانات الوصفية الملتقطةملاحظة
ملاحظات طبيةطب أطفالصفحات 375
(~150 سجلاً)
اسم الملف، التخصص،
نوع المستند، فئة المريض (المريض الخارجي)
يتضمن أقسام التقييم / الخطة
أوب GYNصفحات 375
(~150 سجلاً)
الشروحالتصنيف الدولي للأمراض-10 (2023)مجموعة البيانات الكاملةتعيين الكود عبر واجهة برمجة التطبيقاتالتحقق من صحة الكود من قبل المبرمجين خارج نطاق

التحديات

لقد طرح المشروع العديد من التحديات الحرجة التي تطلبت التخطيط والتنفيذ الدقيق:

1. جمع البيانات الخاصة بالتخصص

كان الحصول على سجلات عالية الجودة للمرضى الخارجيين حصريًا من تخصصات طب الأطفال وأمراض النساء والتوليد أمرًا صعبًا. كان لا بد من أن تتضمن كل وثيقة أقسامًا سريرية رئيسية، مثل التقييم والخطة، لدعم التعليقات التوضيحية الدقيقة.

2. إلغاء هوية معلومات الصحة الشخصية الشاملة

كان ضمان الإزالة الكاملة لجميع المعلومات الشخصية (PII) مع الحفاظ على السياق الطبي أمرًا بالغ الأهمية للامتثال لقانون HIPAA. وقد تطلب ذلك مراجعات مفصلة لمنع أي انتهاكات للخصوصية.

3. شرح ICD-10 CM المعقد

كان تطبيق رموز ICD-10 CM (2023) الدقيقة عبر واجهة برمجة التطبيقات (API) أمرًا معقدًا نظرًا لاختلاف أساليب السرد والمصطلحات الطبية. كان الاتساق والدقة في الترميز أمرًا بالغ الأهمية لضمان تدريب موثوق لنموذج الذكاء الاصطناعي.

4. دقة البيانات الوصفية وتناسقها

كان من الضروري جمع البيانات الوصفية والتحقق منها، مثل التخصص ونوع المستند وفئة المريض، دون أي تناقضات. فأي تباين قد يؤثر على تدريب النموذج وسهولة استخدام البيانات.

5. تصفية صارمة للمرضى الخارجيين

إن التأكد من أن جميع السجلات كانت مخصصة للمرضى الخارجيين بشكل صارم أضاف تعقيدًا، حيث أن العديد من المستندات السريرية قد تحتوي على فئات مختلطة من المرضى أو أقسام غير كاملة.

6. معايير ضمان الجودة والدقة

تطلب الوصول إلى عتبة الدقة البالغة 90% إجراء مراجعات متعددة المستويات لإزالة التكرارات، والتحقق من صحة محاذاة التخصص، وضمان إزالة التعريف - مع أحكام لإعادة العمل عند الحاجة.

الحلول

ترخيص البيانات الشامل والتعليق التوضيحي

  • سجلات مرخصة لعيادات طب الأطفال وأمراض النساء والتوليد الخارجية
  • ضمان إدراج الأقسام المهمة: الشكوى الرئيسية، والتاريخ، وROS، والتقييم، والخطة
  • شرح ICD-10 CM المستند إلى واجهة برمجة التطبيقات (إصدار 2023)

إزالة الهوية والامتثال

  • تم استبدال PHI بعناصر نائبة (PERSON_NAME، DATE، LOCATION، وما إلى ذلك)
  • ضمان الامتثال لمعايير خصوصية بيانات الرعاية الصحية

وضع علامات على البيانات الوصفية

  • تم التقاط البيانات الوصفية التفصيلية لكل ملف:
    • اسم الملف
    • التخصص (طب الأطفال أو أمراض النساء والتوليد)
    • نوع الوثيقة (متابعة، صحة ورعاية، استشارة)
    • فئة المرضى (العيادات الخارجية فقط)

ضبط الجودة

  • تقييمات الجودة الصارمة مع:

    • لا توجد سجلات مكررة
    • التحقق من صحة المطابقة التخصصية
    • فحص للمرضى الخارجيين فقط
    • التحقق من اتساق البيانات الوصفية
  • استبدال أو تصحيح السجلات التي تقل دقتها عن 90%

نتيجة

قام شايب بتسليم مجموعة بيانات منظمة وموضحة للملاحظات الطبية والتي مكنت العميل من:

  • تدريب نماذج الذكاء الاصطناعي للتنبؤ الدقيق برمز ICD-10 CM
  • تعزيز قدرات البرمجة اللغوية العصبية في سيناريوهات الرعاية الصحية في العالم الحقيقي
  • الحفاظ على الامتثال لمعايير الخصوصية والتنظيمية
  • توسيع نطاق نماذج الذكاء الاصطناعي للرعاية الصحية عبر مجالات طب الأطفال وأمراض النساء والتوليد

لقد تجاوز نهج شايب المنظم في تنظيم مجموعات البيانات وشرحها توقعاتنا. وقد عززت الدقة، وإخفاء الهوية، ودقة البيانات الوصفية بشكل كبير مسار تدريب نموذج الذكاء الاصطناعي لدينا.

الذهبي 5 نجوم