دراسة حالة: ترخيص مجموعة البيانات الطبية
تطوير رعاية الأطفال وأمراض النساء والتوليد من خلال التدريب على تحليل البيانات الدقيقة والتعليق عليها
إطلاق العنان لقوة البيانات الطبية: التنظيم الشامل للبيانات، وإلغاء التعريف، وICD-10 CM، والتعليق التوضيحي لتدريب نموذج الذكاء الاصطناعي المتفوق.
نظرة عامة على المشروع
تعاونت شايب مع شركة رائدة في مجال الذكاء الاصطناعي في مجال الرعاية الصحية لتنظيم وشرح مجموعات بيانات طبية عالية الجودة، مجهولة الهوية، لتدريب نماذج معالجة اللغة الطبيعية المتقدمة. ركز المشروع على تخصصات طب الأطفال وأمراض النساء والتوليد، حيث قدم سجلات للمرضى الخارجيين مُرفقة برموز ICD-10 CM عبر إطار عمل قوي لواجهة برمجة التطبيقات (API).
تم تصميم مجموعة البيانات لتسهيل تدريب الذكاء الاصطناعي على توثيق الرعاية الصحية في العالم الحقيقي، وتعزيز قدرة النموذج على فهم السرديات السريرية.

إحصائيات أساسية
750 صفحات / ~ 300 سجلات المرضى الخارجيين
نطاق المشروع
نوع مجموعة البيانات | تخصص | الصوت | البيانات الوصفية الملتقطة | ملاحظة |
---|---|---|---|---|
ملاحظات طبية | طب أطفال | صفحات 375 (~150 سجلاً) | اسم الملف، التخصص، نوع المستند، فئة المريض (المريض الخارجي) | يتضمن أقسام التقييم / الخطة |
أوب GYN | صفحات 375 (~150 سجلاً) | |||
الشروح | التصنيف الدولي للأمراض-10 (2023) | مجموعة البيانات الكاملة | تعيين الكود عبر واجهة برمجة التطبيقات | التحقق من صحة الكود من قبل المبرمجين خارج نطاق |
التحديات
لقد طرح المشروع العديد من التحديات الحرجة التي تطلبت التخطيط والتنفيذ الدقيق:
كان الحصول على سجلات عالية الجودة للمرضى الخارجيين حصريًا من تخصصات طب الأطفال وأمراض النساء والتوليد أمرًا صعبًا. كان لا بد من أن تتضمن كل وثيقة أقسامًا سريرية رئيسية، مثل التقييم والخطة، لدعم التعليقات التوضيحية الدقيقة.
كان ضمان الإزالة الكاملة لجميع المعلومات الشخصية (PII) مع الحفاظ على السياق الطبي أمرًا بالغ الأهمية للامتثال لقانون HIPAA. وقد تطلب ذلك مراجعات مفصلة لمنع أي انتهاكات للخصوصية.
كان تطبيق رموز ICD-10 CM (2023) الدقيقة عبر واجهة برمجة التطبيقات (API) أمرًا معقدًا نظرًا لاختلاف أساليب السرد والمصطلحات الطبية. كان الاتساق والدقة في الترميز أمرًا بالغ الأهمية لضمان تدريب موثوق لنموذج الذكاء الاصطناعي.
كان من الضروري جمع البيانات الوصفية والتحقق منها، مثل التخصص ونوع المستند وفئة المريض، دون أي تناقضات. فأي تباين قد يؤثر على تدريب النموذج وسهولة استخدام البيانات.
إن التأكد من أن جميع السجلات كانت مخصصة للمرضى الخارجيين بشكل صارم أضاف تعقيدًا، حيث أن العديد من المستندات السريرية قد تحتوي على فئات مختلطة من المرضى أو أقسام غير كاملة.
تطلب الوصول إلى عتبة الدقة البالغة 90% إجراء مراجعات متعددة المستويات لإزالة التكرارات، والتحقق من صحة محاذاة التخصص، وضمان إزالة التعريف - مع أحكام لإعادة العمل عند الحاجة.
الحلول
ترخيص البيانات الشامل والتعليق التوضيحي
- سجلات مرخصة لعيادات طب الأطفال وأمراض النساء والتوليد الخارجية
- ضمان إدراج الأقسام المهمة: الشكوى الرئيسية، والتاريخ، وROS، والتقييم، والخطة
- شرح ICD-10 CM المستند إلى واجهة برمجة التطبيقات (إصدار 2023)
إزالة الهوية والامتثال
- تم استبدال PHI بعناصر نائبة (PERSON_NAME، DATE، LOCATION، وما إلى ذلك)
- ضمان الامتثال لمعايير خصوصية بيانات الرعاية الصحية
وضع علامات على البيانات الوصفية
- تم التقاط البيانات الوصفية التفصيلية لكل ملف:
-
- اسم الملف
- التخصص (طب الأطفال أو أمراض النساء والتوليد)
- نوع الوثيقة (متابعة، صحة ورعاية، استشارة)
- فئة المرضى (العيادات الخارجية فقط)
ضبط الجودة
- تقييمات الجودة الصارمة مع:
- لا توجد سجلات مكررة
- التحقق من صحة المطابقة التخصصية
- فحص للمرضى الخارجيين فقط
- التحقق من اتساق البيانات الوصفية
- استبدال أو تصحيح السجلات التي تقل دقتها عن 90%
نتيجة
قام شايب بتسليم مجموعة بيانات منظمة وموضحة للملاحظات الطبية والتي مكنت العميل من:
- تدريب نماذج الذكاء الاصطناعي للتنبؤ الدقيق برمز ICD-10 CM
- تعزيز قدرات البرمجة اللغوية العصبية في سيناريوهات الرعاية الصحية في العالم الحقيقي
- الحفاظ على الامتثال لمعايير الخصوصية والتنظيمية
- توسيع نطاق نماذج الذكاء الاصطناعي للرعاية الصحية عبر مجالات طب الأطفال وأمراض النساء والتوليد
لقد تجاوز نهج شايب المنظم في تنظيم مجموعات البيانات وشرحها توقعاتنا. وقد عززت الدقة، وإخفاء الهوية، ودقة البيانات الوصفية بشكل كبير مسار تدريب نموذج الذكاء الاصطناعي لدينا.