مجموعات بيانات الرعاية الصحية

أفضل مجموعات بيانات الرعاية الصحية مفتوحة المصدر لمشاريع التعلم الآلي

  • ينتج نظام الرعاية الصحية العالمي كميات هائلة من البيانات الطبية يوميًا، والتي يمكن استخدامها في تطبيقات التعلم الآلي. في جميع الصناعات، تعتبر البيانات من الأصول الثمينة التي تمكن الشركات من اكتساب ميزة تنافسية، ولا يختلف قطاع الرعاية الصحية عن ذلك.

ستتناول هذه المقالة بإيجاز العقبات التي تتم مواجهتها عند التعامل مع البيانات الطبية وستقدم ملخصًا لمجموعات بيانات الرعاية الصحية المتاحة للجمهور.

أهمية مجموعات بيانات الرعاية الصحية

أهمية مجموعات بيانات الرعاية الصحية

مجموعات بيانات الرعاية الصحية هي مجموعات من معلومات المرضى، مثل السجلات الطبية والتشخيصات والعلاجات والبيانات الجينية وتفاصيل نمط الحياة. إنها مهمة جدًا في عالم اليوم، حيث يتم استخدام الذكاء الاصطناعي بشكل متزايد. إليكم السبب:

فهم صحة المريض:

توفر مجموعات بيانات الرعاية الصحية للأطباء صورة كاملة عن صحة المريض. على سبيل المثال، يمكن أن تساعد البيانات المتعلقة بالتاريخ الطبي للمريض والأدوية ونمط الحياة في التنبؤ بما إذا كان من المحتمل أن يصاب بمرض مزمن. يتيح ذلك للأطباء التدخل مبكرًا ووضع خطة علاجية لهذا المريض فقط.

مساعدة الأبحاث الطبية:

ومن خلال دراسة مجموعات بيانات الرعاية الصحية، يمكن للباحثين الطبيين النظر في كيفية علاج مرضى السرطان وكيفية تعافيهم. يمكنهم العثور على العلاجات التي تعمل بشكل أفضل في العالم الحقيقي. على سبيل المثال، من خلال النظر في عينات الأورام في البنوك الحيوية وتاريخ علاج المرضى، يمكن للباحثين معرفة كيفية تفاعل طفرات معينة وبروتينات السرطان مع العلاجات المختلفة. يساعد هذا النهج المبني على البيانات في العثور على الاتجاهات التي تؤدي إلى نتائج أفضل للمرضى.

التشخيص والعلاج الأفضل:

يستخدم الأطباء أدوات الذكاء الاصطناعي للنظر في مجموعات بيانات الرعاية الصحية والعثور على أنماط مهمة. وهذا يساعدهم على تشخيص الأمراض وعلاجها بشكل أفضل. في مجال الأشعة، يمكن للذكاء الاصطناعي العثور على المشكلات في عمليات الفحص بشكل أسرع وأكثر دقة من البشر. وهذا يعني أن الأطباء يمكنهم العثور على الأمراض في وقت مبكر وبدء العلاج المناسب في وقت مبكر. يمكن أن تؤدي التعليقات التوضيحية للصور الطبية إلى تشخيص أسرع وأفضل، مما يؤدي إلى تحسين صحة المريض.

مساعدة مبادرات الصحة العامة:

تخيل مدينة صغيرة يستخدم فيها خبراء الرعاية الصحية مجموعات البيانات لتتبع تفشي الأنفلونزا. لقد نظروا إلى الأنماط ووجدوا المناطق المتضررة. وبهذه البيانات، بدأوا حملات التطعيم المستهدفة وحملات التثقيف الصحي. وقد ساعد هذا النهج المبني على البيانات في احتواء الأنفلونزا. ويوضح كيف يمكن لمجموعات بيانات الرعاية الصحية أن توجه وتحسن مبادرات الصحة العامة بشكل فعال.

مجموعات البيانات الطبية مفتوحة المصدر للتعلم الآلي

تعد مجموعات البيانات المفتوحة ضرورية لكي يعمل أي نموذج للتعلم الآلي بشكل جيد. يتم بالفعل استخدام التعلم الآلي في علوم الحياة والرعاية الصحية والطب، وقد أظهر نتائج رائعة. إنه يساعد على التنبؤ بالأمراض وفهم كيفية انتشارها. يقدم التعلم الآلي أيضًا أفكارًا حول كيفية رعاية المرضى وكبار السن والمرضى بشكل صحيح في المجتمع. بدون مجموعات بيانات جيدة، لن تكون نماذج التعلم الآلي هذه ممكنة.

الصحة العامة والعامة:

  • data.gov: يركز على بيانات الرعاية الصحية الموجهة للولايات المتحدة والتي يمكن البحث عنها بسهولة باستخدام معلمات متعددة. تم تصميم مجموعات البيانات لتعزيز رفاهية الأفراد المقيمين في الولايات المتحدة؛ ومع ذلك، يمكن أن تكون المعلومات مفيدة أيضًا لمجموعات التدريب الأخرى في مجال الأبحاث أو مجالات الصحة العامة الإضافية.
  • من الذى: يقدم مجموعات بيانات تتمحور حول أولويات الصحة العالمية. تتضمن المنصة وظيفة بحث سهلة الاستخدام وتوفر رؤى قيمة إلى جانب مجموعات البيانات لفهم شامل للموضوعات المطروحة.
  • Re3Data: يقدم بيانات تغطي أكثر من 2,000 موضوع بحثي مصنفة في عدة مجالات واسعة. على الرغم من أنه لا يمكن الوصول إلى جميع مجموعات البيانات مجانًا، إلا أن المنصة تشير بوضوح إلى البنية وتسمح بالبحث السهل بناءً على عوامل مثل الرسوم ومتطلبات العضوية وقيود حقوق الطبع والنشر.
  • قاعدة بيانات الوفيات البشرية يوفر الوصول إلى البيانات المتعلقة بمعدلات الوفيات وأرقام السكان والإحصاءات الصحية والديموغرافية المختلفة لـ 35 دولة.
  • CHDS: تهدف مجموعات بيانات دراسات صحة الطفل ونموه إلى دراسة انتقال الأمراض والصحة بين الأجيال. وهو يشمل مجموعات بيانات للبحث ليس فقط عن التعبير الجينومي ولكن أيضًا عن تأثير العوامل الاجتماعية والبيئية والثقافية على المرض والصحة.
  • تحدي النشاط الجزيئي لشركة ميرك: يعرض مجموعات البيانات المصممة لتعزيز تطبيق التعلم الآلي في اكتشاف الأدوية من خلال محاكاة التفاعلات المحتملة بين مجموعات الجزيئات المختلفة.
  • مشروع الجينوم 1000: يحتوي على بيانات تسلسل من 2,500 فرد عبر 26 مجموعة سكانية مختلفة، مما يجعله واحدًا من أكبر مستودعات الجينوم التي يمكن الوصول إليها. يمكن الوصول إلى هذا التعاون الدولي من خلال AWS. (لاحظ أن المنح متاحة لمشاريع الجينوم.)

مجموعات بيانات الصور لعلوم الحياة والرعاية الصحية والطب:

  • افتح العصبية: باعتبارها منصة مجانية ومفتوحة، تشارك OpenNeuro مجموعة واسعة من الصور الطبية، بما في ذلك بيانات التصوير بالرنين المغناطيسي، وMEG، وEEG، وiEEG، وECOG، وASL، وPET. مع 563 مجموعة بيانات طبية تغطي 19,187 مشاركًا، فهي بمثابة مورد لا يقدر بثمن للباحثين ومتخصصي الرعاية الصحية.
  • واحة: نشأت مجموعة البيانات هذه من سلسلة دراسات التصوير ذات الوصول المفتوح (OASIS)، وتسعى جاهدة لتوفير بيانات التصوير العصبي للجمهور مجانًا لصالح المجتمع العلمي. وهو يشمل 1,098 موضوعًا عبر 2,168 جلسة تصوير بالرنين المغناطيسي و1,608 جلسة تصوير مقطعي بالإصدار البوزيتروني (PET)، مما يوفر ثروة من المعلومات للباحثين.
  • مبادرة التصوير العصبي لمرض الزهايمر: تعرض مبادرة التصوير العصبي لمرض الزهايمر (ADNI) البيانات التي تم جمعها من قبل الباحثين في جميع أنحاء العالم الذين يكرسون جهودهم لتحديد تطور مرض الزهايمر. تتضمن مجموعة البيانات مجموعة شاملة من صور التصوير بالرنين المغناطيسي والصور المقطعية بالإصدار البوزيتروني، والمعلومات الوراثية، والاختبارات المعرفية، والسائل الدماغي الشوكي والمؤشرات الحيوية للدم، مما يسهل اتباع نهج متعدد الأوجه لفهم هذه الحالة المعقدة.

مجموعات بيانات المستشفى:

  • كتالوج بيانات المزود: الوصول إلى مجموعات بيانات المزود الشاملة وتنزيلها في المجالات بما في ذلك مرافق غسيل الكلى، وممارسات الأطباء، والخدمات الصحية المنزلية، ورعاية المسنين، والمستشفيات، وإعادة تأهيل المرضى الداخليين، ومستشفيات الرعاية الطويلة الأجل، ودور رعاية المسنين مع خدمات إعادة التأهيل، وتكاليف زيارة مكتب الطبيب، وأدلة الموردين.
  • مشروع تكلفة واستخدام الرعاية الصحية (HCUP): تم إنشاء قاعدة البيانات الشاملة على المستوى الوطني هذه لتحديد وتتبع وتحليل الاتجاهات الوطنية في استخدام الرعاية الصحية والوصول إليها ورسومها وجودتها ونتائجها. تحتوي كل مجموعة بيانات طبية ضمن HCUP على معلومات على مستوى اللقاءات حول جميع فترات إقامة المرضى، وزيارات قسم الطوارئ، والعمليات الجراحية المتنقلة في المستشفيات الأمريكية، مما يوفر ثروة من البيانات للباحثين وصانعي السياسات.
  • قاعدة بيانات العناية المركزة MIMIC: تم تطويرها بواسطة معهد ماساتشوستس للتكنولوجيا لأغراض علم وظائف الأعضاء الحسابي، تشتمل مجموعة البيانات الطبية المتاحة بشكل مفتوح على بيانات صحية غير محددة من أكثر من 40,000 مريض رعاية حرجة. تعمل مجموعة بيانات MIMIC كمورد قيم للباحثين الذين يدرسون الرعاية الحرجة ويطورون أساليب حسابية جديدة.

مجموعات بيانات السرطان:

  • الصور الطبية المقطعية: تم تصميم مجموعة البيانات هذه لتسهيل الطرق البديلة لفحص الاتجاهات في بيانات الصور المقطعية، حيث تتميز بإجراء فحوصات مقطعية لمرضى السرطان، مع التركيز على عوامل مثل التباين والطريقة وعمر المريض. يمكن للباحثين الاستفادة من هذه البيانات لتطوير تقنيات تصوير جديدة وتحليل أنماط تشخيص السرطان وعلاجه.
  • التعاون الدولي في مجال الإبلاغ عن السرطان (ICCR): تم تطوير مجموعات البيانات الطبية ضمن ICCR وتوفيرها لتعزيز النهج القائم على الأدلة للإبلاغ عن السرطان في جميع أنحاء العالم. ومن خلال توحيد عملية الإبلاغ عن السرطان، يهدف المركز الدولي المعني بأبحاث السرطان إلى تحسين جودة بيانات السرطان وقابليتها للمقارنة عبر المؤسسات والبلدان.
  • الإصابة بالسرطان SEER: المقدمة من حكومة الولايات المتحدة، يتم تقسيم بيانات السرطان هذه باستخدام الفروق الديموغرافية الأساسية مثل العرق والجنس والعمر. تسمح مجموعة بيانات SEER للباحثين بالتحقيق في معدلات الإصابة بالسرطان ومعدلات البقاء على قيد الحياة عبر مجموعات فرعية سكانية مختلفة، وإبلاغ مبادرات الصحة العامة وأولويات البحث.
  • مجموعة بيانات سرطان الرئة: تحتوي مجموعة البيانات المجانية هذه على معلومات عن حالات سرطان الرئة التي يعود تاريخها إلى عام 1995. ويمكن للباحثين استخدام هذه البيانات لدراسة الاتجاهات طويلة المدى في حالات الإصابة بسرطان الرئة وعلاجه ونتائجه، بالإضافة إلى تطوير أدوات تشخيصية وإنذارية جديدة.

موارد إضافية لبيانات الرعاية الصحية:

  • Kaggle: مستودع مجموعة بيانات متعدد الاستخدامات - يظل Kaggle منصة متميزة لمجموعة واسعة من مجموعات البيانات، ولا يقتصر على قطاع الرعاية الصحية. يُعد Kaggle مثاليًا لأولئك الذين يتفرعون إلى مواضيع مختلفة أو الذين يحتاجون إلى مجموعات بيانات متنوعة للتدريب النموذجي، وهو مصدر يمكن الاعتماد عليه.
  • Subreddit: كنز دفين يحركه المجتمع – يمكن أن تكون مناقشات subreddit المناسبة بمثابة منجم ذهب لمجموعات البيانات المفتوحة. بالنسبة للاستعلامات المتخصصة أو المحددة التي لم تتناولها مجموعات البيانات العامة، قد يمتلك مجتمع Reddit الإجابة.

قم بتسريع مشاريع الذكاء الاصطناعي الخاصة بالرعاية الصحية باستخدام مجموعات البيانات الطبية المميزة والجاهزة للاستخدام من Shaip

مجموعة بيانات محادثات الطبيب والمريض

تحتوي مجموعة البيانات لدينا على ملفات صوتية للمحادثات بين الأطباء والمرضى فيما يتعلق بخططهم الصحية والعلاجية. تغطي الملفات 31 تخصصًا طبيًا مختلفًا.

ما هو مدرج؟

  • 257,977 ساعة من الإملاء الصوتي الحقيقي للطبيب لتدريب نماذج الكلام الخاصة بالرعاية الصحية
  • الصوت من أجهزة مختلفة مثل الهواتف والمسجلات الرقمية وميكروفونات الكلام والهواتف الذكية
  • تمت إزالة الصوت والنصوص التي تحتوي على معلومات شخصية لاتباع قوانين الخصوصية

مجموعة بيانات الصور المقطعية

نحن نقدم مجموعات بيانات صور الأشعة المقطعية من الدرجة الأولى للبحث والتشخيص الطبي. لدينا الآلاف من الصور عالية الجودة لمرضى حقيقيين، والتي تمت معالجتها باستخدام أحدث التقنيات. تساعد مجموعات البيانات لدينا الأطباء والباحثين على فهم المشكلات الصحية المختلفة بشكل أفضل، مثل السرطان واضطرابات الدماغ وأمراض القلب.

تشير البيانات إلى أن عمليات التصوير المقطعي الأكثر شيوعًا هي للصدر (6000) والرأس (4350)، مع إجراء عدد كبير من عمليات الفحص أيضًا للبطن والحوض وأجزاء أخرى من الجسم. ويكشف الجدول أيضًا أن بعض الفحوصات المتخصصة، مثل CT Covid HRCT والقسطرة الرئوية، يتم إجراؤها بشكل أساسي في الهند وآسيا وأوروبا وغيرها.

مجموعة بيانات السجلات الصحية الإلكترونية (EHR).

السجلات الصحية الإلكترونية (EHR) هي نسخ رقمية من التاريخ الطبي للمريض. وهي تشمل معلومات مثل التشخيصات والأدوية وخطط العلاج وتواريخ التحصين والحساسية والصور الطبية (مثل الأشعة المقطعية والرنين المغناطيسي والأشعة السينية) والاختبارات المعملية والمزيد.

ميزات مجموعة بيانات السجلات الصحية الإلكترونية الجاهزة للاستخدام:

  • أكثر من 5.1 مليون سجل وملفات صوتية للأطباء تشمل 31 تخصصًا طبيًا
  • سجلات طبية أصلية مثالية لتدريب البرمجة اللغوية العصبية السريرية ونماذج المستندات الأخرى الخاصة بالذكاء الاصطناعي
  • البيانات الوصفية بما في ذلك MRN مجهول المصدر، وتواريخ القبول والخروج، ومدة الإقامة، والجنس، وفئة المريض، والدافع، والطبقة المالية، والحالة، والتصرف في الخروج، والعمر، وDRG، ووصف DRG، والسداد، وAMLOS، وGMLOS، وخطر الوفاة، وشدة المرض، الهامور، والرمز البريدي للمستشفى
  • السجلات التي تغطي جميع فئات المرضى: المرضى الداخليين، ومرضى العيادات الخارجية (السريرية، وإعادة التأهيل، والمتكررة، والرعاية النهارية الجراحية)، والطوارئ
  • المستندات التي تحتوي على معلومات تعريف شخصية (PII) منقحة، مع الالتزام بإرشادات HIPAA Safe Harbor

مجموعة بيانات صورة التصوير بالرنين المغناطيسي

نحن نقدم مجموعات بيانات متميزة لصور التصوير بالرنين المغناطيسي لدعم البحث والتشخيص الطبي. تتضمن مجموعتنا الواسعة آلاف الصور عالية الدقة لمرضى حقيقيين، والتي تمت معالجتها جميعًا باستخدام أحدث الأساليب. ومن خلال استخدام مجموعات البيانات لدينا، يمكن لمتخصصي الرعاية الصحية والباحثين تعميق فهمهم لمجموعة واسعة من الحالات الطبية، مما يؤدي في النهاية إلى تحسين نتائج المرضى.

مجموعة بيانات صور التصوير بالرنين المغناطيسي لأجزاء مختلفة من الجسم، حيث يوجد أعلى عدد للعمود الفقري والدماغ عند 5000 لكل منهما. يتم توزيع البيانات عبر مناطق الهند وآسيا الوسطى وأوروبا وآسيا الوسطى.

مجموعة بيانات صور الأشعة السينية

أفضل مجموعات بيانات صور الأشعة السينية للبحث والتشخيص الطبي. لدينا الآلاف من الصور عالية الدقة لمرضى حقيقيين، والتي تمت معالجتها باستخدام أحدث التقنيات. مع Shaip، يمكنك الوصول إلى البيانات الطبية الموثوقة لتحسين أبحاثك ونتائج المرضى.

توزيع مجموعة بيانات الأشعة السينية عبر أجزاء مختلفة من الجسم، مع وجود أعلى عدد للصدر يبلغ 1000 في آسيا الوسطى. يبلغ إجمالي عدد الأطراف السفلية والعلوية 850 لكل منهما، موزعة بين مناطق آسيا الوسطى وآسيا الوسطى وأوروبا.

شارك الاجتماعية