تحديث أجهزة الكمبيوتر المركزية القديمة باستخدام تكامل بحيرة البيانات

كيفية تحديث الحواسيب المركزية القديمة باستخدام تكامل بحيرة البيانات

لا تزال العديد من الشركات الكبيرة تعتمد على الحواسيب المركزية القديمة لتشغيل أحمال عمل بالغة الأهمية، تعالج كميات هائلة من بيانات المعاملات. وقد جعلت عقود من الاستثمار هذه الأنظمة مستقرة وآمنة ومتجذرة في العمليات التجارية الأساسية. في الوقت نفسه، تواجه المؤسسات ضغوطًا متزايدة لتسخير هذه البيانات للتحليلات الحديثة، ومبادرات الذكاء الاصطناعي، واتخاذ القرارات الفورية.

تُوفر بحيرات البيانات الحديثة نهجًا مرنًا وفعّالًا من حيث التكلفة لتجميع البيانات من مصادر متنوعة. فهي تُتيح الوصول إلى المخططات عند القراءة، وتدعم تخزين الكائنات القابل للتوسع، وتتكامل مع خدمات تحليلات سحابية قوية. إن القدرة على دمج بيانات الحاسوب المركزي في بحيرة بيانات تُتيح قيمة جديدة من خلال كسر حواجز البيانات التقليدية، ودعم نماذج التحليل المتقدمة، وتمكين الوصول الذاتي لعلماء البيانات ومستخدمي الأعمال على حد سواء.

ومع ذلك، فإن دمج بيانات الحاسب المركزي مع بحيرة البيانات الحديثة ليس بالأمر السهل. الأنظمة القديمة عادةً ما تستخدم صيغ تخزين خاصة مثل VSAM أو IMS أو DB2 مع دفاتر نسخ COBOL، وغالبًا ما تُرمَّز البيانات بتنسيق EBCDIC بدلاً من ASCII أو UTF-8. يجب التوفيق بين نماذج المعالجة الموجهة بالدفعات وبنيات البث ومتطلبات التحليلات الفورية. تُضيف اعتبارات الأمان والامتثال وتسلسل البيانات مزيدًا من التعقيد، مما يتطلب تخطيطًا دقيقًا ونماذج حوكمة قوية.

تواجه المؤسسات التي تسعى إلى سد هذه البيئات قرارات تصميمية مهمة تتعلق بأنماط التكامل، وخيارات التكنولوجيا، والمتطلبات التشغيلية. بدءًا من مهام استخراج وتحويل وتحميل البيانات (ETL) بالجملة، وصولًا إلى التقاط بيانات التغيير، والخدمات المصغرة القائمة على واجهات برمجة التطبيقات (API)، تأتي مختلف الأساليب بمقايضات مختلفة في... كمونوالتعقيد والتكلفة. يعتمد اختيار الاستراتيجية المناسبة على عوامل مثل خصائص عبء العمل، واحتياجات حداثة البيانات، والقيود التنظيمية.

تُوائِم جهود التكامل الناجحة أهداف العمل مع البنى التقنية، وتُوظِّف أدوات ومنصات مُصمَّمة خصيصًا للغرض، وتُرسي ممارسات تشغيلية قابلة للتكرار. والنتيجة هي بيئة عمل مُهجنة تُواصل فيها الأنظمة القديمة توفير قدرات معاملاتية بالغة الأهمية، مع المساهمة ببياناتها في منصات تحليلية حديثة وقابلة للتطوير.

جدول المحتويات

فهم الحواسيب المركزية القديمة

لطالما شكّلت الحواسيب المركزية العمود الفقري لحوسبة المؤسسات. وهي تشتهر بموثوقيتها وقابليتها للتوسع وقدرتها على التعامل مع أحمال عمل معاملاتية ضخمة، مما يجعلها أساسية في قطاعات مثل البنوك والتأمين والرعاية الصحية والحكومة.

غالبًا ما تُبنى هذه الأنظمة على منصات متطورة مثل IBM z/OS أو Unisys، وتدعم تطبيقات عالية التحسين طُوّرت على مدى سنوات طويلة. تشمل خصائصها التشغيلية أداءً متوقعًا، وأمانًا قويًا، وقدرات تدقيق شاملة. على الرغم من استقرارها، إلا أنها تعتمد عادةً على أنماط تصميم قديمة يصعب دمجها مع البنى الحديثة.

غالبًا ما تُخزَّن البيانات على الحواسيب المركزية بتنسيقات خاصة أو تقليدية. تشمل آليات التخزين الشائعة مجموعات بيانات VSAM، وقواعد بيانات IMS الهرمية، وجداول DB2 العلائقية. يستخدم العديد من هذه الأنظمة دفاتر نسخ COBOL لتحديد تخطيطات السجلات المعقدة، وغالبًا ما تُرمَّز البيانات بتنسيق EBCDIC بدلًا من معايير ASCII أو UTF-8 المستخدمة في معظم الأنظمة الحديثة.

من الناحية التشغيلية، تُركز الحواسيب المركزية بشكل كبير على المعالجة الدفعية. تستخرج مهام المعالجة الدفعية المجدولة أو التي تتم بين عشية وضحاها البيانات وتحولها وتحملها وفقًا لجداول زمنية محددة. وبينما تدعم بعض الحواسيب المركزية أيضًا معالجة المعاملات عبر الإنترنت (OLTP) والتكاملات القائمة على قوائم انتظار الرسائل، إلا أن نموذج التكامل السائد لا يزال قائمًا على المعالجة الدفعية.

على الرغم من متانة هذه البيئة، إلا أنها تُشكل تحديات كبيرة عند التكامل مع بحيرات البيانات الحديثة التي تُركز على مرونة الوصول إلى المخططات عند القراءة، وتخزين الكائنات الموزع، والتحليلات الفورية. يُعد فهم هياكل بيانات الحاسوب المركزي الأساسية ونماذج التشغيل أمرًا بالغ الأهمية قبل الشروع في أي جهد للتكامل. تتطلب الاستراتيجيات الناجحة معالجة هذه الاختلافات من خلال تخطيط دقيق للبيانات، وتحويلها، وتنسيقها، لضمان قدرة الأنظمة القديمة على مشاركة بياناتها بشكل موثوق وآمن مع منصات التحليلات الحديثة.

هندسة بحيرة البيانات الحديثة

صُممت بحيرات البيانات الحديثة لتجميع مصادر بيانات متنوعة في مستودع واحد قابل للتوسع، قادر على تلبية مجموعة واسعة من حالات الاستخدام التحليلية والتشغيلية. بخلاف مستودعات البيانات التقليدية، التي تفرض متطلبات صارمة للمخطط عند الكتابة، تتبنى بحيرات البيانات مبادئ المخطط عند القراءة. يتيح هذا النهج استيعاب البيانات الخام بصيغتها الأصلية وتفسيرها بمرونة عند الاستعلام، مما يتيح إجراء تجارب سريعة وتلبية الاحتياجات التحليلية المتطورة.

يُعدّ تخزين الكائنات جوهر معظم هياكل مستودعات البيانات، إذ يوفر قابلية توسع غير محدودة تقريبًا وتخزينًا فعالًا من حيث التكلفة للبيانات المهيكلة وشبه المهيكلة وغير المهيكلة. تشمل الخيارات الشائعة Amazon S3، وAzure Data Lake Storage، وGoogle Cloud Storage، والحلول المحلية مثل نظام الملفات الموزعة Hadoop (HDFS). هذه الأنظمة مُحسّنة لضمان متانة عالية وأرشفة منخفضة التكلفة، مما يدعم أنماط استيعاب واسترجاع واسعة النطاق.

تعتمد بحيرات البيانات عادةً تنسيقات بيانات حديثة مثل Parquet وORC وAvro. تُمكّن هذه التنسيقات العمودية من تخزين واسترجاع البيانات بكفاءة، خاصةً لأحمال العمل التحليلية. كما تدعم تقنيات ضغط متقدمة وضغطًا مُحسّنًا للتنبؤات، مما يُحسّن أداء الاستعلامات بشكل كبير ويُقلل تكاليف التخزين.

تُعد إدارة البيانات الوصفية عنصرًا أساسيًا في تصميم بحيرة البيانات. توفر خدمات مثل AWS Glue Data Catalog وAzure Purview، أو حلولًا مفتوحة المصدر مثل Apache Hive Metastore، تعريفات مركزية للمخططات، وتتبعًا لسلالة البيانات، وضوابط حوكمة. تتيح طبقة البيانات الوصفية هذه تنظيم البيانات على نطاق واسع، وتطبيق سياسات الوصول، وتقديم رؤية متسقة للمستخدمين والأدوات التحليلية.

يُعد التكامل مع أطر المعالجة ميزةً مميزةً أخرى. تُشكّل بحيرات البيانات أساسًا لمحركات الحوسبة الموزعة مثل Apache Spark وAWS Athena وAzure Synapse وGoogle BigQuery. تُمكّن هذه الأدوات علماء البيانات والمحللين من إجراء استعلامات معقدة، وبناء نماذج تعلّم آلي، وتطوير لوحات معلومات آنية مباشرةً على بحيرة البيانات.

مع سعي الشركات لتحديث هياكل بياناتها، برزت بحيرات البيانات كأداة استراتيجية لكسر الحواجز، وتوسيع نطاق الوصول، وإطلاق العنان للقدرات التحليلية المتقدمة. إلا أن تحقيق هذه الرؤية يعتمد على القدرة على دمج الأنظمة القديمة، بما في ذلك الحواسيب المركزية، بما يحافظ على جودة البيانات وتسلسلها وأمانها، مع إتاحة البيانات لأدوات المعالجة والتحليل الحديثة.

تحديات الاندماج

يُعد دمج أنظمة الحواسيب المركزية القديمة مع بحيرات البيانات الحديثة مهمةً معقدةً تتطلب تحليلًا دقيقًا للتحديات التقنية والتنظيمية. تنبع هذه التحديات من اختلافات جوهرية في صيغ البيانات، وأنماط المعالجة، ونماذج الأمان، والتوقعات التشغيلية.

تتمثل إحدى العقبات التقنية الرئيسية في عدم توافق صيغ البيانات. غالبًا ما تُخزّن الحواسيب المركزية البيانات بتنسيقات خاصة، مثل ملفات VSAM، وقواعد بيانات IMS الهرمية، أو جداول DB2 مع تعريفات دفتر COBOL. لا تتوافق تخطيطات السجلات هذه مع تنسيقات مستودعات البيانات الحديثة، مثل Parquet أو ORC. بالإضافة إلى ذلك، عادةً ما تُرمّز بيانات الحواسيب المركزية بتنسيق EBCDIC، والذي يجب تحويله إلى ASCII أو UTF-8 لضمان التوافق مع الأدوات والمنصات الحديثة.

تُشكّل نماذج التكامل بين الدفعات والبث المباشر تحديًا كبيرًا آخر. تعتمد الحواسيب المركزية تقليديًا على مهام الدفعات المجدولة، والتي غالبًا ما تعمل ليلًا، لمعالجة البيانات وتصديرها. على الرغم من فعالية دورات الدفعات في العديد من أحمال العمل التشغيلية، إلا أنها قد تُسبب زمن وصول غير مقبول لتطبيقات التحليلات الفورية أو التعلم الآلي الحديثة. يتطلب سد هذه الفجوة إعادة النظر في أنماط التكامل لدعم التقاط بيانات التغيير (CDC) أو هياكل البث المباشر القائمة على الأحداث.

تُضيف اعتبارات الأمن والامتثال مزيدًا من التعقيد. تُعدّ الحواسيب المركزية أنظمة موثوقة لحفظ السجلات، وغالبًا ما تحتوي على بيانات حساسة تخضع لضوابط تنظيمية صارمة مثل اللائحة العامة لحماية البيانات (GDPR) وقانون التأمين الصحي والمساءلة (HIPAA) وقانون ساربانس أوكسلي (SOX). يجب أن تضمن جهود التكامل تشفير البيانات أثناء نقلها وتخزينها، وأن يكون الوصول إليها مُحكمًا بشكل صحيح من خلال سياسات إدارة الهوية والوصول (IAM)، وأن تُحفظ سجلات التدقيق والسجلات لضمان الامتثال. أي خرق أو خطأ في التكوين قد يُعرّض المؤسسات لمخاطر قانونية وسمعية جسيمة.

تُعقّد متطلبات جودة البيانات وتسلسلها مشاريع التكامل. يمكن أن تكون هياكل بيانات الحاسوب المركزي شديدة التعقيد، مع تخطيطات سجلات كثيفة ومتداخلة، ومنطق أعمال مُضمّن يجب فك تشفيره وتحويله بعناية. يُعدّ ضمان صحة تعيينات البيانات، وإمكانية التحقق من التحويلات، وإمكانية تتبع التسلسل أمرًا بالغ الأهمية للحفاظ على الثقة في المنصة المتكاملة.

لا ينبغي الاستهانة بالتحديات التشغيلية. يجب تنظيم مهام التكامل بشكل موثوق، ومراقبتها بفعالية، وتصميمها لمعالجة الأخطاء بسلاسة. غالبًا ما تختلف فرق الحواسيب المركزية وفرق هندسة البيانات في مهاراتها وتفضيلاتها للأدوات، مما يُنشئ صوامع تنظيمية قد تُعيق التعاون. يُعدّ توحيد هذه الفرق حول أهداف وعمليات ومنصات مشتركة أمرًا بالغ الأهمية للنجاح.

ويتطلب التصدي لهذه التحديات اتباع نهج استراتيجي يجمع بين التقييم الدقيق للأنظمة القائمة، واختيار أنماط وأدوات التكامل المناسبة، والاستثمار في الممارسات التشغيلية التي تضمن الأمن والموثوقية وإمكانية الصيانة بمرور الوقت.

أنماط واستراتيجيات التكامل

نادرًا ما يقتصر دمج الحواسيب المركزية القديمة مع بحيرات البيانات الحديثة على مجرد نقل البيانات من مكان إلى آخر، بل يتطلب اختيارات معمارية مدروسة تراعي الاختلافات في هياكل البيانات، ونماذج المعالجة، وتوقعات زمن الوصول، ومتطلبات الأمان.

صُممت الحواسيب المركزية لضمان الموثوقية والاستقرار ومعالجة كميات كبيرة من البيانات دفعةً واحدة، بينما تُعطي بحيرات البيانات الحديثة الأولوية للتخزين المرن للمخططات عند القراءة، والحوسبة القابلة للتطوير، والتحليلات الفورية. ويتطلب ربط هذه البيئات اختيار أنماط تكامل تُراعي الواقع التشغيلي للحواسيب المركزية، مع تمكين الاستهلاك الحديث للبيانات في السحابة.

تتراوح هذه الأنماط من تفريغ الدفعات التقليدي إلى البث المباشر المتقدم والخدمات المصغرة القائمة على واجهات برمجة التطبيقات. يُعالج كل نهج متطلبات عمل وقيودًا تقنية محددة. قد تحتاج المؤسسة المالية إلى تقارير دفعات يومية لضمان الامتثال، مع تمكين الكشف عن الاحتيال في الوقت الفعلي تقريبًا من خلال مراكز مكافحة الاحتيال وخطوط أنابيب البث المباشر. يمكن لشركة تأمين استخدام واجهات برمجة التطبيقات لتوفير عمليات بحث ذاتية الخدمة عن وثائق التأمين دون تكرار البيانات الحساسة على نطاق واسع.

لذلك، نادرًا ما يكون التكامل نمطًا واحدًا، بل مزيجًا من مناهج مصممة خصيصًا لتلبية متطلبات حداثة البيانات، وخصائص عبء العمل، واعتبارات التكلفة. يُعد تصميم استراتيجية التكامل هذه أمرًا أساسيًا للاستفادة من بيانات الحاسوب المركزي في التحليلات والذكاء الاصطناعي والابتكار في مجال الأعمال.

فيما يلي، نقوم بفحص أربعة أنماط تكامل شائعة بالتفصيل، إلى جانب عينات التعليمات البرمجية العملية لتوضيح كيفية تنفيذ هذه الحلول في بيئات العالم الحقيقي.

تفريغ الدفعات

يُعدّ تفريغ البيانات على دفعات أسلوب التكامل الأكثر شيوعًا، إذ يعتمد على مهام دفعية مناسبة للحواسيب المركزية لاستخراج كميات كبيرة من البيانات على فترات زمنية محددة. غالبًا ما تمتلك المؤسسات بالفعل عمليات FTP أو عمليات قائمة على الملفات جاهزة لتصدير البيانات.

بالنسبة لبحيرات البيانات، تتضمن عملية الدفعات ليس فقط نقل البيانات ولكن أيضًا تحويل الترميزات القديمة (مثل EBCDIC) والتنسيقات (دفاتر نسخ COBOL) إلى تنسيقات مخطط القراءة الحديثة مثل Parquet أو Avro.

مثال على مقتطف من دفتر COBOL
تعرف هذه القطعة على هيكل سجل العميل على الحاسب المركزي.

01 CUSTOMER-RECORD.
05 CUST-ID PIC 9(5).
05 CUST-NAME PIC X(30).
05 CUST-BALANCE PIC 9(7)V99.

يتم تحليل مثل هذه النسخ وتعيينها إلى المخططات الحديثة في خطوط أنابيب ETL.

التعيين إلى مخطط Parquet (مثال JSON)
تتم ترجمة بنية دفتر النسخ إلى مخطط JSON مناسب للكتابة إلى Parquet في بحيرة البيانات.

{
"fields": [
{"name": "cust_id", "type": "int"},
{"name": "cust_name", "type": "string"},
{"name": "cust_balance", "type": "decimal(9,2)"}
]
}

تقوم أدوات ETL أو الكود المخصص بقراءة الملفات المسطحة المصدرة، وتحليل تخطيط دفتر النسخ، وتحويل السجلات إلى Parquet للتخزين والتحليلات الفعالة.

مثال على مهمة Airflow DAG
يُستخدم Airflow عادةً لتنظيم مهام تكامل الدفعات. إليك مهمة بسيطة لاسترجاع بيانات الحاسوب المركزي المُصدَّرة عبر FTP:

extract_task = BashOperator(
task_id='extract_mainframe_batch',
bash_command='ftp get mainframe_server VSAM_EXPORT.DAT /tmp/VSAM_EXPORT.DAT',
dag=dag
)

في الممارسة العملية، قد تتضمن DAG مهام إضافية لتحويل التنسيق، والتحقق من صحة المخطط، والتحميل في التخزين السحابي.

يُعدّ تفريغ البيانات دفعةً واحدةً سهل الاستخدام نسبيًا نظرًا لملاءمته لعمليات الحاسوب المركزي الحالية. ومع ذلك، فإنه يُسبب تأخيرًا في وصول البيانات يتراوح بين ساعات ويوم كامل، مما يجعله أقل ملاءمةً للتحليلات ذات الأهمية الزمنية.

تغيير التقاط البيانات (CDC)

يُقلل مركز بيانات التفويض (CDC) من زمن الوصول بتكرار التغييرات المُجراة على بيانات الحاسوب الرئيسي فقط. فبدلاً من نقل الجداول بأكملها مرارًا وتكرارًا، تُراقب حلول مركز بيانات التفويض (CDC) السجلات أو الدوريات بحثًا عن عمليات الإدخال والتحديث والحذف، ثم تُبث هذه التغييرات إلى بحيرة البيانات.

يُقلّل هذا النهج من حركة البيانات ويُمكّن من إجراء تحليلات شبه آنية. وهو ذو قيمة خاصة لإعداد التقارير التشغيلية، وخطوط أنابيب التعلم الآلي، أو الحفاظ على مستودعات بيانات متزامنة.

عينة SQL لتمكين CDC على DB2 (مفاهيمي):

ALTER TABLE CUSTOMER
ENABLE CHANGE DATA CAPTURE;

يوضح هذا الأمر تكوين مستوى قاعدة البيانات لتنشيط CDC، مما يسمح للأدوات بالقراءة من سجلات المعاملات.

مثال على تكوين موصل Kafka Connect CDC:
تتكامل العديد من حلول CDC مع وسطاء الرسائل مثل Kafka لبث التغييرات باستمرار. إليك مثال على التكوين:

{
"name": "mainframe-cdc-connector",
"config": {
"connector.class": "com.ibm.mainframe.cdc.Connector",
"tasks.max": "1",
"topics": "mainframe-changes",
"mainframe.hostname": "mainframe.example.com",
"mainframe.port": "5000",
"mainframe.user": "cdc_user",
"mainframe.password": "****",
"poll.interval.ms": "1000"
}
}

يقوم هذا الإعداد ببث تغييرات الإطار الرئيسي إلى موضوع Kafka، مما يجعلها متاحة للمستهلكين النهائيين مثل Spark Structured Streaming أو Kafka Connect Sinks الذين يكتبون إلى S3.

يُقلل CDC بشكل ملحوظ من زمن الوصول، ولكنه يُدخل تعقيدات في ضمان الاتساق والترتيب واستعادة الأخطاء. كما يتطلب مراقبة دقيقة للتعامل مع مشكلات مثل اقتطاع السجلات أو انحراف المخطط.

تكامل البيانات المتدفقة

يتوسع تكامل البث في مركز البيانات المركزي (CDC) من خلال معالجة أحداث التغيير آنيًا. ويُمكّن هذا من إنشاء هياكل تتدفق فيها تحديثات الحاسوب المركزي باستمرار إلى أنظمة التحليلات السحابية، مما يدعم حالات استخدام مثل كشف الاحتيال، والتخصيص، ولوحات المعلومات التشغيلية.

يمكن استيعاب البيانات في طوابير الرسائل أو منصات البث مثل Kafka أو IBM MQ. ومن هناك، يمكن لأطر المعالجة مثل Apache NiFi أو Spark Streaming أو Flink تحويل البيانات وتحميلها إلى بحيرة البيانات.

مثال على تدفق NiFi (pseudo-JSON):
مثال مبسط لاستخدام NiFi لمراقبة الصادرات الجديدة للإطار الرئيسي ونشرها على Kafka:

{
"processor": "GetFile",
"properties": {
"Input Directory": "/mainframe/exports",
"Polling Interval": "5 secs"
},
"next": {
"processor": "PublishKafka",
"properties": {
"Topic Name": "mainframe-stream"
}
}
}

يقوم هذا التدفق تلقائيًا بالتقاط الملفات الجديدة التي تم إنشاؤها بواسطة الحاسوب الرئيسي وإرسالها كأحداث إلى Kafka، حيث يمكن معالجتها في الوقت الفعلي.

تكامل البث قوي، ولكنه يتطلب جهدًا تشغيليًا كبيرًا. فهو يتطلب الاستثمار في مراقبة البيانات وتوسيع نطاقها ومعالجتها في حال تأخرها أو عدم انتظامها لضمان دقتها.

كشف واجهات برمجة التطبيقات والخدمات المصغرة

يُعدّ عرض بيانات الحاسوب المركزي ومنطق العمل عبر واجهات برمجة التطبيقات (APIs) بديلاً عن نقل البيانات بكميات كبيرة. يتيح هذا النمط الوصول الفوري عند الطلب دون الحاجة إلى تكرار مجموعات البيانات بأكملها، مما يُقلل من مشكلات حوكمة البيانات.

يمكن إنشاء واجهات برمجة التطبيقات باستخدام أدوات مثل IBM z/OS Connect، والتي تعمل على تحديث الوصول إلى معاملات CICS أو استعلامات DB2 من خلال واجهات REST أو SOAP.

مثال على واصف واجهة برمجة التطبيقات z/OS Connect (YAML):
يقوم هذا الوصف بتعريف نقطة نهاية REST لاسترداد بيانات العملاء من الحاسوب الرئيسي.

swagger: "2.0"
info:
title: Customer API
version: "1.0"
paths:
/customer/{id}:
get:
summary: Retrieve customer data
parameters:
- name: id
in: path
required: true
type: string
responses:
200:
description: Successful response

مثال على استدعاء cURL:

curl -X GET "https://api.example.com/customer/12345" 
-H "Authorization: Bearer TOKEN"

تقوم هذه المكالمة بجلب بيانات عميل محدد مباشرة من الحاسوب الرئيسي.

تُعدّ واجهات برمجة التطبيقات (APIs) مناسبةً بشكلٍ خاص لحالات الاستخدام التفاعلية والتكاملات الخارجية. فهي تُمكّن التطبيقات الحديثة من التفاعل مع أنظمة الحاسوب المركزي دون الحاجة إلى تكرار البيانات بشكلٍ كامل. ومع ذلك، يجب تصميمها بعناية لضمان الأداء والأمان وسهولة الصيانة.

اختيار النمط الصحيح

غالبًا ما تجمع استراتيجيات التكامل الفعّالة بين هذه الأنماط. قد يُلبي تفريغ البيانات دفعةً واحدة احتياجات التقارير التنظيمية، ويمكن لقنوات التوزيع المركزية (CDC) وقنوات البث أن تُغذّي نماذج تحليلية شبه آنية، ويمكن لواجهات برمجة التطبيقات (APIs) أن تُشغّل التطبيقات التي تُواجه العملاء.

يعتمد اختيار المزيج المناسب على أولويات العمل، ومتطلبات حداثة البيانات، وإمكانيات النظام الحالية، وقيود الميزانية. يُوفق التكامل الناجح بين خيارات التكنولوجيا والأهداف الاستراتيجية، مع ضمان استمرار أنظمة الحواسيب المركزية في تقديم قيمة مضافة باعتبارها مكونات أساسية في بيئة بيانات المؤسسة.

خيارات التكنولوجيا للتكامل

يتطلب دمج الحواسيب المركزية القديمة مع بحيرات البيانات الحديثة أكثر من مجرد التخطيط المعماري، بل يتطلب أيضًا اختيار مجموعة التقنيات المناسبة التي يمكنها التعامل مع تعقيد استخراج البيانات وتحويلها ونقلها وتحميلها على نطاق واسع.

منظومة التكامل واسعة النطاق، تتراوح من حزم ETL التجارية المزودة بموصلات للحواسيب المركزية، إلى الخدمات السحابية الأصلية، وأطر العمل مفتوحة المصدر، وحلول البائعين المتخصصين. يوفر كل منها مستويات مختلفة من التجريد والأتمتة والتحكم، مما يسمح للمؤسسات بمواءمة الأدوات مع احتياجاتها وقيودها المحددة.

أدوات ETL والتكامل التجارية

توفر العديد من منصات استخراج وتحويل وتحميل البيانات (ETL) المخصصة للمؤسسات إمكانيات تكامل قوية مع الحواسيب المركزية. صُممت هذه الأدوات للتعامل مع هياكل البيانات القديمة، وترميز EBCDIC، ودفاتر نسخ COBOL، وجدولة المهام الدفعية المعقدة.

ومن الأمثلة على ذلك:

  • IBM DataStage وInfoSphere Information Server: دعم عميق لمصادر الحاسب الآلي المركزي مثل VSAM وDB2، مع إدارة متقدمة للبيانات الوصفية.
  • Informatica PowerCenter: يوفر اتصالاً بالإطار الرئيسي وميزات جودة البيانات وتنسيق سير العمل.
  • Talend: يتضمن موصلات الحاسب الآلي الرئيسي ومكونات التحويل ضمن مجموعة التكامل الموحدة الخاصة به.

تُبسّط هذه الأدوات عملية التطوير من خلال المصممين المرئيين، والمكونات القابلة لإعادة الاستخدام، والمراقبة على مستوى المؤسسات. وهي غالبًا ما تُعدّ الخيار الأمثل للمؤسسات الكبيرة التي لديها استثمارات قائمة في حلول استخراج وتحويل وتحميل البيانات (ETL) التجارية.

الخدمات السحابية الأصلية

يقدم مزودو الخدمات السحابية الرئيسيون خدمات التكامل المُدارة التي يمكنها استخراج بيانات الحاسوب المركزي ونقلها إلى منصات التخزين الخاصة بهم مع الحد الأدنى من إدارة البنية التحتية.

ومن الأمثلة على ذلك:

  • نسخ بيانات تحديث الإطار الرئيسي لـ AWS: يدعم نسخ بيانات DB2 أو VSAM المستندة إلى CDC إلى S3 أو خدمات AWS الأخرى.
  • Azure Data Factory: يوفر موصلات جاهزة مسبقًا لقواعد بيانات الحاسب المركزي ويمكنه تنظيم الاستيعاب الدفعي أو المتدفق في Azure Data Lake Storage.
  • Google Cloud Dataflow: يمكن التكامل مع قوائم الرسائل أو تدفقات CDC المخصصة لتحويل بيانات الحاسوب الرئيسي وتحميلها إلى BigQuery أو Cloud Storage.

تُخفّض هذه الخدمات التكاليف التشغيلية وتتكامل تلقائيًا مع خدمات التحليلات السحابية الأساسية. وهي مُناسبة تمامًا لاستراتيجيات السحابة الهجينة، حيث تبقى أنظمة الحاسوب المركزي محليةً بينما تنتقل أعباء العمل التحليلية إلى السحابة.

حلول مفتوحة المصدر

بالنسبة للمؤسسات التي تسعى إلى المرونة أو التحكم في التكاليف، يمكن أن تكون الأدوات مفتوحة المصدر مكونات قيمة لخط أنابيب التكامل.

ومن الأمثلة على ذلك:

  • Apache NiFi: يوفر تصميم تدفق البيانات المرئي والسحب والإفلات مع دعم استيعاب الملفات وتحويل السجلات والنشر إلى Kafka أو تخزين الكائنات.
  • Apache Kafka وKafka Connect: شائعان لأنماط التكرار والتكامل المتدفق القائمة على CDC. يمكن لموصلات CDC المركزية (التجارية أو المخصصة) نشر أحداث التغيير على مواضيع Kafka.
  • Apache Spark: يستخدم لتحويل البيانات المستخرجة من الحاسوب الرئيسي على نطاق واسع، بما في ذلك تحليل دفاتر النسخ والكتابة إلى تنسيقات Parquet أو ORC.

على الرغم من أن المصدر المفتوح يوفر الحرية ومزايا التكلفة، فإنه غالبًا ما يتطلب استثمارًا هندسيًا أكبر في التكوين والمراقبة والصيانة.

موصلات ومحولات خاصة بالبائع

يتخصص بعض البائعين في تكامل الحاسبات المركزية، حيث يقدمون أدوات مصممة خصيصًا لربط أنظمة الحاسبات المركزية وبحيرات البيانات الحديثة مع الحد الأدنى من التطوير المخصص.

ومن الأمثلة على ذلك:

  • Precisely Connect (المعروف سابقًا باسم Syncsort): يوفر نقلًا محسنًا للبيانات من الحواسيب المركزية إلى التخزين السحابي مع دعم أصلي لنسخ COBOL وتحويل EBCDIC وCDC.
  • IBM z/OS Connect: يعرض تطبيقات الحاسب الآلي المركزي كواجهات برمجة تطبيقات REST، مما يتيح التكامل القائم على واجهة برمجة التطبيقات دون الحاجة إلى تكرار البيانات على نطاق واسع.
  • GT Software Ivory Service Architect: أدوات تمكين API مماثلة لمعاملات CICS وIMS.

غالبًا ما تعالج هذه الحلول متطلبات متخصصة، مثل الاستخراج عالي الأداء من VSAM أو IMS، أو واجهات برمجة التطبيقات المعاملاتية في الوقت الفعلي، أو تتبع سلسلة البيانات التي تركز على الامتثال.

حلول مخصصة

في بعض الحالات، تُنشئ المؤسسات خطوط تكامل مُخصصة لتلبية متطلبات فريدة. قد تشمل الحلول المُخصصة مُحللات دفاتر كوبول، ومُحوّلات ترميز، ونصوص جدولة مُخصصة.

على سبيل المثال:

  • نصوص ETL المستندة إلى Python باستخدام Pandas وPySpark لقراءة الملفات المسطحة المصدرة، وتحليل دفاتر النسخ، وتحويل EBCDIC إلى UTF-8، وكتابة Parquet إلى S3.
  • معالجات NiFi مخصصة تقوم بتحليل التنسيقات الخاصة بالإطار الرئيسي في الوقت الفعلي.

توفر خطوط الأنابيب المخصصة أقصى قدر من المرونة، لكنها قد تزيد من تكاليف التطوير والصيانة. وغالبًا ما تُبرر هذه الحلول عندما لا تدعم الحلول الجاهزة قواعد عمل أو هياكل بيانات فريدة.

مطابقة التكنولوجيا للاستراتيجية

يعتمد اختيار مزيج التكنولوجيا المناسب على أنماط التكامل المختارة ومتطلبات حداثة البيانات والمهارات المتاحة والميزانية.

  • قد يعتمد تفريغ الدفعات على أدوات ETL الموجودة أو التنسيق السحابي الأصلي.
  • تستفيد CDC وتكامل البث من Kafka وخدمات التكرار المُدارة وأنابيب NiFi.
  • يعتمد التكامل القائم على واجهة برمجة التطبيقات على أدوات التمكين الخاصة بالإطار الرئيسي مثل z/OS Connect.

تتوافق استراتيجيات التكامل الناجحة مع هذه الأدوات لأهداف العمل، مما يضمن أن يكون خط أنابيب البيانات قويًا وقابلًا للصيانة وفعالًا من حيث التكلفة مع تلبية المتطلبات التنظيمية والأمنية.

Smart TS XL كحل تكاملي

غالبًا ما يتطلب دمج الحواسيب المركزية مع بحيرات البيانات الحديثة أدوات متخصصة قادرة على التعامل مع تعقيدات هياكل البيانات القديمة، وأنظمة التشفير، وسير العمل التشغيلي، مع ربطها ببيئات التخزين والمعالجة السحابية. يُعد Smart TS XL أحد هذه الحلول، وهو مصمم خصيصًا لمواجهة هذه التحديات، مع التركيز على استخراج البيانات من الحواسيب المركزية، وتحويلها، وتحميلها على نطاق واسع.

تم تصميم Smart TS XL خصيصًا للمؤسسات التي تحتاج إلى تفريغ كميات كبيرة من بيانات الحاسب المركزي المنظمة في دفاتر نسخ COBOL أو مجموعات بيانات VSAM أو جداول DB2 أو تنسيقات قديمة أخرى وتسليمها في أشكال حديثة جاهزة للتحليلات مثل Parquet أو Avro في أنظمة تخزين الكائنات مثل Amazon S3 أو Azure Data Lake Storage أو Google Cloud Storage.

نظرة عامة على Smart TS XL

في جوهره، يُعد Smart TS XL حلاً آليًا لدمج البيانات من الحاسوب المركزي إلى السحابة، ويفهم الخصائص الفريدة لبيانات الحاسوب المركزي. يدعم تحليل وتنسيق دفاتر COBOL، ومعالجة تحويلات EBCDIC إلى UTF-8، وإدارة تخطيطات السجلات المتداخلة المعقدة.

غالبًا ما يتم استخدام Smart TS XL لتبسيط سير عمل تفريغ الدفعات مع تمكين المؤسسات من تحديث هياكل البيانات الخاصة بها بشكل تدريجي، دون تعطيل أحمال عمل الإطار الرئيسي الأساسية.

القدرات الرئيسية لتكامل الحاسب المركزي

  • تحليل دفتر نسخ COBOL:يفسر تلقائيًا تخطيطات دفتر COBOL ويولد تكوينات تعيين لتحويل الملفات المسطحة إلى تنسيقات حديثة منظمة.
  • تحويل EBCDIC:يتولى ترجمة مجموعة الأحرف من EBCDIC إلى ASCII أو UTF-8، مما يضمن التوافق مع أدوات التحليلات السحابية الأصلية.
  • تخطيط المخطط:يدعم تحويلات أنواع البيانات الغنية وتعريفات المخططات المتداخلة لتتوافق مع متطلبات Parquet أو ORC أو Avro.
  • أتمتة العمل:يقوم بتنظيم استخراج البيانات المجدولة من الحواسيب المركزية، مع خيارات للتكامل مع برامج الجدولة الخاصة بالمؤسسة أو أدوات التنسيق السحابية الأصلية مثل Apache Airflow.
  • عالية الأداء:تم تحسينه للتعامل مع مجموعات البيانات الضخمة جدًا النموذجية لأحمال عمل الحاسب الآلي المركزي، مع ميزات المعالجة المتوازية وعمليات الإدخال/الإخراج الفعالة.

ميزات تعيين البيانات وتحويلها

من أبرز ميزات Smart TS XL واجهة التعيين المرئية أو المُدارة بالتكوين لتحديد كيفية ربط بيانات الحاسوب المركزي بالمخططات الحديثة. هذا يُغني عن الكثير من الترميز اليدوي المُعرّض للأخطاء، والمطلوب عادةً لتحليل دفاتر COBOL وتطبيق التحويلات المُعقدة.

مثال على تكوين رسم الخرائط (مفاهيمي):

{
"source": {
"format": "COBOL_COPYBOOK",
"encoding": "EBCDIC"
},
"target": {
"format": "PARQUET",
"encoding": "UTF-8",
"schema": [
{"name": "cust_id", "type": "int"},
{"name": "cust_name", "type": "string"},
{"name": "cust_balance", "type": "decimal(9,2)"}
]
}
}

تضمن هذه الخريطة تحويل ملفات الحاسب المركزي المسطحة المصدرة تلقائيًا إلى تنسيقات عمودية صديقة للتحليلات في بحيرة البيانات.

التكامل مع بحيرات البيانات الحديثة

صُمم Smart TS XL للعمل بشكل أصلي مع مخازن الكائنات السحابية الرئيسية. بمجرد استخراج البيانات وتحويلها، يُمكن كتابتها مباشرةً إلى:

  • Amazon S3، بتنسيقات Parquet أو Avro
  • تخزين بحيرة بيانات Azure Gen2
  • جوجل سحابة التخزين
  • مجموعات HDFS المحلية

يؤدي هذا التكامل المباشر إلى التخلص من الخطوات اليدوية الوسيطة وتقليل العبء التشغيلي المتمثل في الحفاظ على خطوط أنابيب ETL المخصصة.

المزايا والقيود

المزايا:

  • تم تصميمه خصيصًا لحالات استخدام تكامل الحاسب المركزي.
  • يتعامل مع دفاتر COBOL و EBCDIC بشكل موثوق.
  • يقوم بأتمتة عملية رسم الخرائط والتحويل والتحميل إلى التخزين السحابي.
  • مقاييس لأحمال العمل ذات الدفعات الكبيرة والكميات الكبيرة.
  • يقلل من وقت التطوير لمشاريع التكامل.

القيود:

  • تم تحسينه في المقام الأول لأنماط تفريغ الدفعات؛ قد يتطلب تكامل CDC والبث المباشر في الوقت الفعلي تقريبًا أدوات تكميلية.
  • يمكن أن تكون تكاليف الترخيص والدعم التجاري كبيرة بالنسبة للنشر على نطاق واسع.
  • يتطلب التدريب والتكامل في سير العمل الحالي.

أمثلة على حالات الاستخدام

  • للخدمات المالية:استخراج سجلات عملاء VSAM ليلاً، وتحويلها إلى Parquet، وتحميلها إلى S3 لإعداد التقارير التنظيمية والتحليلات في Amazon Athena.
  • قطاع الرعاية الصحية:نقل كميات كبيرة من بيانات معالجة المطالبات المركزية إلى Azure Data Lake للكشف عن الاحتيال المعتمد على التعلم الآلي.
  • حكومة:تحديث مهام الدفعات القديمة عن طريق استبدال خطوط الأنابيب المستندة إلى FTP بتدفقات عمل Smart TS XL الآلية التي تغذي BigQuery لتحليل إحصائيات السكان.

يُعد Smart TS XL أداة عملية ومتخصصة للمؤسسات التي تسعى إلى تقليل المخاطر وتسريع جهود دمج الحواسيب المركزية مع مستودعات البيانات. من خلال توفير دعم قوي لتنسيقات البيانات القديمة وأتمتة التحويل إلى المخططات الحديثة، يُمكّن Smart TS XL الفرق من الاستفادة القصوى من بيانات الحواسيب المركزية للتحليلات المتقدمة والذكاء الاصطناعي دون الحاجة إلى تطوير مخصص مكثف.

اعتبارات التصميم والتنفيذ

يتطلب دمج الحاسوب المركزي القديم بنجاح مع بحيرة بيانات حديثة أكثر بكثير من مجرد اختيار الأدوات أو الأنماط المناسبة، بل يتطلب تصميمًا مدروسًا وتخطيطًا تشغيليًا دقيقًا لضمان سلامة البيانات وأمانها وامتثالها للمعايير وقابليتها للصيانة على مر الزمن.

إن الاهتمام الدقيق بهذه الاعتبارات أمر ضروري لتجنب المفاجآت المكلفة، وضمان الامتثال التنظيمي، وتلبية توقعات العمل للحصول على بيانات عالية الجودة في الوقت المناسب.

تعيين البيانات وتحويل المخططات

غالبًا ما تأتي بيانات الحاسوب المركزي القديمة بتنسيقات مُخصصة للغاية، مُحددة على مدى عقود. تصف دفاتر نسخ COBOL تخطيطات سجلات متداخلة بحقول عشرية مُزدحمة، وتُعيد تعريف البنود، وأسماء الشروط.

إن ترجمة هذه الهياكل إلى أشكال حديثة عمودية مثل الباركيه تتطلب رسم خرائط تفصيلية:

  • تحليل دفتر النسخ:يجب أن تقوم الأدوات بتفسير تخطيطات السجلات بدقة، والتعامل مع المجموعات المتداخلة والسجلات ذات الطول المتغير.
  • تحويل نوع البيانات:يجب تحويل الأعداد العشرية المعبأة أو الحقول الثنائية إلى أنواع رقمية حديثة.
  • ترميز الترجمة:يجب تحويل EBCDIC بشكل موثوق إلى UTF-8 أو ASCII لمحركات التحليلات الحديثة.

يمكن لأدوات رسم الخرائط الآلية أو الموصلات المعدة مسبقًا أن تقلل بشكل كبير من جهد التطوير، ولكنها لا تزال تتطلب اختبارات صارمة لضمان التعامل مع جميع الحالات الحدية في البيانات بشكل صحيح.

الجدولة والتنظيم

تعتمد بيئات الحواسيب المركزية عادةً على برامج جدولة مهام راسخة مثل Control-M أو IBM Workload Scheduler. يجب أن تتوافق سير عمل التكامل مع أنظمة الجدولة هذه أو تتكامل مع برامج تنظيم سحابية أصلية مثل Apache Airflow.

تشمل الممارسات الرئيسية ما يلي:

  • تحديد تبعيات الوظيفة الواضحة لتجنب ظروف السباق.
  • ضمان إمكانية الاسترداد وإعادة التشغيل في حالة الفشل.
  • تنسيق استخراجات الإطار الرئيسي مع التحولات اللاحقة وأحمال بحيرة البيانات.

ينبغي تصميم وظائف التكامل لتكون أيديولوجية، مما يضمن إعادة المعالجة الآمنة في حالة الفشل الجزئي.

يقوم هذا النوع من DAG بتنسيق الخطوات المتسلسلة للاستخراج والتحويل مع التبعيات الواضحة.

تكامل الأمان وإدارة الهوية والوصول

غالبًا ما تحتوي بيانات الحاسوب المركزي على معلومات بالغة الحساسية، مثل أرقام التعريف الشخصية، والمعاملات المالية، وسجلات الرعاية الصحية. ويثير نقل هذه البيانات إلى بحيرة بيانات سحابية تساؤلات أمنية بالغة الأهمية:

  • التشفير أثناء النقل وفي حالة السكون:فرض TLS لجميع عمليات نقل الشبكة وتمكين التشفير لتخزين الكائنات.
  • الهوية والوصول إلى الإدارة:التكامل مع أنظمة IAM الخاصة بالمؤسسة لفرض الوصول إلى الحد الأدنى من الامتيازات.
  • التدقيق والتسجيل:التقاط سجلات مفصلة لجميع خطوات التكامل لدعم التحليل الجنائي ومراجعات الامتثال.
  • إخفاء البيانات أو ترميزها:إذا لزم الأمر، قم بإخفاء الحقول الحساسة قبل وضعها في بيئات أقل تحكمًا.

يجب أن يكون الأمان مدمجًا منذ البداية، وليس إضافته كفكرة لاحقة.

المراقبة والتسجيل وإمكانية الملاحظة

يجب مراقبة خطوط أنابيب التكامل بدقة لضمان الموثوقية والأداء. تشمل التصاميم الجاهزة للإنتاج ما يلي:

  • فحوصات طبية:راقب نجاح/فشل مهمة ETL، والزمن الكامن، والإنتاجية.
  • تسجيل مفصل:تتضمن خطوات التحويل، وعدد السجلات، ورسائل الخطأ لاستكشاف الأخطاء وإصلاحها.
  • تنبيه:تشغيل الإشعارات في حالة حدوث أعطال أو تشوهات.
  • تتبع النسب:استخدم أدوات كتالوج البيانات للحفاظ على الرؤية فيما يتعلق بالتعيينات والتحويلات بين المصدر والهدف.

إن الرؤية التشغيلية ضرورية لتلبية اتفاقيات مستوى الخدمة ومتطلبات الامتثال، ولإعطاء مستخدمي الأعمال الثقة في البيانات.

الاختبار والتحقق من صحة البيانات

عمليات تحويل بيانات الحاسوب المركزي معرضة لأخطاء طفيفة بسبب تعقيد التنسيقات القديمة. يُعدّ الاختبار الدقيق أمرًا بالغ الأهمية لاكتشاف المشكلات قبل أن تؤثر على التحليلات اللاحقة:

  • التحقق من صحة المخطط:تأكد من أن الإخراج يتوافق مع المخططات المستهدفة.
  • المصالحة على مستوى السجل:مقارنة عدد السجلات المصدر والهدف، أو مجموعات الحقول الرئيسية، أو إجمالي التجزئة.
  • اختبار الانحدار الآلي:منع التغييرات الجذرية مع تطور خطوط أنابيب التكامل.
  • أخذ العينات والتفتيش اليدوي:مهم بشكل خاص لعمليات الترحيل الأولى أو تخطيطات السجلات المعقدة.

تساعد مثل هذه الفحوصات البرمجية على ضمان سلامة البيانات في جميع أنحاء خط الأنابيب.

الاستعداد التشغيلي

بالإضافة إلى خط الأنابيب الفني، ضع في اعتبارك العوامل التنظيمية وعوامل العملية:

  • تحديد ملكية واضحة لوظائف التكامل.
  • إنشاء كتب التشغيل لفرق العمليات.
  • تدريب الموظفين على الأدوات وسير العمل.
  • التخطيط لإدارة التغيير مع تطور أنظمة المصدر.

تتعامل استراتيجية التكامل المستدامة مع خطوط الأنابيب من الحاسوب المركزي إلى بحيرة البيانات باعتبارها أحمال عمل إنتاجية من الدرجة الأولى، مع توفير الدعم المناسب والتوثيق وإدارة دورة الحياة.

التوافق مع متطلبات العمل

وأخيرا، ينبغي أن تكون جميع قرارات التصميم مرتبطة باحتياجات العمل:

  • تحديد متطلبات حداثة البيانات في اتفاقيات مستوى الخدمة.
  • إعطاء الأولوية لمجموعات البيانات بناءً على القيمة التجارية.
  • تحقيق التوازن بين التكلفة والأداء لتخزين البيانات والمعالجة السحابية.
  • قم بإشراك أصحاب المصلحة في وقت مبكر لمواءمة التوقعات.

التميّز التقني وحده لا يضمن النجاح. يجب أن تبقى جهود التكامل مرتبطة ارتباطًا وثيقًا بأهداف العمل لتحقيق قيمة حقيقية وقابلة للقياس.

دراسات الحالة والأمثلة العملية

إن عمليات التكامل الناجحة بين الحاسوب المركزي وبحيرة البيانات ليست مجرد تمارين نظرية، بل هي مشاريع بالغة الأهمية تُنفّذها المؤسسات لتحقيق أهداف أعمال حقيقية. فيما يلي أمثلة عملية ودراسات حالة نموذجية توضح كيفية تعامل مختلف القطاعات مع هذا التحدي المعقد في التكامل. يُسلّط كل مثال الضوء على الأنماط، وخيارات الأدوات، واعتبارات التصميم التي يُمكن أن تُفيد المؤسسات الأخرى التي تُخطط لعمليات تحوّل مماثلة.

الخدمات المالية: تفريغ الدفعات للتقارير التنظيمية

احتاج بنك متعدد الجنسيات إلى الامتثال لمتطلبات التقارير التنظيمية المتطورة، والتي تتطلب بيانات تاريخية موحدة ومفصلة للمعاملات عبر عملياته العالمية. استُضيفت منصته المصرفية الأساسية على نظام IBM z/OS، مع تخزين بيانات المعاملات في مجموعات بيانات VSAM وجداول علائقية في DB2.

نمط التكامل: تفريغ الدفعات

  • تم استخراج جداول VSAM وDB2 إلى ملفات مسطحة من خلال مهام الدفعة الليلية.
  • حددت دفاتر COBOL تخطيطات السجلات.
  • تم تحويل بيانات EBCDIC إلى UTF-8.
  • تم تحويل البيانات إلى تنسيق Parquet وتحميلها إلى Amazon S3.
  • تعريفات المخططات المُدارة بواسطة AWS Glue Catalog.

الأدوات الرئيسية:

  • IBM DataStage للاستخراج والتحويل.
  • تدفق الهواء لتنظيم سير العمل الليلي.
  • AWS S3 وGlue للتخزين والبيانات الوصفية.

النتيجة:

  • تحديث البيانات بشكل يومي لدعم تقارير الامتثال والتحليلات الداخلية.
  • بيانات المعاملات التاريخية المركزية القابلة للاستعلام عنها للمراجعين.
  • تقليل جهود إعداد التقارير اليدوية ومعدلات الأخطاء.

يوضح هذا المثال كيفية تحديث عمليات الدفعات التقليدية لتغذية بحيرة البيانات دون تعطيل عمليات الإطار الرئيسي الحالية.

الرعاية الصحية: مركز السيطرة على الأمراض والوقاية منها (CDC) في الوقت الفعلي للكشف عن الاحتيال

سعت إحدى شركات الرعاية الصحية الكبرى إلى تطبيق نظام كشف الاحتيال الفوري على بيانات المطالبات المخزنة على حاسوب مركزي يعمل بنظامي IMS وDB2. وقد حالت الحاجة إلى التعرّف السريع على الأنماط المشبوهة دون دمجها على دفعات.

نمط التكامل: التقاط بيانات التغيير (CDC) مع البث

  • تمت قراءة سجلات DB2 بواسطة أدوات CDC لالتقاط الإدخالات والتحديثات والحذف.
  • تم نشر التغييرات على موضوعات Apache Kafka في الوقت الحقيقي تقريبًا.
  • استهلك Spark Structured Streaming هذه المواضيع، وقام بتحويل البيانات وكتابتها بتنسيق Parquet إلى Azure Data Lake Storage.
  • قامت نماذج التعلم الآلي في اتجاه مجرى النهر بتحليل بيانات المطالبات الجديدة لتسجيل الاحتيال.

الأدوات الرئيسية:

  • IBM Infosphere CDC لالتقاط البيانات المستندة إلى السجل.
  • Apache Kafka للمراسلة.
  • Azure Data Lake Storage Gen2 للتخزين.
  • Azure Databricks لبث Spark والتعلم الآلي.

النتيجة:

  • انخفاض كبير في زمن اكتشاف الاحتيال - من أيام إلى دقائق.
  • تحسين دقة واستجابة نماذج الاحتيال.
  • رؤية شبه فورية للمطالبات المقدمة.

تُظهر حالة الاستخدام هذه قوة الجمع بين CDC والبث لتقديم تحليلات تشغيلية لا يمكن تحقيقها ببساطة باستخدام نماذج الدفعات القديمة.

الحكومة: نهج هجين للتحليل الإحصائي

احتاجت هيئة إحصائية وطنية إلى تحديث معالجة بياناتها السكانية، والتي كانت تُدار سابقًا على حواسيب مركزية ذات مهام دفعية معقدة. احتاج المحللون إلى وصول أسهل للبيانات التفصيلية مع الحفاظ على أمن وتسلسل صارمين.

نمط التكامل: دفعة هجينة + واجهة برمجة التطبيقات

  • قامت مهام الدفعات الليلية بنقل مجموعات كبيرة من البيانات إلى Google Cloud Storage بتنسيق Avro.
  • تم تحليل تعريفات دفتر نسخ COBOL وتحويل السجلات في خطوط أنابيب NiFi المخصصة.
  • عرض z/OS Connect معاملات الحاسب المركزي المحددة كواجهات برمجة تطبيقات REST للاستعلامات عند الطلب.

الأدوات الرئيسية:

  • NiFi لتحليل البيانات ونقلها.
  • z/OS Connect لتمكين واجهة برمجة التطبيقات (API).
  • Google Cloud Storage وBigQuery للتحليل.

النتيجة:

  • يمكن للمحللين الاستعلام عن البيانات التاريخية باستخدام SQL في BigQuery.
  • توفر واجهات برمجة التطبيقات الآمنة إمكانية الوصول الخاضعة للمراقبة في الوقت الفعلي إلى أنظمة الحاسب الآلي الرئيسية.
  • الحفاظ على سلسلة بيانات محكمة وإمكانية التدقيق من أجل الامتثال.

يوضح هذا المثال أن أنماط التكامل الهجينة يمكنها معالجة حالات استخدام متعددة - الدفعة لإعداد التقارير على نطاق واسع، وواجهات برمجة التطبيقات للوصول المعاملاتي - ضمن بنية متماسكة واحدة.

مخططات وأنماط العمارة

في حين تعتمد المخططات المحددة على الاختيارات التنظيمية، فإن البنيات المعمارية عالية المستوى النموذجية لهذه الحالات تشترك في عناصر مشتركة:

  • مصادر البيانات: أنظمة الحاسب الآلي المركزية (VSAM، IMS، DB2).
  • طبقة الاستخراج: مهام الدفعة أو أدوات CDC.
  • المواصلات: نقل الملفات بشكل آمن، أو طوابير الرسائل (Kafka)، أو واجهات برمجة التطبيقات (APIs).
  • تحويل: أدوات ETL (DataStage، Informatica)، وظائف Spark، تدفقات NiFi.
  • التخزين: مخازن الكائنات (S3، ADLS، GCS) بتنسيق Parquet أو Avro.
  • الاستهلاك: تحليلات تعتمد على SQL، ولوحات معلومات BI، وأنابيب التعلم الآلي.

تؤكد دراسات الحالة هذه على عدم وجود طريقة "صحيحة" واحدة لدمج الحواسيب المركزية مع بحيرات البيانات. بل إن التصاميم الناجحة تتكيف مع احتياجات العمل المحددة، وقيود الأنظمة القديمة، ومنصات التحليلات المستهدفة.

الاتجاهات المستقبلية في تكامل الحاسوب المركزي مع بحيرة البيانات

بينما تُركز العديد من المؤسسات على حل تحديات التكامل الحالية، تُخطط الفرق المُتطلعة للمستقبل أيضًا لكيفية تطور بنى الحوسبة المركزية إلى أحواض البيانات خلال السنوات القليلة القادمة. تعكس هذه الاتجاهات الناشئة تحولات أوسع في تكنولوجيا المعلومات المؤسسية - نحو التصميم المُعتمد على السحابة، والتحليلات الفورية، وأحمال العمل المُعتمدة على الذكاء الاصطناعي والتعلم الآلي، وحوكمة البيانات اللامركزية.

إن فهم هذه الاتجاهات يمكن أن يساعد المنظمات على تصميم استراتيجيات التكامل التي ليست فعالة اليوم فحسب، بل ومرنة وقابلة للتكيف مع المستقبل.

تحديث الحاسوب المركزي والخدمات المصغرة

من أهم التحولات الجارية التحديث التدريجي لأحمال عمل الحواسيب المركزية نفسها. فبدلاً من مجرد تفريغ البيانات، تستكشف المؤسسات كيفية إعادة هيكلة التطبيقات القديمة أو إعادة تصميم منصتها لتتحول إلى هياكل خدمات مصغرة.

يمكن لهذا النهج التحديثي أن يُقلل من تعقيد التكامل طويل الأمد من خلال عرض منطق العمل الأساسي والبيانات عبر واجهات برمجة تطبيقات موحدة. فبدلاً من تصدير مجموعات البيانات بأكملها، يمكن للتطبيقات الحديثة توفير وصول فوري للبيانات مع ضمان أمان وحوكمة دقيقين.

تُعدّ أدوات مثل IBM z/OS Connect من أوائل مُمكّنات هذا التوجه، إذ تُساعد الفرق على تمكين برامج COBOL أو CICS الحالية تدريجيًا من خلال واجهات برمجة التطبيقات (API) دون الحاجة إلى إعادة كتابتها بالكامل. بمرور الوقت، قد تنتقل المزيد من أحمال عمل الحواسيب المركزية إلى منصات سحابية بالكامل، مما يُبسّط التكامل مع بحيرات البيانات والخدمات التحليلية.

خطوط أنابيب النسخ المتماثل ومراكز التحكم في انتشار البيانات السحابية الأصلية

مع نضوج منصات السحابة، أصبحت تقدم بشكل متزايد خدمات CDC المُدارة وخدمات تكرار البيانات المصممة خصيصًا لربط أجهزة الكمبيوتر المركزية المحلية والتخزين السحابي.

تستثمر AWS وAzure وGoogle Cloud بكثافة في خطوط أنابيب CDC منخفضة زمن الوصول وقابلة للتطوير، قادرة على التعامل مع تفاصيل سجلات معاملات الحاسوب المركزي. تُقلل هذه الخدمات الحاجة إلى تطوير ETL مخصص، وتُحسّن الموثوقية والمراقبة.

من المرجح أن تتعامل الهياكل المستقبلية مع تدفقات البيانات المتغيرة من الحواسيب المركزية باعتبارها مجرد مصدر آخر في منصة بيانات موحدة أصلية في السحابة - مما يجعل من الأسهل دعم التحليلات في الوقت الفعلي وتدريب نموذج الذكاء الاصطناعي وإعداد التقارير التشغيلية.

الذكاء الاصطناعي والتعلم الآلي لإثراء البيانات

بمجرد وصول بيانات الحاسب المركزي إلى بحيرة البيانات، تطبق المؤسسات بشكل متزايد التعلم الآلي والذكاء الاصطناعي لتوليد قيمة الأعمال.

  • نماذج اكتشاف الاحتيال المدربة على بيانات المطالبات التاريخية.
  • خوارزميات الصيانة التنبؤية التي تتغذى على السجلات التشغيلية.
  • نماذج تقسيم العملاء وتخصيصهم بناءً على تاريخ المعاملات.

مع تزايد إمكانية الوصول إلى منصات التعلم الآلي، ستشمل خطوط أنابيب التكامل بشكل متزايد ليس فقط نقل البيانات وتحويلها، ولكن أيضًا هندسة الميزات واستنتاج النموذج وحلقات التغذية الراجعة إلى الأنظمة التشغيلية.

سيتعين على تصميمات التكامل مراعاة هذه المتطلبات من خلال ضمان جودة البيانات ونسبها وحداثتها عند المستويات المناسبة لتدريب نماذج التعلم الآلي وتسجيل نقاطها.

استخراج وتحويل وتحميل البيانات بدون خادم ومدفوع بالأحداث

تؤدي النماذج التي تعتمد على الأحداث والخوادم إلى تغيير طريقة تفكير المؤسسات في تكامل البيانات.

بدلاً من مهام الدفعات الليلية المتجانسة أو خوادم ETL طويلة الأمد، تتجه المؤسسات نحو خطوط الأنابيب المُفعّلة بالأحداث والمبنية على منصات بدون خوادم. تستطيع AWS Lambda وAzure Functions وGoogle Cloud Functions الاستجابة للبيانات الجديدة الواردة إلى مخازن الكائنات أو الأحداث الجديدة في طوابير الرسائل، مما يُطلق مهام التحويل عند الطلب.

يُخفّض هذا النموذج التكاليف من خلال التخلص من البنية التحتية الخاملة، ويُحسّن الاستجابة لحالات الاستخدام الحساسة للوقت. سيستفيد تكامل الحواسيب المركزية بشكل متزايد من هذه الأنماط الخالية من الخوادم، خاصةً في سيناريوهات مراكز البيانات (CDC) والبث.

شبكة البيانات والحوكمة الفيدرالية

مع نمو بحيرات البيانات، تزداد الحاجة إلى حوكمة بيانات قوية ونماذج تنظيمية تتجنب الاختناقات المركزية.

يشجع نموذج شبكة البيانات على التعامل مع البيانات كمنتج، حيث تتولى الفرق المتخصصة جودة مجموعات بياناتها وتوثيقها وإمكانية الوصول إليها. بالنسبة لتكامل الحاسوب المركزي، يعني هذا ما يلي:

  • ملكية محددة بوضوح لمنتجات البيانات المشتقة من الحاسوب المركزي.
  • بيانات وصفية قوية وتتبع للسلالة.
  • سياسات الوصول الموحدة عبر طبقات التخزين.

تضمن الحوكمة الفيدرالية إمكانية تعميم البيانات المركزية، حتى تلك الخاضعة للتنظيم الشديد، بشكل مسؤول داخل المؤسسة، وتجنب الصوامع مع الحفاظ على الامتثال.

التحضير للمستقبل

وتسلط هذه الاتجاهات الضوء على أن تكامل الحاسوب المركزي مع بحيرة البيانات لا يقتصر على نقل البيانات فحسب، بل يتيح للشركات الابتكار بشكل أسرع وأكثر فعالية.

يحتاج المهندسون المعماريون وفرق الهندسة إلى التخطيط لما يلي:

  • دعم أحمال العمل الهجينة التي تجمع بين الدفعات، وCDC، والبث، وواجهات برمجة التطبيقات.
  • تصميم خطوط الأنابيب القابلة للتوسع للتعلم الآلي والتحليلات في الوقت الفعلي.
  • الاستثمار في البيانات الوصفية، والنسب، والأمن باعتبارها اهتمامات من الدرجة الأولى.
  • مواءمة استراتيجيات التكامل مع استراتيجيات التحديث والسحابة الأوسع نطاقًا.

ويمكن للمنظمات التي تتوقع هذه الاتجاهات أن تضمن أن تظل استثماراتها اليوم ذات قيمة في المستقبل، مما يخلق أساسًا يدعم المتطلبات التحليلية المتطورة وأولويات الأعمال في المستقبل.

التوصيات وأفضل الممارسات

إن دمج أجهزة الكمبيوتر المركزية القديمة مع بحيرات البيانات الحديثة يعد مبادرة بالغة الأهمية يمكنها إطلاق قيمة تجارية كبيرة، ولكنها أيضًا معقدة وخطيرة إذا تم التعامل معها دون استراتيجية واضحة.

وبناءً على الخبرة الصناعية ودراسات الحالة الناجحة، إليك بعض التوصيات الرئيسية وأفضل الممارسات لمساعدة المؤسسات على اجتياز هذه الرحلة بفعالية.

تقييم حساسية البيانات في وقت مبكر

غالبًا ما تخزّن الحواسيب المركزية بعضًا من أكثر بيانات المؤسسة حساسية، بما في ذلك المعاملات المالية، ومعلومات الصحة الشخصية، وتفاصيل حسابات العملاء. قبل تصميم مسارات التكامل، ينبغي على الفرق إجراء تقييم شامل لحساسية البيانات وتصنيفها.

  • تحديد عناصر البيانات الشخصية القابلة للتعريف (PII) أو PCI أو HIPAA أو غيرها من عناصر البيانات الحساسة.
  • قم بتحديد متطلبات إخفاء البيانات أو تقسيمها قبل النقل.
  • تأكد من أن سياسات التشفير (أثناء النقل وفي حالة السكون) محددة جيدًا.

يساعد التقييم المبكر على تجنب عمليات إعادة التصميم المكلفة ويضمن الامتثال التنظيمي منذ البداية.

ابدأ بإثباتات المفهوم على نطاق صغير

غالبًا ما تفشل مشاريع التكامل عندما تحاول الفرق استبدال عقود من المهام المجمعة والأكواد المخصصة في مرحلة واحدة. بدلاً من ذلك:

  • اختر حالة استخدام واحدة محددة جيدًا لإثبات أنماط التكامل.
  • التحقق من صحة الأدوات والتحويلات على مجموعة فرعية تمثيلية من البيانات.
  • إشراك فرق الحاسب الآلي الرئيسي ومهندسي بحيرة البيانات في التصميم والتنفيذ.

تساعد إثباتات المفهوم على تقليل المخاطر وبناء ثقة أصحاب المصلحة وإنشاء أنماط قابلة لإعادة الاستخدام من أجل طرح أوسع نطاقًا.

استثمر في البيانات الوصفية والتخطيط الآلي

قد يكون تحليل دفاتر نسخ COBOL، ومعالجة تحويلات EBCDIC، والتعيين إلى المخططات الحديثة عرضة للأخطاء ويستغرق وقتًا طويلاً إذا تم إجراؤه يدويًا.

أفضل الممارسات هي:

  • استخدم الأدوات التي تدعم تحليل دفتر النسخ الآلي وتعيين المخطط.
  • الحفاظ على إصدارات البيانات الوصفية لتتبع التغييرات بمرور الوقت.
  • دمج كتالوجات البيانات الوصفية مثل AWS Glue أو Azure Purview لفرض الاتساق.

تتجنب إدارة البيانات الوصفية القوية مشكلات جودة البيانات وتبسط الصيانة مع توسع نطاق التكامل.

مواءمة اتفاقيات مستوى الخدمة مع توقعات العمل

ينبغي أن ترتبط قرارات تصميم التكامل دائمًا بمتطلبات العمل الواضحة، وخاصة فيما يتعلق بتحديث البيانات.

  • قد يكون تفريغ الدفعات مقبولاً للتقارير اليومية ولكنه غير كافٍ للكشف عن الاحتيال في الوقت الفعلي.
  • يمكن أن تعمل خطوط الأنابيب الخاصة بـ CDC أو البث على تقليل زمن الوصول بشكل كبير ولكنها تتطلب المزيد من الاستثمار التشغيلي.
  • يمكن لواجهات برمجة التطبيقات تقديم الاستعلامات المعاملاتية دون الحاجة إلى تكرارها على نطاق واسع ولكنها قد لا تدعم حالات الاستخدام التحليلية.

قم بتوثيق اتفاقيات مستوى الخدمة والموافقة عليها مع أصحاب المصلحة في العمل في وقت مبكر لتجنب المفاجآت في وقت لاحق في دورة حياة المشروع.

إعطاء الأولوية للاستعداد التشغيلي

خطوط أنابيب التكامل ليست أنظمةً جاهزةً للتشغيل، بل تتطلب تصميمًا تشغيليًا قويًا، يشمل:

  • مراقبة تنفيذ الوظائف والوقت المستغرق ومعدلات الفشل.
  • تسجيل البيانات بتفاصيل كافية لإجراء عمليات التدقيق واستكشاف الأخطاء وإصلاحها.
  • تنبيه فرق العمليات لحل المشكلات بشكل استباقي.
  • كتب التشغيل والتدريب لموظفي الدعم.

تعامل مع وظائف التكامل باعتبارها أحمال عمل إنتاجية ذات خطط ملكية ودعم واضحة.

تمكين التحديث التدريجي

على الرغم من أن استبدال الحاسوب الرئيسي بالكامل قد يكون الهدف طويل الأمد، فإن معظم المؤسسات تعتمد نماذج هجينة في الأمد القريب.

  • استخدم تفريغ الدفعات لتمكين التحليل التاريخي واسع النطاق.
  • أضف CDC والبث المباشر للتحليلات التشغيلية باستخدام اتفاقيات مستوى الخدمة الأكثر صرامة.
  • قم بتغليف خدمات الحاسب الآلي المركزية باستخدام واجهات برمجة التطبيقات (APIs) للوصول إليها في الوقت الفعلي دون الحاجة إلى التكرار.

توفر الأساليب التدريجية القيمة بسرعة مع تقليل المخاطر وإعطاء الفرق الوقت للتكيف.

البناء من أجل الأمن والامتثال منذ البداية

يجب أن يتم تصميم الأمان منذ البداية، وليس إضافته لاحقًا.

  • فرض مصادقة قوية وتكامل IAM لجميع تحركات البيانات.
  • تشفير البيانات أثناء النقل (TLS) وفي حالة السكون (S3 SSE، Azure Storage Encryption).
  • تنفيذ عناصر التحكم في الوصول على طبقات بحيرة البيانات لفرض الوصول الأقل امتيازًا.
  • الحفاظ على سجلات التدقيق التفصيلية لإعداد التقارير المتعلقة بالامتثال.
  • تطبيق تتبع سلالة البيانات لضمان الشفافية بشأن التحويلات من المصدر إلى الهدف.

وتساعد هذه الممارسات على تقليل المخاطر وبناء الثقة مع الجهات التنظيمية وأصحاب المصلحة في الأعمال.

التعاون عبر الصوامع

غالبًا ما تختلف أدوات وعمليات وثقافات فرق هندسة البيانات السحابية المتخصصة في الحواسيب المركزية. وترتكز المشاريع الناجحة على التعاون:

  • مراجعة التصميمات متعددة الوظائف لضمان الجدوى والموافقة.
  • معايير التوثيق المشترك والبيانات الوصفية.
  • نماذج الدعم العملياتي المشترك.

إن سد الفجوة بين الصوامع التنظيمية أمر مهم بقدر أهمية سد الفجوة بين الصوامع التكنولوجية.

التركيز على الصيانة طويلة الأمد

إعطاء الأولوية لإمكانية الصيانة لتجنب إنشاء جيل جديد من خطوط الأنابيب الهشة والمعتمة التي تصبح إرثًا للغد.

  • أتمتة إدارة المخططات والتحويلات.
  • تكوينات ETL والتحكم في الإصدار.
  • توثيق تدفقات البيانات من البداية إلى النهاية والملكية.
  • تصميم خطوط الأنابيب لتكون معيارية وقابلة للتوسع لحالات الاستخدام الجديدة.

يدعم إطار التكامل الذي يتم صيانته جيدًا احتياجات الأعمال المتطورة ويقلل من تكلفة التكيف مع الاتجاهات المستقبلية مثل التحليلات في الوقت الفعلي والتعلم الآلي والهجرات السحابية.

تحويل الإرث إلى فرصة

إن دمج الحواسيب المركزية القديمة مع بحيرات البيانات الحديثة ليس مجرد مشروع هجرة تقنية، بل هو مبادرة استراتيجية تتيح الاستفادة من عقود من البيانات القيّمة للتحليلات المتقدمة، واتخاذ القرارات في الوقت الفعلي، والتعلم الآلي. وتتمتع المؤسسات التي تنجح في هذا المسعى بميزة قوية من خلال تحويل الأنظمة الجامدة والمعزولة إلى منصات مرنة قائمة على البيانات، قادرة على تلبية احتياجات الأعمال المتطورة.

يتطلب تحقيق هذا التكامل تخطيطًا مدروسًا وتنفيذًا منضبطًا. يجب على الفرق مواجهة تحديات تتراوح من تنسيقات البيانات الخاصة والعمليات الموجهة للدفعات، إلى الأمن والامتثال والتعقيد التشغيلي. يعتمد اختيار أنماط التكامل المناسبة، سواءً كانت تفريغ البيانات على دفعات، أو مركز بيانات مركزي، أو البث، أو واجهات برمجة التطبيقات، على فهم متطلبات العمل المحددة لحداثة البيانات، وزمن الوصول، والتحكم في الوصول.

اختيارات التكنولوجيا مهمة أيضًا. أدوات استخراج وتحويل وتحميل البيانات المتطورة، والخدمات السحابية الأصلية، وأطر العمل مفتوحة المصدر، والحلول المتخصصة مثل Smart TS XL، لكل منها دورها في سيناريوهات مختلفة. غالبًا ما تجمع أفضل البنى بين أنماط وأدوات متعددة لتلبية الاحتياجات المتنوعة في جميع أنحاء المؤسسة.

الجوانب التشغيلية والتنظيمية لا تقل أهمية. تُعطي مشاريع التكامل الناجحة الأولوية لإدارة البيانات الوصفية، والأتمتة، والمراقبة، والأمان منذ البداية. كما تُشجع على التعاون الوثيق بين خبراء الحاسوب المركزي وفرق هندسة بيانات السحابة. وتُنشئ عمليات وخطوط أنابيب قابلة للصيانة والتوسعة والشفافية لدعم النمو المستقبلي.

في نهاية المطاف، لا يقتصر دمج الحواسيب المركزية مع بحيرات البيانات الحديثة على استبدال نظام بآخر، بل يهدف إلى تمكين التعايش وإطلاق العنان لكامل إمكانات بيانات المؤسسة. من خلال استراتيجية واضحة، وتقنيات مناسبة، وتركيز على الاستدامة طويلة الأمد، يمكن للمؤسسات تحويل هذا التحدي المعقد إلى أساس للميزة التنافسية والابتكار.