راهنمای کامل بررسی لاگ‌های خطا در سرور HPE DL580 Gen12 با iLO7

مدیریت از راه دور و پایش سلامت سخت‌افزاری در سرورهای سازمانی، یکی از مهم‌ترین وظایف تیم‌های زیرساخت فناوری اطلاعات است. شرکت Hewlett Packard Enterprise (HPE) برای این منظور از پردازنده مدیریتی تعبیه‌شده‌ای به نام iLO (Integrated Lights-Out) در سرورهای خانواده ProLiant استفاده می‌کند. سرورهای نسل دوازدهم (Gen12)، از جمله مدل پرچمدار DL580 Gen12، مجهز به نسل هفتم این فناوری یعنی iLO 7 هستند که نسبت به نسخه‌های قبلی (iLO 5 و iLO 6) از نظر امنیت، سرعت پردازش و قابلیت‌های ثبت رویداد، ارتقای قابل‌توجهی یافته است.

یکی از کارآمدترین ابزارهای موجود در iLO برای تشخیص مشکلات سخت‌افزاری، نرم‌افزاری و امنیتی، مجموعه‌ای از لاگ‌های رویداد و خطا است. این مقاله به‌صورت جامع انواع این لاگ‌ها، نحوه دسترسی به آن‌ها، سطوح شدت رویدادها و رویکردهای عیب‌یابی مبتنی بر آن‌ها را در سرورهای HPE ProLiant DL580 Gen12 بررسی می‌کند.

آشنایی با iLO 7 در سرورهای Gen12

iLO 7 پردازنده مدیریتی مستقل از سیستم‌عامل است که حتی در صورت خاموش بودن سرور، در صورت اتصال به برق، فعال باقی می‌ماند و امکان مشاهده وضعیت سلامت، توان مصرفی، دما و رویدادهای ثبت‌شده را در اختیار مدیر سیستم قرار می‌دهد. مهم‌ترین ویژگی‌های جدید iLO 7 در سرورهای Gen12 عبارت‌اند از:

ریشه اعتماد امنیتی سیلیکونی (Silicon Root of Trust) همراه با پردازنده امنیتی تعبیه‌شده برای تضمین صحت بوت و فریمور.
رابط کاربری وب جدید با امکان جست‌وجوی پیشرفته، چیدمان کارت‌محور و دسترسی سریع‌تر به ابزارهای پایش.
پشتیبانی از پروتکل‌های استاندارد مدیریت از جمله RESTful API، IPMI 2.0، SNMP، Syslog از راه دور و هشدار ایمیلی.
سیستم سلامت فعال یا Active Health System (AHS) برای جمع‌آوری مستمر داده‌های پیکربندی و عملکرد سرور.

تمامی این رویدادها و وضعیت‌های سلامت در نهایت در قالب چند نوع لاگ مجزا در iLO ذخیره و دسته‌بندی می‌شوند که در بخش بعد به تفصیل شرح داده می‌شوند.

انواع اصلی لاگ‌های خطا در iLO

در رابط وب iLO، از مسیر «System Information یا Information» در منوی سمت راست، چهار دسته اصلی لاگ در دسترس مدیر سیستم قرار می‌گیرد. هر یک از این لاگ‌ها هدف، دامنه و کاربرد متفاوتی دارند که در جدول و بخش‌های زیر شرح داده شده است.

نوع لاگ	هدف اصلی	نحوه ثبت رویداد
Integrated Management Log (IML)	ثبت رویدادهای سخت‌افزاری سرور شامل خطا، هشدار و رویدادهای اطلاعاتی	خودکار توسط BIOS/UEFI، سیستم‌عامل و iLO
iLO Event Log	ثبت رویدادهای مربوط به خود پردازنده مدیریتی iLO (ورود کاربران، تغییر تنظیمات، ریست)	خودکار توسط فریمور iLO
Active Health System (AHS) Log	ضبط پیوسته داده‌های پیکربندی، عملکرد و رویدادها برای تحلیل و پشتیبانی فنی	خودکار و مستمر (Rolling Log)
Security Log	ثبت رویدادهای امنیتی نظیر تلاش‌های ورود ناموفق و تغییرات پیکربندی امنیتی	خودکار توسط زیرسیستم امنیتی iLO

لاگ مدیریت یکپارچه (Integrated Management Log – IML)

IML مهم‌ترین و پرکاربردترین منبع برای عیب‌یابی سخت‌افزاری است. این لاگ تمامی رویدادهای مرتبط با پردازنده، حافظه، منابع تغذیه، فن‌ها، دما، دیسک‌ها و سایر زیرسیستم‌های سرور را با برچسب زمانی دقیق ثبت می‌کند. هر رویداد در IML دارای یک سطح شدت (Severity) مشخص است که نوع برخورد لازم را تعیین می‌کند.

سطح شدت	رنگ نمایش	معنا و اقدام پیشنهادی
Critical	قرمز	خرابی جدی که نیازمند اقدام فوری است (مانند خرابی کامل منبع تغذیه یا حافظه).
Caution	زرد	هشدار درباره وضعیتی که می‌تواند در آینده به خطای جدی تبدیل شود (مانند دمای بالا یا افت عملکرد فن).
Informational	آبی/خاکستری	رویداد عادی سیستم بدون نیاز به اقدام، مانند روشن یا خاموش شدن سرور یا به‌روزرسانی فریمور.
Repaired	سبز	نشان‌دهنده رفع خودکار یا دستی یک خطای قبلی است.

هر ردیف در IML معمولاً شامل تاریخ و ساعت اولین و آخرین وقوع، تعداد تکرار رویداد، شرح کلاس رویداد (مانند POST Error، Memory، Power Supply، Fan، Processor، NIC) و در صورت پشتیبانی، پیوندی به مستندات «Learn More» در پایگاه دانش HPE برای راهنمایی دقیق‌تر عیب‌یابی است.

لاگ رویدادهای iLO (iLO Event Log)

بر خلاف IML که بر سخت‌افزار سرور متمرکز است، iLO Event Log رویدادهای مربوط به عملکرد خود ماژول مدیریتی iLO را ثبت می‌کند؛ از جمله ورود و خروج کاربران، تغییر تنظیمات شبکه یا امنیت، ریست شدن iLO، به‌روزرسانی فریمور iLO و خطاهای ارتباطی RESTful API. این لاگ برای ردیابی فعالیت‌های مدیریتی و بررسی مسائل مربوط به دسترسی از راه دور بسیار کاربردی است.

سیستم سلامت فعال (Active Health System – AHS)

AHS به‌صورت پیوسته و خودکار، طیف گسترده‌ای از داده‌های پیکربندی سخت‌افزار، رویدادهای ثبت‌شده، شمارنده‌های خطا و اطلاعات عملکردی سرور را در یک فایل گردشی (Rolling Log) ذخیره می‌کند. این داده‌ها معمولاً برای پشتیبانی فنی HPE یا تحلیل عمیق‌تر ریشه خطا (Root Cause Analysis) از طریق ابزار HPE Active Health System Viewer مورد استفاده قرار می‌گیرند. لازم به ذکر است که در سرورهای مبتنی بر iLO 7 نسل Gen12، برخی ابزارهای جانبی مانند iSUT دیگر رویدادهای خود را در AHS ثبت نمی‌کنند و این موضوع باید در تحلیل لاگ‌ها مد نظر قرار گیرد.

لاگ امنیتی (Security Log)

Security Log رویدادهای حساس امنیتی نظیر تلاش‌های ناموفق ورود به سیستم، تغییر گواهی‌نامه‌ها (Certificates)، فعال یا غیرفعال شدن حساب‌های کاربری، تغییرات در پیکربندی فایروال iLO و وضعیت Root of Trust را ثبت می‌کند. بررسی منظم این لاگ بخش مهمی از فرآیندهای ممیزی امنیتی و انطباق (Compliance) در مراکز داده محسوب می‌شود.

روش‌های دسترسی به لاگ‌ها

برای مشاهده، دانلود یا پاک‌سازی لاگ‌های فوق در سرور DL580 Gen12 می‌توان از چند روش زیر استفاده کرد:

رابط کاربری وب iLO

با مرورگر به آدرس IP اختصاصی پورت مدیریتی iLO متصل شوید (مثال: https://<IP-iLO>).
با نام کاربری و گذرواژه معتبر iLO وارد شوید.
از منوی سمت راست گزینه «Information» را انتخاب و سپس به زیرمنوهای «Integrated Management Log»، «iLO Event Log» یا «Security Log» مراجعه کنید.
برای دانلود فایل AHS، به مسیر «Information » → «Active Health System Log» رفته و بازه زمانی موردنظر را برای دریافت فایل AHS انتخاب کنید.

ابزار خط فرمان iLOrest و RESTful API

ابزار iLOrest (مبتنی بر RESTful Interface Tool) و فراخوانی مستقیم RESTful API امکان استخراج خودکار و اسکریپت‌نویسی برای دریافت لاگ‌ها را فراهم می‌کند. این روش به‌ویژه برای یکپارچه‌سازی با ابزارهای پایش مرکزی (مانند HPE OneView، Nagios یا Zabbix) و یا اتوماسیون جمع‌آوری دوره‌ای لاگ‌ها کاربرد دارد.

SNMP و Syslog از راه دور

iLO 7 امکان ارسال خودکار هشدارهای IML از طریق SNMP Trap یا ارسال آن‌ها به یک سرور Syslog مرکزی را فراهم می‌کند. این قابلیت برای محیط‌هایی که از سامانه‌های متمرکز مدیریت رویداد (مانند SIEM) استفاده می‌کنند، ضروری است و امکان هشداردهی بلادرنگ را فراهم می‌سازد.

UEFI System Utilities

در صورت عدم دسترسی شبکه‌ای به iLO، می‌توان در زمان راه‌اندازی سرور با فشردن کلید F9 وارد محیط UEFI System Utilities شد و از منوی Embedded Diagnostics → System Logs، گزارش رویدادهای IML را به‌صورت محلی مشاهده یا پاک کرد.

دانلود، پاک‌سازی و نگه‌داری لاگ‌ها

دانلود IML: امکان خروجی‌گیری در قالب متنی یا XML از طریق دکمه Export در صفحه IML رابط وب.
پاک‌سازی IML: گزینه Clear Event Log تمام رویدادهای ثبت‌شده را حذف می‌کند؛ توصیه می‌شود پیش از پاک‌سازی، حتماً از لاگ نسخه پشتیبان تهیه شود.
دانلود AHS: فایل AHS باید پیش از تماس با پشتیبانی فنی HPE دانلود و ضمیمه تیکت پشتیبانی شود تا تحلیل دقیق‌تری از وضعیت سخت‌افزار انجام گیرد.
بازنشانی Security Log: تنها در صورت لزوم و پس از ثبت و آرشیو رویدادهای پیشین انجام شود، زیرا این لاگ نقش مهمی در ردگیری رخدادهای امنیتی دارد.

رویکرد پیشنهادی برای عیب‌یابی با استفاده از لاگ‌ها

ابتدا IML را بررسی و رویدادهای با سطح شدت Critical و Caution را اولویت‌بندی کنید.
کلاس رویداد (پردازنده، حافظه، منبع تغذیه، فن، شبکه و غیره) و قطعه فیزیکی مرتبط را از شرح رویداد استخراج کنید.
در صورت وجود پیوند «Learn More»، اقدامات پیشنهادی HPE برای همان کد خطا را مطالعه و اجرا کنید.
برای بررسی همبستگی بین رویدادهای سخت‌افزاری و فعالیت‌های مدیریتی (مانند ریست iLO یا تغییر پیکربندی)، iLO Event Log را به‌صورت موازی بررسی کنید.
در صورت تکرار یا پیچیدگی خطا، فایل AHS را دانلود و برای تحلیل عمیق‌تر در اختیار پشتیبانی فنی HPE یا ابزار AHS Viewer قرار دهید.
لاگ امنیتی را برای رد یا اثبات احتمال دخالت دسترسی غیرمجاز یا تغییرات نامتعارف پیکربندی بررسی کنید.

سوالات متداول (FAQ)

1. لاگ IML در سرور HPE ProLiant DL580 Gen12 چیست؟

Integrated Management Log (IML) یکی از مهم‌ترین لاگ‌های سرورهای HPE است که تمامی رویدادهای مرتبط با سخت‌افزار مانند خطاهای پردازنده، حافظه، منابع تغذیه، فن‌ها، دما و سایر اجزای سرور را ثبت می‌کند. این لاگ به مدیران سیستم کمک می‌کند تا مشکلات سخت‌افزاری را سریع‌تر شناسایی و برطرف کنند.

2. تفاوت IML و iLO Event Log چیست؟

IML رویدادهای مربوط به سخت‌افزار سرور را ثبت می‌کند، در حالی که iLO Event Log فعالیت‌های مرتبط با خود ماژول مدیریتی iLO مانند ورود کاربران، تغییر تنظیمات، به‌روزرسانی Firmware و ریست شدن iLO را ذخیره می‌کند.

3. Active Health System (AHS) چه کاربردی دارد؟

AHS اطلاعات کاملی از وضعیت سخت‌افزار، عملکرد سرور و تغییرات پیکربندی را به‌صورت مداوم ثبت می‌کند. این اطلاعات برای تحلیل دقیق خطاها و پشتیبانی فنی HPE مورد استفاده قرار می‌گیرد.

4. چگونه لاگ‌های سرور HPE DL580 Gen12 را مشاهده کنیم؟

برای مشاهده لاگ‌ها کافی است از طریق مرورگر به رابط مدیریتی iLO 7 وارد شوید و از بخش Information به لاگ‌های IML، iLO Event Log، Security Log یا Active Health System Log دسترسی پیدا کنید.

5. چه زمانی باید فایل AHS را برای پشتیبانی HPE ارسال کنیم؟

در صورت بروز خطاهای سخت‌افزاری پیچیده، ریست‌های غیرمنتظره، خرابی‌های مکرر یا زمانی که تیم پشتیبانی HPE درخواست کند، بهتر است فایل AHS Log را دانلود و همراه با درخواست پشتیبانی ارسال کنید.

6. آیا می‌توان لاگ‌های iLO را به‌صورت خودکار دریافت کرد؟

بله. سرورهای HPE از طریق RESTful API، iLOrest، SNMP Trap و Syslog امکان جمع‌آوری و ارسال خودکار لاگ‌ها به سامانه‌های مانیتورینگ و مدیریت زیرساخت را فراهم می‌کنند.

7. آیا پاک کردن لاگ‌های IML مشکلی ایجاد می‌کند؟

پاک کردن لاگ‌های IML مشکلی برای عملکرد سرور ایجاد نمی‌کند، اما توصیه می‌شود قبل از حذف، از تمامی رویدادها نسخه پشتیبان تهیه کنید تا در صورت نیاز امکان بررسی سوابق خطاها وجود داشته باشد.

8. بررسی منظم لاگ‌های iLO چه مزایایی دارد؟

بررسی دوره‌ای لاگ‌های IML، AHS، iLO Event Log و Security Log باعث شناسایی زودهنگام مشکلات سخت‌افزاری، افزایش امنیت، کاهش زمان ازکارافتادگی (Downtime)، تسریع فرآیند عیب‌یابی و افزایش پایداری سرورهای HPE می‌شود.

جمع‌بندی

سرورهای HPE ProLiant DL580 Gen12 با بهره‌گیری از پردازنده مدیریتی iLO 7، چهار لایه اصلی ثبت رویداد یعنی IML، iLO Event Log، Active Health System Log و Security Log را در اختیار مدیران سیستم قرار می‌دهند. بررسی منظم و ترکیبی این لاگ‌ها، امکان شناسایی زودهنگام مشکلات سخت‌افزاری، پایش فعالیت‌های مدیریتی و تضمین امنیت زیرساخت را فراهم می‌سازد. استفاده هم‌زمان از رابط وب، ابزارهای خط فرمان، RESTful API و قابلیت‌های Syslog/SNMP، رویکردی جامع و خودکار برای پایش سلامت این سرورها در محیط‌های سازمانی ایجاد می‌کند.

در زمان بروز مشکل برای سرور و تجهیزات آن کافیست به مانیا سرویس مراجعه کنید، ما در کنار شما خواهیم بود تا گره‌ای از مشکل شما بگشاییم.

بررسی انواع لاگ‌های خطا در سرورهای HPE ProLiant DL580 Gen12 از طریق iLO