وبلاگ تخصصی جامعه برنامه‌نویسی مدرن آی او استریم

آخرین پست‌های مرتبط با فناوری و برنامه نویسی مدرن در این بخش در اختیار شما قرار می‌گیرد.



۵۱ اصطلاحی که شما باید در زمینه فرا‌داده (Big Data) آن‌ها را بدانید


نویسنده: کامبیز اسدزاده
تاریخ انتشار : 1396/7/11 12:07 /   /  موضوعات : عمومی دفعات بازدید : 511  

با توجه به اینکه روزانه میلیارد‌ها بایت داده جمع آوری می‌شود٬ دانستن پیچیدگی آن‌ها مهمتر از همیشه می‌باشد. ما برای اینکه این موضوع را شفاف سازی کنیم یک لیستی از راهنما‌های مرتبط به فرا‌داده یا همان (Big Data) جمع آوری کرده ایم که ممکن است مورد نیاز شما باشد.

 

هر اصطلاحی که شما فکر می‌کنید باید به این لیست اضافه کنیم را برای ما اطلاع دهید.

لیست A
  • الگوریتم: مجموعه‌ای از قوانین مربوط به AI شبکه عصبی یا ماشینهای دیگر که برای کمک به یادگیری خودکار هستند. یادگیری٬ طبقه بندی٬ خوشه بندی٬ توصیه و رگرسیون چهار نوع محبوب ترین‌ آنها هستند.
  • آپاچی فلینک (Apache Flink): یک چهارچوب پردازش جریان اطلاعات در قالب منبع باز. این فریم ورک در جاوا و اسکالا نوشته شده است و به عنوان یک موتور جریان داده توزیع و مورد استفاده قرار می‌گیرد.
  • آپاچی هادوپ (Apache Hadoop): یک ابزار منبع باز برای پردازش و ذخیره سازی مجموعه‌ای از داده های توزیع شده در ماشین با استفاده از MapReduce است.
  • آپاچی کافکا‌ (Apache Kafka): یک پلتفرم جریان توزیع شده برای کمک به بهبود و افزایش کارآیی٬ پارتیشن بندی٬ تکرار٬ تاخیر و قابلیت اطمینان می‌باشد.
  • آپاچی نای فای‌ (Apache NiFi): یک سرور جاوا به صورت منبع باز است که امکان اتوماسیونی از جریان داده‌ها بین سیستم‌های قابل انعطاف پذیر را فراهم می‌کند. NiFi توسط NSA منبع باز شده است.
  • آپاچی اسپارک (Apache Spark): یک موتور پردازش بیگ-دیتا است که در بالاترین لایه‌ی Apache Hadoop, Mesos و یا Cloud کار می‌کند.
  • هوش مصنوعی (Artificial intelligence): یک توانایی ماشین برای تصمیم گیری و انجام کارها و وظایفی که شبیه هوش و رفتار انسان عمل می‌کند می‌باشد.
لیست B
  •  فرا‌داده‌ها (Big Data): یک اصطلاح مشترک برای مقادیر زیادی از داده‌ها است. برای توصیف فرادادهها٬ می‌توان گفت که داده‌ها باید با سرعت بسیار بالا٬ با تغییرات عظیم و یا حجم زیادی وارد سیستم شوند.
  • ذخیره سازی حبابی (Blob storage): یک سرویس Azure است که داده‌های غیر ساختاری را در کلاد (Cloud) به عنوان یک شیء حبابی ذخیره می‌کند.
  • هوش کسب‌و‌کار (Business intelligence): روند تجسم و تجزیه تحلیل داده‌های کسب‌و‌کار به منظور تصمیم گیری عملی و آگاهانه را فراهم می‌کند.
  • خوشه - کلاستر (Cluster): یک زیر مجموعه‌ای از داده‌هایی که خصوصیات خاصی دارند را فراهم می‌شود٬همچنین می‌تواند به چندین ماشین اشاره کند که با یکدیگر کار می‌کنند تا یک مشکل واحد را حل کنند.
  • کوآپ (Coap): این به عنوان یک پروتکل برنامه محدود شده‌ای است که یک پروتکل برنامه کاربردی اینترنتی را برای محدود سازی منابع دستگاه هایی که می‌توانند در صورت نیاز به HTTP ترجمه شوند.
لیست D
  • مهندسی داده‌ها (Data engineering): مجموعه‌٬ ذخیره سازی و پردازش داده هایی که می‌تواند توسط یک دانشمند مورد پرسجو و بررسی قرار بگیرد.
  • مدیریت جریان داده (Data flow management): پروسه‌ای از داده‌های دستگاه های خام٬ که در حال مدیریت و جریان هزاران تولید کننده و مصرف کننده می‌باشد. سپس انجام غنی سازی داده‌های اولیه و پایه٬ تجزیه تحلیل در جریان٬ تجمیع و تقسیم٬ ترجمه طرح٬ تبدیل قالب و دیگر موارد اولیه برای آماده سازی داده‌ها برای پردازش بیشتر کسب‌و‌کار است.
  • مدیریت داده (Data governance): فرآیند مدیریت دسترسی٬ قابلیت استفاده٬ یکپارچگی٬ و امنیت اطلاعات در دریاچه‌ای از اطلاعات است.
  • یکپارچه سازی و ادغام داده‌ها (Data integration): فرآیند ترکیب داده‌ها از منابع مختلف و نمایش یکپارچه آنها برای کاربر است.
  • دریاچه داده (Data lake): مخزن ذخیره سازی که داده های خام را در قالب بومی نگه داری می‌کند.
  • داده کاوی (Data mining): تمرینی برای تولید اطلاعات جدید از طریق بررسی و تجزیه تحلیل پایگاه داده های بزرگ است.
  • عملیات داده‌ها (Data operationalization): فرآیند شدیدی که با تعریف متغیرها به عوامل (فاکتور‌های) قابل اندازه گیری معروف است.
  • آماده سازی داده‌ها (Data preparation): فرآیند جمع آوری٬ تمیز کردن٬ و ادغام داده در یک فایل یا جدول داده٬ عمدتا (در درجه اول) در تجزیه تحلیل استفاده می‌شود.
  • پردازش داده‌ها (Data processing): فرآیند بازیابی٬ تبدیل٬ تجزیه تحلیل یا طبقه بندی اطلاعات توسط یک ماشین.
  • علم داده (Data science): زمینه‌ای است برای یافتن و بررسی فرایند های تکرار شده و روش‌های درک بینش از داده ها.
  • مرداب/باتلاق داده‌ها (Data swamp): دریاچه‌ای از داده‌ها که بدون مدیریت مناسب هستند را با اصطلاح باتلاق داده ای توصیف می‌کنیم.
  • اعتبار سنجی داده‌ها (Data validation): عملی که جهت بررسی مجموعه ای از داده‌ها برای اطمینان از اینکه تمام داده ها قبل از پردازش٬ پاک٬ صحیح و مفید هستند را اعتبار سنجی داده‌ می‌گویند.
  • انبار داده‌ها (Data warehouse): مجموعه ای از دادههای بزرگ که از منابع مختلفی استفاده شده اند را برای کمک به شرکت‌ها جهت ساخت اطلاعات و تصمیم گیری‌ها مورد استفاده قرار می‌دهند.
  • لایه ماشین (Device layer): طیف وسیعی از سنسورها٬ محرکها٬ گوشیهای هوشمند٬ درگاه‌ها و تجهیزات صنعنی که جریان داده را متناسب با محیط و ویژگی عملکرد آنها ارسال می‌کنند.
لیست G
  • پایگاه داده‌های شتاب دهنده واحد پردازشگر گرافیکی (GPU-accelerated databases): پایگاه داده هایی که برای گرفتن جریان اطلاعات هستند.
  • تجزیه و تحلیل نمودار‌ی (Graph analytics): یک روش برای سازماندهی و تجسم ارتباط بین نقاط داده های مختلف در یک مجموعه.
لیست H
  • هادوپ (Hadoop): یک چهارچوب برنامه نویسی برای پردازش و ذخیره سازی فراداده‌ها٬ به ویژه در محاسبات محیط‌های پردازشی توزیع شده.
  • به دست آوردن جریان داده (Ingestion): مصرف جریان داده‌ها از هر تعداد از منابع مختلف 
  • کاهنده (MapReduce): یک فرآیند پردازش داده ای که اطلاعات را در مرحله نقشه پردازش می‌کند و سپس آنها را مرتب کرده و در نهایت بر روی داده های آن عملیاتی را اجرا و خروجی آن را در مرحله کاهش بر می‌گرداند.
  • مونگیگ (Munging): فرآیند دستی تبدیل یا نمایش داده‌ها از یک فرم (قالب) خام به یک فرمت دیگر برای استفاده راحت تر.
لیست N
  • توزیع عادی (Normal distribution): یک نمودار مشترک نشان دهنده احتمالات تعداد زیادی از متغیر های تصادفی است. در حالی که این متغیر ها به صورت عادی به عنوان یک مجموعه ای از داده ها افزایش می‌یابند. این نوع توزیع را با نام نمودار (گاوسی) یا (منحنی زنگی) می‌نامند.
  • عادی سازی (Normalizing): فرآیند سازماندهی داده ها به جدول به طوری که نتایج استفاده از پایگاه داده همیشه به صورت یکنواخت در نظر گرفته می‌شوند.
لیست P
  • تجزیه (Parse): برای تقسیم داده ها٬ مانند یک رشته٬ به قطعات کوچکتر برای تجزیه و تحلیل.
  • ذخیره‌سازی مداوم (Persistent storage): یک مکان غیرقابل تغییر٬ مانند یک دیسک٬ جایی که داده‌ها پس از فرآیند ایجاد شدن برای ذخیره به پایان می‌رسند.
  • پایتون (Python): یک زبان برنامه نویسی عمومی که بر قابلیت خوانایی بهتر کد تاکید دارد تا برنامه نویسان بتوانند از خطوط کمتری برای بیان مفاهمی استفاده کنند.
لیست R
  • آر (R): یک زبان منبع باز که عمدتا برای تجسم داده ها و تجزیه و تحلیل و پیشبینی استفاده می‌شود.
  • پردازش جریان در زمان واقعی (Real-time stream processing): یک مدل برای تجزیه و تحلیل متوالی داده ها با استفاده از ماشین آلات موازی هرچند که قابلیت ها در این حالت کاهش یافته است.
  • سیستم مدیریت پایگاه داده (Relational database management system (RDBMS)): یک سیستم که مدیریت داده ها٬ ضبط و تجزیه تحلیل آنها را بر اساس ویژگی های مشترک به نام روابط گروه بندی شده انجام می دهد.
  • مجموعه داده های توزیغ یافته شده انعطاف پذیر‌(Resilient distributed dataset): روش اولیه Apache Spart است٬ جایی که داده ها در چندین ماشین در یک روش آماده ذخیره سازی می‌شوند.
لیست S
  • نوع (Shard): یک پارتیشن منحصربفرد از یک پایگاه داده
  • داده هوشمند (Smart data): اطلاعات دیجیتالی که قالب بندی شده اند٬ بنابراین قبل از فرستادن آن به یک پلتفرم سطح پایین برای تثبیت اطلاعات و تجزیه تحلیل اطلاعات٬ می‌توان آن را در یک نقطه‌ی جمع آوری شده عمل مربوطه به آن را انجام داد.
  • پردازش جریان (Stream processing): پردازش اطلاعات در زمان واقعی٬ داده هایی که به طور مداوم به طور همزمان ضبط و پردازش می شوند.
  • داده‌های ساخت یافته (Structured data): اطلاعاتی با درجه بالایی به صورت سازمان یافته.
لیست T
  • طبقه‌بندی (Taxonomy): طبقه بندی داده‌ها بر اساس یک سیستم از پیش تعیین شده با کاتالوگ حاصل٬ برای ارائه یک چهارچوب مفهومی برای دسترسی آسان و بازیابی استفاده می‌شود.
  • تله متری (Telemetry): گرفتن اطلاعات از راه دور از یک جسم (به عنوان مثال از خودرو٬ گوشی هوشمند٬ دستگاه های پزکشی یا دستاگاه های مرتبط با اینترنت اشیاء).
  • تبدیل (Transformation): تبدیل داده ها از یک قالب به قالب دیگر.
لیست U
  • داده‌های بدون ساختار (Unstructured data): داده هایی که مدل تعریف شده ای از قبل را ندارند یا در یک شیء از پیش تعیین شده و سازمان یافته قرار نگرفته اند.
لیست V
  • تجسم (Visualization): فرآیند تجزیه و تحلیل داده ها و بیان آن در قالب خواندن و نمایش٬ مانند شکل گرافیکی یا چارت و نمودار.
لیست Z
  • مناطق (Zones): مناطق مشخص در یک دریاچه داده که برای اهداف اختصاصی و مفیدی تعریف شده اند.

منبع: dzone


<p>کامبیز اسدزاده٬ برنامه‌نویس و کارآفرین حوزه‌ی مهندسی کامپیوتر و فناوری‌های مرتبط با آن است. او موسس شرکت دات‌ویوز و بنیان گذار جامعه برنامه نویسی مدرن استارتاپی ایران بوده و یک توسعه دهنده فول‌اِستَک است و علاقه شدیدی به علوم فیزیک کوآنتومی و فناوری چند سکویی دارد. همچنین او معتقد است که هیچ چیز ارزشمندی آسان به دست نمی آید. تنها راه رسیدن به نتایج خوب و ماندگار، کار و تلاش مستمر است.</p>
اگر این مطلب برای شما مفید بوده آن را با دوستانتان به اشتراک بگذارید:

آخرین بازدید نظرات

تاکنون هیچ نظری از طرف کسی نوشته نشده است !

حروفي را که ميبينيد تايپ کنيد
اضافه کردن نظر