گوگل کلود ویژن Google Cloud Vision
تحقیقات و مطالعات درباره بینایی کامپیوتر یا همان کامپیوتر ویژن، که در واقع فناوری تشخیص تصاویر است، در اوایل دهه 1960 آغاز شد. رفته رفته پیشرفتهای زیادی در این حوزه حاصل شد و در سالیان اخیر گوگل توانست به لطف هوش مصنوعی و Machine Learning از گوگل کلود ویژن رونمایی کند.
در واقع Google Cloud Vision همان بخشی در گوگل است که توانایی تشخیص تصاویر را دارد. به بیانی دیگر، گوگل به کمک این ابزار نه تنها تفاوت بین تصویر مرد و زن، گربه و سگ، قایق و هواپیما را تشخیص میدهد، بلکه این توانایی را دارد که حتی تشخیص دهد آیا فردی که در تصویر است، غمگین است یا خوشحال، یا اینکه آیا این تصویر برای جستجوی ایمن گوگل مناسب است یا خیر؟ نکته دیگری که باید به آن توجه داشته باشید این است که الگوریتم های گوگل از این قابلیت استفاده میکنند و به همین دلیل هیچ وقت تصاویر تکراری در قسمت Imageهای سرپ گوگل نمایش داده نمیشود.
گوگل کلود ویژن چگونه کار میکند؟
همانطور که گفته شد، این ابزار از هوش مصنوعی و Machine Learning برای شناسایی و تشخیص تصویر استفاده میکند. گوگل ویژن دیتاها و اطلاعات بسیار زیادی که در اختیار دارد و به نوعی آموزشهایی که قبلا به او داده شده را به کار میگیرد. سپس تصاویر را به هزاران دسته طبقهبندی میکند تا از روی اشیاء، مکانها و چهرهها نتیجهگیری کند و در نهایت نتیجه نهایی را با اطمینان ارائه دهد.
امروزه توسعهدهندگان و برنامهنویسان میتوانند از Google Cloud Vision API استفاده کنند و قابلیت تشخیص تصاویر را به نرمافزار خود اضافه کنند. برای مثال برخی از قابلیتهایی که این ابزار در اختیار برنامهنویسان قرار میدهد عبارت است از:
شناسایی برچسب و موجودیت عکس
این قابلیت، باعث میشود نرمافزارها بتوانند شئ اصلی درون یک تصویر را شناسایی کنند. این موضوع میتواند برای ساخت و ایجاد بیگ دیتا در کاتالوگ تصاویر سایتهای بزرگ استفاده شود. همچنین به کمک این ویژگی، امکانی جستجو مبتنی بر تصاویر هم فراهم میشود.
توانایی تشخیص برچسب، با توجه به اینکه قبلا روی تصاویر بسیار زیادی امتحان شده است، میتواند به تصاویر یا ویدئوها، معنای خاصی را منتقل کند. برچسبها از بین هزاران دستهبندی که در یک تصویر وجود دارد انتخاب میشوند و در نهایت به نمودار رسمی دانش گوگل، اطلاعاتی را اضافه میکنند. بنابراین، این موضوع امکان طبقهبندی تصاویر و افزایش تحلیل معنایی، درک و استدلال نرمافزارها از تصاویر را فراهم میکند.
تشخیص نوری کاراکتر یا OCR
کلمه OCR مخفف عبارت (Optical Character Recognition) میباشد که به معنی تشخیص نوری کاراکتر است. این ویژگی در واقع برای برای درک متن موجود در یک تصویر استفاده میشود. اما نکتهای حائز اهمیت در مورد ویژگی OCR این است که به گوگل کلود ویژن کمک میکند تا به صورت خودکار و اتوماتیک، طیف گستردهای از زبانهای مختلف را در تصاویر شناسایی کند.
متن دستنویس و کپچا چطور؟
ظاهرا این ابزار هنوز به قدری با قدرت نیست که بتواند تمامی کلمات موجود در یک متن دستنویس را تشخیص دهد، اما قطعا به بسیاری از ما کمک خواهد کرد. اما اصولا برای متنهای موجود در اسناد دیجیتال، تجزیه و تحلیل قابل قبولی دارد و میتواند این متون را طبقهبندی کند. همچنین برای تشخیص کپچا، این ابزار کار بسیار سختی دارد.
تشخیص جستجوی ایمن
این بخش به گوگل و توسعه دهندگان کمک میکند تا محتوای نامناسب را در یک تصویر دریافت کنند و به نوعی برای جمعآوری محتوا مناسب است.
تشخیص چهره
به کمک این ویژگی، بخشهای مختلف چهرهها در یک تصویر انتخاب و بررسی میشوند. در نهایت قابلیت تشخیص چهره به گوگل و سایر نرمافزارهایی که از API آن استفاده میکنند، بسیار مهم و حائز اهمیت است. همچنین این قابلیت توانایی تشخیص احساسات را از طریق چهره افراد دارد، که برای موضوعات مختلفی کاربرد و اهمیت دارد.
تشخیص نقطه عطف
گوگل کلود ویژن، طول و عرض جغرافیایی تصویر را به همراه نقطه عطف آن تصویر شناسایی و در اختیار برنامهنویسان قرار میدهد.
تشخیص لوگو
این ویژگی همانطور که از نامش پیداست، امکان تشخیص لوگو محصولات و برندهای مختلفی که در یک تصویر هستند را فراهم میکند.
چرا و چگونه باید از گوگل کلود ویژن استفاده کنیم؟
به طور کلی گزینههای بسیار زیادی برای Vision API وجود دارد، اما توصیه ما در آکادمی رایاپارس این است که از Google Vision API استفاده نمایید. احتمالا میدانید که گوگل میزبان بسیاری از APIهای هوش مصنوعی، از جمله پردازش زبان ماشین طبیعی، تشخیص صدا، یاگیری عمیق و بینایی است. ابزار بینایی گوگل به سایتها و برنامههای شما این امکان را میدهد تا آن چیزی که در یک تصویر وجود دارد را درک کنند.
این ابزار محتوا را به دستههایی طبقهبندی میکند و هر چیزی را که میبیند به نوعی برچسب گذاری میکند. میتوانید از آن برای تعامل هوشمندانه در مورد ورودی دوربین در AR یا برنامههای ویدیویی استفاده کنید. شما میتوانید ابزارهایی را برای کمک به افرادی که دارای اختلال بینایی هستند ایجاد کنید. میتوانید دستیارهایی برای کمک به شناسایی ساختمانها یا مکانهای دیدنی گردشگران ایجاد کنید. به طور کلی امکانات فراوانی در این قابلیت گوگل وجود دارد که میتوانید از آنها در نرمافزار یا وبسایت خود استفاده کنید. برای اینکار کافیست مراحل زیر را طی کنید.
1. راه اندازی یک پروژه کلود
اگر قبلا از APIهای گوگل استفاده کرده باشید، با برخی از این مراحل اولیه آشنایی دارید. مانند سایر سرویسهای گوگل، ابتدا باید یک پروژه ابری ایجاد کنید. کافیست به آدرس https://console.cloud.google.com/ مراجعه کنید و یک پروژه جدید ایجاد کنید یا یکی از پروژههایی که قبلا ایجاد کردهاید را انتخاب کنید. همچنین مانند بسیاری از سرویسهای کمپانی گوگل، این سرویس هم رایگان است. اما اگر درخواستهای API زیادی داشته باشید، باید برای آن هزینهای را پرداخت کنید.
ممکن است لازم باشد در زمان فعالسازی API، لازم باشد تا اطلاعات صورت حساب را وارد کنید، اما اگر حجم درخواستهای شما کم باشد، هزینهای بابت آن دریافت نمیشود و میتوانید پس از انجام آزمایش، سرویسهای خود را حذف کنید.
2. فعال سازی Cloud Vision API
کتابخانه APIها را بررسی کنید و گزینه Cloud Vision API را برای پروژههای خود انتخاب کنید. دقت داشته باشید که پس از فعالسازی، حتما باید یک علامت سبز رنگ و پیغام "API Enabled" را در کنار آن مشاهده کنید.
3. ایجاد یک سرویس اکانت
در سومین مرحله باید یک سرویس اکانت راهاندازی کنید. به API به عنوان یک وب سرویس که در حال ایجاد آن هستید نگاه کنید. با توجه به اینکه میخواهیم استفاده از آن را مانند یک وب سرویس معمولی تنظیم کنیم، این بهترین روش است. همچنین بهترین عملکرد را با جریان احراز هویت دارد.
4. دانلود Private Key
زمانی که یک پروژه با API فعال کنید و یک سرویس اکانت دارید، میتوانید Private Key خود را به عنوان یک فایل JSON دانلود کنید. دقت داشته باشید که مکان و مسیر فایل را حتما در جایی نگهدارید، یا حداقل آن را به خاطر بسپارید تا در مراحل بعدی بتوانید از آن استفاده نمایید.
چنانچه در چند مرحله ابتدایی مشکلی داشتید، یک راهنمای شروع سریع وجود دارد که به شما کمک میکند تا بتوانید کلید JSON خود را دانلود کنید و این مراحل را به پایان برسانید.
5. تنظیم متغیر محیطی
شما باید متغیر محیطی GOOGLE_APPLICATION_CREDENTIALS را تنظیم کنید تا بتوان با تماسهای API ما به آن دسترسی داشت. این متغیر به فایل JSON اشاره میکند که به تازگی آن را دانلود کردید، و باعث میشود که مجبور نباشید هربار مسیر را تایپ کنید.
یک پنجره ترمینال جدید باز کنید و از دستور صادرات مانند زیر استفاده کنید:
export GOOGLE_APPLICATION_CREDENTIALS="/Users/[username]/Downloads/[file name].json"
نام کاربری خود را جایگزین [username] کنید، سپس از مسیر فایل Private Key که ذخیره کردهاید اطمینان حاصل کنید که به درستی وارد شده است. در مرحله بعدی [filename] را با نام فایل کلید خصوصی خود جایگزین کنید از مسیر فایل خود استفاده نمایید.
برای ویندوز هم میتوانید همین مراحل را از طریق خط فرمان انجام دهید، اما دستورات آن مطابق دستورات زیر است:
$env:GOOGLE_APPLICATION_CREDENTIALS="C:Users[username]Downloads[FILE_NAME].json"
نکته: اگر پنجره ترمینال خود را ببندید، ممکن است لازم باشد دوباره آن را اجرا کنید تا مجددا متغیر خود را تنظیم کنید.
6. تماس با API
پس از تنظیم متغیر، شما آماده این هستید تا در Cloud Vision API جستجو کنید. از curl برای انجام آزمایشهای سریع API استفاده کنید. همچنین شما میتوانید از این روش برای کدهای خود نیز استفاده کنید. درخواستهای curl را میتوان در اکثر زبانها مانند PHP، پایتون Node نیز انجام دهید.
به این ترتیب میتوانید تماسها را مستقیما در خط فرمان برقرار کنید، یا نتیجه را به متغیری به زبان مدنظر خود اختصاص دهید.
7. نصب کتابخانه کلاینت
در مرحله بعد باید یک برنامه ساده مبتنی بر وب ایجاد کنید تا نحوه ادغام API در پروژههای خود را تست کنید. تعدادی SDK به زبانهای مختلف وجود دارد که میتوانید از آنها برای آسانتر کردن ادغام استفاده کنید. در صورتی که قصد دارید SDK مدنظر خود را پیدا کنید، به آدرس https://cloud.google.com/vision/docs/libraries مراجعه نمایید.
8. ایجاد یک فایل جدید
در این مثال ما با زبان PHP کار میکنیم، بنابراین باید یک فایل PHP جدید در پوشه پروژه خود ایجاد کنید. آن را هر طور که باب میل خودتان است تنظیم کنید، اما یک فرم HTML سایده برای آپلود تصاویر به آن اضافه کنید تا بتوانید تست خود را انجام دهید.
9. ذخیره کردن تصویر
در صورتی که قصد دارید از تصاویر به صورت آنلاین یا تصاویر موجود روی سیستم خود استفاده کنید، میتوانید از این مرحله رد شوید. اما اگر میخواهید تصاویری که انتخاب میکنید پردازش شوند، این قطعه کد را اضافه کنید تا تصاویر انتخاب شده، ذخیره شوند.
// save image$filepath = $_FILES["file"]["name"];if(move_uploaded_file($_FILES["file"]["tmp_name"], $filepath)) { echo "<p><img src=".$filepath." style='width:400px; height:auto;' /></p>";} else { echo "Error !!";}
10. اضافه کردن متغیر محیطی
در این مرحله برای احراز هویت لازم است متغیر GOOGLE_APPLICATION_CREDENTIALS را تنظیم نمایید. در PHP از دستور putenv برای تنظیم یک متغیر محیطی (environment variable) استفاده میکنیم. برای این کار کافیست از قطعه کد زیر، در کدهای PHP خود استفاده کنید.
putenv('GOOGLE_APPLICATION_CREDENTIALS=/Users/richardmattka/Downloads/Vision Tutorial 1-0f464a9a0f7b.json');
دقت داشته باشید که مسیر و نام فایل را باید به Private Key خصوصی که همان فایل JSON است، تغییر دهید.
11. Include کردن کتابخانه
کتابخانه را اضافه نمایید و کلاس LanguageClient را در کد خود مقداردهی کنید. در ادامه از این کد استفاده کنید:
require __DIR__ . '/vendor/autoload.php';use GoogleCloudVisionV1ImageAnnotatorClient;$projectId = 'vision-tutorial-1';$imageAnnotator = new ImageAnnotatorClient([ 'projectId' => $projectId]);
سپس ImageAnnotatorClient را Import کنید تا بتوانید از کلاس استفاده نمایید.
12. تجزیه و تحلیل محتوای تصویر
شروع به ارسال تصویر به API برای تجزیه و تحلیل کنید. فعلا نتیجه را به صورت JSON روی صفحه نمایش خواهید داد، اما در عمل میتوانید نتایج را ارزیابی کرده و به هر نحوی که میخواهید از آنها استفاده کنید.
13. تشخیص چهره
مثال سریع دیگری از قدرت این API در تابع faceDetection نهفته است. دادههای احساسی و همچنین اطلاعات مکان از جایی که در تصویر چهرهها هستند، مشخص میشود.
کلام آخر
گوگل کلود ویژن یکی از مواردی است که امروزه کمپانی گوگل توانسته به کمک تکنولوژیهای Machine Learning و هوش مصنوعی، از آن استفاده کند و به تجزیه و تحلیل تصاویر بپردازد. گوگل APIهای خود را برای این ابزار به برنامه نویسان ارائه میدهد تا آنها هم بتوانند در وبسایتها و نرمافزارهای خود، از این سرویس استفاده کنند. در نهایت در صورتی که به دنبال آموزش سئو هستید، توصیه میکنیم حتما اطلاعات خود را در خصوص سئو تصاویر تکمیل کنید.
نظر خود را بگذارید