أجهزة الكمبيوترتكنولوجيا المعلومات

رؤية الكمبيوتر الحديثة. المهام وتكنولوجيا الرؤية الكمبيوتر. برمجة رؤية الحاسوب في بيثون

كيفية تعليم كمبيوتر لفهم ما هو مبين في الصورة أو الصور؟ هذا يبدو بسيطا، ولكن لهذا الكمبيوتر هو مجرد مصفوفة تتكون من الآحاد والأصفار والتي تريد استخراج المعلومات الهامة.

ما هي رؤية الكمبيوتر؟ هو القدرة على "رؤية" جهاز الكمبيوتر الخاص بك

الرؤية - تعد مصدرا مهما للمعلومات بالنسبة للشخص استخدامه، نحصل، وفقا لتقديرات مختلفة، 70-90٪ من جميع المعلومات. وبطبيعة الحال، إذا كنا نريد لخلق سيارة ذكية، نحن بحاجة إلى تنفيذ نفس المهارات والكمبيوتر.

يمكن القول إن مشكلة الرؤية الحاسوبية بشكل واضح جدا. ما هو "رؤية"؟ ومن المعلوم أن حيث توجد فقط من خلال النظر. خلصت الاختلافات في الرؤية الحاسوبية ورؤية الإنسان. الرؤية بالنسبة لنا - بل هو مصدر المعرفة حول العالم، وكذلك مصدرا للمعلومات متري - وهذا هو، والقدرة على فهم المسافات والأحجام.

صورة نواة دلالية

وبالنظر إلى الصورة، يمكننا وصف من قبل عدد من الصفات، إذا جاز التعبير، لاستخراج المعلومات الدلالية.

على سبيل المثال، إذا نظرنا إلى هذه الصورة، يمكننا أن نقول أنه في الهواء الطلق. ما هي حركة المرور في المدينة. أن هناك سيارات. يمكننا تخمين أن هذا هو جنوب شرق آسيا على تكوين المبنى والهيروغليفية. صورة ماو تسي تونغ فهم أن هذه هي بكين، وإذا كان أي شخص رأى لقطات فيديو حية أو نفسه كان هناك، سوف تخمين أن هذا هو ميدان تيانانمين الشهيرة.

ماذا يمكننا أن أقول أكثر من ذلك حول الصورة، ورؤية ذلك؟ يمكننا تحديد الكائنات في الصورة، ليقول، أن هناك أشخاصا هنا أقرب - السياج. هنا المظلات والملصقات التي المبنى. هذه أمثلة من الطبقات هي الأشياء الهامة جدا، والتي تشارك في البحث عن لحظة.

لا يزال يمكننا أن نتعلم بعض الميزات أو سمات الكائنات. على سبيل المثال، وهنا يمكننا تحديد أن هذه ليست صورة لالصينيين العاديين، وهي ماو زيدونغ.

ويمكن وفقا للمركبة تحدد أنه من جسم متحرك، وأنه من الصعب، إن لم يكن مشوها أثناء الحركة. حول الأعلام يمكن أن يقال أنه الكائنات، فإنها تتحرك أيضا، ولكنها ليست صعبة، مشوهة باستمرار. وفي المشهد هناك الرياح، والذي يمكن تحديده من خلال تطوير والأعلام، وحتى يمكن تحديد اتجاه الريح، على سبيل المثال، تهب من اليسار إلى اليمين.

المسافات والأطوال في رؤية الكمبيوتر

المهم جدا هو المعلومات متري عن العلم رؤية الكمبيوتر. هذا هو كل أنواع المسافات. على سبيل المثال، لاند روفر يكتسي أهمية خاصة لأن هذه الفرق هي من الأرض حوالي 20 دقيقة وتجيب قدر. وفقا لذلك، على الرابط هناك والعودة - 40 دقيقة. وإذا كان لنا أن وضع خطة لأوامر حركة الأرض، فعليك أن تأخذ هذا في الاعتبار.

بنجاح دمج التكنولوجيا من رؤية الكمبيوتر في ألعاب الفيديو. ووفقا للفيديو، يمكنك بناء نماذج ثلاثية الأبعاد للأجسام، والناس، والصور على يمكن للمستخدم استعادة نماذج ثلاثية الأبعاد للمدن. ومن ثم المشي عليها.

رؤية الكمبيوتر - مجموعة واسعة إلى حد ما. وتتشابك بشكل وثيق مع غيرها من العلوم المختلفة. جزء من رؤية الكمبيوتر انه يجسد منطقة معالجة الصور وتخصص في بعض الأحيان رؤية الكمبيوتر، من الناحية التاريخية.

التحليل والتعرف على الأنماط - المسار إلى خلق بالذكاء الخارق

دعونا نفحص هذه المفاهيم بشكل منفصل.

معالجة الصور - وهذا هو مساحة من الخوارزميات، والتي المدخلات والمخرجات - صورة، ولدينا له القيام بشيء ما.

تحليل الصور - هو مجال الرؤية الكمبيوتر، والتي تركز على العمل مع صورة ثنائية الأبعاد وجعل استنتاجات من هذا.

التعرف على الأنماط - الانضباط الرياضي المجرد الذي يعترف البيانات في شكل النواقل. وهذا هو، عند مدخل - النواقل ولدينا شيء لتفعله حيال ذلك. أين متجه هو، نحن لسنا المهم جدا أن نعرف.

رؤية الكمبيوتر - كان في الأصل لاستعادة هيكل من الصور ثنائية الأبعاد. اليوم أصبح هذا المجال أوسع ويمكن أن تفسر على أنها قبول جميع الأشياء المادية القرارات، استنادا إلى صورة. وهذا هو، فإن مهمة الذكاء الاصطناعي.

بالتوازي مع رؤية الكمبيوتر في حقل مختلف تماما، في الجيوديسيا، تطورت التصويري - قياس المسافة بين الكائنات على الصور ثنائية الأبعاد.

الروبوتات يمكن أن "رؤية"

وأخيرا - وهذا هو رؤية الجهاز. تحت رؤية الجهاز يعني رؤية من الروبوتات. هذا هو قرار بعض مشاكل الإنتاج. يمكننا ان نقول ان رؤية الكمبيوتر - هو علم واحد كبير. فهو يجمع بين بعض من الجزء العلوم الأخرى. وعندما يحصل على رؤية الكمبيوتر أي تطبيق معين، فإنه يتحول إلى آلة الرؤية.

المنطقة رؤية الكمبيوتر لديه كتلة من التطبيقات العملية. ويرتبط هذا مع أتمتة الإنتاج. في المؤسسات تصبح أكثر كفاءة لتحل محل العمل اليدوي من قبل الجهاز. الجهاز لا تتعب، لا تنام، وقالت انها جدول العمل غير المنظم، وقالت انها مستعدة للعمل 365 يوما في السنة. لذلك، وذلك باستخدام آلة العمل، يمكن أن نحصل على نتيجة مضمونة في وقت معين، وأنها مثيرة للاهتمام للغاية. كل المهام لها استخدام واضح لأنظمة الرؤية الكمبيوتر. وليس هناك شيء أفضل من أن نرى النتائج على الفور على الصورة فقط في مرحلة الحساب.

على أعتاب عالم الذكاء الاصطناعي

بالإضافة إلى منطقة - فإنه من الصعب! جزء كبير من الدماغ المسؤولة عن الرؤية، ويعتقد أنه إذا كنت تعلم الكمبيوتر إلى "رؤية"، وهذا هو، كامل الرؤية استخدام الكمبيوتر، فإنه هو واحد من أهداف الذكاء الاصطناعي الكامل. اذا كنا نستطيع حل المشكلة على المستوى الإنساني، وعلى الأرجح في نفس الوقت، فإننا سوف تحل مشكلة AI. هذا أمر جيد جدا! أو ليست جيدة جدا، وإذا نظرتم، "المدمر 2".

لماذا هو رؤية - من الصعب؟ لأن الصورة من نفس الكائن يمكن أن تختلف اختلافا كبيرا تبعا لعوامل خارجية. اعتمادا على الكائن من نقاط المراقبة تبدو مختلفة.

على سبيل المثال، واحد ونفس الرقم، واتخذت من زوايا مختلفة. وما هو الأكثر إثارة للاهتمام في هذا الرقم قد يكون عين واحدة، عينان ونصف. واعتمادا على السياق (إذا كان هذا صورة رجل يرتدي قميصا مع عيون رسمت)، والعين يمكن أن يكون أكثر من اثنين.

الكمبيوتر لا يزال لا يفهم، لكنه "يرى"

وثمة عامل آخر يجعل من الصعب - انها الإضاءة. ونفس المشهد مع الإضاءة المختلفة تبدو مختلفة. حجم الجسم يمكن أن تختلف. وعلاوة على ذلك، الكائنات من أي فئة. كيف يمكنك أن تقول عن الرجل الذي له ارتفاع 2 متر؟ لا شيء. النمو البشري، وربما يكون 2.3 متر، و 80 سم. كما هو الحال مع أنواع أخرى من الكائنات، ومع ذلك، هي كائنات من نفس الفئة.

ولا سيما كائنات الحية تخضع لمجموعة متنوعة من السلالات. شعر الناس، والرياضيين، والحيوانات. إلقاء نظرة على الصور من الخيول تشغيل، وتحديد ما يحدث مع بدة والذيل من المستحيل بكل بساطة. A كائنات متداخلة في الصورة؟ إذا كنت يشق صورة الكمبيوتر، حتى الآلة أقوى تجد صعوبة في إعطاء القرار الصحيح.

عرض القادم - انها تمويه. بعض الكائنات والحيوانات المتخفية بأقنعة البيئة، وبمهارة تماما. ونفس البقع والتلوين. ومع ذلك، فإننا نرى منهم، وإن لم يكن دائما من بعيد.

مشكلة أخرى - الحركة. الأجسام في الحركة لا يمكن تصورها تخضع تشوه.

العديد من الكائنات هي متغيرة جدا. هنا، على سبيل المثال، في الصورتين أدناه الكائنات من "كرسي".

وعلى هذا يمكنك الجلوس. ولكن لتعليم آلة، مثل أن أشياء مختلفة في الشكل واللون، المادة، كل ما هو كائن "كرسي" - من الصعب جدا. هذا هو التحدي. لدمج أساليب رؤية الكمبيوتر - هو تعليم آلة لفهم وتحليل والتكهن.

تكامل رؤية الكمبيوتر في مختلف المنابر

بدأت كتلة رؤية الكمبيوتر لاختراق أكثر في عام 2001، عندما أنشأ أول كاشف الوجه. نحن جعلت اثنين من الكتاب: فيولا، جونز. وكانت هذه أول خوارزمية سريعة وموثوق بها بما فيه الكفاية، الأمر الذي يدل على قوة وسائل تعلم الآلة.

الآن رؤية الكمبيوتر لديها ما يكفي من التطبيقات العملية الجديدة - الاعتراف الوجه الإنساني.

ولكن الاعتراف الرجل كما في الأفلام - في زوايا عشوائية، وظروف الإضاءة المختلفة - أنه من المستحيل. لكن من أجل حل المشكلة، أو واحد وهذا مختلف الناس مع الإضاءة المختلفة أو في وقفة مختلفة، على غرار كما في الصورة في جواز السفر، فمن الممكن مع وجود درجة عالية من الثقة.

متطلبات صورة جواز السفر يرجع إلى حد كبير إلى ميزة خوارزميات التعرف على الوجوه.

على سبيل المثال، إذا كان لديك جواز سفر إلكتروني، في بعض المطارات الحديثة، يمكنك استخدام نظام مراقبة الجوازات التلقائي.

المشكلة التي لم تحل من رؤية الكمبيوتر - القدرة على التعرف على أي نص

ربما شخص ما تستخدم نظام OCR. واحدة من هذه - قارئ الجميلة، تحظى بشعبية كبيرة في نظام RuNet. هناك العديد من الأشكال حيث كنت في ملء البيانات، يتم فحص أنها تماما، يتم تسجيل المعلومات من قبل النظام بشكل جيد جدا. ولكن مع أي نص في صورة الوضع أسوأ من ذلك بكثير. هذه المشكلة لا تزال دون حل.

الألعاب التي تنطوي على رؤية الكمبيوتر، والتقاط الحركة

مساحة كبيرة منفصلة - هو إنشاء نماذج ثلاثية الأبعاد والتقاط الحركة (والتي يتم تنفيذها بنجاح كبير في ألعاب الكمبيوتر). البرنامج الأول، والذي يستخدم رؤية الكمبيوتر - نظام التفاعل مع الكمبيوتر باستخدام الإيماءات. عندما أنشئت من أجلها كان هناك الكثير من الامور مفتوحة.

تم تصميم خوارزمية بكل بساطة، ولكن لتكوين استغرق الأمر إلى إنشاء مولد الصور الاصطناعية من الناس للحصول على مليون الصور. العملاق معهم لاختيار المعلمات من الخوارزمية، والذي كان يعمل الآن بشكل جيد.

هذا هو مليون صورة وفي الاسبوع زمن العملاق معدود من الممكن لخلق الخوارزمية التي تستهلك 12٪ من قدرة معالج واحد ويسمح للشخص على إدراك الموقف في الوقت الحقيقي. هذا النظام Kinect مايكروسوفت (2010).

البحث عن الصور عن طريق محتوى يسمح لك لتحميل الصور على النظام، وسوف نتائج ذلك إعطاء كل الصور بنفس المحتوى ومصنوعة من نفس الزاوية.

وتبذل حاليا ثلاثية الأبعاد وخرائط ثنائية الأبعاد معها: أمثلة من رؤية الكمبيوتر. يتم تحديث الخرائط للسيارات الملاحة بانتظام وفقا لDVR.

هناك قاعدة البيانات مع المليارات من الصور مضاف إليها علامات جغرافية. عن طريق تحميل الصورة في قاعدة البيانات، يمكنك تحديد مكان صدر فيه، وحتى مع بعض وجهات النظر. وبطبيعة الحال، شريطة أن يكون المكان شعبية يكفي أن في وقت واحد السياح وجعلت كانت عدد من الصور للمنطقة هناك.

الروبوتات في كل مكان

الروبوتات في الوقت الحاضر، في كل مكان، وبدون ذلك بأي شكل من الأشكال. الآن هناك المركبات التي تحتوي على كاميرات خاصة التي تعترف المشاة وإشارات الطرق لنقل الأوامر إلى سائق (هذا في طريقة برنامج كمبيوتر لمشاهدة، ويساعد السائق). وهناك مركبات الآلية مؤتمتة بالكامل، لكنها لا يمكن الاعتماد فقط على نظام كاميرا الفيديو من دون استخدام كمية كبيرة من المعلومات الإضافية.

الكاميرا الحديثة - وهذا هو غرفة مظلمة التناظرية

دعونا نتحدث عن الصورة الرقمية. يتم ترتيب الكاميرات الرقمية الحديثة على مبدأ مظلمة الكاميرا. بدلا من ذلك فقط من خلال ثقب الضوء الذي يدخل شعاع والمتوقعة على الجدار الخلفي للغرفة من دائرة الموضوع، لدينا نظام بصري خاص يسمى العدسة. هدفها هو جمع شعاع ضوء كبير وتحويله بحيث مرت كل أشعة من خلال نقطة افتراضية من أجل الحصول على الإسقاط وتشكيل صورة على فيلم أو المصفوفة.

الكاميرات الرقمية الحديثة (المصفوفة) ويتكون من العناصر الفردية - بكسل. كل بكسل يمكن قياس الطاقة من الضوء الذي هو الحادث على مجموع بكسل، وإصدار عدد ناتج واحد. ولذلك، في الكاميرا الرقمية، وحصلنا على بدلا من القياسات مجموعة ضوء سطوع الصورة، واشتعلت في بكسل واحد - الكمبيوتر مجال الرؤية. لذلك، عندما نرى صورة لا تتدفق خطوط وملامح واضحة، وشبكة من المربعات الملونة بألوان مختلفة - بكسل.

دون أن ترى أول صورة رقمية في العالم.

ولكن في هذه الصورة لا؟ اللون. ما هو اللون؟

الإدراك النفسي اللون

اللون - وهذا هو ما نراه. ولون واحد ونفس الشيء بالنسبة للبشر والقطط تكون مختلفة. وبما أننا (البشر) ونظام بصري الحيوان - رؤية مختلفة. ولذلك، فإن اللون - انها نوعية النفسية رؤيتنا الذي يحدث عند رصد الأجسام والضوء. وليس خاصية فيزيائية للجسم وضوء. اللون - هو نتيجة للتفاعل بين المكونات الخفيفة، والمشهد من النظام البصري لدينا.

برمجة رؤية الحاسوب في بيثون باستخدام مكتبات

إذا كنت قد قررت الانخراط بجدية في دراسة رؤية الكمبيوتر، يجب تحضير فورا لعدد من الصعوبات، وهذا العلم ليس أسهل ويخفي عدد من المزالق. ولكن "برمجة الحاسوب الرؤية على بايثون" من تأليف يان إيريك سوليما - وهو الكتاب الذي يحدد كل لغة أبسط. هنا سوف تعرف على طرق الاعتراف الكائنات المختلفة في 3D، وتعلم كيفية العمل مع صورة مجسمة، الواقع الافتراضي والعديد من التطبيقات الأخرى من رؤية الكمبيوتر. في الكتاب أمثلة كافية في بيثون. ولكن يتم تقديم التفسيرات، إذا جاز التعبير، معمم، حتى لا تفرط الكثير من البحوث والبيانات الصعبة. عمل مناسبة للطلاب وهواة، والمتحمسين. تحميل هذا الكتاب وغيرهم عن رؤية الكمبيوتر (قوات الدفاع الشعبي الشكل) يمكن أن يكون في الشبكة.

في هذه اللحظة، هناك مكتبة مفتوحة المصدر من خوارزميات الرؤية الحاسوبية ومعالجة الصور والخوارزميات العددية مكتبة برمجية مفتوحة للرؤية الحاسوبية. ويتم تنفيذ ذلك على معظم لغات البرمجة الحديثة، وهو مفتوح المصدر. إذا كنا نتحدث عن رؤية الكمبيوتر، ويستخدم بيثون كلغة برمجة، كما أن لديها دعم من المكتبة، بالإضافة إلى ذلك، فمن تتطور باستمرار ولديها مجتمع كبير.

شركة "مايكروسوفت" توفر خدماتها API-قادرة على تدريب الشبكة العصبية للعمل مع الصور من الناس. وهناك أيضا الفرصة لتطبيق رؤية الكمبيوتر، ويستخدم بيثون كلغة برمجة.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 ar.delachieve.com. Theme powered by WordPress.