EIRIC ±¤Àå
ÇöÀ帮Æ÷Æ®

Æ®À§ÅÍ °øÀ¯

ÆäÀ̽ººÏ °øÀ¯

The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2023 (ÀÌÇÏ CVPR)Àº 18³â° °³ÃÖµÈ ÇÐȸ·Î, ÄÄÇ»ÅÍ ºñÀü ºÐ¾ß¿¡¼­ ¼¼°è ÃÖ°íÀÇ ±ÇÀ§¸¦ °¡Áö°í ÀÖ´Â ÇÐȸÀÌ´Ù. ¿ÃÇش ij³ª´Ù º¥Äí¹ö¿¡¼­ 6¿ù 18ÀϺÎÅÍ 22ÀϱîÁö ÃÑ 5ÀÏ°£ ÁøÇàµÇ¾úÀ¸¸ç, ¾à 2400ÆíÀÇ ³í¹®ÀÌ ¹ßÇ¥µÇ¾ú´Ù. ÄÄÇ»ÅÍ ºñÀü Àü¹® ÇÐȸ¶ó´Â ¸í¼º¿¡ °É¸Â°Ô action recognition, video retrieval, image classification, motion generation µî ´ë´Ù¼öÀÇ ÄÄÇ»ÅÍ ºñÀü ºÐ¾ßÀÇ ³í¹®µéÀÌ °ñ°í·ç ¹ßÇ¥µÇ¾úÀ¸¸ç, ÇØ´ç ºÐ¾ß¿¡¼­ ¶Ù¾î³­ ¿¬±¸ÀÚ¸¦ ±¸ÀÎÇÏ´Â apple, amazon, Çö´ë µî À¯¼ö ´ë±â¾÷µéÀÌ ½ºÆù¼­·Î Âü¼®ÇÏ¿´´Ù. ¶ÇÇÑ, Andrew Wang°ú °°Àº ¼¼°èÀûÀÎ AI ´ë°¡µéµµ Âü¼®ÇÏ¿© ÇÐȸ¿¡ ´ëÇÑ ³ôÀº °ü½ÉÀ» ¾Ë ¼ö ÀÖ¾ú´Ù. ´ëºÎºÐÀÇ ¼¼¼ÇÀÌ ¿ÀÇÁ¶óÀÎÀ¸·Î ÁøÇàµÇ¾úÀ¸¸ç ÇÐȸ Âü¼®ÀÚµéÀÇ Ä¿¹Â´ÏÄÉÀ̼ÇÀ» À§ÇÑ banquet µî ¸¹Àº ÀÚ¸®°¡ Á¦°øµÊ¿¡ µû¶ó, ¹ßÇ¥ ½Ã°£°ú ´õºÒ¾î, ÀÚÀ¯·ÎÀÌ Áú¹® ¹× Åä·ÐÀ» ÇÒ ¼ö Àִ ȯ°æÀÌ °®Ãß¾îÁ® ÀÖ¾ú´Ù. 


CVPRÀº IEEE¿Í CVFÀÇ °øµ¿ ÇÐȸ·Î¼­, ÄÄÇ»ÅÍ ºñÀü ºÐ¾ßÀÇ ³í¹®µéÀÌ ¹ßÇ¥µÇ¾úÀ½¿¡ µû¶ó, ÇÊÀÚ°¡ ¿¬±¸ÇÏ´Â ºÐ¾ß¿Í °ü·ÃµÈ ¿¬±¸¸¦ ¸¹ÀÌ Á¢ÇÒ ¼ö ÀÖ¾ú´Ù. ±× Áß text-video-audio µî ¿©·¯ µ¥ÀÌÅÍ Çü½Ä¿¡ ±¸¾Ö ¹ÞÁö ¾Ê°í ÇÑ ¹ø¿¡ ÇнÀ ¹× »ç¿ëÀ» ÇÏ´Â multimodality ¿¬±¸°¡ »ó´çÈ÷ ¸¹ÀÌ ¹ßÇ¥µÇ¾ú°í, °³ÀÎÀûÀ¸·Î´Â ±× Áß Text to Video Retrieval task¿¡ °ü·ÃÇÑ ¾Æ·¡ µÎ ¹ßÇ¥°¡ Àλó±í¾ú´Ù.


ù ¹ø°´Â Poster ¼¼¼ÇÀÌÀÚ Highlight¸¦ ¹ÞÀº¡ºVideo-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning¡» (ÀÌÇÏ HBI) ÀÌ´Ù. ÇØ´ç ³í¹®Àº Text to Video Retrieval task Áß Ã¹ ¹ø°·Î ¡°°­È­ ÇнÀ¡±ÀÇ ¹æ¹ýÀ» Àû¿ë½ÃÅ°¸ç, °æÁ¦ÇÐ µî¿¡¼­ »ç¿ëµÇ´Â Game theory¸¦ ÀΰøÁö´É ¸ðµ¨¿¡ Àû¿ë½ÃŲ ³í¹®ÀÌ´Ù. °°Àº ºÐ¾ß¸¦ ¿¬±¸ÇÏ´Â ¿¬±¸Àڷμ­, ÀΰøÁö´É ¸ðµ¨À» ÇнÀ½ÃÅ°±â À§ÇØ ´Ù¾ç¼ºÀ» Ãß°¡½ÃÄÑÁÖ´Â ¡°ÀϹÝÀûÀΡ± ¹æ¹ý¸¸À» °í½ÉÇÏ°í ÀÖ¾ú´Âµ¥, ÀÌ·¸°Ô »çȸ Çö»ó¿¡¼­ »ç¿ëµÇ´Â ¹æ¹ýÀ¸·Îµµ ¸ðµ¨ÀÌ Àß ÀÛµ¿ÇÒ ¼ö ÀÖ´Â »ç·Ê¸¦ º½À¸·Î½á, ¿¬±¸¿¡ ´ëÇÑ ½Ã¾ß°¡ Á¶±Ý ´õ ³Ð¾îÁú ¼ö ÀÖ¾ú´Ù.


µÎ ¹ø°·Î Àλó ±í¾ú´ø ¿¬±¸´Â ¸¶Âù°¡Áö·Î Highlight¸¦ ¹ÞÀº ¡ºCap4Video: What Can Auxiliary Caption Do for Text-Video Retrieval?¡»(ÀÌÇÏ Cap4Video)ÀÌ´Ù. º» ¿¬±¸´Â »ç½Ç ´Ù¸¥ ¹æÇâÀ¸·Î Àλó ±í¾ú´Âµ¥, ¿¬±¸ ÀÚü°¡ Å©°Ô Novelty°¡ ÀÖÁö ¾Ê¾Ò´Ù. º» ÇÐȸ´Â »ç½Ç ÀΰøÁö´É ¿¬±¸ÀÚ¶ó¸é ¸ð¸¦ ¼ö°¡ ¾øÀ» Á¤µµ·Î ³ôÀº À§»óÀ» °¡Áö°í ÀÖ´Â ÇÐȸÀÌ´Ù. ÀÌ¿¡ µû¶ó »óÀ§ 5% ³»¿Ü¿¡ ÁÖ¾îÁö´Â Highlight´Â ¸¹Àº ¿¬±¸ÀÚµéÀÌ ÁýÁßÇÏ´Â ¿¬±¸Àε¥, ÇØ´ç ¿¬±¸ÀÇ °æ¿ì ´Ü¼øÈ÷ ¡°modality gapÀ» ÇØ°áÇϱâ À§ÇØ GPT-2¸¦ »ç¿ëÇؼ­ Á» ´õ ÁÁÀº °á°ú¸¦ ¾òµµ·Ï ½ÃµµÇß´Ù.¡±¶ó´Â °ÍÀÌ ÁÖ¿ä ³»¿ëÀ̾ú±â ¶§¹®¿¡ °³ÀÎÀûÀ¸·Î´Â ÀÌ·± ³í¹® Á¶Â÷µµ Highlight¸¦ ¹ÞÀ» ¼ö Àִ°¡? ¶ó´Â Àǹ®ÀÌ »ý°å´Ù.

ÀÌ¿Ü¿¡µµ ÁÁÀº ³í¹®µéÀÌ ¸¹ÀÌ ÀÖ¾úÁö¸¸, »ç½Ç À̹ø CVPR¿¡ ij³ª´Ù¿¡¼­ Áß±¹Àο¡°Ô ºñÀÚ¸¦ ³» ÁÖÁö ¾Ê´Â »çÅ°¡ ¹ß»ýÇÏ¿© ¸¹Àº Áß±¹ÀÎ ÀúÀÚµéÀÌ Âü¼®ÇÏÁö ¸øÇÏ¿´´Ù. ÀÌ¿¡ µû¶ó ½ÇÁ¦·Î ³»°¡ °¡Àå ±â´ëÇÏ°í ÁýÁßÇß´ø ¿©·¯ ³í¹®µé¿¡ ´ëÇؼ­´Â ÀúÀÚ¿Í ½ÇÁ¦·Î ´ëÈ­¸¦ ÇØ º¸Áö ¸øÇÏ¿´´Ù. ÀÌ ºÎºÐ¿¡ °¡Àå ¾Æ½¬¿üÀ¸¸ç, À§¿¡ ¾ð±ÞÇÑ ¿©·¯ ³í¹® ÀÌ¿Ü¿¡ Çѱ¹ ¿¬±¸ÀÚ ºÐµéµµ ´ë´ÜÈ÷ ¸¹¾ÒÀ¸¸ç ´Ùµé »ó´çÈ÷ ÁÁÀº ³í¹®µéÀ» ¹ßÇ¥ÇØ Á־ ¿¬±¸¿¡ ¸¹Àº µµ¿òÀÌ µÇ¾ú´Ù. ¶ÇÇÑ ¿¬±¸ÀÚµé°ú »ý»êÀûÀÎ Åä·ÐÀ» ÇÏ°í ¸¹Àº Çǵå¹éÀ» ¹Þ¾Æ ÀÌÈÄ ¿¬±¸¿¡µµ ¸¹Àº µµ¿òÀÌ µÉ ¼ö ÀÖ¾ú´Ù.. 


[»çÁø 1] CVPR Tutorial 

CVPRÀº ÄÄÇ»ÅÍ ºñÀü ºÐ¾ßÀÇ ¼¼°èÀûÀÎ ÇÐȸ·Î, Àü ¼¼°èÀÇ ¿¬±¸ÀÚµéÀÌ ´Ù¾çÇÑ ÁÖÁ¦¸¦ ³íÀÇÇÏ°í °øÀ¯ÇÑ´Ù. ÀÌ ÇÐȸ´Â ÄÄÇ»ÅÍ ºñÀü »Ó¸¸ÀÌ ¾Æ´Ï¶ó, µö·¯´×, ·Îº¸Æ½½º µî °ü·Ã ºÐ¾ß¿ÍÀÇ À¶ÇÕ ¿¬±¸°¡ È°¹ßÇÏ°Ô ÁøÇàµÇ±â ¶§¹®¿¡, Æò¼Ò Á¢Çϱ⠾î·Á¿ü´ø ½Å¼±ÇÑ ÁÖÁ¦¿Í ¾ÆÀ̵ð¾î¿¡ Á¢ÇÒ ¼ö ÀÖ´Â ÁÁÀº ±âȸ¿´´Ù. »ç½Ç ³» ¿¬±¸ ºÐ¾ß¸¸ ÁýÁßÇÏ´Ù º¸´Ï ´Ù¸¥ ¿¬±¸ ºÐ¾ß¿ÍÀÇ ¿¬°è¼ºÀ» Å©°Ô °í·ÁÇÏÁö ¸øÇߴµ¥, À̹ø ÇÐȸ¸¦ ÅëÇØ ´Ù¾çÇÑ ºÐ¾ß¿ÍÀÇ À¶ÇÕ ¿¬±¸ÀÇ Á߿伺À» ´Ù½Ã ÇÑ ¹ø ±ú´Ý°Ô µÇ¾ú´Ù.

ÀÌÀü¿¡ Âü¼®Çß´ø ´Ù¸¥ ÇÐȸµé°ú ´Þ¸® CVPRÀº Àü ¼¼°èÀûÀ¸·Î Âü°¡ÀÚµéÀÌ ¸¹¾Æ, ´Ù¾çÇÑ ±¹Àû°ú ¹è°æÀ» °¡Áø ¿¬±¸ÀÚ¿ÍÀÇ ¼ÒÅëÀÌ ÇʼöÀûÀ̾ú´Ù. À̸¦ À§ÇØ ¹ßÇ¥ÀÚ³ª Æ÷½ºÅÍ ¹ßÇ¥ÀÚ°úÀÇ ¼ÒÅëÀ» À§ÇØ ±¹Á¦ Ç¥ÁØ ¾ð¾îÀÎ ¿µ¾î·Î ÀÇ»ç¼ÒÅëÀ» ÇØ¾ß Çß°í, ÀÌ·Î ÀÎÇØ ¾î·Á¿òÀ» °Þ±âµµ Çß´Ù. ±×·³¿¡µµ ºÒ±¸ÇÏ°í, ¸¹Àº ¿¬±¸ÀÚ¿ÍÀÇ ¼ÒÅëÀ» ÅëÇØ ³» ¿¬±¸°¡ ¹ßÀüÇØ ³ª°¡´Â ¸ð½ÀÀ» °æÇèÇÒ ¼ö ÀÖ´Â ÁÁÀº ÀÚ±ØÀ̾ú´Ù. ƯÈ÷ ´Ù¾çÇÑ ¹è°æÀ» °¡Áø ¿¬±¸ÀÚµéÀÇ Çǵå¹éÀº ³» ¿¬±¸¿¡ »õ·Î¿î ½Ã°¢À» Á¦°øÇØ ÁÖ¾ú°í, ¾ÕÀ¸·ÎÀÇ ¿¬±¸ ¹æÇâÀ» Àâ´Â µ¥ Å« µµ¿òÀÌ µÇ¾ú´Ù.
°á°úÀûÀ¸·Î CVPR Âü¼®À» ÅëÇØ ³» ¿¬±¸ÀÇ ±íÀÌ¿Í ³ÐÀ̸¦ È®ÀåÇÏ´Â µ¥ Å« µµ¿òÀÌ µÇ¾ú´Ù. ´Ù¾çÇÑ ¿¬±¸ÀÚ µé°úÀÇ ³×Æ®¿öÅ·°ú À¶ÇÕ ¿¬±¸ÀÇ Á߿伺À» ´À³¥ ¼ö ÀÖ¾ú´ø ¼ÒÁßÇÑ ½Ã°£À̾ú´Ù.

[»çÁø 2] CVPR µî·Ï Àå¼Ò
 

´ñ±Û(0)