The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2023 (ÀÌÇÏ CVPR)Àº 18³â° °³ÃÖµÈ ÇÐȸ·Î, ÄÄÇ»ÅÍ ºñÀü ºÐ¾ß¿¡¼ ¼¼°è ÃÖ°íÀÇ ±ÇÀ§¸¦ °¡Áö°í ÀÖ´Â ÇÐȸÀÌ´Ù. ¿ÃÇش ij³ª´Ù º¥Äí¹ö¿¡¼ 6¿ù 18ÀϺÎÅÍ 22ÀϱîÁö ÃÑ 5ÀÏ°£ ÁøÇàµÇ¾úÀ¸¸ç, ¾à 2400ÆíÀÇ ³í¹®ÀÌ ¹ßÇ¥µÇ¾ú´Ù. ÄÄÇ»ÅÍ ºñÀü Àü¹® ÇÐȸ¶ó´Â ¸í¼º¿¡ °É¸Â°Ô action recognition, video retrieval, image classification, motion generation µî ´ë´Ù¼öÀÇ ÄÄÇ»ÅÍ ºñÀü ºÐ¾ßÀÇ ³í¹®µéÀÌ °ñ°í·ç ¹ßÇ¥µÇ¾úÀ¸¸ç, ÇØ´ç ºÐ¾ß¿¡¼ ¶Ù¾î³ ¿¬±¸ÀÚ¸¦ ±¸ÀÎÇÏ´Â apple, amazon, Çö´ë µî À¯¼ö ´ë±â¾÷µéÀÌ ½ºÆù¼·Î Âü¼®ÇÏ¿´´Ù. ¶ÇÇÑ, Andrew Wang°ú °°Àº ¼¼°èÀûÀÎ AI ´ë°¡µéµµ Âü¼®ÇÏ¿© ÇÐȸ¿¡ ´ëÇÑ ³ôÀº °ü½ÉÀ» ¾Ë ¼ö ÀÖ¾ú´Ù. ´ëºÎºÐÀÇ ¼¼¼ÇÀÌ ¿ÀÇÁ¶óÀÎÀ¸·Î ÁøÇàµÇ¾úÀ¸¸ç ÇÐȸ Âü¼®ÀÚµéÀÇ Ä¿¹Â´ÏÄÉÀ̼ÇÀ» À§ÇÑ banquet µî ¸¹Àº ÀÚ¸®°¡ Á¦°øµÊ¿¡ µû¶ó, ¹ßÇ¥ ½Ã°£°ú ´õºÒ¾î, ÀÚÀ¯·ÎÀÌ Áú¹® ¹× Åä·ÐÀ» ÇÒ ¼ö Àִ ȯ°æÀÌ °®Ãß¾îÁ® ÀÖ¾ú´Ù.
CVPRÀº IEEE¿Í CVFÀÇ °øµ¿ ÇÐȸ·Î¼, ÄÄÇ»ÅÍ ºñÀü ºÐ¾ßÀÇ ³í¹®µéÀÌ ¹ßÇ¥µÇ¾úÀ½¿¡ µû¶ó, ÇÊÀÚ°¡ ¿¬±¸ÇÏ´Â ºÐ¾ß¿Í °ü·ÃµÈ ¿¬±¸¸¦ ¸¹ÀÌ Á¢ÇÒ ¼ö ÀÖ¾ú´Ù. ±× Áß text-video-audio µî ¿©·¯ µ¥ÀÌÅÍ Çü½Ä¿¡ ±¸¾Ö ¹ÞÁö ¾Ê°í ÇÑ ¹ø¿¡ ÇнÀ ¹× »ç¿ëÀ» ÇÏ´Â multimodality ¿¬±¸°¡ »ó´çÈ÷ ¸¹ÀÌ ¹ßÇ¥µÇ¾ú°í, °³ÀÎÀûÀ¸·Î´Â ±× Áß Text to Video Retrieval task¿¡ °ü·ÃÇÑ ¾Æ·¡ µÎ ¹ßÇ¥°¡ Àλó±í¾ú´Ù.
ù ¹ø°´Â Poster ¼¼¼ÇÀÌÀÚ Highlight¸¦ ¹ÞÀº¡ºVideo-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning¡» (ÀÌÇÏ HBI) ÀÌ´Ù. ÇØ´ç ³í¹®Àº Text to Video Retrieval task Áß Ã¹ ¹ø°·Î ¡°°È ÇнÀ¡±ÀÇ ¹æ¹ýÀ» Àû¿ë½ÃÅ°¸ç, °æÁ¦ÇÐ µî¿¡¼ »ç¿ëµÇ´Â Game theory¸¦ ÀΰøÁö´É ¸ðµ¨¿¡ Àû¿ë½ÃŲ ³í¹®ÀÌ´Ù. °°Àº ºÐ¾ß¸¦ ¿¬±¸ÇÏ´Â ¿¬±¸Àڷμ, ÀΰøÁö´É ¸ðµ¨À» ÇнÀ½ÃÅ°±â À§ÇØ ´Ù¾ç¼ºÀ» Ãß°¡½ÃÄÑÁÖ´Â ¡°ÀϹÝÀûÀΡ± ¹æ¹ý¸¸À» °í½ÉÇÏ°í ÀÖ¾ú´Âµ¥, ÀÌ·¸°Ô »çȸ Çö»ó¿¡¼ »ç¿ëµÇ´Â ¹æ¹ýÀ¸·Îµµ ¸ðµ¨ÀÌ Àß ÀÛµ¿ÇÒ ¼ö ÀÖ´Â »ç·Ê¸¦ º½À¸·Î½á, ¿¬±¸¿¡ ´ëÇÑ ½Ã¾ß°¡ Á¶±Ý ´õ ³Ð¾îÁú ¼ö ÀÖ¾ú´Ù.
µÎ ¹ø°·Î Àλó ±í¾ú´ø ¿¬±¸´Â ¸¶Âù°¡Áö·Î Highlight¸¦ ¹ÞÀº ¡ºCap4Video: What Can Auxiliary Caption Do for Text-Video Retrieval?¡»(ÀÌÇÏ Cap4Video)ÀÌ´Ù. º» ¿¬±¸´Â »ç½Ç ´Ù¸¥ ¹æÇâÀ¸·Î Àλó ±í¾ú´Âµ¥, ¿¬±¸ ÀÚü°¡ Å©°Ô Novelty°¡ ÀÖÁö ¾Ê¾Ò´Ù. º» ÇÐȸ´Â »ç½Ç ÀΰøÁö´É ¿¬±¸ÀÚ¶ó¸é ¸ð¸¦ ¼ö°¡ ¾øÀ» Á¤µµ·Î ³ôÀº À§»óÀ» °¡Áö°í ÀÖ´Â ÇÐȸÀÌ´Ù. ÀÌ¿¡ µû¶ó »óÀ§ 5% ³»¿Ü¿¡ ÁÖ¾îÁö´Â Highlight´Â ¸¹Àº ¿¬±¸ÀÚµéÀÌ ÁýÁßÇÏ´Â ¿¬±¸Àε¥, ÇØ´ç ¿¬±¸ÀÇ °æ¿ì ´Ü¼øÈ÷ ¡°modality gapÀ» ÇØ°áÇϱâ À§ÇØ GPT-2¸¦ »ç¿ëÇؼ Á» ´õ ÁÁÀº °á°ú¸¦ ¾òµµ·Ï ½ÃµµÇß´Ù.¡±¶ó´Â °ÍÀÌ ÁÖ¿ä ³»¿ëÀ̾ú±â ¶§¹®¿¡ °³ÀÎÀûÀ¸·Î´Â ÀÌ·± ³í¹® Á¶Â÷µµ Highlight¸¦ ¹ÞÀ» ¼ö Àִ°¡? ¶ó´Â Àǹ®ÀÌ »ý°å´Ù.
ÀÌ¿Ü¿¡µµ ÁÁÀº ³í¹®µéÀÌ ¸¹ÀÌ ÀÖ¾úÁö¸¸, »ç½Ç À̹ø CVPR¿¡ ij³ª´Ù¿¡¼ Áß±¹Àο¡°Ô ºñÀÚ¸¦ ³» ÁÖÁö ¾Ê´Â »çÅ°¡ ¹ß»ýÇÏ¿© ¸¹Àº Áß±¹ÀÎ ÀúÀÚµéÀÌ Âü¼®ÇÏÁö ¸øÇÏ¿´´Ù. ÀÌ¿¡ µû¶ó ½ÇÁ¦·Î ³»°¡ °¡Àå ±â´ëÇÏ°í ÁýÁßÇß´ø ¿©·¯ ³í¹®µé¿¡ ´ëÇؼ´Â ÀúÀÚ¿Í ½ÇÁ¦·Î ´ëȸ¦ ÇØ º¸Áö ¸øÇÏ¿´´Ù. ÀÌ ºÎºÐ¿¡ °¡Àå ¾Æ½¬¿üÀ¸¸ç, À§¿¡ ¾ð±ÞÇÑ ¿©·¯ ³í¹® ÀÌ¿Ü¿¡ Çѱ¹ ¿¬±¸ÀÚ ºÐµéµµ ´ë´ÜÈ÷ ¸¹¾ÒÀ¸¸ç ´Ùµé »ó´çÈ÷ ÁÁÀº ³í¹®µéÀ» ¹ßÇ¥ÇØ ÁÖ¾î¼ ¿¬±¸¿¡ ¸¹Àº µµ¿òÀÌ µÇ¾ú´Ù. ¶ÇÇÑ ¿¬±¸ÀÚµé°ú »ý»êÀûÀÎ Åä·ÐÀ» ÇÏ°í ¸¹Àº Çǵå¹éÀ» ¹Þ¾Æ ÀÌÈÄ ¿¬±¸¿¡µµ ¸¹Àº µµ¿òÀÌ µÉ ¼ö ÀÖ¾ú´Ù..