본문 바로가기
Algorithm/JavaScript

[프로그래머스] 문자열 압축

by _sweep 2021. 12. 16.

문제 링크 >> https://programmers.co.kr/learn/courses/30/lessons/60057

 

 

📋 문제

데이터 처리 전문가가 되고 싶은 "어피치"는 문자열을 압축하는 방법에 대해 공부를 하고 있습니다.

최근에 대량의 데이터 처리를 위한 간단한 비손실 압축 방법에 대해 공부를 하고 있는데, 문자열에서 같은 값이 연속해서 나타나는 것을 그 문자의 개수와 반복되는 값으로 표현하여 더 짧은 문자열로 줄여서 표현하는 알고리즘을 공부하고 있습니다.


간단한 예로 "aabbaccc"의 경우 "2a2ba3c"(문자가 반복되지 않아 한번만 나타난 경우 1은 생략함)와 같이 표현할 수 있는데, 이러한 방식은 반복되는 문자가 적은 경우 압축률이 낮다는 단점이 있습니다.

예를 들면, "abcabcdede"와 같은 문자열은 전혀 압축되지 않습니다.

 

"어피치"는 이러한 단점을 해결하기 위해 문자열을 1개 이상의 단위로 잘라서 압축하여 더 짧은 문자열로 표현할 수 있는지 방법을 찾아보려고 합니다.

 

예를 들어, "ababcdcdababcdcd"의 경우 문자를 1개 단위로 자르면 전혀 압축되지 않지만, 2개 단위로 잘라서 압축한다면 "2ab2cd2ab2cd"로 표현할 수 있습니다.

다른 방법으로 8개 단위로 잘라서 압축한다면 "2ababcdcd"로 표현할 수 있으며, 이때가 가장 짧게 압축하여 표현할 수 있는 방법입니다.

다른 예로, "abcabcdede"와 같은 경우, 문자를 2개 단위로 잘라서 압축하면 "abcabc2de"가 되지만, 3개 단위로 자른다면 "2abcdede"가 되어 3개 단위가 가장 짧은 압축 방법이 됩니다.

이때 3개 단위로 자르고 마지막에 남는 문자열은 그대로 붙여주면 됩니다.

 

압축할 문자열 s가 매개변수로 주어질 때, 위에 설명한 방법으로 1개 이상 단위로 문자열을 잘라 압축하여 표현한 문자열 중 가장 짧은 것의 길이를 return 하도록 solution 함수를 완성해주세요.

 

 

👉 입력

  • s의 길이는 1 이상 1,000 이하입니다.
  • s는 알파벳 소문자로만 이루어져 있습니다.

 

 

👈 출력

 

 

💡 사용된 개념

String.substring()

string 객체의 시작 인덱스부터 종료 인덱스 전까지 문자열의 부분 문자열을 반환한다.

str.substring(indexStart[, indexEnd])
  • indexStart : 반환할 문자열의 시작 인덱스
  • indexEnd : 옵션. 반환할 문자열의 마지막 인덱스(포함하지 않는다)
  • 반환값 : 기존 문자열의 부분 문자열

 

 

📝 풀이

 

function solution(s) {
    var answer = [];
    
    for(let start = 1; start <= Math.floor(s.length/2) + 1; start++){
        let temp = ""
        let str = s.substring(0, start);
        let count = 1;
        
        for(let end = start; end <= s.length; end += start){
            if(str === s.substring(end, end+start)){
                count++;
            }
            else {
                if(count > 1) temp += count + str;
                else temp += str;
                
                count = 1;
                str = s.substring(end, end+start);
            }
            
        }
        temp += str;
        answer.push(temp.length);
    }
    return Math.min(...answer);
}

 

어제 투 포인터 알고리즘에 대해 공부했던 터라 투 포인터 알고리즘을 사용할 수 있지 않을까 생각했다.

결국 가져온 건 start와 end의 포인터 개념 비슷한 것 뿐이고 완전탐색 문제라고 할 수 있겠지만.

 

먼저 첫 번째 예시인 aabbaccc를 자른다고 했을 때 각 경우의 수는 다음과 같다.

  • 1개 단위로 잘랐을 때 => a/a/b/b/a/c/c/c => 2a2ba3c
  • 2개 단위로 잘랐을 때 => aa/bb/ac/cc => 압축 없이 aabbaccc
  • 3개 단위로 잘랐을 때 => aab/bac/cc => 압축 없이 aabbaccc
  • 4개 단위로 잘랐을 때 => aabb/accc => 압축 없이 aabbaccc

aabbaccc의 문자열 길이가 8이기 때문에 5개 이상으로 자르는 것은 따로 비교할 문자열이 없어 무의미하다.

따라서 주어진 문자열 길이의 절반인 4개까지만 잘라보고 이중 제일 압축이 잘 된 문자열을 고르자면 1개 단위로 잘랐을 때의 결과인 2a2ba3c라고 할 수 있다.

 

첫 번째 for문에서는 주어진 문자열을 앞에서부터 자를 부분 문자열(str)을 만든다.

이때 부분 문자열을 만들기 위해서 start의 초기값을 1로 설정한 뒤 문자열의 절반만큼 순회하도록 하였다.

 

두 번째 for문에서는 부분 문자열(str)과 str 바로 다음에 위치한 str 길이만큼의 부분 문자열(s.substring(end, end+start))을 비교한다.

쉽게 말하자면 1개 단위로 잘랐을 때 a/a를 비교하는 것, 2개 단위로 잘랐을 때 aa/bb를 비교하는 작업을 두 번째 for문에서 하는 것이다.

 

이때 str과 그 뒤의 str 길이만큼의 부분 문자열이 같다면 압축될 수 있다.

압축된다면 계속 for문을 순회하며 압축이 가능한만큼 압축한 횟수(count)를 센다.

 

압축이 더이상 진행되지 않는다면 압축이 진행될 만큼 진행되고 난 이후이거나 아예 압축이 진행되지 않은 경우로 구분한다.

압축 과정이 있었다면 count는 1 이상이기 때문에 압축 횟수와 압축했던 부분 문자열을 temp에 저장한다.

압축 과정이 없었다면 그냥 부분 문자열을 temp에 저장한다.

그리고 나머지 for 문을 돌기 위해 count를 다시 1로 초기화하고 str은 압축이 진행된 다음의 문자열로 바꾼다.

 

두 번째 for문의 순회가 끝났다면 str에는 n개 단위로 잘리고 남은 나머지의 부분 문자열이 담긴다.

이를 마저 temp에 저장하면 temp는 압축이 끝난 문자열이 된다.

따라서 배열 answer에 temp의 길이를 담고 나머지 첫 번째 순회를 마치면 answer에는 n개 단위로 잘라 압축한 문자열들의 길이가 저장된다.

마지막으로 이들 중 최솟값을 리턴한다.

 

 

 

++ 추가 (5번 테스트 케이스 실패)

for(let start = 1; start < Math.floor(s.length/2) + 1; start++)

원래는 첫 번째 for문을 위와 같이 주었더니 다른 테스트케이스는 모두 통과였으나 5번만 계속 실패했다.

다른 분 질문을 보니 5번 테스트케이스는 입력으로 주어진 문자열의 길이가 1인 경우였다.

그러니 Math.floor(1/2) + 1 = 0 + 1 = 1이 되어 아무것도 못하고 그냥 끝난 것이다.

 

따라서 문자열 길이가 1인 입력에 대처하기 위해 <=를 사용해야 한다.

 

 

 

 

 

댓글