Nota: Neste texto, o uso dos termos machine learning (aprendizado de máquina) e data mining (mineração de dados) é intercambiável. Algumas etapas descritas aqui também podem ser entendidas como data science (ciência dos dados).
A popularização de ferramentas “amigáveis” para machine learning (ML) como, por exemplo, o R e o Weka, viabilizou a aplicação de ML em diversas áreas de conhecimento. Com isso, foi possível usar novas abordagens para problemas antigos e explorar os conjuntos de dados por novas perspectivas. Afinal, diferente de por exemplo, regressões múltiplas, técnicas de ML conseguem lidar com respostas não lineares, respostas a partir de determinados patamares, diferentes tipos de variáveis, variáveis correlacionadas e interações entre variáveis. Entretanto, para que exista ganho real na aplicação de ML, essas ferramentas fáceis de usar devem ser associadas a boas práticas: há uma série de cuidados que devem ser tomados no processo de geração de modelos e não basta “clicar na caixinha de Random Forest ao invés da caixinha da regressão múltipla”. No artigo mais recente do nosso grupo de pesquisa, mostramos esses efeitos para a modelagem da produtividade de cana-de-açúcar (quantas toneladas serão produzidas em uma área) usando dados do banco de dados da própria usina.
- Modelos de ML são fortemente influenciados pelo ajuste de hiper-parâmetros. Pense em marchas de uma bicicleta. Para cada relevo e velocidade desejada, não basta ter a bicicleta de 21 marchas. É necessário escolher a mais adequada. Quando alguém usa um algoritmo de ML sem configurar hiper-parâmetros, é como andar com uma bicicleta de 21 marchas com “a marcha que estava lá”.
- Além disso, usar seu conhecimento de domínio para “mastigar” os dados pode facilitar a vida do algoritmo. Neste caso, vou usar um exemplo do próprio artigo, que é a adubação. Adubos aplicados podem ser descritos por sua fórmula comercial, algo do tipo NN-PP-KK, onde NN é a porcentagem de N, PP de Fósforo e KK de Potássio. Junto com a quantidade aplicada é possível dizer quanto de cada nutriente foi aplicado. Isso transforma dois atributos em três, porém transforma a informação em uma mais transparente para o modelo.
- Por fim, embora as técnicas possam lidar com grandes quantidades de atributos, selecionar bons atributos também aumenta a peformance dos modelos. É sempre importante lembrar que dada a capacidade de aprendizado desses algoritmos, a avaliação dessa performance não deve ser feita no conjunto utilizado para geração do modelo.
No nosso trabalho, mostramos como essas atividades impactam na modelagem de produtividade de cana-de-açúcar e em sua avaliação, mas os procedimentos podem ser reinterpretados para se adequar a diferentes culturas.
Quem quiser saber mais, pode consultar nosso trabalho (em inglês) neste link.
A avaliação dos modelos foi feita pelo Thiago, aluno de iniciação científica, e pode ser vista aqui.