Pythonで簡単に画像検出でLinux GUI操作自動化ライブラリを作ったよ

Autoaction

[2015/02/07 追記]

こんなの見つけました。これがあれば不要ですね・・。

[/追記]

こんにちは、キリンです。

WindowsにAutoHotKeyという自動操作を簡単に作成できるソフトがありまして、その代替的機能をUbuntu上で実現できるソフトがないかと探していました。しかし、納得の行く既存のソフトがなかったので自分で作成してみたというお話です。

AutoHotKeyとは

AutoHotkey とは、Microsoft Windowsが導入されているパーソナルコンピュータに常駐して一連の操作を自動化するためのユーティリティソフトウェアである。(Wikipediaより)

このソフト、めちゃくちゃ便利なんですよね。画像検出でGUIの操作ができるWindows上のマクロソフトの中でもカスタマイズ性に富んでいて、何よりも画像検出の速度が速い。使っていたRuby上からコマンドライン呼び出しで引数を渡しながらGUIの自動操作を行うということを良くしていました。自作DLLの呼び出しもでき、MySQLとの連動ができるライブラリの公開もあったりして、ほんとなんでもできるようになっている自動化ソフトです。

これだけ便利だと、なかなか他を使わなくなってしまうんですが、今回はLinux環境ということで諦めざるをえません。なので代替ソフトがないかなぁと探してみました。

代替ソフトウェアの候補

似たようなことを考える人は多いようで、すでにまとめてらっしゃる方がいたので記事をご紹介します。

色々紹介されていますが、個人的に使えそうだなと思ったのは以下の3つです。

AutoKey

AutoHotKeyの常駐アプリとしての機能を補完したいならこれ。ただ、画像検出でクリックする機能がない。あと、できるならpython上で動かしたい。

Sikuli

Linux上で画像検出による自動クリックを実現したいならこれ。ただ、Jythonというのが気に入らない。

Xpresser

Python上で動くライブラリ。動画は実際にXpresserを使って、GUI操作自動化スクリプトを即座に作ったhowto動画です。機能だけみてみたら個人的には大満足!

・・・のはずなんだけど、Xpresserがちゃんと動かないんです。デバッグしながら色々調べてみたところ、Xpresserで使っているSimpleCVというライブラリがちゃんと機能していない模様。

SimpleCVとは?

OpenCVのラッパーのような感じで、簡単にOpenCVを使おうよみたいな趣旨で作成されたライブラリみたいです。

SimpleCVの動作不良

from SimpleCV import *
import sys, time, socket

source = Image("/home/myuser/Pictures/Tooltip_004.png", sample=True) # the image to search
template = source.crop(10, 10, 30, 30)
t = 5

#methods = ["SQR_DIFF","SQR_DIFF_NORM","CCOEFF","CCOEFF_NORM","CCORR","CCORR_NORM"] 
methods = ["CCOEFF_NORM"] 
# the various types of template matching available
for m in methods:
    print "current method:", m # print the method being used
    result = Image("/home/myuser/Pictures/Tooltip_004.png", sample=True)
    dl = DrawingLayer((source.width,source.height))
    fs = source.findTemplate(template,threshold=t,method=m)
    for match in fs:
    print match, match.quality
        dl.rectangle((match.x,match.y),(match.width(),match.height()),color=Color.RED)
    result.addDrawingLayer(dl)
    result.applyLayers()
    #result.show()
    result.save("/home/myuser/Pictures/Tooltip_004_%s.png"%(m))
    time.sleep(3)

スクリーンショットのPNGから指定位置の画像(x=10, y=10, w=30, h=30)を取り出して、ちゃんと取り出した部分を画像検出で抽出するかということを検証した簡単なプログラム。本来ならばっちりx=10, y=10の点で最も良い結果が得られるはずなのに、全然ちゃんと動かない。とんでもない点が抽出されたり、何よりQualityの値が悪すぎて使い物になりません。なので、ちゃんと動く大元のOpenCVを使って改良してみました。

GUI操作自動化ライブラリ Autoaction

Xpresserの優秀なモジュールであるxutils.pyを使って、簡単にGUIを操作自動化のライブラリを作ってみました。
まだクリックすることと、キーボードを入力することしか対応していませんが、必要になり次第、徐々に機能の拡充を図っていこうと思います。

インストール

インストールはsetup.pyしか用意していませんので、GitHub上からダウンロードして、ディレクトリのルートで下記コマンドを実行してください。
python-opencvも必要なので、インストールしてない人はapt-get等からインストールしてください。

python setup.py install

サンプルコード

こんな感じのコードを書けば、自動でFirefoxの検索窓から"python-autoaciton"を自動で検索してくれます。

import os
from autoaction import Autoaction

if __name__ == "__main__":
    file_dir = os.path.join(os.path.dirname(os.path.realpath(__file__)), "images")
    # Set the image directory
    auto = Autoaction(file_dir)
    # click_image() will click the image on the screen
    # x, y is the width from the matching point.
    auto.click_image("firefox_icon.png", x=5, y=5)
    auto.sleep(3)
    auto.click_image("search.png", x=5, y=5)
    auto.sleep(1)
    # type() will type the keyboard following the input string.
    # When you input array string, you can use special keys.
    auto.type(["python-autoaction", "<Enter>"])

まだ複合キーの送付等には対応していません。随時追加していこうと思います。

余談

作っている最中に、こんなのを見つけました。まだ詳しく調べられてませんが、実はこれで事足りるのかも?。

ご参考になれば幸いです!

コメント

タイトルとURLをコピーしました